Introducción

K-medias es un método de agrupamiento, que tiene como objetivo la partición de un conjunto de n observaciones en k grupos en el que cada observación pertenece al grupo cuyo valor medio es más cercano. Es un método utilizado en minería de datos.

La agrupación de distintos objetos en clusters nos sirve para encontrar características homogéneas de una muestra o población. En este trabajo voy a implementar algoritmos de K-Means, donde previamente vamos a visualizar mediante un análisis de componentes principàles los outliers, luego una matriz de diferencias para ver la distancia o cercanía que hay entre nuestras observaciones, que serán empleados de una compañía, donde las características a analizar son todas cuantitativas, las faltas totales, las licencias por enfermedad y las horas extra todas en el periodo de un año.

Desarrollo

Analisis de Componentes Principales

Mediante el análisis de componentes principales podemos reducir la dimensionalidad a 2.

PCA sin Outliers

Matriz de distancia

La matriz de diferencias nos sirve para ver cuan homogéneos o heterogéneos son dos empleados dadas ciertas variables numéricas que tienen cada uno, en este caso elegimos 4: Total de Faltas anuales, Total de Faltas por Enfermedad, Horas extra al 50 y al 100 Se utilizaron los datos escalados. En color rojo mayor relación entre empleados, en color azul menor relación

Grafico 3D para ver Clusters

De dos dimensiones pasamos a 3 para visualizar mejor las observaciones y poder ver apriori si existen clusters.

K-Means

Comenzamos a probar la cantidad de clusters de forma visual utilizando kmenasruns, una función de R, donde indicamos la cantidad de clusters que deseamos ver:

Clusters

Usamos 2 Clusters

Usamos 3 Clusters

Usamos 4 Clusters

Usamos 5 Clusters

Clusters Optimos

Elegimos el optimo cluster en base al método de silueta, codo y gap statistic.

Son tres pruebas que nos ayudan a elegir la mejor cantidad de clusters posibles.

Grafico 3D para ver si hay clusters.

Utilizamos 3 Clusters ya que por el método de la silueta nos dio la cantidad optima de clusters a utilizar, en este gráfico podemos observar la division de clusters por color, donde cada punto es un empleado.

Funcion NBClust

En las conclusiones podemos observar por regla de la mayoría la cantidad optima de clusters es 3. Coincide con el método de la silueta

## *** : The Hubert index is a graphical method of determining the number of clusters.
##                 In the plot of Hubert index, we seek a significant knee that corresponds to a 
##                 significant increase of the value of the measure i.e the significant peak in Hubert
##                 index second differences plot. 
## 

## *** : The D index is a graphical method of determining the number of clusters. 
##                 In the plot of D index, we seek a significant knee (the significant peak in Dindex
##                 second differences plot) that corresponds to a significant increase of the value of
##                 the measure. 
##  
## ******************************************************************* 
## * Among all indices:                                                
## * 4 proposed 2 as the best number of clusters 
## * 5 proposed 3 as the best number of clusters 
## * 4 proposed 4 as the best number of clusters 
## * 2 proposed 5 as the best number of clusters 
## * 4 proposed 6 as the best number of clusters 
## * 1 proposed 7 as the best number of clusters 
## * 1 proposed 8 as the best number of clusters 
## * 2 proposed 9 as the best number of clusters 
## 
##                    ***** Conclusion *****                            
##  
## * According to the majority rule, the best number of clusters is  3 
##  
##  
## *******************************************************************
## Among all indices: 
## ===================
## * 2 proposed  0 as the best number of clusters
## * 1 proposed  1 as the best number of clusters
## * 4 proposed  2 as the best number of clusters
## * 5 proposed  3 as the best number of clusters
## * 4 proposed  4 as the best number of clusters
## * 2 proposed  5 as the best number of clusters
## * 4 proposed  6 as the best number of clusters
## * 1 proposed  7 as the best number of clusters
## * 1 proposed  8 as the best number of clusters
## * 2 proposed  9 as the best number of clusters
## 
## Conclusion
## =========================
## * According to the majority rule, the best number of clusters is  3 .

Hacemos un clusterboot para evaluar el metodo de Jaccard

Para 3 clusters el coeficiente de Jaccard es estable ya que el punto de corte es 0.70

Resumen:

## Por el metodo de  kmeans el coeficiente de Jaccard es de:  0.8805971 0.8967938 0.9493728

Conclusiones

Boxpot para observar los clusters

Podemos observar que con 3 clusters hay heterogeneidad entre cada uno. Basado en el coeficiente de Jaccard y en el método de la silueta elegimos 3 clusters. Por ultimo, graficamos un diagrama de caja para cada variable numérica por cluster, para así poder visualizar las diferencias entre los mismos por variable.

Observamos que el cluster 3 es el que tiene valores mas bajos para todas las variables numéricas

Este es un método muy útil para clasificar observaciones en grupos

Clusters K-Means
Características Homogeneas por Grupo
Valores posibles Faltas Hs Extra 50 Hs Extra 100 Enfermedad
Cluster 1 Medias Altas Altas Medias
Cluster 2 Altas Bajas Medias Altas
Cluster 3 Bajas Bajas Bajas Bajas