Introducción
K-medias es un método de agrupamiento, que tiene como objetivo la partición de un conjunto de n observaciones en k grupos en el que cada observación pertenece al grupo cuyo valor medio es más cercano. Es un método utilizado en minería de datos.
La agrupación de distintos objetos en clusters nos sirve para encontrar características homogéneas de una muestra o población. En este trabajo voy a implementar algoritmos de K-Means, donde previamente vamos a visualizar mediante un análisis de componentes principàles los outliers, luego una matriz de diferencias para ver la distancia o cercanía que hay entre nuestras observaciones, que serán empleados de una compañía, donde las características a analizar son todas cuantitativas, las faltas totales, las licencias por enfermedad y las horas extra todas en el periodo de un año.
Desarrollo
Analisis de Componentes Principales
Mediante el análisis de componentes principales podemos reducir la dimensionalidad a 2.
PCA sin Outliers
Matriz de distancia
La matriz de diferencias nos sirve para ver cuan homogéneos o heterogéneos son dos empleados dadas ciertas variables numéricas que tienen cada uno, en este caso elegimos 4: Total de Faltas anuales, Total de Faltas por Enfermedad, Horas extra al 50 y al 100 Se utilizaron los datos escalados. En color rojo mayor relación entre empleados, en color azul menor relación
Grafico 3D para ver Clusters
De dos dimensiones pasamos a 3 para visualizar mejor las observaciones y poder ver apriori si existen clusters.
K-Means
Comenzamos a probar la cantidad de clusters de forma visual utilizando kmenasruns, una función de R, donde indicamos la cantidad de clusters que deseamos ver:
Clusters
Usamos 2 Clusters
Usamos 3 Clusters
Usamos 4 Clusters
Usamos 5 Clusters
Clusters Optimos
Elegimos el optimo cluster en base al método de silueta, codo y gap statistic.
Son tres pruebas que nos ayudan a elegir la mejor cantidad de clusters posibles.
Grafico 3D para ver si hay clusters.
Utilizamos 3 Clusters ya que por el método de la silueta nos dio la cantidad optima de clusters a utilizar, en este gráfico podemos observar la division de clusters por color, donde cada punto es un empleado.
Funcion NBClust
En las conclusiones podemos observar por regla de la mayoría la cantidad optima de clusters es 3. Coincide con el método de la silueta
## *** : The Hubert index is a graphical method of determining the number of clusters.
## In the plot of Hubert index, we seek a significant knee that corresponds to a
## significant increase of the value of the measure i.e the significant peak in Hubert
## index second differences plot.
##
## *** : The D index is a graphical method of determining the number of clusters.
## In the plot of D index, we seek a significant knee (the significant peak in Dindex
## second differences plot) that corresponds to a significant increase of the value of
## the measure.
##
## *******************************************************************
## * Among all indices:
## * 4 proposed 2 as the best number of clusters
## * 5 proposed 3 as the best number of clusters
## * 4 proposed 4 as the best number of clusters
## * 2 proposed 5 as the best number of clusters
## * 4 proposed 6 as the best number of clusters
## * 1 proposed 7 as the best number of clusters
## * 1 proposed 8 as the best number of clusters
## * 2 proposed 9 as the best number of clusters
##
## ***** Conclusion *****
##
## * According to the majority rule, the best number of clusters is 3
##
##
## *******************************************************************
## Among all indices:
## ===================
## * 2 proposed 0 as the best number of clusters
## * 1 proposed 1 as the best number of clusters
## * 4 proposed 2 as the best number of clusters
## * 5 proposed 3 as the best number of clusters
## * 4 proposed 4 as the best number of clusters
## * 2 proposed 5 as the best number of clusters
## * 4 proposed 6 as the best number of clusters
## * 1 proposed 7 as the best number of clusters
## * 1 proposed 8 as the best number of clusters
## * 2 proposed 9 as the best number of clusters
##
## Conclusion
## =========================
## * According to the majority rule, the best number of clusters is 3 .
Hacemos un clusterboot para evaluar el metodo de Jaccard
Para 3 clusters el coeficiente de Jaccard es estable ya que el punto de corte es 0.70
Resumen:
## Por el metodo de kmeans el coeficiente de Jaccard es de: 0.8805971 0.8967938 0.9493728
Conclusiones
Boxpot para observar los clusters
Podemos observar que con 3 clusters hay heterogeneidad entre cada uno. Basado en el coeficiente de Jaccard y en el método de la silueta elegimos 3 clusters. Por ultimo, graficamos un diagrama de caja para cada variable numérica por cluster, para así poder visualizar las diferencias entre los mismos por variable.
Observamos que el cluster 3 es el que tiene valores mas bajos para todas las variables numéricas
Este es un método muy útil para clasificar observaciones en grupos
| Características Homogeneas por Grupo | ||||
|---|---|---|---|---|
| Valores posibles | Faltas | Hs Extra 50 | Hs Extra 100 | Enfermedad |
| Cluster 1 | Medias | Altas | Altas | Medias |
| Cluster 2 | Altas | Bajas | Medias | Altas |
| Cluster 3 | Bajas | Bajas | Bajas | Bajas |