hllinas2023

1 Librerías

1.0.1 Para \(k\)-means

El software R dispone de varias funciones de diferentes paquetes para llevar a cabo un análisis de conglomerados:

library(stats)
library(factoextra)
library(cluster)

1.0.2 Para otros análisis

library(aplore3)    #Base de datos para los ejemplos
library(lsm)        #Base de datos para ejemplos y estimaciones del Log-verosimilitud
library(tidyverse)  #Incluye a dplyr y ggplot2
library(stringr)    #Reemplazar caracteres en un data frame
library(outliers)   #outliers::grubbs.test
library(EnvStats)   #EnvStats::rosnerTest
library(DMwR2)      #LOF (Local Outlier Factor)
library(rgl)        #rgl::plot3d
library(corrplot)   #Matriz de correlaciones
library(textshape)  #column_to_rownames
library(openxlsx)   #Librería para escribir archivos de Excel
library(mvtnorm)    #Generar una distribución aleatoria normal multivariante
library(caret)      #caret::confusionMatrix
library(knitr)      #crear tablas con estilo
library(kableExtra) #crear tablas con estilo, pero para html

2 Introducción

  1. El agrupamiento \(k\)-means, propuesto por MacQueen en 1967, es el algoritmo de aprendizaje automático no supervisado más utilizado para dividir un conjunto de datos en un número predefinido de grupos (\(k\) clusters).

  2. Este método clasifica los objetos en varios grupos, asegurando que los objetos dentro del mismo grupo sean lo más similares posible, mientras que los objetos de diferentes grupos sean lo más diferentes posible.

  3. Cada grupo en el clustering \(k\)-means se caracteriza por su centroide, que es la media de los puntos asignados al grupo.

  4. Véase las Figuras 2.1 y 2.2.

**$k$-means**

Figure 2.1: \(k\)-means

**Ejemplo práctico con $k$-means**

Figure 2.2: Ejemplo práctico con \(k\)-means

3 Idea básica del \(k\)-means

  1. La esencia fundamental del clustering \(k\)-means radica en la definición de grupos de tal manera que se minimice la variación total dentro de cada grupo (conocida como variación intra-cluster total).

  2. Hay diversos algoritmos de \(k\)-means disponibles, siendo el algoritmo estándar el de Hartigan-Wong (1979), el cual define la variación total dentro del cluster como la suma de las distancias euclidianas al cuadrado entre los elementos y sus centroides respectivos.

  3. Su objetivo es agrupar \(n\) puntos en \(k\) clústeres de manera que la suma de las distancias al cuadrado de cada punto a su clúster centroide correspondiente sea minimizada.

  4. Los pasos del algoritmo se van a explicar en la sección siguiente.

4 Algoritmo de Hartigan-Wong

4.0.1 \(k\)-means: pasos del algoritmo

El algoritmo \(k\)-means puede resumirse así:

1. Inicialización.

  • Especificar la cantidad de grupos (\(k\)) que se crearán (determinado por el analista).

  • Seleccionar aleatoriamente \(k\) objetos del conjunto de datos como los centroides iniciales (medias) de los grupos.

  • El centroide de un grupo es un vector de longitud \(p\) que contiene las medias de todas las variables para las observaciones en ese grupo, donde \(p\) es el número de variables.

2. Asignación de Clústeres.

  • Asignar cada observación a su centroide más cercano, basándose en la distancia euclidiana entre el objeto y el centroide.

  • Esta etapa se conoce como paso de asignación de grupos.

  • Es importante destacar que, para emplear la distancia de correlación, los datos se ingresan como puntuaciones \(Z\).

3. Actualización de Centroides.

  • Para cada uno de los \(k\) grupos, actualizar el centroide del grupo calculando los nuevos valores medios de todos los puntos de datos en el grupo.

  • Se utiliza el término actualización del centroide del grupo para describir esta fase.

  • Ahora que los centroides han sido recalculados, cada observación se revisa nuevamente para determinar si podría estar más cercana a otro grupo. Todos los objetos se reasignan utilizando los centroides de grupo actualizados.

4. Iteración.

  • Repetir los pasos de asignación y actualización hasta que la asignación de puntos a los clústeres no cambie significativamente entre iteraciones o hasta que se alcance un número máximo de iteraciones.

  • La idea es minimizar de manera iterativa la suma total de cuadrados dentro de los grupos, es decir, iterar los pasos 3 y 4 hasta que las asignaciones de grupo dejen de cambiar o se alcance el número máximo de iteraciones.

  • Por defecto, el software R utiliza 10 como valor predeterminado para el número máximo de iteraciones.

5. Regla de Hartigan.

  • En cada iteración, evaluar si mover un punto de su clúster actual a otro clúster reduce la suma total de cuadrados intra-clúster. Si es así, hacer el movimiento y actualizar los centroides.

6. Covergencia.

  • Los pasos de asignación de grupos y actualización de centroides se repiten de manera iterativa hasta que las asignaciones de grupo dejen de cambiar, es decir, hasta que se logre la convergencia.

  • El algoritmo converge cuando ya no se producen cambios significativos en la asignación de puntos a los clústeres o la suma de cuadrados intra-clúster no puede reducirse más.

  • Esto implica que los grupos formados en la iteración actual son los mismos que los obtenidos en la iteración anterior.

4.0.2 \(k\)-means: sumas de cuadrados

1. \(\text{Withinss}_k\) (Suma de cuadrados dentro del clúster \(k\)).

El llamado vector de suma de cuadrados dentro del clúster \(k\) es definido por:

\[\text{Withinss}_k \,=\; W(C_k) \;=\; \sum\limits_{x_i \in C_k} (x_i -\overline{x}_k)^2\;=\; \sum\limits_{x_i \in C_k} d_i^2\]

2. \(\text{Withinss}_k\) (notaciones).

En la fórmula anterior:

  • \(x_i\) representa un punto de datos que pertenece al grupo \(C_k\).

  • \(\overline{x}_k\) representa la media de los puntos asignados al grupo \(C_k\).

  • \(d_i = x_i - \overline{x}_k\) la distancia del punto \(x_i\) al centroide \(\overline{x}_k\), dentro del clúster \(C_k\).

3. \(\text{Withinss}_k\) (gráfico).

Véase la figura 4.1.

**Withinss$_k$ (vector de suma de cuadrados dentro del clúster $k$)**

Figure 4.1: Withinss\(_k\) (vector de suma de cuadrados dentro del clúster \(k\))

4. \(\text{Withinss}_k\) (asignación).

Cada observación (\(x_i\)) se asigna a un clúster específico de modo que la suma de los cuadrados (SS) de las distancias entre la observación y los centros de clúster asignados \(\overline{x}_k\) sea la menor posible.

5. \(\text{Tot.withinss}\) (variabilidad total dentro de todos los clúster).

  • La suma total de cuadrados dentro de todos los clústers es una medida de qué tan compacto es el agrupamiento (es decir, su calidad).

  • Representa la variabilidad total dentro de todos los clusters.

  • Un valor mayor de \(\text{Tot.withinss}\) indica que los puntos dentro de cada cluster están más dispersos, lo que sugiere una menor calidad de clustering.

  • Se define de la siguiente manera:

\[\text{Tot.withinss} \,=\;\sum\limits_{k=1}^K W(C_k) \;=\; \sum\limits_{k=1}^K\sum\limits_{x_i \in C_k} (x_i -\overline{x}_k)^2\;=\; \sum\limits_{k=1}^K\sum\limits_{x_i \in C_k} d_i^2\]

6. \(\text{Tot.withinss}\) (gráfico).

Véase la figura 4.2.

**Tot.withinss (variabilidad total dentro de todos los clúster)**

Figure 4.2: Tot.withinss (variabilidad total dentro de todos los clúster)


8. Objetivo final.

Nuestro objetivo es minimizar esta suma tanto como sea posible:

\[\min(\text{Tot.withinss}) \,=\;\min \sum\limits_{k=1}^K W(C_k)\]

4.0.3 \(k\)-means: proporción de varianza explicada

1. \(\text{Totss}\) (variabilidad total en todos los datos).

La suma total de cuadrados mide la variabilidad total en los datos y mide la variabilidad total en todos los datos (sin particionar los datos originales, como si solo tuviésemos un solo clúster).

2. \(\text{Totss}\) (definición).

La suma total de cuadrados se define como:

\[\text{Totss} \; =\; \sum\limits_{i=1}^n (x_i - \overline{x})^2\]

3. \(\text{Betweenss}\) (suma de cuadrados entre clústeres).

La suma de cuadrados entre clústeres, que mide la variación debido a las diferencias entre los centroides de los clústeres, se define como:

\[\text{Betweenss} \; = \; \text{Totss} \,-\, \text{Tot.withinss}\]

4. \(\text{Prop.Var}\) (proporción de varianza total).

La proporción de varianza total en los datos que es explicada por la variación entre los centroides de los clústeres (que es explicada por la agrupación de los datos en los clústeres) se calcula así:

\[\text{Prop.Var}\; = \;\frac{\text{Betweenss} }{\text{Totss}} \; = \; 1\;-\; \frac{\text{Tot.withinss}}{\text{Totss}}\]

5. \(\text{Prop.Var}\) (interpretación).

La interpretación de la proporción de varianza explicada es como sigue:

  • Un valor más alto (cercano a 100%) indica que los clústeres formados explican bien la variación total en los datos, sugiriendo que los clústeres están bien definidos y separados.

  • Un valor más bajo sugiere que los clústeres no explican bien la variación en los datos, lo que podría indicar que los clústeres no están bien definidos o que no hay una estructura clara en los datos.

5 Ejemplo: datos

5.0.1 Base de datos

Los datos se recogieron aplicando una encuesta a una muestra de estudiantes universitarios. Es un data frame con 800 observaciones y 66 variables. Con estos datos llevaremos a cabo un PCA.

datosCompleto <- lsm::survey
#datosCompleto <- textshape::column_to_rownames(dat, loc=1)
#datosCompleto %>% remove_rownames %>% column_to_rownames(var="names")   #library(tidyverse)
attach(datosCompleto)
names(datosCompleto)
##  [1] "Observation"  "ID"           "Gender"       "Like"         "Age"         
##  [6] "Smoke"        "Height"       "Weight"       "BMI"          "School"      
## [11] "SES"          "Enrollment"   "Score"        "MotherHeight" "MotherAge"   
## [16] "MotherCHD"    "FatherHeight" "FatherAge"    "FatherCHD"    "Status"      
## [21] "SemAcum"      "Exam1"        "Exam2"        "Exam3"        "Exam4"       
## [26] "ExamAcum"     "Definitive"   "Expense"      "Income"       "Gas"         
## [31] "Course"       "Law"          "Economic"     "Race"         "Region"      
## [36] "EMO1"         "EMO2"         "EMO3"         "EMO4"         "EMO5"        
## [41] "GOAL1"        "GOAL2"        "GOAL3"        "Pre_STAT1"    "Pre_STAT2"   
## [46] "Pre_STAT3"    "Pre_STAT4"    "Post_STAT1"   "Post_STAT2"   "Post_STAT3"  
## [51] "Post_STAT4"   "Pre_IDARE1"   "Pre_IDARE2"   "Pre_IDARE3"   "Pre_IDARE4"  
## [56] "Pre_IDARE5"   "Post_IDARE1"  "Post_IDARE2"  "Post_IDARE3"  "Post_IDARE4" 
## [61] "Post_IDARE5"  "PSICO1"       "PSICO2"       "PSICO3"       "PSICO4"      
## [66] "PSICO5"

5.0.2 Solo datos numéricos

Solo utilizaremos algunas variables numéricas. Los datos deben contener solo variables continuas, ya que el algoritmo \(k\)-means utiliza medias variables. Dado que no queremos que el algoritmo \(k\)-means dependa de una unidad de variable arbitraria, comenzamos escalando los datos utilizando la función scale de R de la siguiente manera:

dat <- datosCompleto[1:100, 21:24]
df <- scale(dat)
head(df)
##         SemAcum       Exam1     Exam2      Exam3
## [1,]  1.4571897 -1.68245049 1.6460816  1.9350576
## [2,] -0.9397758 -0.94735470 1.5482171  0.5559047
## [3,]  1.2918817  0.06340201 0.2759780 -1.2476029
## [4,] -0.2785439 -0.76358075 0.8631653  1.9350576
## [5,]  0.1347260 -0.21225891 0.1781135  1.9350576
## [6,] -1.0224297  0.43094991 1.0588944  1.0863481

6 Ejemplo: stats::kmeans y factorextra

6.0.1 Descripción de la función stats::kmeans

Usaremos la función kmeans del paquete stats. Un formato simple es:

kmeans(X, centers, iter.max = 10, nstart = 1)

Aquí:

  • X: es una matriz numérica, un data frame numérico o un vector numérico.

  • centers: los posibles valores son el número de agrupaciones (\(k\)) o un conjunto de centros de agrupación iniciales (distintos). Si se especifica un número, se elige un conjunto aleatorio de filas (distintas) en x como los centros iniciales.

  • iter.max: número de máximo de iteraciones permitidias. Por defecto es 10.

  • nstart: El número de particiones iniciales aleatorias cuando los centros es un número. Intentar nstart > 1 es a menudo recomendado.

6.0.2 La función factorextra

Para crear un gráfico atractivo de los conglomerados generados con la función kmeans, utilizaremos el paquete factoextra.

library(factoextra)

7 Estimando el número óptimo de clústers.

7.0.1 Pregunta central

El proceso de agrupamiento \(k\)-means requiere que los usuarios indiquen cuántos grupos desean generar. Una pregunta central es: ¿Cómo seleccionar el número adecuado de grupos (\(k\))?

7.0.2 Respuesta a pregunta central

  1. Consiste en realizar el agrupamiento \(k\)-means utilizando diferentes valores de \(k\).

  2. Luego, se grafica la suma de los cuadrados internos (wss) en función del número de grupos.

  3. Normalmente, la ubicación de un quiebre (punto de inflexión) en el gráfico se considera como un indicador del número apropiado de grupos.

7.0.3 Con R

La función fviz_nbclust del paquete factoextra brinda una solución práctica para estimar el número óptimo de grupos.

library(factoextra)
fviz_nbclust(df, kmeans, method = "wss") +
geom_vline(xintercept = 4, linetype = 2)

El gráfico ilustra cómo la variabilidad dentro de los grupos cambia con el número de grupos, \(k\). Esta variabilidad disminuye con \(k\), pero se nota un punto de inflexión o “codo” en \(k = 4\). Este punto sugiere que agregar más grupos después del cuarto no aporta mucho valor. En la siguiente sección, procederemos a clasificar las observaciones en 4 grupos.

8 Calculando el agrupamiento \(k\)-means

8.0.1 set.seed

  1. El algoritmo de agrupamiento \(k\)-means comienza seleccionando k centroides de manera aleatoria, por lo que es recomendable usar la función set.seed para fijar una semilla en el generador de números aleatorios de R.

  2. Esto garantiza que los resultados sean reproducibles, de modo que cualquier lector de este artículo obtenga los mismos resultados que se muestran a continuación.

8.0.2 kmeans

El código R a continuación ejecuta el agrupamiento \(k\)-means con \(k = 4\):

#Calcular k-means con k = 4

set.seed(123)
k <-4
km.res <- kmeans(df, centers = k, nstart = 25)

8.0.3 nstart

  1. Debido a que el resultado final del agrupamiento \(k\)-means depende de las asignaciones iniciales aleatorias, especificamos nstart = 25.

  2. Esto significa que R probará 25 asignaciones iniciales aleatorias diferentes y seleccionará los mejores resultados basados en la variación intra-cluster más baja.

  3. Aunque el valor predeterminado de nstart en R es uno, es altamente recomendable utilizar un valor más grande, como 25 o 50, para obtener resultados más estables.

8.0.4 Resultados finales

print(km.res)
## K-means clustering with 4 clusters of sizes 21, 27, 22, 30
## 
## Cluster means:
##       SemAcum      Exam1      Exam2      Exam3
## 1  1.21709954  0.1027821 -0.8051922  0.1669129
## 2  0.01839816 -0.4334683  0.9320329  0.8663123
## 3 -0.71811281 -0.8930579 -0.6759771 -0.1818939
## 4 -0.34191197  0.9730831  0.2205214 -0.7631313
## 
## Clustering vector:
##   [1] 2 2 1 2 2 2 4 1 1 3 2 3 2 3 1 3 3 1 3 2 2 2 2 2 3 4 4 3 3 2 1 3 1 1 3 4 4
##  [38] 1 4 1 2 4 1 4 3 2 1 4 4 2 4 2 4 1 4 2 3 4 4 3 2 4 4 2 2 4 2 4 1 2 4 3 3 4
##  [75] 1 1 3 4 3 4 3 4 4 3 4 1 1 4 3 4 1 4 2 4 1 2 1 3 2 2
## 
## Within cluster sum of squares by cluster:
## [1] 53.07428 57.81572 39.62427 60.63989
##  (between_SS / total_SS =  46.7 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

8.0.5 Interpretaciones

La salida impresa presenta:

  1. Los promedios o centros de los grupos: una matriz en la que las filas representan el número del grupo (1 a 4) y las columnas representan las variables.

  2. El vector de agrupamiento: Un conjunto de números enteros (de 1 a \(k\)) que señala el grupo al que se asigna cada punto.

9 Medias por clústers

9.0.1 Medias: Observación

Es posible calcular la media de cada variable (SemAcum, Exam1, Exam2 y Exam3) por clúster (1, 2, 3, 4) usando los datos originales. En las siguientes secciones, calcularemos esas 16 medias para los datos:

  1. Si escalar (dat).

  2. Escalados (df).

9.0.2 Usando los datos sin escalar (dat)

aggregate(dat, by=list(cluster=km.res$cluster), mean)
##   cluster  SemAcum    Exam1    Exam2    Exam3
## 1       1 4.104762 3.442857 2.495238 3.333333
## 2       2 3.379630 2.859259 4.270370 3.992593
## 3       3 2.934091 2.359091 2.627273 3.004545
## 4       4 3.161667 4.390000 3.543333 2.456667

9.0.3 Usando los datos escalados (df)

Observe que los resultados que se muestran abajo coinciden con el output de km.res.

aggregate(df, by=list(cluster=km.res$cluster), mean)
##   cluster     SemAcum      Exam1      Exam2      Exam3
## 1       1  1.21709954  0.1027821 -0.8051922  0.1669129
## 2       2  0.01839816 -0.4334683  0.9320329  0.8663123
## 3       3 -0.71811281 -0.8930579 -0.6759771 -0.1818939
## 4       4 -0.34191197  0.9730831  0.2205214 -0.7631313

10 Clasificar observaciones por clústers

Si se desea agregar las clasificaciones de los puntos a los datos originales, se puede ejecutar este código:

df.clasif <- cbind(dat, cluster = km.res$cluster)
head(df.clasif)
##   SemAcum Exam1 Exam2 Exam3 cluster
## 1    4.25   1.5   5.0   5.0       2
## 2    2.80   2.3   4.9   3.7       2
## 3    4.15   3.4   3.6   2.0       1
## 4    3.20   2.5   4.2   5.0       2
## 5    3.45   3.1   3.5   5.0       2
## 6    2.75   3.8   4.4   4.2       2

11 Output de kmeans

11.0.1 kmeans: valores que se pueden obtener

La función kmeans devuelve una lista de componentes que incluyen:

  1. cluster: Un vector de enteros (de 1 a \(k\)) que indica el clúster al que se asigna cada punto.

  2. centers: Una matriz de centros de clúster (medias de clúster).

  3. totss: La suma total de cuadrados y mide la variabilidad total en todos los datos (sin particionar los datos originales, como si solo tuviésemos un solo clúster). Es decir, \[\text{Totss} \; =\; \sum\limits_{i=1}^n(x_i - \overline{x})^2\]

  4. withinss: Vector de suma de cuadrados dentro del clúster, con un componente por clúster. Es decir,

\[\text{Withinss}_k \,=\; W(C_k) \;=\; \sum\limits_{x_i \in C_k} (x_i -\overline{x}_k)^2\]

  1. tot.withinss: Suma total de cuadrados dentro del clúster, es decir,

\[\text{Tot.withinss} \,=\;\sum\limits_{k=1}^K W(C_k) \;=\; \sum\limits_{k=1}^K\sum\limits_{x_i \in C_k} (x_i -\overline{x}_k)^2\]

  1. betweenss: La suma de cuadrados entre clústeres, es decir,

\[\text{Betweenss} \; = \; \text{Totss} \,-\, \text{Tot.withinss}\]

  1. size: El número de observaciones en cada clúster.

11.0.2 kmeans: con nuestros datos

Algunos de estos componentes pueden ser accedidos de la siguiente manera:

  1. size: El número de observaciones \(n_k\) en cada clúster \(k\). Observe: \[n\;=\; \sum\limits_{k=1}^K n_k \]
km.res$size
## [1] 21 27 22 30
  1. centers: Una matriz de centros de clúster (medias de clúster).
km.res$centers
##       SemAcum      Exam1      Exam2      Exam3
## 1  1.21709954  0.1027821 -0.8051922  0.1669129
## 2  0.01839816 -0.4334683  0.9320329  0.8663123
## 3 -0.71811281 -0.8930579 -0.6759771 -0.1818939
## 4 -0.34191197  0.9730831  0.2205214 -0.7631313
  1. cluster: Un vector de enteros (de 1 a \(k\)) que indica el clúster al que se asigna cada punto.
km.res$cluster
##   [1] 2 2 1 2 2 2 4 1 1 3 2 3 2 3 1 3 3 1 3 2 2 2 2 2 3 4 4 3 3 2 1 3 1 1 3 4 4
##  [38] 1 4 1 2 4 1 4 3 2 1 4 4 2 4 2 4 1 4 2 3 4 4 3 2 4 4 2 2 4 2 4 1 2 4 3 3 4
##  [75] 1 1 3 4 3 4 3 4 4 3 4 1 1 4 3 4 1 4 2 4 1 2 1 3 2 2
  1. totss: La suma total de cuadrados, que mide la variabilidad total en todos los datos (sin particionar los datos originales, como si solo tuviésemos un solo clúster). Es decir, \[\text{Totss} \; =\; \sum\limits_{i=1}^n (x_i - \overline{x})^2\]
km.res$totss
## [1] 396
  1. withinss: Vector de suma de cuadrados dentro del clúster, con un componente por clúster. Es decir,

\[\text{Withinss} \,=\; W(C_k) \;=\; \sum\limits_{x_i \in C_k} (x_i -\overline{x}_k)^2\]

km.res$withinss
## [1] 53.07428 57.81572 39.62427 60.63989
  1. tot.withinss: Suma total de cuadrados dentro del clúster, es decir,

\[\text{Tot.withinss} \,=\;\sum\limits_{k=1}^K W(C_k) \;=\; \sum\limits_{k=1}^K\sum\limits_{x_i \in C_k} (x_i -\overline{x}_k)^2\]

km.res$tot.withinss
## [1] 211.1542
  1. betweenss: La suma de cuadrados entre clústeres, que mide la variación debido a las diferencias entre los centroides de los clústeres. Es decir,

\[\text{Betweenss} \; = \; \text{Totss} \,-\, \text{Tot.withinss}\]

km.res$betweenss
## [1] 184.8458

11.0.3 kmeans: proporción de varianza explicada

La proporción de varianza total explicada por la variación entre los centroides de los clústeres se puede calcular así:

\[\text{Prop.Var}\; = \;\frac{\text{Betweenss} }{\text{Totss}} \; = \; 1\;-\; \frac{\text{Tot.withinss}}{\text{Totss}}\] En nuestro ejemplo:

\[\text{Prop.Var}\; = \;\frac{\text{Betweenss} }{\text{Totss}}\times 100 \,\% \; = \; \frac{184.8458}{396}\times 100 \,\% \; = \; 46.68\,\%\]

Se resalta que arriba se calculó el porcentaje de varianza total explicada por la variación entre los centroides de los clústeres. En R se puede calcular como se indica abajo. :

(km.res$betweenss/km.res$totss)*100
## [1] 46.67824

12 Visualizando los clústers \(k\)-means

12.0.1 Introducción

  1. Es recomendable graficar los resultados de los clústeres, ya que esto permite evaluar la elección del número de clústeres y comparar distintos análisis de clústeres.

  2. Ahora deseamos visualizar los datos en un gráfico de dispersión, coloreando cada punto según su asignación al clúster correspondiente.

  3. El reto surge cuando los datos tienen más de dos variables, lo que plantea la pregunta de qué variables seleccionar para el gráfico de dispersión en los ejes x e y.

  4. Una solución es aplicar un algoritmo de reducción de dimensionalidad, como el Análisis de Componentes Principales (PCA), que transforma las cuatro variables en dos nuevas variables (que representan a las originales) que pueden usarse para el gráfico.

  5. En otras palabras, si disponemos de un conjunto de datos multidimensional, una solución es realizar un Análisis de Componentes Principales (PCA) y graficar los puntos de datos según las coordenadas de los dos primeros componentes principales.

12.0.2 Aplicando factorextra::fviz_cluster

  1. La función fviz_cluster del paquete factoextra se puede utilizar para visualizar fácilmente los clústeres k-means.

  2. Esta función toma los resultados de k-means y los datos originales como argumentos.

  3. En el gráfico resultante, las observaciones se representan mediante puntos, utilizando componentes principales si el número de variables es superior a 2.

fviz_cluster(km.res, data=df,
             palette = c("blue", "darkorange4", "red", "magenta4"),
             xlab = FALSE, 
             ylab = FALSE, 
             geom="point")

  1. También es posible dibujar una elipse de concentración alrededor de cada clúster.
fviz_cluster(km.res, data = df,
            palette = c("blue", "darkorange4", "red", "magenta4"),
            ellipse.type = "euclid", # Elipse de concentración
            star.plot = TRUE,        # Segmentos desde centroide a ítems
            repel = TRUE,            # Evitar traslapamientos
            ggtheme = theme_minimal()
            )

13 Fortalezas y debilidades del algoritmo \(k\)-means

13.0.1 Fortalezas

  1. El algoritmo de clustering \(k\)-means es muy sencillo y rápido.

  2. Es eficiente para manejar conjuntos de datos muy grandes.

13.0.2 Debilidades

Sin embargo, presenta algunas debilidades, entre ellas:

  1. Requiere conocimiento previo del número de clusters: El analista debe elegir el número adecuado de clusters (k) de antemano.

  2. Sensibilidad a la selección inicial de centros de clusters: Los resultados finales dependen de la selección aleatoria inicial de los centros de los clusters. ¿Por qué es un problema? Porque cada ejecución del algoritmo puede seleccionar diferentes centros iniciales, lo que puede llevar a resultados de clustering distintos en diferentes ejecuciones del mismo conjunto de datos.

  3. Sensibilidad a los valores atípicos: El algoritmo es vulnerable a los outliers.

  4. Dependencia del orden de los datos: Si se reorganizan los datos, es probable que se obtenga una solución diferente cada vez que se cambie el orden de los datos.

13.0.3 Posibles Soluciones a las debilidades

  1. Para la elección del número de clusters (\(k\)): Ejecutar el algoritmo K-means para un rango de valores de k, por ejemplo, variando k entre 2 y 10. Luego, elegir el mejor \(k\) comparando los resultados de clustering obtenidos para los diferentes valores de \(k\).

  2. Para la sensibilidad a la selección inicial de centros: Ejecutar el algoritmo K-means varias veces con diferentes centros de clusters iniciales. Se selecciona como solución final la ejecución con la menor suma total de cuadrados dentro del cluster.

  3. Para mitigar la influencia de los outliers: Utilizar el algoritmo PAM (Partitioning Around Medoids), que es menos sensible a los valores atípicos.

14 Alternativa al agrupamiento \(k\)-means

  1. Una alternativa robusta al \(k\)-means es el PAM (Partitioning Around Medoids), que se basa en medoides.

  2. El agrupamiento PAM puede calcularse utilizando la función pam del paquete cluster.

  3. La función pamk del paquete fpc es un envoltorio para PAM que también imprime el número sugerido de clusters basado en el ancho promedio óptimo de la silueta.

15 Resumen

  1. El agrupamiento \(k\)-means puede usarse para clasificar observaciones en \(k\) grupos, basándose en su similitud.

  2. Cada grupo está representado por el valor medio de los puntos en el grupo, conocido como el centroide del cluster.

  3. El algoritmo \(k\)-means requiere que los usuarios especifiquen el número de clusters a generar.

  4. La función kmeans del paquete stats en R puede utilizarse para calcular el algoritmo $k4-means.

  5. El formato simplificado es kmeans(x, centers), donde x es el conjunto de datos y centers es el número de clusters a producir.

  6. Después de calcular el agrupamiento \(k\)-means, la función fviz_cluster del paquete factoextra puede usarse para visualizar los resultados.

  7. El formato es fviz_cluster(km.res, data), donde km.res son los resultados de \(k\)-means y data corresponde al conjunto de datos original.

16 Ejercicios

16.0.1 Ejercicio 1

Analicemos el siguiente conjunto de datos. Para su creación, generamos tres clusters utilizando distribuciones normales. Cada punto de datos incluye tres características: un valor x de una variable \(X\) , un valor y de \(Y\), y una clase que etiqueta el punto. Existen tres clases en este conjunto de datos (1, 2 y 3). El objetivo del ejercicio es que los algoritmos de clustering representen estas clases como clusters.

library(mvtnorm)

set.seed(123)
dataset <- {
        #crear las 3 distribuciones
        cluster1 = data.frame(rmvnorm(40, c(0, 0), diag(2)*c(2, 1))) %>% mutate(class=factor(1))
        cluster2 = data.frame(rmvnorm(100, c(3, 3), diag(2)*c(1, 3))) %>% mutate(class=factor(2))
        cluster3 = data.frame(rmvnorm(60, c(6, 6), diag(2))) %>% mutate(class=factor(3))
        #crear el data frame
        data = bind_rows(cluster1, cluster2, cluster3)
        #nombres de las columnas
        names(data) = c("x", "y", "clase")
        #retornar los datos
        data
        }
head(dataset)
##            x           y clase
## 1 -0.7926323 -0.23017749     1
## 2  2.2043464  0.07050839     1
## 3  0.1828405  1.71506499     1
## 4  0.6518339 -1.26506123     1
## 5 -0.9713566 -0.44566197     1
## 6  1.7311131  0.35981383     1

Para ello, realizar los siguientes incisos.

  1. Graficar los datos en un diagrama de dispersión usando ggplot y el argumento color=class para observar la agrupación natural que se intenta replicar.

  2. Aplicar la función fviz_nbclust del paquete factoextra para estimar el número óptimo de grupos.

  3. Defina un nuevo objeto que contenga solo las variables x y y.

df1 <- dataset[c("x", "y")]
head(df1)
##            x           y
## 1 -0.7926323 -0.23017749
## 2  2.2043464  0.07050839
## 3  0.1828405  1.71506499
## 4  0.6518339 -1.26506123
## 5 -0.9713566 -0.44566197
## 6  1.7311131  0.35981383
  1. Ejecutar el agrupamiento \(k\)-means con el número optimal de clústers obtenidos en el inciso anterior (utilizar nstar=20). LLame al nuevo objeto km.res1.

  2. Utilizar la función fviz_cluster para ver los resultados de la agrupación \(k\)-means.

16.0.2 Ejercicio 2

Continuación del ejercicio 1. Considere la situación planteada en el ejercicio 1 y los resultados encontrados allí.

  1. Considere el código de abajo. En la línea de código No. 1, se copia el dataset original dataset como un nuevo dataframe llamado dataset_km. En la línea de código No. 2, se añade una nueva columna llamada clase_pred al nuevo data frame dataset_km. Esta columna se rellena con los valores de las etiquetas de clústeres predichos por el modelo de \(k\)-means (km.res1$cluster). Los valores se convierten en factores (categóricos) usando la función factor. Compare los valores observados (clase) con los predichos (clase_pred).
#1.Copiar el dataset original 
dataset_km <- dataset 

#2. Añade una columna con las clases predichas
dataset_km['clase_pred'] = factor(km.res1$cluster) 
head(dataset_km)
  1. Contruir una tabla de frecuencias agrupadas entre los valores observados (clase) con los predichos (clase_pred) e interprete cada uno de los resultados encontrados en las celdas. En particular, verificar la precisión (accuracy) de la agrupación.

  2. Verificar la precisión (accuracy) de la agrupación en un gráfico. Compare nuevamente los valores observados (clase) con los predichos (clase_pred). Puede utilizar el siguiente código:

#3. El gráfico
dataset_km %>% ggplot(aes(x=x, y=y, shape=clase, color=clase_pred)) +
                      geom_point() +
                      coord_fixed() +
                      scale_shape_manual(values=c(0, 1, 2)) +
                      scale_shape(solid = TRUE)

16.0.3 Ejercicio 3

Continuación de los ejercicios 1 y 2. Considere la situación planteada en el ejercicio 1 y los resultados encontrados en ese ejercicio y en el 2.

Inciso i.

Investigue el concepto de matrix de confusión y las métricas que se obtienen a partir de ella. Explique las más importantes. Puede consultar los siguientes documentos (de mi autoría):

inciso j.

Aplique el código de abajo para obtener la matrix de confusión y las métricas correspondientes. Interprete los resultados obtenidos.

library(caret)
conf_mat <- confusionMatrix(factor(km.res1$cluster), factor(dataset$clase), 
                            mode = "everything", positive="1")
conf_mat

Bibliografía

Consultar el documento RPubs :: Análisis multivariado (bibliografía).

 

 
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.  
