Librerías
Para \(k\)-means
El software R dispone de varias funciones de diferentes paquetes para llevar a cabo un análisis de conglomerados:
library(stats)
library(factoextra)
library(cluster)
Para otros análisis
library(aplore3) #Base de datos para los ejemplos
library(lsm) #Base de datos para ejemplos y estimaciones del Log-verosimilitud
library(tidyverse) #Incluye a dplyr y ggplot2
library(stringr) #Reemplazar caracteres en un data frame
library(outliers) #outliers::grubbs.test
library(EnvStats) #EnvStats::rosnerTest
library(DMwR2) #LOF (Local Outlier Factor)
library(rgl) #rgl::plot3d
library(corrplot) #Matriz de correlaciones
library(textshape) #column_to_rownames
library(openxlsx) #Librería para escribir archivos de Excel
library(mvtnorm) #Generar una distribución aleatoria normal multivariante
library(caret) #caret::confusionMatrix
library(knitr) #crear tablas con estilo
library(kableExtra) #crear tablas con estilo, pero para html
Algoritmo de Hartigan-Wong
\(k\)-means: pasos del algoritmo
El algoritmo \(k\)-means puede resumirse así:
1. Inicialización.
Especificar la cantidad de grupos (\(k\)) que se crearán (determinado por el analista).
Seleccionar aleatoriamente \(k\) objetos del conjunto de datos como los centroides iniciales (medias) de los grupos.
El centroide de un grupo es un vector de longitud \(p\) que contiene las medias de todas las variables para las observaciones en ese grupo, donde \(p\) es el número de variables.
2. Asignación de Clústeres.
Asignar cada observación a su centroide más cercano, basándose en la distancia euclidiana entre el objeto y el centroide.
Esta etapa se conoce como paso de asignación de grupos.
Es importante destacar que, para emplear la distancia de correlación, los datos se ingresan como puntuaciones \(Z\).
3. Actualización de Centroides.
Para cada uno de los \(k\) grupos, actualizar el centroide del grupo calculando los nuevos valores medios de todos los puntos de datos en el grupo.
Se utiliza el término actualización del centroide del grupo para describir esta fase.
Ahora que los centroides han sido recalculados, cada observación se revisa nuevamente para determinar si podría estar más cercana a otro grupo. Todos los objetos se reasignan utilizando los centroides de grupo actualizados.
4. Iteración.
Repetir los pasos de asignación y actualización hasta que la asignación de puntos a los clústeres no cambie significativamente entre iteraciones o hasta que se alcance un número máximo de iteraciones.
La idea es minimizar de manera iterativa la suma total de cuadrados dentro de los grupos, es decir, iterar los pasos 3 y 4 hasta que las asignaciones de grupo dejen de cambiar o se alcance el número máximo de iteraciones.
Por defecto, el software R
utiliza 10 como valor predeterminado para el número máximo de iteraciones.
5. Regla de Hartigan.
- En cada iteración, evaluar si mover un punto de su clúster actual a otro clúster reduce la suma total de cuadrados intra-clúster. Si es así, hacer el movimiento y actualizar los centroides.
6. Covergencia.
Los pasos de asignación de grupos y actualización de centroides se repiten de manera iterativa hasta que las asignaciones de grupo dejen de cambiar, es decir, hasta que se logre la convergencia.
El algoritmo converge cuando ya no se producen cambios significativos en la asignación de puntos a los clústeres o la suma de cuadrados intra-clúster no puede reducirse más.
Esto implica que los grupos formados en la iteración actual son los mismos que los obtenidos en la iteración anterior.
\(k\)-means: sumas de cuadrados
1. \(\text{Withinss}_k\) (Suma de cuadrados dentro del clúster \(k\)).
El llamado vector de suma de cuadrados dentro del clúster \(k\) es definido por:
\[\text{Withinss}_k \,=\; W(C_k) \;=\; \sum\limits_{x_i \in C_k} (x_i -\overline{x}_k)^2\;=\; \sum\limits_{x_i \in C_k} d_i^2\]
2. \(\text{Withinss}_k\) (notaciones).
En la fórmula anterior:
\(x_i\) representa un punto de datos que pertenece al grupo \(C_k\).
\(\overline{x}_k\) representa la media de los puntos asignados al grupo \(C_k\).
\(d_i = x_i - \overline{x}_k\) la distancia del punto \(x_i\) al centroide \(\overline{x}_k\), dentro del clúster \(C_k\).
3. \(\text{Withinss}_k\) (gráfico).
Véase la figura 4.1.
4. \(\text{Withinss}_k\) (asignación).
Cada observación (\(x_i\)) se asigna a un clúster específico de modo que la suma de los cuadrados (SS) de las distancias entre la observación y los centros de clúster asignados \(\overline{x}_k\) sea la menor posible.
5. \(\text{Tot.withinss}\) (variabilidad total dentro de todos los clúster).
La suma total de cuadrados dentro de todos los clústers es una medida de qué tan compacto es el agrupamiento (es decir, su calidad).
Representa la variabilidad total dentro de todos los clusters.
Un valor mayor de \(\text{Tot.withinss}\) indica que los puntos dentro de cada cluster están más dispersos, lo que sugiere una menor calidad de clustering.
Se define de la siguiente manera:
\[\text{Tot.withinss} \,=\;\sum\limits_{k=1}^K W(C_k) \;=\; \sum\limits_{k=1}^K\sum\limits_{x_i \in C_k} (x_i -\overline{x}_k)^2\;=\; \sum\limits_{k=1}^K\sum\limits_{x_i \in C_k} d_i^2\]
6. \(\text{Tot.withinss}\) (gráfico).
Véase la figura 4.2.
8. Objetivo final.
Nuestro objetivo es minimizar esta suma tanto como sea posible:
\[\min(\text{Tot.withinss}) \,=\;\min \sum\limits_{k=1}^K W(C_k)\]
\(k\)-means: proporción de varianza explicada
1. \(\text{Totss}\) (variabilidad total en todos los datos).
La suma total de cuadrados mide la variabilidad total en los datos y mide la variabilidad total en todos los datos (sin particionar los datos originales, como si solo tuviésemos un solo clúster).
2. \(\text{Totss}\) (definición).
La suma total de cuadrados se define como:
\[\text{Totss} \; =\; \sum\limits_{i=1}^n (x_i - \overline{x})^2\]
3. \(\text{Betweenss}\) (suma de cuadrados entre clústeres).
La suma de cuadrados entre clústeres, que mide la variación debido a las diferencias entre los centroides de los clústeres, se define como:
\[\text{Betweenss} \; = \; \text{Totss} \,-\, \text{Tot.withinss}\]
4. \(\text{Prop.Var}\) (proporción de varianza total).
La proporción de varianza total en los datos que es explicada por la variación entre los centroides de los clústeres (que es explicada por la agrupación de los datos en los clústeres) se calcula así:
\[\text{Prop.Var}\; = \;\frac{\text{Betweenss} }{\text{Totss}} \; = \; 1\;-\; \frac{\text{Tot.withinss}}{\text{Totss}}\]
5. \(\text{Prop.Var}\) (interpretación).
La interpretación de la proporción de varianza explicada es como sigue:
Un valor más alto (cercano a 100%) indica que los clústeres formados explican bien la variación total en los datos, sugiriendo que los clústeres están bien definidos y separados.
Un valor más bajo sugiere que los clústeres no explican bien la variación en los datos, lo que podría indicar que los clústeres no están bien definidos o que no hay una estructura clara en los datos.
Ejemplo: datos
Base de datos
Los datos se recogieron aplicando una encuesta a una muestra de estudiantes universitarios. Es un data frame con 800 observaciones y 66 variables. Con estos datos llevaremos a cabo un PCA.
datosCompleto <- lsm::survey
#datosCompleto <- textshape::column_to_rownames(dat, loc=1)
#datosCompleto %>% remove_rownames %>% column_to_rownames(var="names") #library(tidyverse)
attach(datosCompleto)
names(datosCompleto)
## [1] "Observation" "ID" "Gender" "Like" "Age"
## [6] "Smoke" "Height" "Weight" "BMI" "School"
## [11] "SES" "Enrollment" "Score" "MotherHeight" "MotherAge"
## [16] "MotherCHD" "FatherHeight" "FatherAge" "FatherCHD" "Status"
## [21] "SemAcum" "Exam1" "Exam2" "Exam3" "Exam4"
## [26] "ExamAcum" "Definitive" "Expense" "Income" "Gas"
## [31] "Course" "Law" "Economic" "Race" "Region"
## [36] "EMO1" "EMO2" "EMO3" "EMO4" "EMO5"
## [41] "GOAL1" "GOAL2" "GOAL3" "Pre_STAT1" "Pre_STAT2"
## [46] "Pre_STAT3" "Pre_STAT4" "Post_STAT1" "Post_STAT2" "Post_STAT3"
## [51] "Post_STAT4" "Pre_IDARE1" "Pre_IDARE2" "Pre_IDARE3" "Pre_IDARE4"
## [56] "Pre_IDARE5" "Post_IDARE1" "Post_IDARE2" "Post_IDARE3" "Post_IDARE4"
## [61] "Post_IDARE5" "PSICO1" "PSICO2" "PSICO3" "PSICO4"
## [66] "PSICO5"
Solo datos numéricos
Solo utilizaremos algunas variables numéricas. Los datos deben contener solo variables continuas, ya que el algoritmo \(k\)-means utiliza medias variables. Dado que no queremos que el algoritmo \(k\)-means dependa de una unidad de variable arbitraria, comenzamos escalando los datos utilizando la función scale
de R de la siguiente manera:
dat <- datosCompleto[1:100, 21:24]
df <- scale(dat)
head(df)
## SemAcum Exam1 Exam2 Exam3
## [1,] 1.4571897 -1.68245049 1.6460816 1.9350576
## [2,] -0.9397758 -0.94735470 1.5482171 0.5559047
## [3,] 1.2918817 0.06340201 0.2759780 -1.2476029
## [4,] -0.2785439 -0.76358075 0.8631653 1.9350576
## [5,] 0.1347260 -0.21225891 0.1781135 1.9350576
## [6,] -1.0224297 0.43094991 1.0588944 1.0863481
Estimando el número óptimo de clústers.
Pregunta central
El proceso de agrupamiento \(k\)-means requiere que los usuarios indiquen cuántos grupos desean generar. Una pregunta central es: ¿Cómo seleccionar el número adecuado de grupos (\(k\))?
Respuesta a pregunta central
Consiste en realizar el agrupamiento \(k\)-means utilizando diferentes valores de \(k\).
Luego, se grafica la suma de los cuadrados internos (wss) en función del número de grupos.
Normalmente, la ubicación de un quiebre (punto de inflexión) en el gráfico se considera como un indicador del número apropiado de grupos.
Con R
La función fviz_nbclust
del paquete factoextra
brinda una solución práctica para estimar el número óptimo de grupos.
library(factoextra)
fviz_nbclust(df, kmeans, method = "wss") +
geom_vline(xintercept = 4, linetype = 2)

El gráfico ilustra cómo la variabilidad dentro de los grupos cambia con el número de grupos, \(k\). Esta variabilidad disminuye con \(k\), pero se nota un punto de inflexión o “codo” en \(k = 4\). Este punto sugiere que agregar más grupos después del cuarto no aporta mucho valor. En la siguiente sección, procederemos a clasificar las observaciones en 4 grupos.
Calculando el agrupamiento \(k\)-means
set.seed
El algoritmo de agrupamiento \(k\)-means comienza seleccionando k centroides de manera aleatoria, por lo que es recomendable usar la función set.seed
para fijar una semilla en el generador de números aleatorios de R.
Esto garantiza que los resultados sean reproducibles, de modo que cualquier lector de este artículo obtenga los mismos resultados que se muestran a continuación.
kmeans
El código R a continuación ejecuta el agrupamiento \(k\)-means con \(k = 4\):
#Calcular k-means con k = 4
set.seed(123)
k <-4
km.res <- kmeans(df, centers = k, nstart = 25)
nstart
Debido a que el resultado final del agrupamiento \(k\)-means depende de las asignaciones iniciales aleatorias, especificamos nstart = 25
.
Esto significa que R probará 25 asignaciones iniciales aleatorias diferentes y seleccionará los mejores resultados basados en la variación intra-cluster más baja.
Aunque el valor predeterminado de nstart
en R es uno, es altamente recomendable utilizar un valor más grande, como 25 o 50, para obtener resultados más estables.
Resultados finales
print(km.res)
## K-means clustering with 4 clusters of sizes 21, 27, 22, 30
##
## Cluster means:
## SemAcum Exam1 Exam2 Exam3
## 1 1.21709954 0.1027821 -0.8051922 0.1669129
## 2 0.01839816 -0.4334683 0.9320329 0.8663123
## 3 -0.71811281 -0.8930579 -0.6759771 -0.1818939
## 4 -0.34191197 0.9730831 0.2205214 -0.7631313
##
## Clustering vector:
## [1] 2 2 1 2 2 2 4 1 1 3 2 3 2 3 1 3 3 1 3 2 2 2 2 2 3 4 4 3 3 2 1 3 1 1 3 4 4
## [38] 1 4 1 2 4 1 4 3 2 1 4 4 2 4 2 4 1 4 2 3 4 4 3 2 4 4 2 2 4 2 4 1 2 4 3 3 4
## [75] 1 1 3 4 3 4 3 4 4 3 4 1 1 4 3 4 1 4 2 4 1 2 1 3 2 2
##
## Within cluster sum of squares by cluster:
## [1] 53.07428 57.81572 39.62427 60.63989
## (between_SS / total_SS = 46.7 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
Interpretaciones
La salida impresa presenta:
Los promedios o centros de los grupos: una matriz en la que las filas representan el número del grupo (1 a 4) y las columnas representan las variables.
El vector de agrupamiento: Un conjunto de números enteros (de 1 a \(k\)) que señala el grupo al que se asigna cada punto.
Clasificar observaciones por clústers
Si se desea agregar las clasificaciones de los puntos a los datos originales, se puede ejecutar este código:
df.clasif <- cbind(dat, cluster = km.res$cluster)
head(df.clasif)
## SemAcum Exam1 Exam2 Exam3 cluster
## 1 4.25 1.5 5.0 5.0 2
## 2 2.80 2.3 4.9 3.7 2
## 3 4.15 3.4 3.6 2.0 1
## 4 3.20 2.5 4.2 5.0 2
## 5 3.45 3.1 3.5 5.0 2
## 6 2.75 3.8 4.4 4.2 2
Output de kmeans
kmeans
: valores que se pueden obtener
La función kmeans
devuelve una lista de componentes que incluyen:
cluster
: Un vector de enteros (de 1 a \(k\)) que indica el clúster al que se asigna cada punto.
centers
: Una matriz de centros de clúster (medias de clúster).
totss
: La suma total de cuadrados y mide la variabilidad total en todos los datos (sin particionar los datos originales, como si solo tuviésemos un solo clúster). Es decir,
\[\text{Totss} \; =\; \sum\limits_{i=1}^n(x_i - \overline{x})^2\]
withinss
: Vector de suma de cuadrados dentro del clúster, con un componente por clúster. Es decir,
\[\text{Withinss}_k \,=\; W(C_k) \;=\; \sum\limits_{x_i \in C_k} (x_i -\overline{x}_k)^2\]
tot.withinss
: Suma total de cuadrados dentro del clúster, es decir,
\[\text{Tot.withinss} \,=\;\sum\limits_{k=1}^K W(C_k) \;=\; \sum\limits_{k=1}^K\sum\limits_{x_i \in C_k} (x_i -\overline{x}_k)^2\]
betweenss
: La suma de cuadrados entre clústeres, es decir,
\[\text{Betweenss} \; = \; \text{Totss} \,-\, \text{Tot.withinss}\]
size
: El número de observaciones en cada clúster.
kmeans
: con nuestros datos
Algunos de estos componentes pueden ser accedidos de la siguiente manera:
size
: El número de observaciones \(n_k\) en cada clúster \(k\). Observe:
\[n\;=\; \sum\limits_{k=1}^K n_k \]
km.res$size
## [1] 21 27 22 30
centers
: Una matriz de centros de clúster (medias de clúster).
km.res$centers
## SemAcum Exam1 Exam2 Exam3
## 1 1.21709954 0.1027821 -0.8051922 0.1669129
## 2 0.01839816 -0.4334683 0.9320329 0.8663123
## 3 -0.71811281 -0.8930579 -0.6759771 -0.1818939
## 4 -0.34191197 0.9730831 0.2205214 -0.7631313
cluster
: Un vector de enteros (de 1 a \(k\)) que indica el clúster al que se asigna cada punto.
km.res$cluster
## [1] 2 2 1 2 2 2 4 1 1 3 2 3 2 3 1 3 3 1 3 2 2 2 2 2 3 4 4 3 3 2 1 3 1 1 3 4 4
## [38] 1 4 1 2 4 1 4 3 2 1 4 4 2 4 2 4 1 4 2 3 4 4 3 2 4 4 2 2 4 2 4 1 2 4 3 3 4
## [75] 1 1 3 4 3 4 3 4 4 3 4 1 1 4 3 4 1 4 2 4 1 2 1 3 2 2
totss
: La suma total de cuadrados, que mide la variabilidad total en todos los datos (sin particionar los datos originales, como si solo tuviésemos un solo clúster). Es decir,
\[\text{Totss} \; =\; \sum\limits_{i=1}^n (x_i - \overline{x})^2\]
km.res$totss
## [1] 396
withinss
: Vector de suma de cuadrados dentro del clúster, con un componente por clúster. Es decir,
\[\text{Withinss} \,=\; W(C_k) \;=\; \sum\limits_{x_i \in C_k} (x_i -\overline{x}_k)^2\]
km.res$withinss
## [1] 53.07428 57.81572 39.62427 60.63989
tot.withinss
: Suma total de cuadrados dentro del clúster, es decir,
\[\text{Tot.withinss} \,=\;\sum\limits_{k=1}^K W(C_k) \;=\; \sum\limits_{k=1}^K\sum\limits_{x_i \in C_k} (x_i -\overline{x}_k)^2\]
km.res$tot.withinss
## [1] 211.1542
betweenss
: La suma de cuadrados entre clústeres, que mide la variación debido a las diferencias entre los centroides de los clústeres. Es decir,
\[\text{Betweenss} \; = \; \text{Totss} \,-\, \text{Tot.withinss}\]
km.res$betweenss
## [1] 184.8458
kmeans
: proporción de varianza explicada
La proporción de varianza total explicada por la variación entre los centroides de los clústeres se puede calcular así:
\[\text{Prop.Var}\; = \;\frac{\text{Betweenss} }{\text{Totss}} \; = \; 1\;-\; \frac{\text{Tot.withinss}}{\text{Totss}}\]
En nuestro ejemplo:
\[\text{Prop.Var}\; = \;\frac{\text{Betweenss} }{\text{Totss}}\times 100 \,\% \; = \; \frac{184.8458}{396}\times 100 \,\% \; = \; 46.68\,\%\]
Se resalta que arriba se calculó el porcentaje de varianza total explicada por la variación entre los centroides de los clústeres. En R se puede calcular como se indica abajo. :
(km.res$betweenss/km.res$totss)*100
## [1] 46.67824
Visualizando los clústers \(k\)-means
Introducción
Es recomendable graficar los resultados de los clústeres, ya que esto permite evaluar la elección del número de clústeres y comparar distintos análisis de clústeres.
Ahora deseamos visualizar los datos en un gráfico de dispersión, coloreando cada punto según su asignación al clúster correspondiente.
El reto surge cuando los datos tienen más de dos variables, lo que plantea la pregunta de qué variables seleccionar para el gráfico de dispersión en los ejes x e y.
Una solución es aplicar un algoritmo de reducción de dimensionalidad, como el Análisis de Componentes Principales (PCA), que transforma las cuatro variables en dos nuevas variables (que representan a las originales) que pueden usarse para el gráfico.
En otras palabras, si disponemos de un conjunto de datos multidimensional, una solución es realizar un Análisis de Componentes Principales (PCA) y graficar los puntos de datos según las coordenadas de los dos primeros componentes principales.
Aplicando factorextra::fviz_cluster
La función fviz_cluster
del paquete factoextra
se puede utilizar para visualizar fácilmente los clústeres k-means.
Esta función toma los resultados de k-means y los datos originales como argumentos.
En el gráfico resultante, las observaciones se representan mediante puntos, utilizando componentes principales si el número de variables es superior a 2.
fviz_cluster(km.res, data=df,
palette = c("blue", "darkorange4", "red", "magenta4"),
xlab = FALSE,
ylab = FALSE,
geom="point")

- También es posible dibujar una elipse de concentración alrededor de cada clúster.
fviz_cluster(km.res, data = df,
palette = c("blue", "darkorange4", "red", "magenta4"),
ellipse.type = "euclid", # Elipse de concentración
star.plot = TRUE, # Segmentos desde centroide a ítems
repel = TRUE, # Evitar traslapamientos
ggtheme = theme_minimal()
)

Ejercicios
Ejercicio 1
Analicemos el siguiente conjunto de datos. Para su creación, generamos tres clusters utilizando distribuciones normales. Cada punto de datos incluye tres características: un valor x
de una variable \(X\) , un valor y
de \(Y\), y una clase
que etiqueta el punto. Existen tres clases en este conjunto de datos (1, 2 y 3). El objetivo del ejercicio es que los algoritmos de clustering representen estas clases como clusters.
library(mvtnorm)
set.seed(123)
dataset <- {
#crear las 3 distribuciones
cluster1 = data.frame(rmvnorm(40, c(0, 0), diag(2)*c(2, 1))) %>% mutate(class=factor(1))
cluster2 = data.frame(rmvnorm(100, c(3, 3), diag(2)*c(1, 3))) %>% mutate(class=factor(2))
cluster3 = data.frame(rmvnorm(60, c(6, 6), diag(2))) %>% mutate(class=factor(3))
#crear el data frame
data = bind_rows(cluster1, cluster2, cluster3)
#nombres de las columnas
names(data) = c("x", "y", "clase")
#retornar los datos
data
}
head(dataset)
## x y clase
## 1 -0.7926323 -0.23017749 1
## 2 2.2043464 0.07050839 1
## 3 0.1828405 1.71506499 1
## 4 0.6518339 -1.26506123 1
## 5 -0.9713566 -0.44566197 1
## 6 1.7311131 0.35981383 1
Para ello, realizar los siguientes incisos.
Graficar los datos en un diagrama de dispersión usando ggplot
y el argumento color=class
para observar la agrupación natural que se intenta replicar.
Aplicar la función fviz_nbclust
del paquete factoextra
para estimar el número óptimo de grupos.
Defina un nuevo objeto que contenga solo las variables x
y y
.
df1 <- dataset[c("x", "y")]
head(df1)
## x y
## 1 -0.7926323 -0.23017749
## 2 2.2043464 0.07050839
## 3 0.1828405 1.71506499
## 4 0.6518339 -1.26506123
## 5 -0.9713566 -0.44566197
## 6 1.7311131 0.35981383
Ejecutar el agrupamiento \(k\)-means con el número optimal de clústers obtenidos en el inciso anterior (utilizar nstar=20
). LLame al nuevo objeto km.res1
.
Utilizar la función fviz_cluster
para ver los resultados de la agrupación \(k\)-means.
Ejercicio 2
Continuación del ejercicio 1. Considere la situación planteada en el ejercicio 1 y los resultados encontrados allí.
- Considere el código de abajo. En la línea de código No. 1, se copia el dataset original
dataset
como un nuevo dataframe llamado dataset_km
. En la línea de código No. 2, se añade una nueva columna llamada clase_pred
al nuevo data frame dataset_km
. Esta columna se rellena con los valores de las etiquetas de clústeres predichos por el modelo de \(k\)-means (km.res1$cluster
). Los valores se convierten en factores (categóricos) usando la función factor
. Compare los valores observados (clase
) con los predichos (clase_pred
).
#1.Copiar el dataset original
dataset_km <- dataset
#2. Añade una columna con las clases predichas
dataset_km['clase_pred'] = factor(km.res1$cluster)
head(dataset_km)
Contruir una tabla de frecuencias agrupadas entre los valores observados (clase
) con los predichos (clase_pred
) e interprete cada uno de los resultados encontrados en las celdas. En particular, verificar la precisión (accuracy) de la agrupación.
Verificar la precisión (accuracy) de la agrupación en un gráfico. Compare nuevamente los valores observados (clase
) con los predichos (clase_pred
). Puede utilizar el siguiente código:
#3. El gráfico
dataset_km %>% ggplot(aes(x=x, y=y, shape=clase, color=clase_pred)) +
geom_point() +
coord_fixed() +
scale_shape_manual(values=c(0, 1, 2)) +
scale_shape(solid = TRUE)
Ejercicio 3
Continuación de los ejercicios 1 y 2. Considere la situación planteada en el ejercicio 1 y los resultados encontrados en ese ejercicio y en el 2.
Inciso i.
Investigue el concepto de matrix de confusión y las métricas que se obtienen a partir de ella. Explique las más importantes. Puede consultar los siguientes documentos (de mi autoría):
inciso j.
Aplique el código de abajo para obtener la matrix de confusión y las métricas correspondientes. Interprete los resultados obtenidos.
library(caret)
conf_mat <- confusionMatrix(factor(km.res1$cluster), factor(dataset$clase),
mode = "everything", positive="1")
conf_mat
