I. LECTURA DE DATOS
Emilio Gondar en su libro ” Analisis de Conglomerados”(Editorial :
Data Mining Institute. 2004) (Nores, 2014)
presenta un ejemplo donde a un grupo de 21 personas se le midío una
serie de variables de tipo métrico, y segun estos atributos se van a
clasificar a estas personas en grupos o categorias de tal forma que
dentro de cada grupo las unidades muestrales sean lo mas homogonea
posible, y entre los grupos estas unidades, comparativamente, sean lo
mas heterogenea posible
La información que se recolectó de un grupo de 21 personas (usando
una escala de Likert del 1 al 7, donde 1 es desacuerdo y 7 de acuerdo),
fue su grado de conformidad a las siguientes afirmaciones cuando visita
un centro comercial:
Salir de compras es divertido
Salir de compras afecta el presupuesto
Al salir de compras aprovecho de comer fuera
Al salir a comprar trato de hacer las mejores
No me importa salir de compras
Al salir de compra voy a ahorrar si comparo precios
Se desarrollará el caso con el lenguaje de programacion R (R Core Team,
2022a)
datosc <- read.table(file = "compras-cluster.csv", header = TRUE,
sep = ",", stringsAsFactors = TRUE)
str(datosc)
## 'data.frame': 21 obs. of 7 variables:
## $ caso : int 1 2 3 4 5 6 7 8 9 10 ...
## $ divertid: int 6 2 7 4 1 6 5 7 2 3 ...
## $ presupu : int 4 3 2 6 3 4 3 3 4 3 ...
## $ aprovech: int 7 1 6 4 2 6 6 7 3 3 ...
## $ buenacom: int 3 4 4 5 2 3 3 4 3 6 ...
## $ noimport: int 2 5 1 3 6 3 3 1 6 4 ...
## $ ahorro : int 3 4 3 6 4 4 4 4 3 6 ...
attr(datosc,"variable.labels") <- NULL
datosc$caso <- NULL#Se elimino la variable "caso"
II ANÁLISIS EXPLORATORIO
Usamos la libreria DataExplorer(Cui, 2020) para
obtener una grafica que detecte los % de datos perdidos
summary(datosc)
## divertid presupu aprovech buenacom noimport
## Min. :1.0 Min. :2 Min. :1.00 Min. :2.0 Min. :1.00
## 1st Qu.:2.0 1st Qu.:3 1st Qu.:2.00 1st Qu.:3.0 1st Qu.:2.00
## Median :4.0 Median :4 Median :4.00 Median :4.0 Median :3.00
## Mean :3.9 Mean :4 Mean :4.05 Mean :4.1 Mean :3.43
## 3rd Qu.:5.0 3rd Qu.:5 3rd Qu.:6.00 3rd Qu.:5.0 3rd Qu.:4.00
## Max. :7.0 Max. :7 Max. :7.00 Max. :7.0 Max. :7.00
## ahorro
## Min. :2.00
## 1st Qu.:3.00
## Median :4.00
## Mean :4.38
## 3rd Qu.:5.00
## Max. :7.00
#Analisis Exploratorio con DataExplorer
# Detectando y graficando los % de datos perdidos
plot_missing(datosc, ggtheme=theme_bw())+
labs(tittle="Datos perdidos por variable",
y="Datos periddos",
x="Variables")


Usamos la libreria funModeling(Casas, 2020) (el
cual usa ggplot2) para obtener una grafica de las variables
#Analisis Exploratorio con la librería funModeling
# Gráfico de variables numéricas
plot_num(datosc) + theme_bw()


III.USANDO MEDIDAS DE DISTANCIA
1. Distancia euclidiana
Usamos la libreria factoextra(Kassambara & Mundt,
2020) para hallar la matriz de distancia y una grafica de la
matriz
#Calculando la matriz de distancia euclidiana con la
#funcion get_dist()
res.dist <- get_dist(datosc, stand = FALSE,
method = "euclidean")
# Visualizando un subconjunto de la matriz de distancia
round(as.matrix(res.dist)[1:6, 1:6], 1)
## 1 2 3 4 5 6
## 1 0.0 8.0 2.8 5.6 8.3 1.7
## 2 8.0 0.0 8.2 5.6 2.6 6.9
## 3 2.8 8.2 0.0 6.6 9.1 3.3
## 4 5.6 5.6 6.6 0.0 6.6 4.5
## 5 8.3 2.6 9.1 6.6 0.0 7.2
## 6 1.7 6.9 3.3 4.5 7.2 0.0
2. Gráfico matriz de distancia
#Visualizando la matriz de distancia con fviz_dist()
fviz_dist(res.dist) #ESTAN ORDENADOS, el problema es cuando hay miles de datos

fviz_dist(res.dist,
gradient = list(low = "#00AFBB", mid = "white",
high = "#FC4E07"))

IV.CLUSTER DE PARTICIÓN - NO JERÁRQUICOS
1 Criterios para hallar el número de clusters
1.1 Usando el criterio del Gráfico de Silueta
Usamos la libreria factoextra(Kassambara & Mundt,
2020) para el criterio del “grafico de la silueta”
set.seed(123)
fviz_nbclust(datosc, kmeans, method = "silhouette") +
labs(subtitle = "Silhouette method")

1.2 Usando el criterio de Suma de Cuadrados dentro de clusters
Usamos la libreria factoextra(Kassambara & Mundt,
2020) para el criterio del “Suma de cuadrados dentro de
clusters”
set.seed(123)
wss <- numeric()
for(h in 1:10){
b<-kmeans(datosc,h)
wss[h]<-b$tot.withinss #scintra
}
wss
## [1] 334.7 177.6 89.9 73.7 67.5 55.3 40.8 35.6 30.3 24.5
wss1 <- data.frame(cluster=c(1:10),wss)
wss1
## cluster wss
## 1 1 334.7
## 2 2 177.6
## 3 3 89.9
## 4 4 73.7
## 5 5 67.5
## 6 6 55.3
## 7 7 40.8
## 8 8 35.6
## 9 9 30.3
## 10 10 24.5
Usamos la libreria ggplot2(Wickham, 2016) para
el grafico de los cluster segun la suma de cuadrados dentro de
cluster
# Gráficamos el cluster con la S.C.
ggplot(wss1) + aes(cluster,wss) + geom_line(color="blue") +
geom_point(color="blue") +
geom_vline(xintercept = 3, linetype = 2, col="red") +
labs(title = "Método Elbow") +
scale_x_continuous(breaks=1:10) +
theme_classic()

1.3 NbClust: 30 Indices para determinar el número de clusters
Usamos la libreria NbClust(Charrad et al.,
2014) el cual usa 30 indices para determinar el tamaño optimo
de clusters ademas te indica cuantos criterios han elegido cada clusters
y la decision final
set.seed(123)
res.nbclust <- NbClust(datosc, distance = "euclidean",
min.nc = 2, max.nc = 5,
method = "average", index ="all")
Usamos la libreria factoextra(Kassambara & Mundt,
2020) para una grafica de barrras el cual indique cuantos
indices han elegido el “k” cluster
factoextra::fviz_nbclust(res.nbclust) + theme_minimal()
## Among all indices:
## ===================
## * 2 proposed 0 as the best number of clusters
## * 1 proposed 1 as the best number of clusters
## * 2 proposed 2 as the best number of clusters
## * 14 proposed 3 as the best number of clusters
## * 4 proposed 4 as the best number of clusters
## * 3 proposed 5 as the best number of clusters
##
## Conclusion
## =========================
## * According to the majority rule, the best number of clusters is 3 .

2.Método de particion: K-means
Usamos la libreria stats(R Core Team, 2022b) el cual es una
libreria predeterminada de R con el cual usaremos la funcion kmeans para
hallar los clusters
set.seed(123)
km <- kmeans(datosc,
centers=3, # Número de Cluster
iter.max = 100, # Número de iteraciones máxima
nstart = 1, # Número de puntos iniciales
algorithm = "Lloyd")
#nstart=25, significa que se probaran 25 puntos iniciales
#aleatorios y luego eligirá aquel donde la variación dentro
#(intra) de cluster sea minima.
#El valor por defecto es 1
A continuacion toda la informacion que da usar la funcion kmeans:
# Mostrar los clusters que pertenece cada individuo
km$cluster
## [1] 1 3 1 2 3 1 1 1 3 2 3 1 3 2 1 2 1 3 2 3 1
clusters1 = km$cluster
# Tamaño de cada cluster
km$size
## [1] 9 5 7
# Promedios de cada cluster
km$centers
## divertid presupu aprovech buenacom noimport ahorro
## 1 5.67 3.67 6.00 3.22 2.00 4.00
## 2 3.60 5.20 3.60 6.00 3.40 6.60
## 3 1.86 3.57 1.86 3.86 5.29 3.29
# Número de interaciones
km$iter
## [1] 4
# Sumas de cuadrados
km$withinss #Suma de cuadrados dentro de cada cluster
## [1] 37.6 15.6 43.1
km$tot.withinss #Suma de cuadrados Total dentro de cada cluster
## [1] 96.3
km$betweenss #Suma de cuadrados entre cluster
## [1] 238
#Se obtiene por diferencia
Usamos la libreria factoextra(Kassambara & Mundt,
2020) para una grafica de los clusters usando ACP
# Visualización de las soluciones usando ACP
fviz_cluster(km,data=datosc,ellipse.type = "convex") +
theme_classic()

V.CARACTERIZANDO A LOS CLUSTERS
Consiste en analizar los centros de gravedad de cada grupo
(promedios)
datos.j <- cbind(datosc,clusters1)
datos.j$clusters1 <- factor(datos.j$clusters1) #los clusters
Usamos la libreria dplyr(Wickham et al., 2022)
#Diagrama de líneas de promedio por cluster
datos.j %>%
group_by(clusters1) %>%
summarise_all(list(mean)) -> medias #promedios por grupo por cada variable
medias
## # A tibble: 3 x 7
## clusters1 divertid presupu aprovech buenacom noimport ahorro
## <fct> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1 5.67 3.67 6 3.22 2 4
## 2 2 3.6 5.2 3.6 6 3.4 6.6
## 3 3 1.86 3.57 1.86 3.86 5.29 3.29
#tapply(datos.j$divertid,grp,mean)
datos.j %>% summarise_if(is.numeric,mean) %>%
round(4) -> general #promedio general
general
## divertid presupu aprovech buenacom noimport ahorro
## 1 3.9 4 4.05 4.1 3.43 4.38
general <- cbind(clusters1="general",general)
general #para tener dos resultados con los mismos campos(numero de columnas)
## clusters1 divertid presupu aprovech buenacom noimport ahorro
## 1 general 3.9 4 4.05 4.1 3.43 4.38
medias <- as.data.frame(rbind(medias,general))
medias
## clusters1 divertid presupu aprovech buenacom noimport ahorro
## 1 1 5.67 3.67 6.00 3.22 2.00 4.00
## 2 2 3.60 5.20 3.60 6.00 3.40 6.60
## 3 3 1.86 3.57 1.86 3.86 5.29 3.29
## 4 general 3.90 4.00 4.05 4.10 3.43 4.38
Usamos la libreria tidyr(Wickham et al., 2022) para convertir la
data a formato tidy con pivot_longer(pasar de filas a columnas)
gathered_datos.j <- pivot_longer(data=medias,
-clusters1,
names_to="variable",
values_to = "valor")
head(gathered_datos.j)
## # A tibble: 6 x 3
## clusters1 variable valor
## <fct> <chr> <dbl>
## 1 1 divertid 5.67
## 2 1 presupu 3.67
## 3 1 aprovech 6
## 4 1 buenacom 3.22
## 5 1 noimport 2
## 6 1 ahorro 4
A continuacion finalmente la grafica de caracterizacion de los
clusters:
ggplot(gathered_datos.j) + aes(x=variable,y=valor,color=clusters1) +
geom_point() +
geom_line(aes(group = clusters1)) +
theme_bw() +
theme(legend.position = "bottom",legend.title=element_blank()) +
labs(title="Diagrama de líneas de Cluster por Variable",
x="Variable",y="") + ylim(0,8)+
scale_colour_discrete("Cluster") #+ coord_flip()

Casas, P. (2020).
funModeling: Exploratory data analysis and data
preparation tool-box.
https://CRAN.R-project.org/package=funModeling
Charrad, M., Ghazzali, N., Boiteau, V., & Niknafs, A. (2014).
NbClust: An
R package for determining the
relevant number of clusters in a data set.
Journal of Statistical
Software,
61(6), 1–36.
http://www.jstatsoft.org/v61/i06/
Cui, B. (2020).
DataExplorer: Automate data exploration and
treatment.
https://CRAN.R-project.org/package=DataExplorer
Nores, J. E. G. (2014). Análisis de conglomerados (cluster
analysis). R Foundation for Statistical Computing; Data Mining
Institute.
R Core Team. (2022a).
R: A language and environment for statistical
computing. R Foundation for Statistical Computing.
https://www.R-project.org/
R Core Team. (2022b).
R: A language and environment for statistical
computing. R Foundation for Statistical Computing.
https://www.R-project.org/
Wickham, H. (2016).
ggplot2: Elegant graphics for data
analysis. Springer-Verlag New York.
https://ggplot2.tidyverse.org
Wickham, H., François, R., Henry, L., & Müller, K. (2022).
Dplyr: A grammar of data manipulation.
https://CRAN.R-project.org/package=dplyr
