I. LECTURA DE DATOS
Emilio Gondar en su libro ” Analisis de Conglomerados”(Editorial :
Data Mining Institute. 2004) (Nores, 2014)
presenta un ejemplo donde a un grupo de 21 personas se le midío una
serie de variables de tipo métrico, y segun estos atributos se van a
clasificar a estas personas en grupos o categorias de tal forma que
dentro de cada grupo las unidades muestrales sean lo mas homogonea
posible, y entre los grupos estas unidades, comparativamente, sean lo
mas heterogenea posible
La información que se recolectó de un grupo de 21 personas (usando
una escala de Likert del 1 al 7, donde 1 es desacuerdo y 7 de acuerdo),
fue su grado de conformidad a las siguientes afirmaciones cuando visita
un centro comercial:
Salir de compras es divertido
Salir de compras afecta el presupuesto
Al salir de compras aprovecho de comer fuera
Al salir a comprar trato de hacer las mejores
No me importa salir de compras
Al salir de compra voy a ahorrar si comparo precios
Se desarrollará el caso con el lenguaje de programacion R (R Core Team,
2022a)
datosc <- read.table(file = "compras-cluster.csv", header = TRUE,
sep = ",", stringsAsFactors = TRUE)
str(datosc)
## 'data.frame': 21 obs. of 7 variables:
## $ caso : int 1 2 3 4 5 6 7 8 9 10 ...
## $ divertid: int 6 2 7 4 1 6 5 7 2 3 ...
## $ presupu : int 4 3 2 6 3 4 3 3 4 3 ...
## $ aprovech: int 7 1 6 4 2 6 6 7 3 3 ...
## $ buenacom: int 3 4 4 5 2 3 3 4 3 6 ...
## $ noimport: int 2 5 1 3 6 3 3 1 6 4 ...
## $ ahorro : int 3 4 3 6 4 4 4 4 3 6 ...
attr(datosc,"variable.labels") <- NULL
datosc$caso <- NULL#Se elimino la variable "caso"
II ANÁLISIS EXPLORATORIO
Usamos la libreria DataExplorer(Cui, 2020) para
obtener una grafica que detecte los % de datos perdidos
summary(datosc)
## divertid presupu aprovech buenacom noimport
## Min. :1.0 Min. :2 Min. :1.00 Min. :2.0 Min. :1.00
## 1st Qu.:2.0 1st Qu.:3 1st Qu.:2.00 1st Qu.:3.0 1st Qu.:2.00
## Median :4.0 Median :4 Median :4.00 Median :4.0 Median :3.00
## Mean :3.9 Mean :4 Mean :4.05 Mean :4.1 Mean :3.43
## 3rd Qu.:5.0 3rd Qu.:5 3rd Qu.:6.00 3rd Qu.:5.0 3rd Qu.:4.00
## Max. :7.0 Max. :7 Max. :7.00 Max. :7.0 Max. :7.00
## ahorro
## Min. :2.00
## 1st Qu.:3.00
## Median :4.00
## Mean :4.38
## 3rd Qu.:5.00
## Max. :7.00
#Analisis Exploratorio con DataExplorer
# Detectando y graficando los % de datos perdidos
plot_missing(datosc, ggtheme=theme_bw())+
labs(tittle="Datos perdidos por variable",
y="Datos periddos",
x="Variables")


Usamos la libreria funModeling(Casas, 2020) (el
cual usa ggplot2) para obtener una grafica de las variables
#Analisis Exploratorio con la librería funModeling
# Gráfico de variables numéricas
plot_num(datosc) + theme_bw()


III.USANDO MEDIDAS DE DISTANCIA
1. Distancia euclidiana
Usamos la libreria factoextra(Kassambara & Mundt,
2020) para hallar la matriz de distancia y una grafica de la
matriz
#Calculando la matriz de distancia euclidiana con la
#funcion get_dist()
res.dist <- get_dist(datosc, stand = FALSE,
method = "euclidean")
# Visualizando un subconjunto de la matriz de distancia
round(as.matrix(res.dist)[1:6, 1:6], 1)
## 1 2 3 4 5 6
## 1 0.0 8.0 2.8 5.6 8.3 1.7
## 2 8.0 0.0 8.2 5.6 2.6 6.9
## 3 2.8 8.2 0.0 6.6 9.1 3.3
## 4 5.6 5.6 6.6 0.0 6.6 4.5
## 5 8.3 2.6 9.1 6.6 0.0 7.2
## 6 1.7 6.9 3.3 4.5 7.2 0.0
2. Gráfico matriz de distancia
#Visualizando la matriz de distancia con fviz_dist()
fviz_dist(res.dist) #ESTAN ORDENADOS, el problema es cuando hay miles de datos

fviz_dist(res.dist,
gradient = list(low = "#00AFBB", mid = "white",
high = "#FC4E07"))

IV.CLUSTER DE PARTICIÓN - NO JERÁRQUICOS
1 Criterios para hallar el número de clusters
1.1 Usando el criterio del Gráfico de Silueta
Usamos la libreria factoextra(Kassambara & Mundt,
2020) para el criterio del “grafico de la silueta”
set.seed(123)
fviz_nbclust(datosc, kmeans, method = "silhouette") +
labs(subtitle = "Silhouette method")

1.2 Usando el criterio de Suma de Cuadrados dentro de clusters
Usamos la libreria factoextra(Kassambara & Mundt,
2020) para el criterio del “Suma de cuadrados dentro de
clusters”
set.seed(123)
wss <- numeric()
for(h in 1:10){
b<-kmeans(datosc,h)
wss[h]<-b$tot.withinss #scintra
}
wss
## [1] 334.7 177.6 89.9 73.7 67.5 55.3 40.8 35.6 30.3 24.5
wss1 <- data.frame(cluster=c(1:10),wss)
wss1
## cluster wss
## 1 1 334.7
## 2 2 177.6
## 3 3 89.9
## 4 4 73.7
## 5 5 67.5
## 6 6 55.3
## 7 7 40.8
## 8 8 35.6
## 9 9 30.3
## 10 10 24.5
Usamos la libreria ggplot2(Wickham, 2016) para
el grafico de los cluster segun la suma de cuadrados dentro de
cluster
# Gráficamos el cluster con la S.C.
ggplot(wss1) + aes(cluster,wss) + geom_line(color="blue") +
geom_point(color="blue") +
geom_vline(xintercept = 3, linetype = 2, col="red") +
labs(title = "Método Elbow") +
scale_x_continuous(breaks=1:10) +
theme_classic()

1.3 NbClust: 30 Indices para determinar el número de clusters
Usamos la libreria NbClust(Charrad et al.,
2014) el cual usa 30 indices para determinar el tamaño optimo
de clusters ademas te indica cuantos criterios han elegido cada clusters
y la decision final
set.seed(123)
res.nbclust <- NbClust(datosc, distance = "euclidean",
min.nc = 2, max.nc = 5,
method = "average", index ="all")
Usamos la libreria factoextra(Kassambara & Mundt,
2020) para una grafica de barrras el cual indique cuantos
indices han elegido el “k” cluster
factoextra::fviz_nbclust(res.nbclust) + theme_minimal()
## Among all indices:
## ===================
## * 2 proposed 0 as the best number of clusters
## * 1 proposed 1 as the best number of clusters
## * 2 proposed 2 as the best number of clusters
## * 14 proposed 3 as the best number of clusters
## * 4 proposed 4 as the best number of clusters
## * 3 proposed 5 as the best number of clusters
##
## Conclusion
## =========================
## * According to the majority rule, the best number of clusters is 3 .

2.Método de particion: K-means
Usamos la libreria stats(R Core Team, 2022b) el cual es una
libreria predeterminada de R con el cual usaremos la funcion kmeans para
hallar los clusters
set.seed(123)
km <- kmeans(datosc,
centers=3, # Número de Cluster
iter.max = 100, # Número de iteraciones máxima
nstart = 1, # Número de puntos iniciales
algorithm = "Lloyd")
#nstart=25, significa que se probaran 25 puntos iniciales
#aleatorios y luego eligirá aquel donde la variación dentro
#(intra) de cluster sea minima.
#El valor por defecto es 1
A continuacion toda la informacion que da usar la funcion kmeans:
# Mostrar los clusters que pertenece cada individuo
km$cluster
## [1] 1 3 1 2 3 1 1 1 3 2 3 1 3 2 1 2 1 3 2 3 1
clusters1 = km$cluster
# Tamaño de cada cluster
km$size
## [1] 9 5 7
# Promedios de cada cluster
km$centers
## divertid presupu aprovech buenacom noimport ahorro
## 1 5.67 3.67 6.00 3.22 2.00 4.00
## 2 3.60 5.20 3.60 6.00 3.40 6.60
## 3 1.86 3.57 1.86 3.86 5.29 3.29
# Número de interaciones
km$iter
## [1] 4
# Sumas de cuadrados
km$withinss #Suma de cuadrados dentro de cada cluster
## [1] 37.6 15.6 43.1
km$tot.withinss #Suma de cuadrados Total dentro de cada cluster
## [1] 96.3
km$betweenss #Suma de cuadrados entre cluster
## [1] 238
#Se obtiene por diferencia
Usamos la libreria factoextra(Kassambara & Mundt,
2020) para una grafica de los clusters usando ACP
# Visualización de las soluciones usando ACP
fviz_cluster(km,data=datosc,ellipse.type = "convex") +
theme_classic()

V.CARACTERIZANDO A LOS CLUSTERS
Consiste en analizar los centros de gravedad de cada grupo
(promedios)
datos.j <- cbind(datosc,clusters1)
datos.j$clusters1 <- factor(datos.j$clusters1) #los clusters
Usamos la libreria dplyr(Wickham et al., 2022)
#Diagrama de líneas de promedio por cluster
datos.j %>%
group_by(clusters1) %>%
summarise_all(list(mean)) -> medias #promedios por grupo por cada variable
medias
## # A tibble: 3 x 7
## clusters1 divertid presupu aprovech buenacom noimport ahorro
## <fct> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1 5.67 3.67 6 3.22 2 4
## 2 2 3.6 5.2 3.6 6 3.4 6.6
## 3 3 1.86 3.57 1.86 3.86 5.29 3.29
#tapply(datos.j$divertid,grp,mean)
datos.j %>% summarise_if(is.numeric,mean) %>%
round(4) -> general #promedio general
general
## divertid presupu aprovech buenacom noimport ahorro
## 1 3.9 4 4.05 4.1 3.43 4.38
general <- cbind(clusters1="general",general)
general #para tener dos resultados con los mismos campos(numero de columnas)
## clusters1 divertid presupu aprovech buenacom noimport ahorro
## 1 general 3.9 4 4.05 4.1 3.43 4.38
medias <- as.data.frame(rbind(medias,general))
medias
## clusters1 divertid presupu aprovech buenacom noimport ahorro
## 1 1 5.67 3.67 6.00 3.22 2.00 4.00
## 2 2 3.60 5.20 3.60 6.00 3.40 6.60
## 3 3 1.86 3.57 1.86 3.86 5.29 3.29
## 4 general 3.90 4.00 4.05 4.10 3.43 4.38
Usamos la libreria tidyr(Wickham et al., 2022) para convertir la
data a formato tidy con pivot_longer(pasar de filas a columnas)
gathered_datos.j <- pivot_longer(data=medias,
-clusters1,
names_to="variable",
values_to = "valor")
head(gathered_datos.j)
## # A tibble: 6 x 3
## clusters1 variable valor
## <fct> <chr> <dbl>
## 1 1 divertid 5.67
## 2 1 presupu 3.67
## 3 1 aprovech 6
## 4 1 buenacom 3.22
## 5 1 noimport 2
## 6 1 ahorro 4
A continuacion finalmente la grafica de caracterizacion de los
clusters:
ggplot(gathered_datos.j) + aes(x=variable,y=valor,color=clusters1) +
geom_point() +
geom_line(aes(group = clusters1)) +
theme_bw() +
theme(legend.position = "bottom",legend.title=element_blank()) +
labs(title="Diagrama de líneas de Cluster por Variable",
x="Variable",y="") + ylim(0,8)+
scale_colour_discrete("Cluster") #+ coord_flip()

Casas, P. (2020).
funModeling: Exploratory data analysis and data
preparation tool-box.
https://CRAN.R-project.org/package=funModeling
Charrad, M., Ghazzali, N., Boiteau, V., & Niknafs, A. (2014).
NbClust: An
R package for determining the
relevant number of clusters in a data set.
Journal of Statistical
Software,
61(6), 1–36.
http://www.jstatsoft.org/v61/i06/
Cui, B. (2020).
DataExplorer: Automate data exploration and
treatment.
https://CRAN.R-project.org/package=DataExplorer
Nores, J. E. G. (2014). Análisis de conglomerados (cluster
analysis). R Foundation for Statistical Computing; Data Mining
Institute.
R Core Team. (2022a).
R: A language and environment for statistical
computing. R Foundation for Statistical Computing.
https://www.R-project.org/
R Core Team. (2022b).
R: A language and environment for statistical
computing. R Foundation for Statistical Computing.
https://www.R-project.org/
Wickham, H. (2016).
ggplot2: Elegant graphics for data
analysis. Springer-Verlag New York.
https://ggplot2.tidyverse.org
Wickham, H., François, R., Henry, L., & Müller, K. (2022).
Dplyr: A grammar of data manipulation.
https://CRAN.R-project.org/package=dplyr
---
title: "Analisis Cluster - Metodo k-Means"
author: "Waldo Gómez"
date: "`r Sys.Date()`"
email: "waldog277@gmail.com"
output: 
  rmdformats::downcute:
    self_contained: true
    default_style: "light"
    downcute_theme: "chaos"
    toc_float: TRUE
    code_download: TRUE
bibliography: bibliografia.bib
csl: apa.csl
link-citations: yes
---

```{r setup, include=FALSE}
options(scipen = 999)      # Eliminar la notación científica
options(digits = 3)        # Número de decimales

# Paquetes
library(pacman)
p_load(factoextra,NbClust,DataExplorer,
       funModeling,tidyr,ggplot2,dplyr)
knitr::opts_chunk$set(echo = TRUE)
```

## I. LECTURA DE DATOS

Emilio Gondar en su libro " Analisis de Conglomerados"(Editorial : Data Mining Institute. 2004)  [@ClusterAnalysis] presenta un ejemplo donde a un grupo de 21
personas se le midío una serie de variables de tipo métrico, y segun
estos atributos se van a clasificar a estas personas en grupos o
categorias de tal forma que dentro de cada grupo las unidades muestrales
sean lo mas homogonea posible, y entre los grupos estas unidades,
comparativamente, sean lo mas heterogenea posible

La información que se recolectó de un grupo de 21 personas (usando una
escala de Likert del 1 al 7, donde 1 es desacuerdo y 7 de acuerdo), fue
su grado de conformidad a las siguientes afirmaciones cuando visita un
centro comercial:

-   Salir de compras es divertido

-   Salir de compras afecta el presupuesto

-   Al salir de compras aprovecho de comer fuera

-   Al salir a comprar trato de hacer las mejores

-   No me importa salir de compras

-   Al salir de compra voy a ahorrar si comparo precios

Se desarrollará el caso con el lenguaje de programacion R [@R]

```{r}
datosc <- read.table(file = "compras-cluster.csv", header = TRUE,
                        sep = ",", stringsAsFactors = TRUE)
str(datosc)

attr(datosc,"variable.labels") <- NULL
datosc$caso <- NULL#Se elimino la variable "caso"
```


## II ANÁLISIS EXPLORATORIO
Usamos la libreria DataExplorer[@dataexplorer] para obtener una grafica que detecte los % de datos perdidos

```{r explo,fig.align='center'}

summary(datosc)

#Analisis Exploratorio con DataExplorer
# Detectando y graficando los % de datos perdidos
plot_missing(datosc, ggtheme=theme_bw())+
               labs(tittle="Datos perdidos por variable",
                    y="Datos periddos",
                    x="Variables") 
```

Usamos la libreria funModeling[@funModeling] (el cual usa ggplot2) para obtener una grafica de las variables 
```{r explo_graf,warning=FALSE}
#Analisis Exploratorio con la librería funModeling
# Gráfico de variables numéricas
plot_num(datosc) + theme_bw()
```

## III.USANDO MEDIDAS DE DISTANCIA

### 1. Distancia euclidiana

Usamos la libreria factoextra[@factoextra] para hallar la matriz de distancia y una grafica de la matriz
```{r eucli, fig.align='center'}
#Calculando la matriz de distancia euclidiana con la
#funcion get_dist()
res.dist <- get_dist(datosc, stand = FALSE, 
                     method = "euclidean")

# Visualizando un subconjunto de la matriz de distancia
round(as.matrix(res.dist)[1:6, 1:6], 1)
```

### 2. Gráfico matriz de distancia

```{r matriz, fig.align='center'}
#Visualizando la matriz de distancia con fviz_dist()
fviz_dist(res.dist)  #ESTAN ORDENADOS, el problema es cuando hay miles de datos

fviz_dist(res.dist, 
          gradient = list(low = "#00AFBB", mid = "white", 
                          high = "#FC4E07"))
```


## IV.CLUSTER DE PARTICIÓN - NO JERÁRQUICOS

<center> 
![](kmeans.png){width="800"} <!-- Width para reducir el tamaño de la imagen -->
</center>

### 1 Criterios para hallar el número de clusters

#### 1.1 Usando el criterio del Gráfico de Silueta

Usamos la libreria factoextra[@factoextra] para el criterio del "grafico de la silueta"
```{r silueta, fig.align='center'}
set.seed(123)
fviz_nbclust(datosc, kmeans, method = "silhouette") +
  labs(subtitle = "Silhouette method")
```

#### 1.2 Usando el criterio de Suma de Cuadrados dentro de clusters

Usamos la libreria factoextra[@factoextra] para el criterio del "Suma de cuadrados dentro de clusters"
```{r sumacuadraintra, fig.align='center'}
set.seed(123)
wss <- numeric()
for(h in 1:10){
  b<-kmeans(datosc,h)
  wss[h]<-b$tot.withinss #scintra
}
wss 

wss1 <- data.frame(cluster=c(1:10),wss)
wss1
```

Usamos la libreria ggplot2[@ggplot2] para el grafico de los cluster segun la suma de cuadrados dentro de cluster

```{r sc,fig.align='center'}
# Gráficamos el cluster con la S.C.
ggplot(wss1) + aes(cluster,wss) + geom_line(color="blue") + 
  geom_point(color="blue") +
  geom_vline(xintercept = 3, linetype = 2, col="red") +
  labs(title = "Método Elbow") + 
  scale_x_continuous(breaks=1:10) +
  theme_classic()
```


#### 1.3 NbClust: 30 Indices para determinar el número de clusters

Usamos la libreria NbClust[@NbClust] el cual usa 30 indices para determinar el tamaño optimo de clusters ademas te indica cuantos criterios han elegido cada clusters y la decision final
```{r nbclust,results='hide',fig.show='hide'}
set.seed(123)
res.nbclust <- NbClust(datosc, distance = "euclidean",
                       min.nc = 2, max.nc = 5, 
                       method = "average", index ="all") 
```

Usamos la libreria factoextra[@factoextra] para una grafica de barrras el cual indique cuantos indices han elegido el "k" cluster

```{r nbclust_graf,fig.align='center',warning=FALSE}
factoextra::fviz_nbclust(res.nbclust) + theme_minimal()
```


### 2.Método de particion: K-means

Usamos la libreria stats[@stats] el cual es una libreria predeterminada de R con el cual usaremos la funcion kmeans para hallar los clusters
```{r kmeans}
set.seed(123)
km <- kmeans(datosc, 
             centers=3,      # Número de Cluster
             iter.max = 100, # Número de iteraciones máxima
             nstart = 1,     # Número de puntos iniciales 
             algorithm = "Lloyd")    
#nstart=25, significa que se probaran 25 puntos iniciales
#aleatorios y luego eligirá aquel donde la variación dentro
#(intra) de cluster sea minima.
#El valor por defecto es 1
```

A continuacion toda la informacion que da usar la funcion kmeans:

```{r info_clusters}
# Mostrar los clusters que pertenece cada individuo 
km$cluster
clusters1 = km$cluster

# Tamaño de cada cluster
km$size

# Promedios de cada cluster
km$centers

# Número de interaciones
km$iter

# Sumas de cuadrados
km$withinss     #Suma de cuadrados dentro de cada cluster
km$tot.withinss #Suma de cuadrados Total dentro de cada cluster
km$betweenss    #Suma de cuadrados entre cluster
                #Se obtiene por diferencia
```

Usamos la libreria factoextra[@factoextra] para una grafica de los clusters usando ACP
```{r graf_acp, fig.align='center'}
# Visualización de las soluciones usando ACP
fviz_cluster(km,data=datosc,ellipse.type = "convex") + 
  theme_classic()
```

## V.CARACTERIZANDO A LOS CLUSTERS

Consiste en analizar los centros de gravedad de cada grupo (promedios)

```{r cbind_clust}
datos.j <- cbind(datosc,clusters1)
datos.j$clusters1 <- factor(datos.j$clusters1) #los clusters

```

Usamos la libreria dplyr[@dplyr] 
```{r dplyr}
#Diagrama de líneas de promedio por cluster
datos.j %>%   
  group_by(clusters1) %>%
  summarise_all(list(mean)) -> medias #promedios por grupo por cada variable
medias
#tapply(datos.j$divertid,grp,mean)

datos.j %>%  summarise_if(is.numeric,mean) %>%
  round(4) -> general #promedio general

general

general <- cbind(clusters1="general",general)
general #para tener dos resultados con los mismos campos(numero de columnas)

medias  <- as.data.frame(rbind(medias,general))
medias
```

Usamos la libreria tidyr[@dplyr] para convertir la data a formato tidy con pivot_longer(pasar de filas a columnas)
```{r pivot}
gathered_datos.j <- pivot_longer(data=medias,
                                 -clusters1,
                                 names_to="variable",
                                 values_to = "valor")
head(gathered_datos.j)
```

A continuacion finalmente la grafica de caracterizacion de los clusters:
```{r grafico_caract,fig.align='center'}
ggplot(gathered_datos.j) + aes(x=variable,y=valor,color=clusters1) + 
  geom_point() + 
  geom_line(aes(group = clusters1)) +
  theme_bw() +
  theme(legend.position = "bottom",legend.title=element_blank()) +
  labs(title="Diagrama de líneas de Cluster por Variable",
       x="Variable",y="") + ylim(0,8)+
  scale_colour_discrete("Cluster") #+ coord_flip() 
```

<div class="tocify-extend-page" data-unique="tocify-extend-page" style="height: 0:"></div>
