Analisis Multivariante: ACM y Cluster

Continuando con la base de datos “Gestión del conocimiento” ahora realizaremos un análisis de correspondencia multiple y complementaremos con el análisis de Cluster, para algunas de los pilares de Organización y Liderazgo y en el cual se hará uso del las librerias FactoMineR, factoextra y de plotly para hacer los gráficos interactivos y facilitar así la visualización de los cluster.

Análisis de Correspondencia Multiple

El análisis de correspondencias múltiples que permite describir grandes tablas binarias, donde los archivos de encuestas comúnmente socio económicas constituyen un ejemplo privilegiado: las filas de estas tablas son en general los individuos u observaciones; las columnas son las modalidades de variables nominales. Se trata en efecto de una simple extensión del dominio de aplicación del análisis de correspondencias, sin embargo con procedimientos de cálculo y reglas de interpretación específicas (Lebart et al. 1995).

Análisis de CLuster

En complemento al análisis de correspondencias múltiples presentado con anterioridad, se presenta el análisis por medio de Clúster, el cual permite clasificar una población en un número determinado de grupos, con base a semejanzas y dis- crepancias de los perfiles existentes entre los diferentes elementos de la población.

Conjunto de Datos

pilares <- km_data %>% dplyr::select(P3_1:P3_8, P5_1:P9_6, P11_1:P13_16, P22_1:P25_5)
for(j in 1:ncol(pilares)){
  pilares[,j] <- factor(pilares[,j], levels = c("Totalmente en desacuerdo",
                                                "En desacuerdo",
                                                "Ni de acuerdo ni en desacuerdo",
                                                "De acuerdo",
                                                "Totalmente de acuerdo"), ordered = T)
}; rm(j)

Análisis de correspondencias Multiples (ACM)

Variables Liderazgo

mca2<-MCA(liderazgo, graph = F) 
fviz_screeplot(mca2, addlabels = TRUE) + ggtitle("") + ylab("% varianza explicada") + xlab("Dimensiones")

Se puede considerar que, el porcentaje de varianza explicada acumulada en el primer plano factorial es de 17.4 %. Cabe resaltar que al tener variables cualitativas, se considera que el 17.4 % de varianza explicada en el primer plano, es alto; incluso se observa que el primer eje logra explicar cerca del 10 %, lo cual es representativo.

fviz_mca_var(mca2, choice = "mca.cor", repel = TRUE) + ggtitle("")

Para evidenciar la representación de las variables en el primer plano factorial, la Figura anterior, permite observar que la variable P8.4 se encuentra más cercana al primer eje, por ende puede ser la que mejor aporte tenga a la construcción de este eje. Además se evidencia que la variable P3.2 tiene el mejor aporte a la construcción de este plano factorial. Otra observación que se puede realizar es que la variable P13.3 tiene poco aporte a la construcción del primer eje y se encuentra alejada del resto de variables.

Variables Organización

mca3<-MCA(organizacion, graph = F)
fviz_screeplot(mca3, addlabels = TRUE) + ggtitle("") + ylab("% varianza explicada") + xlab("Dimensiones")

El porcentaje de varianza total explicada en el pilar Organización, la cual se observa que, el porcentaje de varianza explicada acumulada en el primer plano factorial es de 21.1 %.

fviz_mca_var(mca3, choice = "mca.cor", repel = TRUE) + ggtitle("")

Para evidenciar la representación de las variables en el primer plano factorial para el pilar de organización, se observa que la variable P13.9 se encuentra más cercana al primer eje, por ende puede ser la que mejor aporte tenga a la construcción de este.

Análisis de Cluster

Para llevar a cabo el análisis de Cluster haremos uso de la libreria Plotly, la cual nos permitirá tener una interacción con los cluster que se forman y así poder evidenciar de forma mas clara las relaciones existentes entre los individuos.

library(plotly)
# La libreria ploty permite crear gráficos interactivos que mejoran la visualización de los datos
# Se pueden exportar en distintos formatos e incluso subir en html para visualizar desde navegadores web

Cluster Liderazgo

clus2 <- HCPC(mca2, graph = F)

ggclus2 <- fviz_cluster(clus2,
                        show.clust.cent = F, 
                        palette = "Dark2",        
                        ggtheme = theme_minimal(),
                        main = ""
)
ggplotly(ggclus2)

Cluster Organización

clus3 <- HCPC(mca3, graph = F)

ggclus3 <- fviz_cluster(clus3,
                        show.clust.cent = TRUE, 
                        palette = "Dark2",        
                        ggtheme = theme_minimal(),
                        main = ""
)
ggplotly(ggclus3)

Haciendo uso de los cluster en combinación con la libreria plotly es posible observar el comportamiento de los individuos y su ubicación en el plano, lo cual puede resultar tremendamente útil para cualquier estudio vinculado, por ejemplo, al análisis espacial y geoestadístico de variables ambientales, a estudios de distribución de especies, a estudios demográficos.

Esto es debido a la capacidad de análisis inicial de datos que aporta, la posibilidad de filtrar y seleccionar dinámicamente parte del conjunto de datos, así como lógicamente por la facilidad de visualización de gráficos.