Presentación
El Análisis de Correspondencias Múltiple (o
Multiple Correspondence Analysis [MCA]) es una
extensión del análisis simple de correspondencias, y permite reducir y
visualizar una tabla de contingencia que contenga más de dos variables
categóricas. Esta técnica también puede ser vista como una
generalización del Análisis de Componentes Principales, sin
embargo aquí se caracteriza porque las variables a analizar son
categóricas, en lugar de cuantitativas.
El MCA generalmente se usa para analizar a un
conjunto de datos provenientes de encuestas, y la meta de su uso es:
- Identificar a grupos de individuos con perfiles similares en sus
respuestas en las categorías de variables medidas.
- Evaluar las asociaciones existentes entre las categorías (o
atributos) de las variables categóricas.
Esta técnica se apoya, en gran medida, en métodos visuales para el
análisis de los resultados.
En esta presentación se realiza una introducción a la inplementación
de la técnica MCA para calcular y visualizar sus
resultados en R, para ello se utilizará la librería
FactoMineR() al momento de analizar los datos y, además, la
librería factoextra() para la visualización de los
resultados.
Además se busca presentar una manera para identificar a las variables
más relevantes en el conjunto de datos, y que tienen mayor contribución
en la explicación de las variaciones dentro de los datos. Y se muestra
la manera para predecir los resultados para individuos y variables
suplementarias. También se presenta la manera para filtrar los
resultados del análisis MCA con el fin de mantener solo
a las variables con mayor contribución.
Preparación del
ambiente.
Antes de comenzar, es recomendable ajustar la configuración de
R al ambiente de trabajo.
Idioma.
En un primer momento se recomienda cambiar el idioma en que
R lee la información, esto con el fin de ajustarla al
idioma español. De esta manera se podrán detectar los caracteres del
idioma, como los acentos o tíldes. Para hacerlo, se usa el comando
Sys.setlocale().
Sys.setlocale("LC_ALL", "en_US.UTF-8")
## [1] "en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8"
Librerías.
Otro elemento que se recomienda ajustar en un inicio consiste en la
instalación y carga de las librerías. Para el análisis de
MCA se utilizarán dos paqueterías especiales, una es
FactoMineR()y la otra es factoextra(), y esta
última se apoya en la librería ggplot(). En caso de no
haberlas instalado previamente, esto se puede hacer con el siguiente
comando.
install.packages(c("FactoMineR", "factoextra", "tidyverse", "naniar", "corrplot"))
Y una vez que han sido instaladas, se deben activar con el comando
library().
library(easypackages)
paquetes <- c("FactoMineR", "tidyverse", "factoextra", "haven", "naniar", "corrplot")
libraries(paquetes)
## Loading required package: FactoMineR
## Loading required package: tidyverse
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.1 ──
## ✓ ggplot2 3.3.5 ✓ purrr 0.3.4
## ✓ tibble 3.1.6 ✓ dplyr 1.0.8
## ✓ tidyr 1.2.0 ✓ stringr 1.4.0
## ✓ readr 2.1.2 ✓ forcats 0.5.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
## Loading required package: factoextra
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
## Loading required package: haven
## Loading required package: naniar
## Loading required package: corrplot
## corrplot 0.92 loaded
## All packages loaded successfully
Carga de los
datos
A continuación es recomendable cargar los datos en
R, para lo que se utiliza el data.frame de
la ola 2020 de la encuesta de Latinobarómetro. En la página de
dicha organización se encuentran disponibles las bases de datos, y
también es importante revisar el libro de
códigos, que permite identificar las codificaciones de los ítems y
los valores de respuesta posibles o atributos.
load("~/Dropbox/R/Latinobarometro_2020_Esp_Rdata_v1_0.rdata")
datos_lb <- Latinobarometro_2020_Esp
Preparación de los
datos y su descripción
En un primer momento es importante crear una sub sección de la
muestra, en la que se encuentren solo las variables de interés. A
partir de la encuesta de Latinobarómetro para la ola 2020 se
seleccionaron 10 variables, y donde “(\(k
=\))” se refiere a la cantidad de opciones de respuesta,
atributos o categorías posibles. Aquí se puede ver que todas estas
variables son de corte categórico.
- p1st - Satisfacción con la vida (k = 4).
- p4stgbs - Situación económica actual (k = 4).
- p10stgbs - Apoyo a la democracia (k = 3).
- P11STGBS_A - Satisfacción con la vida (k = 4).
- p13st_e - Confianza en el gobierno (k = 4).
- p17stgbs - Aprobación de la gestión del gobierno del presidente (k =
2).
- p18st - Escala Izquierda - Derecha (0, 10).
- p30st_a - Opinión sobre Estado Unidos de América (k = 4).
- p46stgbs - Interés en la política (k = 4).
- P51STGBS_B - Votó al partido del gobierno o de la oposición (k =
2).
Aquí se realizó la selección de las columnas o variables de interés
y, además, se cambió el nombre de dichas columnas. Se alcanza a observar
que existen valores negativos, mientras que existen otros valores muy
grandes (por ejemplo el valor “97” en la variable de auto ubicación
ideológica), que se pueden tratar como valores perdidos. Por ello se le
debe señalar como tal al conjunto de datos, para lo que se usa la
librería naniar().
na_strings <- c(0, 8, 9, -1, -2, -3, -4, -5, 97, 98, 99)
sub_datos <- datos_lb %>%
select(p1st, p4stgbs, p10stgbs, P11STGBS.A, p13st.e, p17stgbs, p18st, p30st.a, p46stgbs, P51STGBS.B) %>%
rename(satisf_vida = p1st,
sit_ec = p4stgbs,
apoyo_dem = p10stgbs,
satisf_dem = P11STGBS.A,
conf_gob = p13st.e,
aprob_gob = p17stgbs,
ubic_ideol = p18st,
op_eua = p30st.a,
int_pol = p46stgbs,
voto_gob = P51STGBS.B) %>%
naniar::replace_with_na_all(condition = ~.x %in% na_strings)
Ahora se solicita una revisión a la estructura de las variables de
interés, para ello se usa el comando str().
str(sub_datos)
## tibble [20,204 × 10] (S3: tbl_df/tbl/data.frame)
## $ satisf_vida: int [1:20204] 1 4 1 1 2 2 3 4 1 1 ...
## $ sit_ec : int [1:20204] 5 5 5 5 4 3 5 4 5 5 ...
## $ apoyo_dem : int [1:20204] 3 1 2 2 1 1 1 2 2 2 ...
## $ satisf_dem : int [1:20204] 4 4 4 4 3 2 3 3 3 4 ...
## $ conf_gob : int [1:20204] 4 4 1 4 2 3 4 3 4 4 ...
## $ aprob_gob : int [1:20204] 2 2 1 2 NA 1 2 2 2 2 ...
## $ ubic_ideol : int [1:20204] 5 5 5 10 NA NA NA 5 5 7 ...
## $ op_eua : int [1:20204] 2 1 2 1 2 2 2 3 4 1 ...
## $ int_pol : int [1:20204] 4 1 2 4 2 4 3 3 1 2 ...
## $ voto_gob : int [1:20204] NA 1 NA 2 2 NA NA NA NA 1 ...
Dicho resumen permite identificar que las variables fueron detectadas
por R del tipo integer (enteros), pero es
necesario transformarlas a otro formato tipo factor para
incluirlas en el análisis MCA. Para ello se utiliza el
comando factor().
sub_datos $ satisf_vida <- factor(sub_datos $ satisf_vida)
sub_datos $ sit_ec <- factor(sub_datos $ sit_ec)
sub_datos $ apoyo_dem <- factor(sub_datos $ apoyo_dem)
sub_datos $ satisf_dem <- factor(sub_datos $ satisf_dem)
sub_datos $ conf_gob <- factor(sub_datos $ conf_gob)
sub_datos $ aprob_gob <- factor(sub_datos $ aprob_gob)
sub_datos $ ubic_ideol <- factor(sub_datos $ ubic_ideol)
sub_datos $ op_eua <- factor(sub_datos $ op_eua)
sub_datos $ int_pol <- factor(sub_datos $ int_pol)
sub_datos $ voto_gob <- factor(sub_datos $ voto_gob)
Ahora se puede solicitar una revisión gráfica de la distribución de
las variables de interés, para ello se se utilizará el comando
for(), que permite repetir un mismo comando en varias
situaciones.
sub_datos <- na.omit(sub_datos)
for (i in 1:10){
plot(sub_datos[,i], main = colnames(sub_datos)[i],
ylab = "Cantidad", col ="steelblue", las = 2)
}










A partir de estas gráficas se debe identificar cuáles son las
opciones de respuesta o atributos que registraron una frecuencia muy
baja pues pueden distorsionar el análisis posterior y, por tanto, deben
ser removidas. En este ejercicio se decidió mantener todas las variables
y sus categorías.
Análisis inicial de
MCA
A continuación se inicia el análisis de MCA en
R, para lo que se usará inicialmente el comando
MCA(), que es parte de la librería
FactoMiner().
Su estructura es:
MCA(X, ncp = , graph = TRUE)
Los argumentos consisten en:
- X: un data frame con n filas (individuos) y p
columnas (variables categóricas).
- ncp: número de dimensiones a guardar en los resultados finales.
- graph: a partir de un valor lógico (
TRUE,
FALSE) se indica si se desea generar la gráfica
correspondiente.
En el código que está debajo, el análisis MCA se
realizará solo sobre los individuos y variables activas o de interés,
ubicadas en el data frame sub_datos.
mca_lb <- MCA(sub_datos, graph = FALSE)
El resultado generado se ha guardado en un objeto denominado
mca_lb, y que consiste en una lista que contiene
información diversa, correspondiente tanto a listas y matrices. Y para
darle un vistazo a su contenido se usa el comando
print().
print(mca_lb)
## **Results of the Multiple Correspondence Analysis (MCA)**
## The analysis was performed on 4569 individuals, described by 10 variables
## *The results are available in the following objects:
##
## name description
## 1 "$eig" "eigenvalues"
## 2 "$var" "results for the variables"
## 3 "$var$coord" "coord. of the categories"
## 4 "$var$cos2" "cos2 for the categories"
## 5 "$var$contrib" "contributions of the categories"
## 6 "$var$v.test" "v-test for the categories"
## 7 "$ind" "results for the individuals"
## 8 "$ind$coord" "coord. for the individuals"
## 9 "$ind$cos2" "cos2 for the individuals"
## 10 "$ind$contrib" "contributions of the individuals"
## 11 "$call" "intermediate results"
## 12 "$call$marge.col" "weights of columns"
## 13 "$call$marge.li" "weights of rows"
Visualización e
interpretación inicial del análisis MCA
Una de las características centrales de la técnica
MCA consiste en el apoyo de métodos visuales para la
interpretación de los resultados de los análisis. A continuación se usa
la librería factoextra(), que a su vez se apoya el la
librería ggplot2(), para generar las gráficas iniciales y,
así, avanzar en su interpretación.
Dicha librería contiene diversas funciones que trabajan sobre el
objeto resultante del análisis inicial de MCA, que se
irán revisando a continuación y que son:
get_eigenvalue(): extrae los eigenvalores o varianzas
retenidas por cada dimension o eje.
fviz_eig(): permite visualizar a los eigenvalores o
varianzas.
get_mca_ind(), get_mca_var(): extrae los
resultados tanto para individuos como para variables,
respectivamente.
fviz_mca_ind(), fviz_mca_var(): Permite
visualizar los resultados tanto para individuos o para variables,
respectivamente.
fviz_mca_biplot(): permite generar un biplot
combinando filas y columnas.
Eigenvalores /
varianzas
Siguiendo la lógica del análisis que existe en el Análisis de
Componentes Principales, que permite “reducir” las dimensiones
de un data frame a partir de generar nuevos ejes o componentes que
sirven a manera de “resumen” de las variables cuantitativas originales,
en el análisis MCA también es posible construir dichos
componentes o ejes a partir de variables categóricas.
Una vez que se generan los nuevos componentes, es importante
identificar la capacidad explicativa del total de los casos que cada una
proporciona. Para ello es importante revisar la proporción de varianzas
que “retiene” cada una de estas dimensiones o ejes. Y puede ser extraído
a partir de la función get_eigenvalue() de la siguiente
manera:
eig_val <- factoextra::get_eigenvalue(mca_lb)
head(eig_val)
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 0.2604405 8.681350 8.68135
## Dim.2 0.1719728 5.732428 14.41378
## Dim.3 0.1345808 4.486025 18.89980
## Dim.4 0.1240564 4.135215 23.03502
## Dim.5 0.1120294 3.734312 26.76933
## Dim.6 0.1106592 3.688641 30.45797
En la tabla anterior se muestran del lado de las columnas los
componentes o ejes nuevos, resultados del análisis MCA,
mientras que en la primer columna se muestran los eigenvalores o el
tamaño de las varianzas que explica cada uno, mientras que en la segunda
columna se muestra el porcentaje de la varianza total que es explicado
por cada eje o dimensión. En la tercer columna se muestra el porcentaje
de varianza acumulado.
También es posible visualizar los porcentajes de inercia explicados
por cada dimensión MCA, a partir de usar el comando
fviz_screeplot(), con el que se puede crear un “scree
plot.”
fviz_screeplot(mca_lb, addlabels = TRUE)
Una de las características propias del MCA radica en
que los componentes, dimensiones o factores creados no necesariamente
suelen explicar porcentajes amplios de varianzas totales. (Díaz Monroy & Morales Rivera, 2009)
Biplot o gráfica de
individuos y variables
Uno de los resultados más importantes del análisis
MCA consiste en la creación de un “biplot”,
mediante el que se puede graficar una nube de puntos fila (\(n\) puntos) y una nube de puntos columna
(\(p\) puntos), donde la primera se
corresponde a los individuos o casos, mientras que la segunda se refiere
a las variables contenidas en la matriz de datos.
A partir de esta graficación, el MCA “pone en evidencia
a los individuos con perfiles semejantes respecto a los atributos
seleccionados para su descripción.” (Díaz Monroy
& Morales Rivera, 2009, p. 123)
Para crear dicho “biplot” se utiliza el comando
fviz_mca_biplot(), que es parte de la paquetería
factoextra, y que se apoya en la paquetería
ggplot2, de la siguiente manera:
fviz_mca_biplot(mca_lb, # resultados del análisis MCA
repel = TRUE, # evitar la superposición de etiquetas en la gráfica
alpha.ind = 0.1, # nivel de transparencia de los puntos filas o casos
alpha.var = 1, # nivel de transparencia de los puntos columa o variables
max.overlaps = "ggrepel.max.overlaps",
ggtheme = theme_minimal()) # plantilla de estilo para la gráfica
## Warning: ggrepel: 4543 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
## Warning: ggrepel: 9 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
La gráfica muestra el patrón global de distribución de las
proyecciones tanto de los casos o individuos, así como de las variables
sobre cada uno de los ejes o dimensiones creadas. Los casos se
representan a partir de los puntos azules mientras que las variables lo
hacen a partir de los triángulos en color rojo.
A partir de esta representación gráfica se muestra la asociación
entre variables categóricas, tanto entre sí como con respecto a los
individuos.
La distancia entre cada punto correspondiente tanto a los individuos
como entre las columnas ofrece una forma de medición de su similaridad,
puesto que “la cercanía entre individuos en términos de semejanzas; es
decir, dos individuos son semejantes si han seleccionado globalmente las
mismas modalidades. La proximidad entre modalidades de variables
diferentes en términos de asociación, (…) y son próximas porque están
ligadas a los mismos individuos o individuos parecidos.” (Díaz Monroy & Morales Rivera, 2009, p.
123)
Descripción de las
dimensiones
Finalmente, en este análisis general de las correspondencias entre
individuos y categorías de variables en la construcción de las
dimensiones o ejes de resúmenes, también es posible identificar los
niveles de correlación de las variables y sus categorías con cada una de
las dimensiones. Esto ofrece información para identificar cuáles son las
columnas que ejercen mayor influencia sobre cada dimensión.
Para realizar este análisis de correlaciones se utiliza el comando
dimdes(), que es parte de la librería
FactoMineR.
res.desc <- dimdesc(mca_lb, #objeto tipo lista que contiene los resultados mca
axes = c(1,2) #definición de los ejes o dimensiones a describir
)
Con esto se crea un objeto tipo “lista” que contiene los valores de
correlación de las variables con las dimensiones solicitadas.
Posteriormente se deben extraer los valores de correlación, que serán
presentados en dos tablas para cada dimensión: una sobre la cualidad de
cada variable medida con el coeficiente de determinación (\(R^2\)) y su p-value asociado, y
otra que contiene a los valores estimados (correlación) para cada
categoría de las variables y el p-value para cada una de
ellas.
En el caso de la dimensión 1, se manda a llamar:
res.desc[[1]]
## $quali
## R2 p.value
## sit_ec 0.38118727 0.000000e+00
## satisf_dem 0.46849238 0.000000e+00
## conf_gob 0.65039668 0.000000e+00
## aprob_gob 0.54081986 0.000000e+00
## voto_gob 0.28808048 0.000000e+00
## satisf_vida 0.10826011 4.660485e-113
## ubic_ideol 0.06887687 1.980071e-66
## int_pol 0.05363284 2.846381e-54
## apoyo_dem 0.02393120 9.634473e-25
## op_eua 0.02072738 1.354963e-20
##
## $category
## Estimate p.value
## voto_gob=voto_gob_1 0.27434643 0.000000e+00
## aprob_gob=aprob_gob_1 0.37555269 0.000000e+00
## conf_gob=conf_gob_1 0.57259837 0.000000e+00
## satisf_dem=satisf_dem_1 0.48698454 2.761658e-235
## sit_ec=sit_ec_2 0.36623410 1.890249e-130
## satisf_dem=satisf_dem_2 0.22843939 5.317884e-107
## conf_gob=conf_gob_2 0.18932148 7.630936e-90
## sit_ec=sit_ec_3 0.02205284 7.077740e-77
## ubic_ideol=ubic_ideol_10 0.25773310 7.839772e-57
## satisf_vida=satisf_vida_1 0.29801304 2.280847e-56
## sit_ec=sit_ec_1 0.60520781 9.148929e-33
## int_pol=int_pol_1 0.17344150 6.331255e-30
## op_eua=op_eua_1 0.13552945 2.391722e-21
## apoyo_dem=apoyo_dem_1 0.08751211 1.532464e-20
## int_pol=int_pol_2 0.05496477 1.660624e-08
## ubic_ideol=ubic_ideol_7 0.08149846 3.544679e-03
## ubic_ideol=ubic_ideol_6 0.05928721 4.782715e-02
## op_eua=op_eua_4 -0.05170498 6.392488e-03
## op_eua=op_eua_2 -0.01883665 3.441081e-03
## int_pol=int_pol_3 -0.05437042 3.315859e-04
## ubic_ideol=ubic_ideol_2 -0.09358216 2.296164e-04
## op_eua=op_eua_3 -0.06498781 2.171486e-05
## ubic_ideol=ubic_ideol_4 -0.11830899 1.054518e-08
## ubic_ideol=ubic_ideol_3 -0.12939886 3.017020e-09
## ubic_ideol=ubic_ideol_5 -0.06135462 2.994714e-11
## conf_gob=conf_gob_3 -0.18171147 4.179583e-13
## apoyo_dem=apoyo_dem_3 -0.10427555 1.914078e-23
## satisf_dem=satisf_dem_3 -0.17367458 4.415512e-24
## int_pol=int_pol_4 -0.17403585 4.120979e-33
## satisf_vida=satisf_vida_3 -0.06634578 1.277449e-42
## satisf_vida=satisf_vida_4 -0.38778239 8.294719e-47
## sit_ec=sit_ec_4 -0.35009380 8.780552e-71
## sit_ec=sit_ec_5 -0.64340095 5.595353e-202
## satisf_dem=satisf_dem_4 -0.54174935 3.140675e-301
## voto_gob=voto_gob_2 -0.27434643 0.000000e+00
## aprob_gob=aprob_gob_2 -0.37555269 0.000000e+00
## conf_gob=conf_gob_4 -0.58020838 0.000000e+00
##
## attr(,"class")
## [1] "condes" "list"
En el caso de la dimensión 2, se manda a llamar:
res.desc[[2]]
## $quali
## R2 p.value
## satisf_dem 0.357510887 0.000000e+00
## conf_gob 0.384634097 0.000000e+00
## sit_ec 0.267607312 1.356225e-306
## ubic_ideol 0.210169198 3.228358e-228
## op_eua 0.182343956 6.384333e-199
## int_pol 0.164729569 8.146514e-178
## satisf_vida 0.147234995 2.718464e-157
## apoyo_dem 0.003824751 1.586756e-04
## aprob_gob 0.001212510 1.858353e-02
##
## $category
## Estimate p.value
## ubic_ideol=ubic_ideol_10 0.39020193 3.503201e-207
## satisf_dem=satisf_dem_4 0.23723223 7.082440e-188
## sit_ec=sit_ec_5 0.17527232 6.722647e-183
## op_eua=op_eua_1 0.26204657 4.981141e-164
## conf_gob=conf_gob_4 0.20858526 2.406257e-147
## conf_gob=conf_gob_1 0.30842301 2.040961e-138
## int_pol=int_pol_1 0.27275791 1.566249e-123
## satisf_vida=satisf_vida_4 0.52761756 7.853448e-110
## satisf_dem=satisf_dem_1 0.24715324 3.059079e-103
## sit_ec=sit_ec_1 0.63461294 1.084927e-67
## int_pol=int_pol_4 0.05435147 2.320050e-17
## op_eua=op_eua_4 0.07123437 2.501772e-10
## ubic_ideol=ubic_ideol_1 0.12778480 1.315656e-05
## apoyo_dem=apoyo_dem_1 0.03534108 2.927877e-05
## aprob_gob=aprob_gob_2 0.01444984 1.858353e-02
## aprob_gob=aprob_gob_1 -0.01444984 1.858353e-02
## apoyo_dem=apoyo_dem_2 -0.01955743 1.611219e-02
## apoyo_dem=apoyo_dem_3 -0.01578365 5.790567e-03
## ubic_ideol=ubic_ideol_2 -0.06555783 3.700282e-04
## ubic_ideol=ubic_ideol_3 -0.05354732 2.726278e-04
## sit_ec=sit_ec_2 -0.15468780 3.066286e-05
## sit_ec=sit_ec_4 -0.28735903 2.392387e-09
## satisf_vida=satisf_vida_3 -0.23935581 1.418354e-15
## ubic_ideol=ubic_ideol_6 -0.14665678 1.662106e-16
## satisf_dem=satisf_dem_2 -0.18264629 2.163448e-23
## ubic_ideol=ubic_ideol_5 -0.07206835 8.521778e-24
## ubic_ideol=ubic_ideol_4 -0.17168749 7.344219e-25
## int_pol=int_pol_2 -0.14140751 2.153093e-25
## satisf_vida=satisf_vida_1 -0.05396750 9.753558e-27
## op_eua=op_eua_3 -0.18825617 1.263517e-31
## satisf_vida=satisf_vida_2 -0.23429425 4.033288e-38
## int_pol=int_pol_3 -0.18570187 3.148398e-62
## op_eua=op_eua_2 -0.14502476 6.668086e-69
## conf_gob=conf_gob_2 -0.22701914 5.459266e-71
## sit_ec=sit_ec_3 -0.36783844 1.102299e-106
## conf_gob=conf_gob_3 -0.28998914 4.305739e-211
## satisf_dem=satisf_dem_3 -0.30173919 3.285517e-240
##
## attr(,"class")
## [1] "condes" "list"
Análisis sobre las
variables (columnas)
Al avanzar en el análisis de los resultados del MCA,
también es posible realizar la revisión de los resultados de manera
separada, ya sea que se revise, por un lado, el comportamiento de las
variables y, por el otro, de los casos o individuos.
A continuación se realiza el análisis por la revisión del
comportamiento de las variables o columnas del
data.frame(). En un primer momento se utiliza el comando
get_mca_var(), que permite extraer los resultados para las
categorías de las variables activas.
Esta función arroja una lista que contiene a las coordinadas de las
categorías de las variables para cada uno de los factores o dimensiones,
así como los valores de los cosenos elevados al cuadrado y la
contribución de las categorías sobre los factores o dimensiones.
variables <- get_mca_var(mca_lb)
variables
## Multiple Correspondence Analysis Results for variables
## ===================================================
## Name Description
## 1 "$coord" "Coordinates for categories"
## 2 "$cos2" "Cos2 for categories"
## 3 "$contrib" "contributions of categories"
Y también se puede acceder a los valores para cada uno de los
elementos de dicha lista, para lo que se muestra un vistazo a
continuación:
# Coordenadas
head(variables $ coord)
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## satisf_vida_1 0.29350235 0.2000625 -0.2755095 0.04215260 -0.46352340
## satisf_vida_2 0.01545312 -0.2347782 0.3099832 -0.30933013 0.20854056
## satisf_vida_3 -0.42045952 -0.2469837 -0.1282730 0.58143976 0.25693976
## satisf_vida_4 -1.05031523 1.6024993 0.1810480 -0.04968407 1.23313254
## sit_ec_1 1.43493665 2.0743641 -0.9203537 0.62333963 -2.29248464
## sit_ec_2 0.96666716 0.1710408 0.4497631 -0.40042970 0.01515545
# cosenos cuadrados: calidad en el mapa de factores
head(variables $ cos2)
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## satisf_vida_1 0.0533284632 0.024778059 0.046990403 1.099980e-03 0.1330084471
## satisf_vida_2 0.0001552323 0.035831523 0.062463421 6.220052e-02 0.0282703141
## satisf_vida_3 0.0401722082 0.013861619 0.003738936 7.682221e-02 0.0150016824
## satisf_vida_4 0.0441967965 0.102883842 0.001313224 9.889763e-05 0.0609215547
## sit_ec_1 0.0306432459 0.064038227 0.012606044 5.782542e-03 0.0782135826
## sit_ec_2 0.1213115322 0.003797933 0.026261276 2.081616e-02 0.0000298185
# Contribución en los factores o dimensiones
head(variables $ contrib)
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## satisf_vida_1 1.26469671 0.8899042 2.15656242 0.054764752 7.33302638
## satisf_vida_2 0.00361223 1.2627204 2.81283703 3.038620390 1.52932787
## satisf_vida_3 1.25686621 0.6567892 0.22637939 5.045907848 1.09113885
## satisf_vida_4 1.63163234 5.7521123 0.09382011 0.007664901 5.22852509
## sit_ec_1 1.15933933 3.6691357 0.92295423 0.459286604 6.87914850
## sit_ec_2 4.12271720 0.1954688 1.72712125 1.485153535 0.00235583
Correlaciones entre
variables y los factores creados
A partir de los resultados del análisis MCA se puede
evaluar gráficamente la asociación existente entre cada una de las
variables con respecto a las dimensiones o factores. Para ello se
utiliza fviz_mca_var(), dentro del que se utiliza el
argumento choice = "mca.cor", de la siguiente manera:
fviz_mca_var(mca_lb, # objeto lista de resultados mca
choice = "mca.cor", # tipo de análisis solicitado: correlaciones
repel = TRUE, # evitar la superposición de etiquetas
ggtheme = theme_minimal()
)
La gráfica permite identificar las variables que está más
correlacionadas con cada una de las dimensiones o factores creados. Las
coordenadas o distancias calculadas corresponden al valor de las
correlaciones cuadráticas entre las variables y las dimensiones.
En la gráfica se puede observar que las variables
voto_gob y aprob_gob son las más
correlacionadas con la dimensión 1, mientras que op_eua y
ubic_ideol están más asociadas con la dimensión 2.
Coordenadas para las
categorías de las variables activas
Si bien la gráfica anterior muestra la correlación de cada una de las
variables con respecto a las dimensiones, allí no se puede distinguir la
presencia de las categorías de respuestas en el mismo plano
cartesiano.
Para ello, es importante trabajar con el valor de las coordenadas de
cada categoría, que se calculó anteriormente, y que se puede revisar con
el comando (variable $ coord). A partir del comando
fviz_mca_var() se puede realizar dicha revisión gráfica
para evaluar visualmente la asociación entre cada categoría y las
dimensiones o factores creados.
fviz_mca_var(mca_lb, #objeto lista con resultados mca
repel = TRUE, # evitar el traslape de etiquetas
ggtheme = theme_minimal(),
max.overlaps = "ggrepel.max.overlaps"
)
## Warning: ggrepel: 6 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
Al gráfico anterior se le pueden realizar algunas modificaciones,
como cambiarle el color y las formas para representar a las categorías,
para ello se usan los argumentos col.var= y
shape.var= dentro del comando
fviz_mca_var().
fviz_mca_var(mca_lb, #objeto lista con resultados mca
repel = TRUE, # evitar el traslape de etiquetas
ggtheme = theme_minimal(),
max.overlaps = "ggrepel.max.overlaps", #ampliar el solapamiento donde ocurra
col.var="black", # cambiar el color a las variables
shape.var = 15 # cambiar la forma de representación de variables
)
## Warning: ggrepel: 6 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
La gráfica muestra las relaciones entre categorías de las variables,
con ajustes en las formas y color de representación de las
variables.
Dicha gráfica se puede interpretar de la siguiente manera:
- Las categorías con perfiles semejantes muestran agrupadas o cercanas
entre sí.
- Las variables que estén correlacionadas de manera negativa entre sí
estarán posicionadas en polos opuestos respecto al origen de la gráfica
(cuadrantes opuestos).
- La distancia que exista entre cada punto correspondiente a una
categoría y el origen, define la cualidad de la categoría en el mapa
Biplot. Los puntos de categorías que se encuentren alejados del
punto de origen tienden a estar mejor representadas en la gráfica.
Calidad de la
representación de las categorías
En la gráfica biplot creada a partir de los dos primeros
factores o dimensiones, se identificó que el primero explica 8.1% de la
varianza, mientras que el segundo explica 5.3%. Entre ambos abarcan solo
el 13.4% del comportamiento de los datos activos incluidos en el
análisis.
Debido a que los factores o dimensiones creadas tienden a representar
bajos niveles de varianza de la matriz de datos, puede ocurrir que no
todos los puntos estén igualmente proyectados en la gráfica
biplot
Ante esta situación, es importante revisar la calidad de la
representación de los puntos en la gráfica, para lo que es útil la
medida de los cosenos cuadráticos (cos^2), la que mide el grado de
asociación entre las categorías de cada variable y un eje o dimensión en
particular.
El coseno cuadrático (cos2) de cada categoría se puede extraer de la
siguiente manera:
head(round(variables $ cos2, 3), 5)
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## satisf_vida_1 0.053 0.025 0.047 0.001 0.133
## satisf_vida_2 0.000 0.036 0.062 0.062 0.028
## satisf_vida_3 0.040 0.014 0.004 0.077 0.015
## satisf_vida_4 0.044 0.103 0.001 0.000 0.061
## sit_ec_1 0.031 0.064 0.013 0.006 0.078
Si la categoría de una variable está bien representada por ambas
dimensiones o factores, la suma de los cosenos cuadráticos tendrá un
valor cercano a 1. Para algunos casos en las filas, se necesitarán más
de dos dimensiones para representar perfectamente a los datos.
La manera de revisar la distribución de los valores de la calidad de
representación de las categorías es mediante una gráfica de barras a
partir de la variable $cos2 dentro del comando
fviz_cos2().
fviz_cos2(mca_lb, #objeto tipo lista con resultados mca
choice = "var", # selección de las varianzas
axes = 1:2) # ejes o dimensiones considerar en la gráfica

A partir de esta gráfica se puede identificar que las primeras cinco
categorías con mayores valores son las que están mejor representadas en
la gráfica de dispersión, estas se ubican dentro de las variables de
“aprobación del gobierno en turno” y “confianza en el gobierno en
turno”, mientras que las que están por debajo del valor de 0.2 no
necesariamente cuentan con proyecciones adecuadas en la gráfica generada
a partir solo de las dimensiones 1 y 2. Por ello, la interpretación de
estas últimas categorías se debe realizar con cuidado (tal vez sea
necesaria una solución que incluya a una mayor cantidad de
dimensiones).
Una manera adicional de representar la calidad de las categorías en
el gráfico biplot es a partir de ajustar los colores para cada
punto proyectado, y tomando como criterio el valor del coseno cuadrático
(cos2). Para modificar el color de los puntos se utiliza el argumento
col.var=, con el que se producen colores en gradientes, que
se pueden ajustar a partir del argumento gradient.cols=.
Por ejemplo, si se ajustra `gradient.cols = c(“white”, “blue”, red”),
esto se traduce en:
- categorías con bajo valor de coseno cuadrático se colorearán en
blanco (“white”).
- categorías con valores medios de coseno cuadrático se colorearán en
azul (“blue”).
- categorías con valores alto de coseño cuadrático se colorearán en
“rojo” (“red”).
De manera que:
fviz_mca_var(mca_lb, #objeto tipo lista con resultados mca
col.var = "cos2", #definición de los colores a partir del valor cos2
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), #definición de la paleta de colores
repel = TRUE, # evitar solapamientos de etiquetas,
max.overlaps = "ggrepel.max.overlaps", #aumentar el tamaño de solapamientos
ggtheme = theme_minimal()
)
## Warning: ggrepel: 10 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
Adicionalmente, también es posible cambiar la intensidad de la
transparencia de las categorías de variables según el criterio de los
valores de la calidad de representación (cos2) mediante el argumento
alpha.var =, de la siguiente manera:
fviz_mca_var(mca_lb,
alpha.var="cos2",
repel = TRUE,
max.overlaps = "ggrepel.max.overlaps",
ggtheme = theme_minimal()
)
## Warning: ggrepel: 10 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
Contribución de las
categorías sobre las dimensiones creadas
Finalmente, es importante identificar cuáles son las categorías (no
solo las variables en sí mismas) que ejercen mayor influencia sobre el
comportamiento de las dimensiones o factores creados. Para ello es
importante revisar la contribución porcentual de cada categoría en la
definición de los ejes recuperados para el análisis.
Una manera inicial para revisar el porcentaje de contribución de cada
categoría sobre cada dimensión se logra mandando a llamar una tabla con
los valores porcentuales de cada categoría mediante el argumento
$contrib
head(round(variables $ contrib, 2))
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## satisf_vida_1 1.26 0.89 2.16 0.05 7.33
## satisf_vida_2 0.00 1.26 2.81 3.04 1.53
## satisf_vida_3 1.26 0.66 0.23 5.05 1.09
## satisf_vida_4 1.63 5.75 0.09 0.01 5.23
## sit_ec_1 1.16 3.67 0.92 0.46 6.88
## sit_ec_2 4.12 0.20 1.73 1.49 0.00
En dicha tabla se observan en el lado de las filas a cada una de las
categorías activas incluidas en el análisis, mientras que en las
columnas se ubican cada una de las dimensiones creadas.
Las categorías que más contribuyen a cada dimensión se corresponden
con aquellas que registran mayores valores porcentuales. Las categorías
que contribuyen en mayor medida sobre las dimensiones 1 y 2 son las que,
a su vez, tienen mayor influencia al explicar la variabilidad de la
matriz de datos.
Gráficamente se puede representar la contribución de cada categoría
sobre cada dimensión mediante el uso del comando
fviz_contrib(), con la que se crea una gráfica de
barras.
# Contribución de las categorías a la dimensión 1.
fviz_contrib(mca_lb, #objeto tipo lista con resultados mca
choice = "var", #criterio a representar: varianza
axes = 1, # selección del eje o dimensión a analizar = eje 1
top = 15) # selección de las 15 categorías con mayor contribuión
# Contribución de las categorías a la dimensión 2.
fviz_contrib(mca_lb, #objeto tipo lista con resultados mca
choice = "var", #criterio a representar: varianza
axes = 2, # selección del eje o dimensión a analizar = eje 2
top = 15) # selección de las 15 categorías con mayor contribución
En estas gráficas se incluyó una línea roja punteada, la que
representa el valor promedio esperado en dado caso que las
contribuciones de todas las categorías fueran uniformes. De manera que
aquellas que están por encima de dicha recta, se interpreta que tienen
una contribución importante mientras que las que están por debajo se
consideran con poca influencia sobre las dimensiones o factores.
A partir de las gráficas previas se puede establecer lo
siguiente:
- Se identificaron 11 categorías que tienen mayor contribución que el
resto sobre la definición de la dimensión 1, especialmente las
categorías 1 y 4 de la variable “confianza en el gobierno”, las
categorías 2 y 1 de la variable “aprobación del gobierno”, las
categorías 4 y 1 de la variable “satisfacción con la democracia”, la
categoría 2 de la variable “votó por el gobierno” y la categoría 5 de la
variable “percepción de la situación de la economía”.
- La cantidad de categorías que contribuyen a la dimensión 2 por
arriba del promedio esperado es mayor que en la primer dimensión. Y las
5 categorías que más influyen son la categoría 3 de la variable
“satisfacción con la democracia”, la categoría 3 de la variable
“confianza en el gobierno”, la categoría 5 de la variable “situación de
la economía”, la categoría 1 de la variable “interés en la política” y
la categoría 1 de la variable “confianza en el gobierno.”
A su vez, se puede calcular la contribución total de cada categoría a
cada una de las dimensiones de interés, que en este caso se limitan a
los ejes 1 y 2. Para ello se utiliza el mismo comando, solo se ajusta el
argumento sobre los ejes a seleccionar axes=.
# Total contribution to dimension 1 and 2
fviz_contrib(mca_lb, #objeto tipo lista con resultados mca
choice = "var", #criterio de representación = varianzas
axes = 1:2, # ejes seleccionados en la representación = ejes 1 y 2 simultáneos
top = 20) #selección de las 20 categorías con mayor contribución
En esta gráfica se identificaron 15 categorías que ejercen mayor
influencia que el promedio esperado del total de las columnas activas de
la matriz de datos. De estas:
- Las categorías 1 y 4 de la variable “confianza en el gobierno” son
las que ejercen mayor contribución.
- Existen otras cinco categorías que también son medianamente
relevantes, como lo son la categoría 4 de “satisfacción con la
democracia”, la categoría 5 de “situación de la economía”, la categoría
2 de “aprobación del gobierno”, la categoría 1 de “satisfacción con la
democracia”, y la categoría 1 de “aprobación del gobierno”.
- Se ubicaron otras ocho categorías con una influencia importante pero
de menor contribución, que van desde la categoría 2 de “votó al partido
del gobierno”, hasta la categoría 2 de “confianza en el gobierno.”
- El resto de las categorías se ubicaron por debajo del promedio
esperado, y por tanto pueden considerase poco relevantes para evaluar la
contribución de los ejes.
La contribución de las categorías puede representarse de manera
gráfica en el biplot que se ha trabajado hasta el momento, a
partir de señalarlo mediante la coloración de los puntos en la gráfica,
para lo que se usa el argumento col.var = "contrib" de la
siguiente manera:
fviz_mca_var(mca_lb, #objeto tipo lista con resultados mca
col.var = "contrib", #definir la coloración mediante la "contribución"
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), #selección de la paleta de colores
repel = TRUE, # evitar solapamiento de etiquetas
max.overlaps = "ggrepel.max.overlaps", #aumentar la cantidad de solapamientos
ggtheme = theme_minimal()
)
## Warning: ggrepel: 10 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
La gráfica permite identificar cuáles son la categorías que más están
contribuyendo en la construcción de la gráfica, así como los polos o
extremos de las dimensiones sobre las que están influyendo.
De manera que se observa que las categorías “conf_gob_1”,
“satisf_dem_1” y “aprob_gob_1” están influyendo fuertemente sobre los
valores positivos de la dimensión 1 y, en contraparte, las categorías
“conf_gob_4”, “satisf_dem_4”, “sit_ec_5” y “aprob_gob_2” lo están
haciendo sobre la parte negativa de la misma dimensión.
Por último, también es posible controlar la intensidad de la
transparencia de la proyección de cada punto correspondiente a las
categorías, a partir del criterio de los valores de su contribución
sobre las dimensiones. Para ello se utiliza el comando
alpha.var = "contrib" en el comando
fviz_mca_var().
fviz_mca_var(mca_lb, #objeto tipo lista con resultados mca
alpha.var="contrib", #control de la intensidad de la transparencia
repel = TRUE, # evitar solapamiento de etiquetas
max.overlaps = "ggrepel.max.overlaps", #aumentar la cantidad de solapamientos
ggtheme = theme_minimal()
)
## Warning: ggrepel: 10 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
Análisis sobre los
individuos
Por otro lado, también es posible realizar el análisis de
correspondencias sobre los perfiles de los individuos (filas) dentro del
MCA. Esto permite agrupar y ubicar a los individuos o
casos más semejantes entre sí, tomando en consideración sus respuestas a
las categorías seleccionadas; además, el análisis permite ubicar a los
casos o individuos que ejercen mayor influencia sobre la distribución
dentro del biplot con las dimensiones o ejes nuevos.
El comando get_mca_ind(), que es parte de la librería
factoextra(), permite extraer los resultados para los
individuos. Esta función arroja una lista en la que están contenidas las
coordenadas, los valores de los cosenos cuadráticos y las contribuciones
de cada uno de los casos o individuos (filas) de la matriz de datos.
indiv <- get_mca_ind(mca_lb)
indiv
## Multiple Correspondence Analysis Results for individuals
## ===================================================
## Name Description
## 1 "$coord" "Coordinates for the individuals"
## 2 "$cos2" "Cos2 for the individuals"
## 3 "$contrib" "contributions of the individuals"
Los resultados observados para los individuos siguen la misma lógica
de información que la que se describió arriba para las categorías de las
variables activas.
Se puede acceder a la información contenida en cada uno de los
elementos de la lista si se manda a llamar a cada elemento mediante el
signo “$”:
# coordinadas para las filas
head(indiv $ coord, 3)
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## 1 -0.6997875 1.2545334 0.1596905 -0.2323458 0.3506066
## 2 -0.6852106 1.0158574 -0.4754693 -0.3631857 -0.1149143
## 3 -0.4542715 0.6805767 -0.1955161 -0.7863946 0.2889284
# cualidad de la representación
head(indiv $ cos2, 3)
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## 1 0.10026154 0.3222303 0.005221074 0.01105278 0.025167623
## 2 0.15077195 0.3313889 0.072596784 0.04235746 0.004240533
## 3 0.05675603 0.1273899 0.010513472 0.17008341 0.022959448
# contribución de cada individuo
head(indiv $ contrib, 3)
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## 1 0.04115312 0.20030115 0.004147188 0.009524216 0.024015258
## 2 0.03945649 0.13133622 0.036765530 0.023271105 0.002579854
## 3 0.01734209 0.05894856 0.006216717 0.109103961 0.016309008
En la tabla anterior, cada fila se refiere a cada uno de los casos o
individuos activos presentes en la matriz de datos -solo se presentan a
los 3 primeros casos. Y en el resto de cada fila se identifica el valor
para el sujeto \(-i\) en cada una de
las dimensiones o ejes calculados.
Calidad de la
representación de los individuos en el análisis
MCA
A partir del comando fviz_mca_ind() es posible crear una
gráfica de dispersión para observar la distribución de las proyecciones
de cada individuo sobre el biplot con las dimensiones o ejes analizados.
Al igual que en el caso de la gráfica sobre las categorías, aquí también
es posible señalar mediante colores la calidad o la contribución de cada
individuo sobre la gráfica.
La manera de señalar la calidad de la representación de cada
individuo en el biplot es mediante el argumento
col.ind =, por ejemplo, es la siguiente:
fviz_mca_ind(mca_lb,
col.ind = "cos2", # colorear los casos a partir del criterio de valor cos^2
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE,
max.overlaps = "ggrepel.max.overlaps",
ggtheme = theme_minimal()
)
## Warning: ggrepel: 4541 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
A partir de este gráfico se observa la distribución de los individuos
activos en la matriz de datos, que se utilizaron para el análisis
MCA.
En esta representación se pueden observar que los casos con mejor
representación se ubican en colores cercanos al rojo, y se posicionan en
los extremos de la dimensión 1, y no necesariamente hay casos del mismo
color sobre la dimensión 2. Esto indica que la distribución de los casos
están mejor representados por la primera dimensión.
Por su parte, los casos con bajos niveles de cosenos cuadráticos
tenderán a ubicarse cercanos al centroide de la gráfica (coordenadas =
[0,0]), y están señalados con el color más parecido al turquesa. Esto se
puede interpretar como que las dimensiones o ejes utilizados en la
representación gráfica no son los que mejor ayudan a entender sus
comportamientos o sus perfiles, y tal vez existan otros ejes (que habría
que explorar) que mejor se ajusten a su distribución.
Contribución de los
casos al análisis MCA
En caso de querer identificar la contribución de cada caso o
individuo (fila) sobre la construcción de las dimensiones o ejes
calculados, es posible realizarlo a partir de retomar el comando
fviz_mca_ind(), en donde se puede utilizar el argumento
col.ind = contrib. Esto permitirá señalar el nivel de
contribución de cada caso mediante los gradientes de colores.
fviz_mca_ind(mca_lb,
col.ind = "contrib", # colorear los casos a partir del valor de contribución
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE,
max.overlaps = "ggrepel.max.overlaps",
ggtheme = theme_minimal()
)
## Warning: ggrepel: 4541 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
A partir de esta gráfica se identifica que los casos con mayor
contribución en la construcción de las dimensiones o ejes calculados se
colorean en tonalidades rojizas, mientras que los de menor contribución
están iluminados en color verde turquesa.
Esta gráfica permite identificar que el caso con mayor contribución
es el número 3864. Por lo que sería interesante, posteriormente,
analizar a profundidad dicho caso.
También se puede comenzar a identificar “nubes” o grupos de casos
semejantes entre sí. De manera que los casos más cercanos entre sí se
corresponden con perfiles parecidos en sus respuestas a las distintas
categorías de las variables medidas, en función de la calidad de su
representación. Estos se ubican en mejor medida en los extremos del eje
o dimensión 1.
Por otro lado, también se pueden crear gráficas de barras para medir
la contribución de los individuos sobre las dimensiones o ejes creados,
a partir de sus cosenos cuadráticos y sus contribuciones. Para ello se
utiliza el comando fviz_contrib().
Por ejemplo, en la gráfica siguiente se identifican a los 20 casos o
individuos con mayor contribución sobre ambas dimensiones de manera
simultánea.
fviz_contrib(mca_lb, #objeto tipo lista con los resultados mca
choice = "ind", #selección de los individuos para representarlos
axes = 1:2, #ejes o dimensiones a incluir
top = 20) #selección de los 20 casos con mayor nivel
A partir de la gráfica de barras se puede identificar con mayor
claridad cuáles son los casos con mayor contribución sobre la
construcción de las dimensiones o ejes 1 y 2. Aquí se observa que el
caso 3864 es el más influyente, y posteriormente le siguen en igual
magnitud de contribución los casos 2143, 3534 y 3677, entre otros.
De manera parecida a las gráficas vistas más arriba, donde los casos
que se ubiquen por encima de la línea recta horizontal punteada de color
rojo, indica que su influencia cae por arriba del promedio esperado de
contribución para el total de casos.
Siguiendo la misma lógica de la gráfica de barras para evaluar la
contribución de cada individuo, este mismo ejercicio se puede realizar
para observar el nivel de calidad de representación de los individuos en
ambas dimensiones de la gráfica biplot. Para ello se utiliza el
comando fviz_cos2() de la siguiente manera:
fviz_cos2(mca_lb,
choice = "ind",
axes = 1:2,
top = 20)
A partir de esta gráfica se pueden identificar los casos con mayores
niveles de cosenos cuadráticos, y que suponen estar mejor representados
en el gráfico de barras. Como se puede ver, los casos con mayores
niveles de \(cos^2\) son el 2015 y el
2629. Les siguen siete casos más con el mismo valor (desde el 1746 hasta
3984).
Agrupamiento de
individuos
Otra manera de evaluar los perfiles de casos o individuos
distribuidos por la gráfica de los ejes o dimensiones calculadas, y así
identificar sus agrupamientos, se realiza mediante la coloración de los
casos y añadiéndole elipses indicativas sobre el centroide para cada
grupo y la amplitud de su distribución. Aquí se puede seguir trabajando
con el comando fviz_mca_ind().
Al intentar agrupar los casos mediante la coloración de los puntos o
proyecciones de cada individuo, se puede establecer a una variable tipo
factor() como el criterio para llevarlo a cabo. Para ello
se usa el argumento habillage=, donde se establece el
nombre de la variable que servirá para establecer la coloración de los
individuos y, así, agruparlos.
También se puede añadir una elipse de concentración en cada uno de
los grupos creados, mediante el argumento addEllipses=TRUE.
Si se desea establecer que el centro de la elipse de confianza se ubique
sobre el punto medio de cada categoría, se debe usar el argumento
ellipse.type = "confidence".
Finalmente, se usa el argumento palette= para cambiar
los colores de los grupos.
fviz_mca_ind(mca_lb, #objeto tipo lista con resultados mca
label = "none", # ocultar las etiquetas de los individuos
habillage = "satisf_dem", # colorear a los grupos
addEllipses = TRUE,
ggtheme = theme_minimal()
)
A partir de la gráfica se puede observar la manera en que se
distribuyen los casos si son agrupados a partir de la variable
“satisfacción con la democracia” (satisf_dem), que
se integra por 4 niveles (\(k=4\)).
Asimismo se observan las elipses que muestran el tamaño de la dispersión
de cada grupo. A partir de esto se puede interpretar que los grupos
correspondientes a las categorías 1 y 4 son los que permiten agrupan de
mejor manera, y lo más excluyente posible, a los individuos.
También es relevante observar que los grupos 2 y 3 son abarcados en
su mayoría por los grupos 1 y 4, respectivamente. Esto es debido a que
los primeros se comportan como subgrupos de los últimos. Esto permite
inferir que la variable de “satisfacción con la democracia”
pudiera integrarse en solo dos grupos.
Si también se desean graficar de manera simultánea las proyecciones
de los individuos utilizando dos variables categóricas como criterios
para agruparlos, se puede llamar el comando
fviz_ellipses(), dentro del que se recupera el objeto con
los resultados del análisis MCA.
fviz_ellipses(mca_lb, # objeto tipo lista con resultados mca
c("satisf_dem", "aprob_gob"), # definición de variables factor para agrupación
geom = "point", # tipo de representación de los individuos
alpha = 0.1 #transparencia de los puntos en la gráfica
)
## Warning: `gather_()` was deprecated in tidyr 1.2.0.
## Please use `gather()` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was generated.

De lado izquierdo de la gráfica se observa la agrupación de los casos
a partir de la variable “aprobación del gobierno”
(aprob_gob \(k=2\)) y en
el lado derecho se observa la distribución de los casos agregados por la
variable “satisfacción con la democracia”
(satisf_dem, \(k=4\)).
Además, dentro de cada grupo de color se observan puntos con mayor
intensidad, los que se refieren a los centros (o promedios) de la
distribución de cada agrupación de individuos. Alrededor de estos puntos
se encuentran las elipses de distribución.
Es interesante observar que para la gráfica de la izquierda, los
centros de distribución de cada grupo se ubican casi encima de la línea
punteada horizontal, correspondiente a la dimensión o eje 1. En cambio,
en la gráfica de la derecha, ninguno de los centros de las elipses se
ubica sobre alguna de las líneas punteadas, pero se debe resaltar que
cada uno de ellos se posiciona dentro de cada uno de los cuadrantes en
que está dividido el biplot. Esto nos permite inferir la manera
en que cada nube o grupo de individuos se distribuye en la gráfica, así
como los perfiles dentro de cada grupo.
Referencias
Díaz Monroy, L. G., & Morales Rivera, M. A. (2009). Análisis
estadístico de datos categóricos. Universidad Nacional de Colombia.
Facultad de Ciencias.
