1 Presentación

El Análisis de Correspondencias Múltiple (o Multiple Correspondence Analysis [MCA]) es una extensión del análisis simple de correspondencias, y permite reducir y visualizar una tabla de contingencia que contenga más de dos variables categóricas. Esta técnica también puede ser vista como una generalización del Análisis de Componentes Principales, sin embargo aquí se caracteriza porque las variables a analizar son categóricas, en lugar de cuantitativas.

El MCA generalmente se usa para analizar a un conjunto de datos provenientes de encuestas, y la meta de su uso es:

  1. Identificar a grupos de individuos con perfiles similares en sus respuestas en las categorías de variables medidas.
  2. Evaluar las asociaciones existentes entre las categorías (o atributos) de las variables categóricas.

Esta técnica se apoya, en gran medida, en métodos visuales para el análisis de los resultados.

En esta presentación se realiza una introducción a la inplementación de la técnica MCA para calcular y visualizar sus resultados en R, para ello se utilizará la librería FactoMineR() al momento de analizar los datos y, además, la librería factoextra() para la visualización de los resultados.

Además se busca presentar una manera para identificar a las variables más relevantes en el conjunto de datos, y que tienen mayor contribución en la explicación de las variaciones dentro de los datos. Y se muestra la manera para predecir los resultados para individuos y variables suplementarias. También se presenta la manera para filtrar los resultados del análisis MCA con el fin de mantener solo a las variables con mayor contribución.

2 Preparación del ambiente.

Antes de comenzar, es recomendable ajustar la configuración de R al ambiente de trabajo.

2.1 Idioma.

En un primer momento se recomienda cambiar el idioma en que R lee la información, esto con el fin de ajustarla al idioma español. De esta manera se podrán detectar los caracteres del idioma, como los acentos o tíldes. Para hacerlo, se usa el comando Sys.setlocale().

Sys.setlocale("LC_ALL", "en_US.UTF-8")
## [1] "en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8"

2.2 Librerías.

Otro elemento que se recomienda ajustar en un inicio consiste en la instalación y carga de las librerías. Para el análisis de MCA se utilizarán dos paqueterías especiales, una es FactoMineR()y la otra es factoextra(), y esta última se apoya en la librería ggplot(). En caso de no haberlas instalado previamente, esto se puede hacer con el siguiente comando.

install.packages(c("FactoMineR", "factoextra", "tidyverse", "naniar", "corrplot"))

Y una vez que han sido instaladas, se deben activar con el comando library().

library(easypackages)
paquetes <- c("FactoMineR", "tidyverse", "factoextra", "haven", "naniar", "corrplot")
libraries(paquetes)
## Loading required package: FactoMineR
## Loading required package: tidyverse
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.1 ──
## ✓ ggplot2 3.3.5     ✓ purrr   0.3.4
## ✓ tibble  3.1.6     ✓ dplyr   1.0.8
## ✓ tidyr   1.2.0     ✓ stringr 1.4.0
## ✓ readr   2.1.2     ✓ forcats 0.5.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
## Loading required package: factoextra
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
## Loading required package: haven
## Loading required package: naniar
## Loading required package: corrplot
## corrplot 0.92 loaded
## All packages loaded successfully

2.3 Carga de los datos

A continuación es recomendable cargar los datos en R, para lo que se utiliza el data.frame de la ola 2020 de la encuesta de Latinobarómetro. En la página de dicha organización se encuentran disponibles las bases de datos, y también es importante revisar el libro de códigos, que permite identificar las codificaciones de los ítems y los valores de respuesta posibles o atributos.

load("~/Dropbox/R/Latinobarometro_2020_Esp_Rdata_v1_0.rdata")
datos_lb <- Latinobarometro_2020_Esp

3 Preparación de los datos y su descripción

En un primer momento es importante crear una sub sección de la muestra, en la que se encuentren solo las variables de interés.  A partir de la encuesta de Latinobarómetro para la ola 2020 se seleccionaron 10 variables, y donde “(\(k =\))” se refiere a la cantidad de opciones de respuesta, atributos o categorías posibles. Aquí se puede ver que todas estas variables son de corte categórico.

  • p1st - Satisfacción con la vida (k = 4).
  • p4stgbs - Situación económica actual (k = 4).
  • p10stgbs - Apoyo a la democracia (k = 3).
  • P11STGBS_A - Satisfacción con la vida (k = 4).
  • p13st_e - Confianza en el gobierno (k = 4).
  • p17stgbs - Aprobación de la gestión del gobierno del presidente (k = 2).
  • p18st - Escala Izquierda - Derecha (0, 10).
  • p30st_a - Opinión sobre Estado Unidos de América (k = 4).
  • p46stgbs - Interés en la política (k = 4).
  • P51STGBS_B - Votó al partido del gobierno o de la oposición (k = 2).

Aquí se realizó la selección de las columnas o variables de interés y, además, se cambió el nombre de dichas columnas. Se alcanza a observar que existen valores negativos, mientras que existen otros valores muy grandes (por ejemplo el valor “97” en la variable de auto ubicación ideológica), que se pueden tratar como valores perdidos. Por ello se le debe señalar como tal al conjunto de datos, para lo que se usa la librería naniar().

na_strings <- c(0, 8, 9, -1, -2, -3, -4, -5, 97, 98, 99)
sub_datos <- datos_lb %>%
  select(p1st, p4stgbs, p10stgbs, P11STGBS.A, p13st.e, p17stgbs, p18st, p30st.a, p46stgbs, P51STGBS.B) %>%
  rename(satisf_vida = p1st,
         sit_ec = p4stgbs,
         apoyo_dem = p10stgbs,
         satisf_dem = P11STGBS.A,
         conf_gob = p13st.e,
         aprob_gob = p17stgbs,
         ubic_ideol = p18st,
         op_eua = p30st.a,
         int_pol = p46stgbs,
         voto_gob = P51STGBS.B) %>%
  naniar::replace_with_na_all(condition = ~.x %in% na_strings)

Ahora se solicita una revisión a la estructura de las variables de interés, para ello se usa el comando str().

str(sub_datos)
## tibble [20,204 × 10] (S3: tbl_df/tbl/data.frame)
##  $ satisf_vida: int [1:20204] 1 4 1 1 2 2 3 4 1 1 ...
##  $ sit_ec     : int [1:20204] 5 5 5 5 4 3 5 4 5 5 ...
##  $ apoyo_dem  : int [1:20204] 3 1 2 2 1 1 1 2 2 2 ...
##  $ satisf_dem : int [1:20204] 4 4 4 4 3 2 3 3 3 4 ...
##  $ conf_gob   : int [1:20204] 4 4 1 4 2 3 4 3 4 4 ...
##  $ aprob_gob  : int [1:20204] 2 2 1 2 NA 1 2 2 2 2 ...
##  $ ubic_ideol : int [1:20204] 5 5 5 10 NA NA NA 5 5 7 ...
##  $ op_eua     : int [1:20204] 2 1 2 1 2 2 2 3 4 1 ...
##  $ int_pol    : int [1:20204] 4 1 2 4 2 4 3 3 1 2 ...
##  $ voto_gob   : int [1:20204] NA 1 NA 2 2 NA NA NA NA 1 ...

Dicho resumen permite identificar que las variables fueron detectadas por R del tipo integer (enteros), pero es necesario transformarlas a otro formato tipo factor para incluirlas en el análisis MCA. Para ello se utiliza el comando factor().

sub_datos $ satisf_vida <- factor(sub_datos $ satisf_vida)
sub_datos $ sit_ec <- factor(sub_datos $ sit_ec)
sub_datos $ apoyo_dem <- factor(sub_datos $ apoyo_dem)
sub_datos $ satisf_dem <- factor(sub_datos $ satisf_dem)
sub_datos $ conf_gob <- factor(sub_datos $ conf_gob)
sub_datos $ aprob_gob <- factor(sub_datos $ aprob_gob)
sub_datos $ ubic_ideol <- factor(sub_datos $ ubic_ideol)
sub_datos $ op_eua <- factor(sub_datos $ op_eua)
sub_datos $ int_pol <- factor(sub_datos $ int_pol)
sub_datos $ voto_gob <- factor(sub_datos $ voto_gob)

Ahora se puede solicitar una revisión gráfica de la distribución de las variables de interés, para ello se se utilizará el comando for(), que permite repetir un mismo comando en varias situaciones.

sub_datos <- na.omit(sub_datos)
for (i in 1:10){
  plot(sub_datos[,i], main = colnames(sub_datos)[i],
       ylab = "Cantidad", col ="steelblue", las = 2)
}

A partir de estas gráficas se debe identificar cuáles son las opciones de respuesta o atributos que registraron una frecuencia muy baja pues pueden distorsionar el análisis posterior y, por tanto, deben ser removidas. En este ejercicio se decidió mantener todas las variables y sus categorías.

4 Análisis inicial de MCA

A continuación se inicia el análisis de MCA en R, para lo que se usará inicialmente el comando MCA(), que es parte de la librería FactoMiner().
Su estructura es:

    MCA(X, ncp = , graph = TRUE)

Los argumentos consisten en:

  • X: un data frame con n filas (individuos) y p columnas (variables categóricas).
  • ncp: número de dimensiones a guardar en los resultados finales.
  • graph: a partir de un valor lógico (TRUE, FALSE) se indica si se desea generar la gráfica correspondiente.

En el código que está debajo, el análisis MCA se realizará solo sobre los individuos y variables activas o de interés, ubicadas en el data frame sub_datos.

mca_lb <- MCA(sub_datos, graph = FALSE)

El resultado generado se ha guardado en un objeto denominado mca_lb, y que consiste en una lista que contiene información diversa, correspondiente tanto a listas y matrices. Y para darle un vistazo a su contenido se usa el comando print().

print(mca_lb)
## **Results of the Multiple Correspondence Analysis (MCA)**
## The analysis was performed on 4569 individuals, described by 10 variables
## *The results are available in the following objects:
## 
##    name              description                       
## 1  "$eig"            "eigenvalues"                     
## 2  "$var"            "results for the variables"       
## 3  "$var$coord"      "coord. of the categories"        
## 4  "$var$cos2"       "cos2 for the categories"         
## 5  "$var$contrib"    "contributions of the categories" 
## 6  "$var$v.test"     "v-test for the categories"       
## 7  "$ind"            "results for the individuals"     
## 8  "$ind$coord"      "coord. for the individuals"      
## 9  "$ind$cos2"       "cos2 for the individuals"        
## 10 "$ind$contrib"    "contributions of the individuals"
## 11 "$call"           "intermediate results"            
## 12 "$call$marge.col" "weights of columns"              
## 13 "$call$marge.li"  "weights of rows"

4.1 Visualización e interpretación inicial del análisis MCA

Una de las características centrales de la técnica MCA consiste en el apoyo de métodos visuales para la interpretación de los resultados de los análisis. A continuación se usa la librería factoextra(), que a su vez se apoya el la librería ggplot2(), para generar las gráficas iniciales y, así, avanzar en su interpretación.

Dicha librería contiene diversas funciones que trabajan sobre el objeto resultante del análisis inicial de MCA, que se irán revisando a continuación y que son:

  • get_eigenvalue(): extrae los eigenvalores o varianzas retenidas por cada dimension o eje.
  • fviz_eig(): permite visualizar a los eigenvalores o varianzas.
  • get_mca_ind(), get_mca_var(): extrae los resultados tanto para individuos como para variables, respectivamente.
  • fviz_mca_ind(), fviz_mca_var(): Permite visualizar los resultados tanto para individuos o para variables, respectivamente.
  • fviz_mca_biplot(): permite generar un biplot combinando filas y columnas.

4.2 Eigenvalores / varianzas

Siguiendo la lógica del análisis que existe en el Análisis de Componentes Principales, que permite “reducir” las dimensiones de un data frame a partir de generar nuevos ejes o componentes que sirven a manera de “resumen” de las variables cuantitativas originales, en el análisis MCA también es posible construir dichos componentes o ejes a partir de variables categóricas.

Una vez que se generan los nuevos componentes, es importante identificar la capacidad explicativa del total de los casos que cada una proporciona. Para ello es importante revisar la proporción de varianzas que “retiene” cada una de estas dimensiones o ejes. Y puede ser extraído a partir de la función get_eigenvalue() de la siguiente manera:

eig_val <- factoextra::get_eigenvalue(mca_lb)
head(eig_val)
##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1  0.2604405         8.681350                     8.68135
## Dim.2  0.1719728         5.732428                    14.41378
## Dim.3  0.1345808         4.486025                    18.89980
## Dim.4  0.1240564         4.135215                    23.03502
## Dim.5  0.1120294         3.734312                    26.76933
## Dim.6  0.1106592         3.688641                    30.45797

En la tabla anterior se muestran del lado de las columnas los componentes o ejes nuevos, resultados del análisis MCA, mientras que en la primer columna se muestran los eigenvalores o el tamaño de las varianzas que explica cada uno, mientras que en la segunda columna se muestra el porcentaje de la varianza total que es explicado por cada eje o dimensión. En la tercer columna se muestra el porcentaje de varianza acumulado.

También es posible visualizar los porcentajes de inercia explicados por cada dimensión MCA, a partir de usar el comando fviz_screeplot(), con el que se puede crear un “scree plot.”

fviz_screeplot(mca_lb, addlabels = TRUE)
*Scree plot* o porcentajes de inercia explicada por cada dimensión nueva.

Scree plot o porcentajes de inercia explicada por cada dimensión nueva.

Una de las características propias del MCA radica en que los componentes, dimensiones o factores creados no necesariamente suelen explicar porcentajes amplios de varianzas totales. (Díaz Monroy & Morales Rivera, 2009)

4.3 Biplot o gráfica de individuos y variables

Uno de los resultados más importantes del análisis MCA consiste en la creación de un “biplot”, mediante el que se puede graficar una nube de puntos fila (\(n\) puntos) y una nube de puntos columna (\(p\) puntos), donde la primera se corresponde a los individuos o casos, mientras que la segunda se refiere a las variables contenidas en la matriz de datos.
A partir de esta graficación, el MCA “pone en evidencia a los individuos con perfiles semejantes respecto a los atributos seleccionados para su descripción.” (Díaz Monroy & Morales Rivera, 2009, p. 123)

Para crear dicho “biplot” se utiliza el comando fviz_mca_biplot(), que es parte de la paquetería factoextra, y que se apoya en la paquetería ggplot2, de la siguiente manera:

fviz_mca_biplot(mca_lb, # resultados del análisis MCA
               repel = TRUE, # evitar la superposición de etiquetas en la gráfica
               alpha.ind = 0.1, # nivel de transparencia de los puntos filas o casos
               alpha.var = 1, # nivel de transparencia de los puntos columa o variables
               max.overlaps = "ggrepel.max.overlaps",
               ggtheme = theme_minimal()) # plantilla de estilo para la gráfica
## Warning: ggrepel: 4543 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
## Warning: ggrepel: 9 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
 Biplot o gráfica con la proyección de individuos y variables.

Biplot o gráfica con la proyección de individuos y variables.

La gráfica muestra el patrón global de distribución de las proyecciones tanto de los casos o individuos, así como de las variables sobre cada uno de los ejes o dimensiones creadas. Los casos se representan a partir de los puntos azules mientras que las variables lo hacen a partir de los triángulos en color rojo.

A partir de esta representación gráfica se muestra la asociación entre variables categóricas, tanto entre sí como con respecto a los individuos.

La distancia entre cada punto correspondiente tanto a los individuos como entre las columnas ofrece una forma de medición de su similaridad, puesto que “la cercanía entre individuos en términos de semejanzas; es decir, dos individuos son semejantes si han seleccionado globalmente las mismas modalidades. La proximidad entre modalidades de variables diferentes en términos de asociación, (…) y son próximas porque están ligadas a los mismos individuos o individuos parecidos.” (Díaz Monroy & Morales Rivera, 2009, p. 123)

4.4 Descripción de las dimensiones

Finalmente, en este análisis general de las correspondencias entre individuos y categorías de variables en la construcción de las dimensiones o ejes de resúmenes, también es posible identificar los niveles de correlación de las variables y sus categorías con cada una de las dimensiones. Esto ofrece información para identificar cuáles son las columnas que ejercen mayor influencia sobre cada dimensión.

Para realizar este análisis de correlaciones se utiliza el comando dimdes(), que es parte de la librería FactoMineR.

res.desc <- dimdesc(mca_lb, #objeto tipo lista que contiene los resultados mca
                    axes = c(1,2) #definición de los ejes o dimensiones a describir
                    )

Con esto se crea un objeto tipo “lista” que contiene los valores de correlación de las variables con las dimensiones solicitadas. Posteriormente se deben extraer los valores de correlación, que serán presentados en dos tablas para cada dimensión: una sobre la cualidad de cada variable medida con el coeficiente de determinación (\(R^2\)) y su p-value asociado, y otra que contiene a los valores estimados (correlación) para cada categoría de las variables y el p-value para cada una de ellas.

En el caso de la dimensión 1, se manda a llamar:

res.desc[[1]]
## $quali
##                     R2       p.value
## sit_ec      0.38118727  0.000000e+00
## satisf_dem  0.46849238  0.000000e+00
## conf_gob    0.65039668  0.000000e+00
## aprob_gob   0.54081986  0.000000e+00
## voto_gob    0.28808048  0.000000e+00
## satisf_vida 0.10826011 4.660485e-113
## ubic_ideol  0.06887687  1.980071e-66
## int_pol     0.05363284  2.846381e-54
## apoyo_dem   0.02393120  9.634473e-25
## op_eua      0.02072738  1.354963e-20
## 
## $category
##                              Estimate       p.value
## voto_gob=voto_gob_1        0.27434643  0.000000e+00
## aprob_gob=aprob_gob_1      0.37555269  0.000000e+00
## conf_gob=conf_gob_1        0.57259837  0.000000e+00
## satisf_dem=satisf_dem_1    0.48698454 2.761658e-235
## sit_ec=sit_ec_2            0.36623410 1.890249e-130
## satisf_dem=satisf_dem_2    0.22843939 5.317884e-107
## conf_gob=conf_gob_2        0.18932148  7.630936e-90
## sit_ec=sit_ec_3            0.02205284  7.077740e-77
## ubic_ideol=ubic_ideol_10   0.25773310  7.839772e-57
## satisf_vida=satisf_vida_1  0.29801304  2.280847e-56
## sit_ec=sit_ec_1            0.60520781  9.148929e-33
## int_pol=int_pol_1          0.17344150  6.331255e-30
## op_eua=op_eua_1            0.13552945  2.391722e-21
## apoyo_dem=apoyo_dem_1      0.08751211  1.532464e-20
## int_pol=int_pol_2          0.05496477  1.660624e-08
## ubic_ideol=ubic_ideol_7    0.08149846  3.544679e-03
## ubic_ideol=ubic_ideol_6    0.05928721  4.782715e-02
## op_eua=op_eua_4           -0.05170498  6.392488e-03
## op_eua=op_eua_2           -0.01883665  3.441081e-03
## int_pol=int_pol_3         -0.05437042  3.315859e-04
## ubic_ideol=ubic_ideol_2   -0.09358216  2.296164e-04
## op_eua=op_eua_3           -0.06498781  2.171486e-05
## ubic_ideol=ubic_ideol_4   -0.11830899  1.054518e-08
## ubic_ideol=ubic_ideol_3   -0.12939886  3.017020e-09
## ubic_ideol=ubic_ideol_5   -0.06135462  2.994714e-11
## conf_gob=conf_gob_3       -0.18171147  4.179583e-13
## apoyo_dem=apoyo_dem_3     -0.10427555  1.914078e-23
## satisf_dem=satisf_dem_3   -0.17367458  4.415512e-24
## int_pol=int_pol_4         -0.17403585  4.120979e-33
## satisf_vida=satisf_vida_3 -0.06634578  1.277449e-42
## satisf_vida=satisf_vida_4 -0.38778239  8.294719e-47
## sit_ec=sit_ec_4           -0.35009380  8.780552e-71
## sit_ec=sit_ec_5           -0.64340095 5.595353e-202
## satisf_dem=satisf_dem_4   -0.54174935 3.140675e-301
## voto_gob=voto_gob_2       -0.27434643  0.000000e+00
## aprob_gob=aprob_gob_2     -0.37555269  0.000000e+00
## conf_gob=conf_gob_4       -0.58020838  0.000000e+00
## 
## attr(,"class")
## [1] "condes" "list"

En el caso de la dimensión 2, se manda a llamar:

res.desc[[2]]
## $quali
##                      R2       p.value
## satisf_dem  0.357510887  0.000000e+00
## conf_gob    0.384634097  0.000000e+00
## sit_ec      0.267607312 1.356225e-306
## ubic_ideol  0.210169198 3.228358e-228
## op_eua      0.182343956 6.384333e-199
## int_pol     0.164729569 8.146514e-178
## satisf_vida 0.147234995 2.718464e-157
## apoyo_dem   0.003824751  1.586756e-04
## aprob_gob   0.001212510  1.858353e-02
## 
## $category
##                              Estimate       p.value
## ubic_ideol=ubic_ideol_10   0.39020193 3.503201e-207
## satisf_dem=satisf_dem_4    0.23723223 7.082440e-188
## sit_ec=sit_ec_5            0.17527232 6.722647e-183
## op_eua=op_eua_1            0.26204657 4.981141e-164
## conf_gob=conf_gob_4        0.20858526 2.406257e-147
## conf_gob=conf_gob_1        0.30842301 2.040961e-138
## int_pol=int_pol_1          0.27275791 1.566249e-123
## satisf_vida=satisf_vida_4  0.52761756 7.853448e-110
## satisf_dem=satisf_dem_1    0.24715324 3.059079e-103
## sit_ec=sit_ec_1            0.63461294  1.084927e-67
## int_pol=int_pol_4          0.05435147  2.320050e-17
## op_eua=op_eua_4            0.07123437  2.501772e-10
## ubic_ideol=ubic_ideol_1    0.12778480  1.315656e-05
## apoyo_dem=apoyo_dem_1      0.03534108  2.927877e-05
## aprob_gob=aprob_gob_2      0.01444984  1.858353e-02
## aprob_gob=aprob_gob_1     -0.01444984  1.858353e-02
## apoyo_dem=apoyo_dem_2     -0.01955743  1.611219e-02
## apoyo_dem=apoyo_dem_3     -0.01578365  5.790567e-03
## ubic_ideol=ubic_ideol_2   -0.06555783  3.700282e-04
## ubic_ideol=ubic_ideol_3   -0.05354732  2.726278e-04
## sit_ec=sit_ec_2           -0.15468780  3.066286e-05
## sit_ec=sit_ec_4           -0.28735903  2.392387e-09
## satisf_vida=satisf_vida_3 -0.23935581  1.418354e-15
## ubic_ideol=ubic_ideol_6   -0.14665678  1.662106e-16
## satisf_dem=satisf_dem_2   -0.18264629  2.163448e-23
## ubic_ideol=ubic_ideol_5   -0.07206835  8.521778e-24
## ubic_ideol=ubic_ideol_4   -0.17168749  7.344219e-25
## int_pol=int_pol_2         -0.14140751  2.153093e-25
## satisf_vida=satisf_vida_1 -0.05396750  9.753558e-27
## op_eua=op_eua_3           -0.18825617  1.263517e-31
## satisf_vida=satisf_vida_2 -0.23429425  4.033288e-38
## int_pol=int_pol_3         -0.18570187  3.148398e-62
## op_eua=op_eua_2           -0.14502476  6.668086e-69
## conf_gob=conf_gob_2       -0.22701914  5.459266e-71
## sit_ec=sit_ec_3           -0.36783844 1.102299e-106
## conf_gob=conf_gob_3       -0.28998914 4.305739e-211
## satisf_dem=satisf_dem_3   -0.30173919 3.285517e-240
## 
## attr(,"class")
## [1] "condes" "list"

5 Análisis sobre las variables (columnas)

Al avanzar en el análisis de los resultados del MCA, también es posible realizar la revisión de los resultados de manera separada, ya sea que se revise, por un lado, el comportamiento de las variables y, por el otro, de los casos o individuos.

A continuación se realiza el análisis por la revisión del comportamiento de las variables o columnas del data.frame(). En un primer momento se utiliza el comando get_mca_var(), que permite extraer los resultados para las categorías de las variables activas.

Esta función arroja una lista que contiene a las coordinadas de las categorías de las variables para cada uno de los factores o dimensiones, así como los valores de los cosenos elevados al cuadrado y la contribución de las categorías sobre los factores o dimensiones.

variables <- get_mca_var(mca_lb)
variables
## Multiple Correspondence Analysis Results for variables
##  ===================================================
##   Name       Description                  
## 1 "$coord"   "Coordinates for categories" 
## 2 "$cos2"    "Cos2 for categories"        
## 3 "$contrib" "contributions of categories"

Y también se puede acceder a los valores para cada uno de los elementos de dicha lista, para lo que se muestra un vistazo a continuación:

# Coordenadas
head(variables $ coord)
##                     Dim 1      Dim 2      Dim 3       Dim 4       Dim 5
## satisf_vida_1  0.29350235  0.2000625 -0.2755095  0.04215260 -0.46352340
## satisf_vida_2  0.01545312 -0.2347782  0.3099832 -0.30933013  0.20854056
## satisf_vida_3 -0.42045952 -0.2469837 -0.1282730  0.58143976  0.25693976
## satisf_vida_4 -1.05031523  1.6024993  0.1810480 -0.04968407  1.23313254
## sit_ec_1       1.43493665  2.0743641 -0.9203537  0.62333963 -2.29248464
## sit_ec_2       0.96666716  0.1710408  0.4497631 -0.40042970  0.01515545
# cosenos cuadrados: calidad en el mapa de factores
head(variables $ cos2)
##                      Dim 1       Dim 2       Dim 3        Dim 4        Dim 5
## satisf_vida_1 0.0533284632 0.024778059 0.046990403 1.099980e-03 0.1330084471
## satisf_vida_2 0.0001552323 0.035831523 0.062463421 6.220052e-02 0.0282703141
## satisf_vida_3 0.0401722082 0.013861619 0.003738936 7.682221e-02 0.0150016824
## satisf_vida_4 0.0441967965 0.102883842 0.001313224 9.889763e-05 0.0609215547
## sit_ec_1      0.0306432459 0.064038227 0.012606044 5.782542e-03 0.0782135826
## sit_ec_2      0.1213115322 0.003797933 0.026261276 2.081616e-02 0.0000298185
# Contribución en los factores o dimensiones
head(variables $ contrib)
##                    Dim 1     Dim 2      Dim 3       Dim 4      Dim 5
## satisf_vida_1 1.26469671 0.8899042 2.15656242 0.054764752 7.33302638
## satisf_vida_2 0.00361223 1.2627204 2.81283703 3.038620390 1.52932787
## satisf_vida_3 1.25686621 0.6567892 0.22637939 5.045907848 1.09113885
## satisf_vida_4 1.63163234 5.7521123 0.09382011 0.007664901 5.22852509
## sit_ec_1      1.15933933 3.6691357 0.92295423 0.459286604 6.87914850
## sit_ec_2      4.12271720 0.1954688 1.72712125 1.485153535 0.00235583

5.1 Correlaciones entre variables y los factores creados

A partir de los resultados del análisis MCA se puede evaluar gráficamente la asociación existente entre cada una de las variables con respecto a las dimensiones o factores. Para ello se utiliza fviz_mca_var(), dentro del que se utiliza el argumento choice = "mca.cor", de la siguiente manera:

fviz_mca_var(mca_lb, # objeto lista de resultados mca
             choice = "mca.cor", # tipo de análisis solicitado: correlaciones
            repel = TRUE, # evitar la superposición de etiquetas
            ggtheme = theme_minimal()
            )
Biplot de correlaciones entre variables y dimensiones.

Biplot de correlaciones entre variables y dimensiones.

La gráfica permite identificar las variables que está más correlacionadas con cada una de las dimensiones o factores creados. Las coordenadas o distancias calculadas corresponden al valor de las correlaciones cuadráticas entre las variables y las dimensiones.

En la gráfica se puede observar que las variables voto_gob y aprob_gob son las más correlacionadas con la dimensión 1, mientras que op_eua y ubic_ideol están más asociadas con la dimensión 2.

5.2 Coordenadas para las categorías de las variables activas

Si bien la gráfica anterior muestra la correlación de cada una de las variables con respecto a las dimensiones, allí no se puede distinguir la presencia de las categorías de respuestas en el mismo plano cartesiano.

Para ello, es importante trabajar con el valor de las coordenadas de cada categoría, que se calculó anteriormente, y que se puede revisar con el comando (variable $ coord). A partir del comando fviz_mca_var() se puede realizar dicha revisión gráfica para evaluar visualmente la asociación entre cada categoría y las dimensiones o factores creados.

fviz_mca_var(mca_lb, #objeto lista con resultados mca 
             repel = TRUE, # evitar el traslape de etiquetas
             ggtheme = theme_minimal(),
             max.overlaps = "ggrepel.max.overlaps"
             )
## Warning: ggrepel: 6 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
Biplot de asociación entre categorías y dimensiones

Biplot de asociación entre categorías y dimensiones

Al gráfico anterior se le pueden realizar algunas modificaciones, como cambiarle el color y las formas para representar a las categorías, para ello se usan los argumentos col.var= y shape.var= dentro del comando fviz_mca_var().

fviz_mca_var(mca_lb, #objeto lista con resultados mca 
             repel = TRUE, # evitar el traslape de etiquetas
             ggtheme = theme_minimal(),
             max.overlaps = "ggrepel.max.overlaps", #ampliar el solapamiento donde ocurra
             col.var="black", # cambiar el color a las variables
             shape.var = 15 # cambiar la forma de representación de variables
             )
## Warning: ggrepel: 6 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
Biplot de asociación entre categorías y dimensiones y cambio de colores.

Biplot de asociación entre categorías y dimensiones y cambio de colores.

La gráfica muestra las relaciones entre categorías de las variables, con ajustes en las formas y color de representación de las variables.

Dicha gráfica se puede interpretar de la siguiente manera:

  • Las categorías con perfiles semejantes muestran agrupadas o cercanas entre sí.
  • Las variables que estén correlacionadas de manera negativa entre sí estarán posicionadas en polos opuestos respecto al origen de la gráfica (cuadrantes opuestos).
  • La distancia que exista entre cada punto correspondiente a una categoría y el origen, define la cualidad de la categoría en el mapa Biplot. Los puntos de categorías que se encuentren alejados del punto de origen tienden a estar mejor representadas en la gráfica.

5.3 Calidad de la representación de las categorías

En la gráfica biplot creada a partir de los dos primeros factores o dimensiones, se identificó que el primero explica 8.1% de la varianza, mientras que el segundo explica 5.3%. Entre ambos abarcan solo el 13.4% del comportamiento de los datos activos incluidos en el análisis.

Debido a que los factores o dimensiones creadas tienden a representar bajos niveles de varianza de la matriz de datos, puede ocurrir que no todos los puntos estén igualmente proyectados en la gráfica biplot

Ante esta situación, es importante revisar la calidad de la representación de los puntos en la gráfica, para lo que es útil la medida de los cosenos cuadráticos (cos^2), la que mide el grado de asociación entre las categorías de cada variable y un eje o dimensión en particular.

El coseno cuadrático (cos2) de cada categoría se puede extraer de la siguiente manera:

head(round(variables $ cos2, 3), 5)
##               Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## satisf_vida_1 0.053 0.025 0.047 0.001 0.133
## satisf_vida_2 0.000 0.036 0.062 0.062 0.028
## satisf_vida_3 0.040 0.014 0.004 0.077 0.015
## satisf_vida_4 0.044 0.103 0.001 0.000 0.061
## sit_ec_1      0.031 0.064 0.013 0.006 0.078

Si la categoría de una variable está bien representada por ambas dimensiones o factores, la suma de los cosenos cuadráticos tendrá un valor cercano a 1. Para algunos casos en las filas, se necesitarán más de dos dimensiones para representar perfectamente a los datos.

La manera de revisar la distribución de los valores de la calidad de representación de las categorías es mediante una gráfica de barras a partir de la variable $cos2 dentro del comando fviz_cos2().

fviz_cos2(mca_lb, #objeto tipo lista con resultados mca 
          choice = "var", # selección de las varianzas
          axes = 1:2) # ejes o dimensiones considerar en la gráfica

A partir de esta gráfica se puede identificar que las primeras cinco categorías con mayores valores son las que están mejor representadas en la gráfica de dispersión, estas se ubican dentro de las variables de “aprobación del gobierno en turno” y “confianza en el gobierno en turno”, mientras que las que están por debajo del valor de 0.2 no necesariamente cuentan con proyecciones adecuadas en la gráfica generada a partir solo de las dimensiones 1 y 2. Por ello, la interpretación de estas últimas categorías se debe realizar con cuidado (tal vez sea necesaria una solución que incluya a una mayor cantidad de dimensiones).

Una manera adicional de representar la calidad de las categorías en el gráfico biplot es a partir de ajustar los colores para cada punto proyectado, y tomando como criterio el valor del coseno cuadrático (cos2). Para modificar el color de los puntos se utiliza el argumento col.var=, con el que se producen colores en gradientes, que se pueden ajustar a partir del argumento gradient.cols=. Por ejemplo, si se ajustra `gradient.cols = c(“white”, “blue”, red”), esto se traduce en:

  • categorías con bajo valor de coseno cuadrático se colorearán en blanco (“white”).
  • categorías con valores medios de coseno cuadrático se colorearán en azul (“blue”).
  • categorías con valores alto de coseño cuadrático se colorearán en “rojo” (“red”).

De manera que:

fviz_mca_var(mca_lb, #objeto tipo lista con resultados mca
             col.var = "cos2", #definición de los colores a partir del valor cos2
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), #definición de la paleta de colores
             repel = TRUE, # evitar solapamientos de etiquetas,
             max.overlaps = "ggrepel.max.overlaps", #aumentar el tamaño de solapamientos
             ggtheme = theme_minimal()
             )
## Warning: ggrepel: 10 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
Biplot de asociación entre categorías y dimensiones con señalización de la calidad de representación.

Biplot de asociación entre categorías y dimensiones con señalización de la calidad de representación.

Adicionalmente, también es posible cambiar la intensidad de la transparencia de las categorías de variables según el criterio de los valores de la calidad de representación (cos2) mediante el argumento alpha.var =, de la siguiente manera:

fviz_mca_var(mca_lb, 
             alpha.var="cos2",
             repel = TRUE,
             max.overlaps = "ggrepel.max.overlaps",
             ggtheme = theme_minimal()
             )
## Warning: ggrepel: 10 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
Biplot de asociación entre categorías y dimensiones con transparencia según el nivel de calidad.

Biplot de asociación entre categorías y dimensiones con transparencia según el nivel de calidad.

5.4 Contribución de las categorías sobre las dimensiones creadas

Finalmente, es importante identificar cuáles son las categorías (no solo las variables en sí mismas) que ejercen mayor influencia sobre el comportamiento de las dimensiones o factores creados. Para ello es importante revisar la contribución porcentual de cada categoría en la definición de los ejes recuperados para el análisis.

Una manera inicial para revisar el porcentaje de contribución de cada categoría sobre cada dimensión se logra mandando a llamar una tabla con los valores porcentuales de cada categoría mediante el argumento $contrib

head(round(variables $ contrib, 2))
##               Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## satisf_vida_1  1.26  0.89  2.16  0.05  7.33
## satisf_vida_2  0.00  1.26  2.81  3.04  1.53
## satisf_vida_3  1.26  0.66  0.23  5.05  1.09
## satisf_vida_4  1.63  5.75  0.09  0.01  5.23
## sit_ec_1       1.16  3.67  0.92  0.46  6.88
## sit_ec_2       4.12  0.20  1.73  1.49  0.00

En dicha tabla se observan en el lado de las filas a cada una de las categorías activas incluidas en el análisis, mientras que en las columnas se ubican cada una de las dimensiones creadas.

Las categorías que más contribuyen a cada dimensión se corresponden con aquellas que registran mayores valores porcentuales. Las categorías que contribuyen en mayor medida sobre las dimensiones 1 y 2 son las que, a su vez, tienen mayor influencia al explicar la variabilidad de la matriz de datos.

Gráficamente se puede representar la contribución de cada categoría sobre cada dimensión mediante el uso del comando fviz_contrib(), con la que se crea una gráfica de barras.

# Contribución de las categorías a la dimensión 1.
fviz_contrib(mca_lb, #objeto tipo lista con resultados mca
             choice = "var", #criterio a representar: varianza
             axes = 1, # selección del eje o dimensión a analizar = eje 1
             top = 15) # selección de las 15 categorías con mayor contribuión
Contribución de las categorías a las dimensiones 1 y 2.

Contribución de las categorías a las dimensiones 1 y 2.

# Contribución de las categorías a la dimensión 2.
fviz_contrib(mca_lb, #objeto tipo lista con resultados mca 
             choice = "var", #criterio a representar: varianza
             axes = 2, # selección del eje o dimensión a analizar = eje 2
             top = 15) # selección de las 15 categorías con mayor contribución
Contribución de las categorías a las dimensiones 1 y 2.

Contribución de las categorías a las dimensiones 1 y 2.

En estas gráficas se incluyó una línea roja punteada, la que representa el valor promedio esperado en dado caso que las contribuciones de todas las categorías fueran uniformes. De manera que aquellas que están por encima de dicha recta, se interpreta que tienen una contribución importante mientras que las que están por debajo se consideran con poca influencia sobre las dimensiones o factores.

A partir de las gráficas previas se puede establecer lo siguiente:

  • Se identificaron 11 categorías que tienen mayor contribución que el resto sobre la definición de la dimensión 1, especialmente las categorías 1 y 4 de la variable “confianza en el gobierno”, las categorías 2 y 1 de la variable “aprobación del gobierno”, las categorías 4 y 1 de la variable “satisfacción con la democracia”, la categoría 2 de la variable “votó por el gobierno” y la categoría 5 de la variable “percepción de la situación de la economía”.
  • La cantidad de categorías que contribuyen a la dimensión 2 por arriba del promedio esperado es mayor que en la primer dimensión. Y las 5 categorías que más influyen son la categoría 3 de la variable “satisfacción con la democracia”, la categoría 3 de la variable “confianza en el gobierno”, la categoría 5 de la variable “situación de la economía”, la categoría 1 de la variable “interés en la política” y la categoría 1 de la variable “confianza en el gobierno.”

A su vez, se puede calcular la contribución total de cada categoría a cada una de las dimensiones de interés, que en este caso se limitan a los ejes 1 y 2. Para ello se utiliza el mismo comando, solo se ajusta el argumento sobre los ejes a seleccionar axes=.

# Total contribution to dimension 1 and 2
fviz_contrib(mca_lb, #objeto tipo lista con resultados mca
             choice = "var", #criterio de representación = varianzas
             axes = 1:2, # ejes seleccionados en la representación = ejes 1 y 2 simultáneos
             top = 20) #selección de las 20 categorías con mayor contribución
Contribución total de las categorías a las dimensiones 1 y 2.

Contribución total de las categorías a las dimensiones 1 y 2.

En esta gráfica se identificaron 15 categorías que ejercen mayor influencia que el promedio esperado del total de las columnas activas de la matriz de datos. De estas:

  • Las categorías 1 y 4 de la variable “confianza en el gobierno” son las que ejercen mayor contribución.
  • Existen otras cinco categorías que también son medianamente relevantes, como lo son la categoría 4 de “satisfacción con la democracia”, la categoría 5 de “situación de la economía”, la categoría 2 de “aprobación del gobierno”, la categoría 1 de “satisfacción con la democracia”, y la categoría 1 de “aprobación del gobierno”.
  • Se ubicaron otras ocho categorías con una influencia importante pero de menor contribución, que van desde la categoría 2 de “votó al partido del gobierno”, hasta la categoría 2 de “confianza en el gobierno.”
  • El resto de las categorías se ubicaron por debajo del promedio esperado, y por tanto pueden considerase poco relevantes para evaluar la contribución de los ejes.

La contribución de las categorías puede representarse de manera gráfica en el biplot que se ha trabajado hasta el momento, a partir de señalarlo mediante la coloración de los puntos en la gráfica, para lo que se usa el argumento col.var = "contrib" de la siguiente manera:

fviz_mca_var(mca_lb, #objeto tipo lista con resultados mca 
             col.var = "contrib", #definir la coloración mediante la "contribución"
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), #selección de la paleta de colores
             repel = TRUE, # evitar solapamiento de etiquetas
             max.overlaps = "ggrepel.max.overlaps", #aumentar la cantidad de solapamientos
             ggtheme = theme_minimal()
             )
## Warning: ggrepel: 10 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
Biplot de distribución de las categorías activas señaladas por su contribución a cada dimensión.

Biplot de distribución de las categorías activas señaladas por su contribución a cada dimensión.

La gráfica permite identificar cuáles son la categorías que más están contribuyendo en la construcción de la gráfica, así como los polos o extremos de las dimensiones sobre las que están influyendo.

De manera que se observa que las categorías “conf_gob_1”, “satisf_dem_1” y “aprob_gob_1” están influyendo fuertemente sobre los valores positivos de la dimensión 1 y, en contraparte, las categorías “conf_gob_4”, “satisf_dem_4”, “sit_ec_5” y “aprob_gob_2” lo están haciendo sobre la parte negativa de la misma dimensión.

Por último, también es posible controlar la intensidad de la transparencia de la proyección de cada punto correspondiente a las categorías, a partir del criterio de los valores de su contribución sobre las dimensiones. Para ello se utiliza el comando alpha.var = "contrib" en el comando fviz_mca_var().

fviz_mca_var(mca_lb, #objeto tipo lista con resultados mca 
             alpha.var="contrib", #control de la intensidad de la transparencia
             repel = TRUE, # evitar solapamiento de etiquetas
             max.overlaps = "ggrepel.max.overlaps", #aumentar la cantidad de solapamientos
             ggtheme = theme_minimal()
             )
## Warning: ggrepel: 10 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
Biplot de la distribución de las categorías señalando su contribución mediante el nivel de transparencia de sus puntos geométricos.

Biplot de la distribución de las categorías señalando su contribución mediante el nivel de transparencia de sus puntos geométricos.

6 Análisis sobre los individuos

Por otro lado, también es posible realizar el análisis de correspondencias sobre los perfiles de los individuos (filas) dentro del MCA. Esto permite agrupar y ubicar a los individuos o casos más semejantes entre sí, tomando en consideración sus respuestas a las categorías seleccionadas; además, el análisis permite ubicar a los casos o individuos que ejercen mayor influencia sobre la distribución dentro del biplot con las dimensiones o ejes nuevos.

El comando get_mca_ind(), que es parte de la librería factoextra(), permite extraer los resultados para los individuos. Esta función arroja una lista en la que están contenidas las coordenadas, los valores de los cosenos cuadráticos y las contribuciones de cada uno de los casos o individuos (filas) de la matriz de datos.

indiv <- get_mca_ind(mca_lb)
indiv
## Multiple Correspondence Analysis Results for individuals
##  ===================================================
##   Name       Description                       
## 1 "$coord"   "Coordinates for the individuals" 
## 2 "$cos2"    "Cos2 for the individuals"        
## 3 "$contrib" "contributions of the individuals"

Los resultados observados para los individuos siguen la misma lógica de información que la que se describió arriba para las categorías de las variables activas.

Se puede acceder a la información contenida en cada uno de los elementos de la lista si se manda a llamar a cada elemento mediante el signo “$”:

# coordinadas para las filas
head(indiv $ coord, 3)
##        Dim 1     Dim 2      Dim 3      Dim 4      Dim 5
## 1 -0.6997875 1.2545334  0.1596905 -0.2323458  0.3506066
## 2 -0.6852106 1.0158574 -0.4754693 -0.3631857 -0.1149143
## 3 -0.4542715 0.6805767 -0.1955161 -0.7863946  0.2889284
# cualidad de la representación
head(indiv $ cos2, 3)
##        Dim 1     Dim 2       Dim 3      Dim 4       Dim 5
## 1 0.10026154 0.3222303 0.005221074 0.01105278 0.025167623
## 2 0.15077195 0.3313889 0.072596784 0.04235746 0.004240533
## 3 0.05675603 0.1273899 0.010513472 0.17008341 0.022959448
# contribución de cada individuo
head(indiv $ contrib, 3)
##        Dim 1      Dim 2       Dim 3       Dim 4       Dim 5
## 1 0.04115312 0.20030115 0.004147188 0.009524216 0.024015258
## 2 0.03945649 0.13133622 0.036765530 0.023271105 0.002579854
## 3 0.01734209 0.05894856 0.006216717 0.109103961 0.016309008

En la tabla anterior, cada fila se refiere a cada uno de los casos o individuos activos presentes en la matriz de datos -solo se presentan a los 3 primeros casos. Y en el resto de cada fila se identifica el valor para el sujeto \(-i\) en cada una de las dimensiones o ejes calculados.

6.1 Calidad de la representación de los individuos en el análisis MCA

A partir del comando fviz_mca_ind() es posible crear una gráfica de dispersión para observar la distribución de las proyecciones de cada individuo sobre el biplot con las dimensiones o ejes analizados. Al igual que en el caso de la gráfica sobre las categorías, aquí también es posible señalar mediante colores la calidad o la contribución de cada individuo sobre la gráfica.

La manera de señalar la calidad de la representación de cada individuo en el biplot es mediante el argumento col.ind =, por ejemplo, es la siguiente:

fviz_mca_ind(mca_lb, 
             col.ind = "cos2", # colorear los casos a partir del criterio de valor cos^2
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel = TRUE,
             max.overlaps = "ggrepel.max.overlaps",
             ggtheme = theme_minimal()
             )
## Warning: ggrepel: 4541 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
Biplot de distribución de los encuestados por Latinobarómetro, señalados por la calidad de su representación en el gráfico (cos2).

Biplot de distribución de los encuestados por Latinobarómetro, señalados por la calidad de su representación en el gráfico (cos2).

A partir de este gráfico se observa la distribución de los individuos activos en la matriz de datos, que se utilizaron para el análisis MCA.

En esta representación se pueden observar que los casos con mejor representación se ubican en colores cercanos al rojo, y se posicionan en los extremos de la dimensión 1, y no necesariamente hay casos del mismo color sobre la dimensión 2. Esto indica que la distribución de los casos están mejor representados por la primera dimensión.

Por su parte, los casos con bajos niveles de cosenos cuadráticos tenderán a ubicarse cercanos al centroide de la gráfica (coordenadas = [0,0]), y están señalados con el color más parecido al turquesa. Esto se puede interpretar como que las dimensiones o ejes utilizados en la representación gráfica no son los que mejor ayudan a entender sus comportamientos o sus perfiles, y tal vez existan otros ejes (que habría que explorar) que mejor se ajusten a su distribución.

6.2 Contribución de los casos al análisis MCA

En caso de querer identificar la contribución de cada caso o individuo (fila) sobre la construcción de las dimensiones o ejes calculados, es posible realizarlo a partir de retomar el comando fviz_mca_ind(), en donde se puede utilizar el argumento col.ind = contrib. Esto permitirá señalar el nivel de contribución de cada caso mediante los gradientes de colores.

fviz_mca_ind(mca_lb, 
             col.ind = "contrib", # colorear los casos a partir del valor de contribución
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel = TRUE,
             max.overlaps = "ggrepel.max.overlaps",
             ggtheme = theme_minimal()
)
## Warning: ggrepel: 4541 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
Biplot de distribución de los encuestados por Latinobarómetro, señalados por la contribución de su representación en el gráfico.

Biplot de distribución de los encuestados por Latinobarómetro, señalados por la contribución de su representación en el gráfico.

A partir de esta gráfica se identifica que los casos con mayor contribución en la construcción de las dimensiones o ejes calculados se colorean en tonalidades rojizas, mientras que los de menor contribución están iluminados en color verde turquesa.

Esta gráfica permite identificar que el caso con mayor contribución es el número 3864. Por lo que sería interesante, posteriormente, analizar a profundidad dicho caso.

También se puede comenzar a identificar “nubes” o grupos de casos semejantes entre sí. De manera que los casos más cercanos entre sí se corresponden con perfiles parecidos en sus respuestas a las distintas categorías de las variables medidas, en función de la calidad de su representación. Estos se ubican en mejor medida en los extremos del eje o dimensión 1.

Por otro lado, también se pueden crear gráficas de barras para medir la contribución de los individuos sobre las dimensiones o ejes creados, a partir de sus cosenos cuadráticos y sus contribuciones. Para ello se utiliza el comando fviz_contrib().

Por ejemplo, en la gráfica siguiente se identifican a los 20 casos o individuos con mayor contribución sobre ambas dimensiones de manera simultánea.

fviz_contrib(mca_lb, #objeto tipo lista con los resultados mca
             choice = "ind", #selección de los individuos para representarlos
             axes = 1:2, #ejes o dimensiones a incluir
             top = 20) #selección de los 20 casos con mayor nivel
Gráficas de barras para los 20 casos con mayor contribución a las dimensiones 1 y 2.

Gráficas de barras para los 20 casos con mayor contribución a las dimensiones 1 y 2.

A partir de la gráfica de barras se puede identificar con mayor claridad cuáles son los casos con mayor contribución sobre la construcción de las dimensiones o ejes 1 y 2. Aquí se observa que el caso 3864 es el más influyente, y posteriormente le siguen en igual magnitud de contribución los casos 2143, 3534 y 3677, entre otros.

De manera parecida a las gráficas vistas más arriba, donde los casos que se ubiquen por encima de la línea recta horizontal punteada de color rojo, indica que su influencia cae por arriba del promedio esperado de contribución para el total de casos.

Siguiendo la misma lógica de la gráfica de barras para evaluar la contribución de cada individuo, este mismo ejercicio se puede realizar para observar el nivel de calidad de representación de los individuos en ambas dimensiones de la gráfica biplot. Para ello se utiliza el comando fviz_cos2() de la siguiente manera:

fviz_cos2(mca_lb, 
          choice = "ind", 
          axes = 1:2, 
          top = 20)
Gráfica de barras sobre la calidad de representación de cada individuo sobre los ejes 1 y 2.

Gráfica de barras sobre la calidad de representación de cada individuo sobre los ejes 1 y 2.

A partir de esta gráfica se pueden identificar los casos con mayores niveles de cosenos cuadráticos, y que suponen estar mejor representados en el gráfico de barras. Como se puede ver, los casos con mayores niveles de \(cos^2\) son el 2015 y el 2629. Les siguen siete casos más con el mismo valor (desde el 1746 hasta 3984).

7 Agrupamiento de individuos

Otra manera de evaluar los perfiles de casos o individuos distribuidos por la gráfica de los ejes o dimensiones calculadas, y así identificar sus agrupamientos, se realiza mediante la coloración de los casos y añadiéndole elipses indicativas sobre el centroide para cada grupo y la amplitud de su distribución. Aquí se puede seguir trabajando con el comando fviz_mca_ind().

Al intentar agrupar los casos mediante la coloración de los puntos o proyecciones de cada individuo, se puede establecer a una variable tipo factor() como el criterio para llevarlo a cabo. Para ello se usa el argumento habillage=, donde se establece el nombre de la variable que servirá para establecer la coloración de los individuos y, así, agruparlos.

También se puede añadir una elipse de concentración en cada uno de los grupos creados, mediante el argumento addEllipses=TRUE. Si se desea establecer que el centro de la elipse de confianza se ubique sobre el punto medio de cada categoría, se debe usar el argumento ellipse.type = "confidence".

Finalmente, se usa el argumento palette= para cambiar los colores de los grupos.

fviz_mca_ind(mca_lb, #objeto tipo lista con resultados mca 
             label = "none", # ocultar las etiquetas de los individuos
             habillage = "satisf_dem", # colorear a los grupos 
             addEllipses = TRUE,
             ggtheme = theme_minimal()
             )
Biplot con la distribución de los individuos, agrupados por colores y con elipses de confianza.

Biplot con la distribución de los individuos, agrupados por colores y con elipses de confianza.

A partir de la gráfica se puede observar la manera en que se distribuyen los casos si son agrupados a partir de la variable “satisfacción con la democracia” (satisf_dem), que se integra por 4 niveles (\(k=4\)). Asimismo se observan las elipses que muestran el tamaño de la dispersión de cada grupo. A partir de esto se puede interpretar que los grupos correspondientes a las categorías 1 y 4 son los que permiten agrupan de mejor manera, y lo más excluyente posible, a los individuos.

También es relevante observar que los grupos 2 y 3 son abarcados en su mayoría por los grupos 1 y 4, respectivamente. Esto es debido a que los primeros se comportan como subgrupos de los últimos. Esto permite inferir que la variable de “satisfacción con la democracia” pudiera integrarse en solo dos grupos.

Si también se desean graficar de manera simultánea las proyecciones de los individuos utilizando dos variables categóricas como criterios para agruparlos, se puede llamar el comando fviz_ellipses(), dentro del que se recupera el objeto con los resultados del análisis MCA.

fviz_ellipses(mca_lb, # objeto tipo lista con resultados mca
              c("satisf_dem", "aprob_gob"), # definición de variables factor para agrupación
              geom = "point", # tipo de representación de los individuos
              alpha = 0.1 #transparencia de los puntos en la gráfica
              )
## Warning: `gather_()` was deprecated in tidyr 1.2.0.
## Please use `gather()` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was generated.

De lado izquierdo de la gráfica se observa la agrupación de los casos a partir de la variable “aprobación del gobierno” (aprob_gob \(k=2\)) y en el lado derecho se observa la distribución de los casos agregados por la variable “satisfacción con la democracia” (satisf_dem, \(k=4\)).

Además, dentro de cada grupo de color se observan puntos con mayor intensidad, los que se refieren a los centros (o promedios) de la distribución de cada agrupación de individuos. Alrededor de estos puntos se encuentran las elipses de distribución.

Es interesante observar que para la gráfica de la izquierda, los centros de distribución de cada grupo se ubican casi encima de la línea punteada horizontal, correspondiente a la dimensión o eje 1. En cambio, en la gráfica de la derecha, ninguno de los centros de las elipses se ubica sobre alguna de las líneas punteadas, pero se debe resaltar que cada uno de ellos se posiciona dentro de cada uno de los cuadrantes en que está dividido el biplot. Esto nos permite inferir la manera en que cada nube o grupo de individuos se distribuye en la gráfica, así como los perfiles dentro de cada grupo.

Referencias

Díaz Monroy, L. G., & Morales Rivera, M. A. (2009). Análisis estadístico de datos categóricos. Universidad Nacional de Colombia. Facultad de Ciencias.
