En este mini-artículo, voy a presentar los resultados que obtuve usando la archiconocida técnica de Análisis de Componentes Principales en el contexto de Aprendizaje No-Supervisado, con la intención de “condensar” la información aportada por múltiples variables sociodemográficas en Chile a nivel comunal que recopilé de fuentes como CASEN, MINEDUC, CENSO (todas en 2017) y también información del SERVEL para los datos del Plebiscito Apruebo/Rechazo del 2020. Las variables que utilicé fueron las siguientes:

Variable Descripción
INGRESO_PC_PROMEDIO Ingreso per cápita promedio comunal
POBLACION Población comunal
TASA_INGRESO_U Tasa de ingreso a la Universidad de estudiantes secundarios de la comuna
PROMEDIO_NEM Promedio NEM Comunal
HACINAMIENTO_PROMEDIO Indicador de hacinamiento promedio comunal
ESCOLARIDAD_PROMEDIO Escolaridad promedio de los jefes de hogar a nivel comunal
TASA_PART_PLEBISCITO Tasa de participación en el Plebiscito 2020
P_APRUEBO Porcentaje de votos para la opción Apruebo de la comuna
P_RECHAZO Porcentaje de votos para la opción Rechazo de la comuna
PROP_POBREZA Proporción de la población comunal bajo la línea de la pobreza
PROP_ETNIA Proporción de la población comunal perteneciente a una Etnia
PROP_25 Proporción de la población comunal menor a 25 años
PROP_65 Proporción de la población comunal mayor a 65 años

El resultado obtenido para 298 comunas a nivel nacional, coloreando a las comunas según su Zona (Norte, Centro, Sur y RM) fue el siguiente loadings plot (les recuerdo que el loading plot muestra la magnitud con la que cada variable influye en un Componente Principal):

## Importance of components:
##                           PC1    PC2    PC3     PC4     PC5     PC6     PC7
## Standard deviation     1.7889 1.7582 1.3507 1.07874 0.97244 0.81632 0.74183
## Proportion of Variance 0.2462 0.2378 0.1403 0.08951 0.07274 0.05126 0.04233
## Cumulative Proportion  0.2462 0.4840 0.6243 0.71381 0.78655 0.83781 0.88014
##                            PC8     PC9    PC10    PC11    PC12    PC13
## Standard deviation     0.66039 0.65170 0.52284 0.50842 0.40582 0.02724
## Proportion of Variance 0.03355 0.03267 0.02103 0.01988 0.01267 0.00006
## Cumulative Proportion  0.91369 0.94636 0.96739 0.98727 0.99994 1.00000

Es decir, increíblemente de estas 13 variables, con los dos Componentes Principales se explica cerca del 50% de la varianza de los datos! (Bueno, en realidad son 12 porque los votos del Rechazo son casi 1 menos los votos del Apruebo, pero decidí dejarlo para que se notara más esta diferencia).

Ahora, tomando en cuenta las comunas “más extremas” en los valores de cada uno de los Componentes Principales, se obtienen los siguientes loadings plots:

Y finalmente, si ahora se filtra la base para quedarnos solo con los datos de la Región Metropolitana y nuevamente realizamos el PCA, agregando la dimensión del tamaño de la comuna como el tamaño del punto o pointsize, se obtiene el siguiente gráfico:

## Importance of components:
##                           PC1    PC2    PC3     PC4     PC5     PC6    PC7
## Standard deviation     2.7085 1.3110 1.1412 0.91377 0.69773 0.65372 0.5563
## Proportion of Variance 0.5643 0.1322 0.1002 0.06423 0.03745 0.03287 0.0238
## Cumulative Proportion  0.5643 0.6965 0.7967 0.86091 0.89836 0.93123 0.9550
##                            PC8     PC9    PC10    PC11    PC12     PC13
## Standard deviation     0.48973 0.40269 0.31949 0.22662 0.17051 0.006727
## Proportion of Variance 0.01845 0.01247 0.00785 0.00395 0.00224 0.000000
## Cumulative Proportion  0.97348 0.98596 0.99381 0.99776 1.00000 1.000000

En donde prácticamente, con un Componente Principal, se explica el 57% de la varianza de la data. Los elipsoides de los dos gráficos anteriores son al 95% de confianza.

Me voy a quedar corto porque las conclusiones quedarán pendientes, pero voy a destacar indudablemente que comunas como Vitacura, Las Condes, Lo Barnechea y Providencia parecieran pertenecer efectivamente a un Chile muy distinto.