En este mini-artículo, voy a presentar los resultados que obtuve usando la archiconocida técnica de Análisis de Componentes Principales en el contexto de Aprendizaje No-Supervisado, con la intención de “condensar” la información aportada por múltiples variables sociodemográficas en Chile a nivel comunal que recopilé de fuentes como CASEN, MINEDUC, CENSO (todas en 2017) y también información del SERVEL para los datos del Plebiscito Apruebo/Rechazo del 2020. Las variables que utilicé fueron las siguientes:
Variable | Descripción |
---|---|
INGRESO_PC_PROMEDIO | Ingreso per cápita promedio comunal |
POBLACION | Población comunal |
TASA_INGRESO_U | Tasa de ingreso a la Universidad de estudiantes secundarios de la comuna |
PROMEDIO_NEM | Promedio NEM Comunal |
HACINAMIENTO_PROMEDIO | Indicador de hacinamiento promedio comunal |
ESCOLARIDAD_PROMEDIO | Escolaridad promedio de los jefes de hogar a nivel comunal |
TASA_PART_PLEBISCITO | Tasa de participación en el Plebiscito 2020 |
P_APRUEBO | Porcentaje de votos para la opción Apruebo de la comuna |
P_RECHAZO | Porcentaje de votos para la opción Rechazo de la comuna |
PROP_POBREZA | Proporción de la población comunal bajo la línea de la pobreza |
PROP_ETNIA | Proporción de la población comunal perteneciente a una Etnia |
PROP_25 | Proporción de la población comunal menor a 25 años |
PROP_65 | Proporción de la población comunal mayor a 65 años |
El resultado obtenido para 298 comunas a nivel nacional, coloreando a las comunas según su Zona (Norte, Centro, Sur y RM) fue el siguiente loadings plot (les recuerdo que el loading plot muestra la magnitud con la que cada variable influye en un Componente Principal):
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## Standard deviation 1.7889 1.7582 1.3507 1.07874 0.97244 0.81632 0.74183
## Proportion of Variance 0.2462 0.2378 0.1403 0.08951 0.07274 0.05126 0.04233
## Cumulative Proportion 0.2462 0.4840 0.6243 0.71381 0.78655 0.83781 0.88014
## PC8 PC9 PC10 PC11 PC12 PC13
## Standard deviation 0.66039 0.65170 0.52284 0.50842 0.40582 0.02724
## Proportion of Variance 0.03355 0.03267 0.02103 0.01988 0.01267 0.00006
## Cumulative Proportion 0.91369 0.94636 0.96739 0.98727 0.99994 1.00000
Es decir, increíblemente de estas 13 variables, con los dos Componentes Principales se explica cerca del 50% de la varianza de los datos! (Bueno, en realidad son 12 porque los votos del Rechazo son casi 1 menos los votos del Apruebo, pero decidí dejarlo para que se notara más esta diferencia).
Ahora, tomando en cuenta las comunas “más extremas” en los valores de cada uno de los Componentes Principales, se obtienen los siguientes loadings plots:
Y finalmente, si ahora se filtra la base para quedarnos solo con los datos de la Región Metropolitana y nuevamente realizamos el PCA, agregando la dimensión del tamaño de la comuna como el tamaño del punto o pointsize, se obtiene el siguiente gráfico:
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## Standard deviation 2.7085 1.3110 1.1412 0.91377 0.69773 0.65372 0.5563
## Proportion of Variance 0.5643 0.1322 0.1002 0.06423 0.03745 0.03287 0.0238
## Cumulative Proportion 0.5643 0.6965 0.7967 0.86091 0.89836 0.93123 0.9550
## PC8 PC9 PC10 PC11 PC12 PC13
## Standard deviation 0.48973 0.40269 0.31949 0.22662 0.17051 0.006727
## Proportion of Variance 0.01845 0.01247 0.00785 0.00395 0.00224 0.000000
## Cumulative Proportion 0.97348 0.98596 0.99381 0.99776 1.00000 1.000000
En donde prácticamente, con un Componente Principal, se explica el 57% de la varianza de la data. Los elipsoides de los dos gráficos anteriores son al 95% de confianza.
Me voy a quedar corto porque las conclusiones quedarán pendientes, pero voy a destacar indudablemente que comunas como Vitacura, Las Condes, Lo Barnechea y Providencia parecieran pertenecer efectivamente a un Chile muy distinto.