En este mini-artículo, voy a presentar los resultados que obtuve usando las conocidas técnicas de Clustering: Análisis de Componentes Principales, K-Medias y Clustering Jerárquico en el contexto de Aprendizaje No-Supervisado, con la intención de “condensar” la información aportada por múltiples variables en Chile a nivel comunal que recopilé de fuentes como: datos COVID del Ministerio de Ciencia, Tecnología, Conocimiento e Innovación, datos de movilidad del ISCI, datos sociodemográficos de CASEN, Ministerio de Educación, CENSO (todas en 2017), datos del Índice de Ruralidad de la RM del Ministerio de Desarrollo Social y Familia (2019) y finalmente, información del Servicio Electoral para los datos del Plebiscito Apruebo/Rechazo del 2020. Las variables que utilicé fueron las siguientes:

Variable Descripción
TASA_COVID Tasa de contagios COVID por 100.000 habitantes desde marzo 2020
TASA_MORTALIDAD Tasa de mortalidad COVID por 100.000 habitantes desde marzo 2020
MOVILIDAD Tasa promedio de movilidad desde marzo 2020
INGRESO_PROMEDIO Ingreso per cápita promedio comunal
HACINAMIENTO Indicador de hacinamiento promedio comunal
ESCOLARIDAD Escolaridad promedio de los jefes de hogar a nivel comunal
POBLACION Población comunal
RURALIDAD Índice de ruralidad comunal 2019 (Solo RM)
TASA_INGESO_U Tasa promedio de ingreso a la Universidad de est. secundarios
APRUEBO Porcentaje de votos para la opción Apruebo de la comuna
RECHAZO Porcentaje de votos para la opción Rechazo de la comuna
POBREZA Proporción de la población comunal bajo la línea de la pobreza
PROP_ETNIA Proporción de la población comunal perteneciente a una Etnia
PROP_25 Proporción de la población comunal menor a 25 años
PROP_65 Proporción de la población comunal mayor a 65 años

El resultado obtenido para 289 comunas a nivel nacional, coloreando a las comunas según su Zona (Norte, Centro, Sur y RM) fue el siguiente loadings plot (les recuerdo que el loading plot muestra la magnitud con la que cada variable influye en un Componente Principal) para el método de PCA:

Es decir, increíblemente de estas 14 variables, con los dos Componentes Principales se explica cerca del 45% de la varianza de los datos!. Del primer gráfico de contribuciones, se puede observar que el primer componente principal, está explicado principalmente por variables como Pobreza, Escolaridad, Población, Tasa de Mortalidad y Proporción de Población Étnica y el segundo componente principal está explicado por variables como Ingreso, Votos del Rechazo y Apruebo, Hacinamiento, Escolaridad y Tasa de Ingreso Universitaria. En el primer gráfico se puede ver en qué sentido contribuyen cada una de estas variables.

Ahora, tomando en cuenta las comunas “más extremas” en los valores de cada uno de los Componentes Principales, se obtienen los siguientes loadings plots:

Si ahora se filtra la base para quedarnos solo con los datos de la Región Metropolitana y nuevamente realizamos el PCA incluyendo la variable de Ruralidad de las comunas de la RM y agregando también la dimensión del tamaño de la comuna como el tamaño del punto o pointsize, se obtiene el siguiente gráfico:

En donde prácticamente, con un Componente Principal, se explica el 44% de la varianza de la data. Los elipsoides de los dos gráficos anteriores son al 95% de confianza. En el segundo gráfico no están los loadings (o sea si, pero no explícitamente con la flechita), pero se han pintado los valores cos2 que corresponden a la calidad de la representación en el mapa de las dos componentes, además, lo agrego pues en este gráfico se notan mejor las diferentes comunas con sus respectivos nombres, así es más fácil ubicar una en particular en el primer gráfico una vez observado el segundo.

Una de las principales conclusiones del plot anterior y del gráfico de contribuciones, es que para el Eje \(X\) (PC1), las variables de Ingreso, Escolaridad, Tasa Ingreso Universidad, Votos del Rechazo y Proporción de Población de Tercera Edad contribuyen de manera positiva al Componente Principal, y es donde se encuentran comunas como La Reina, Ñuñoa, Lo Barnechea, Las Condes, Providencia y muy alejada, Vitacura. Hacia el otro extremo, se observan comunas con mayor Hacinamiento, Pobreza, Votos del Apruebo, Movilidad y Tasa de Contagios, dónde se encuentran comunas como La Pintana, Renca, El Bosque, Cerro Navia, etc. Para el Eje \(Y\) (PC2), las variables que contribuyen de manera positiva al Componente Principal son: Ruralidad, Población Menor de 25 Años, donde se pueden notar comunas como María Pinto, Colina, Melipilla y Alhué. Hacia el sentido contrario, se encuentran comunas con mayor Población, Tasas de Mortalidad y Población Mayor de 65 Años, Tasa de Contagios y Movilidad, dónde están comunas como La Florida, Independencia, Recoleta, Quinta Normal, etc.

Cabe destacar que indudablemente comunas como Vitacura, Las Condes y Providencia parecieran pertenecer efectivamente a un Chile muy distinto.

Ahora, empleando las técnicas de K-Means con \(4\) clusters y el Clustering Jerárquico con estrategia divisiva también hasta \(k=4\) para las comunas de la Región Metropolitana, se obtienen los siguientes grupos de comunas:

A simple vista pareciera ser que el algoritmo ha clasificado bien entre comunas con rasgos similares. Por ejemplo, en el extremo izquierdo, se encuentran las comunas de Lo Barnechea, La Reina, Ñuñoa, Providencia, Las Condes y Vitacura, que son las comunas de clase alta de la RM. Haciendo un zoom en este grupo en particular, según el gráfico, Las Condes y Vitacura son mucho más parecidas entre sí que por ejemplo Lo Barnechea y Vitacura. De hecho, la separación entre La Reina y Ñuñoa+Providencia por lo menos para mí es bastante certera.

Complementando la información anterior, se utiliza la clasificación dada por el algoritmo, para realizar dos Mapas de la Región Metropolitana indicando cada Cluster (usando todas las variables disponibles de la data):

Si he de aventurarme a una explicación de la clasificación, el Cluster \(1\) correspondería a comunas con una alta población y con predominio de habitantes de clase media, el \(2\) a comunas más cercanas a la urbe y más homogéneas en ingresos que las anteriores, el \(3\) son las comunas de clase acomodada de la capital y el \(4\) principalmente a comunas rurales.

Si ahora analizamos los Clusters de las comunas según la variable Movilidad, se obtiene:

En este caso, las comunas agrupadas en el extremo izquierdo de color cyan, corresponden a las comunas que más disminuyeron su movilidad a lo largo de la Pandemia. Luego en azul, se encuentra el grupo de comunas que menos bajó su movilidad. En amarillo, las comunas que redujeron medianamente su movilidad y para finalizar, en rojo las comunas de la zona urbana que más redujo su movilidad. Si vemos esto ahora en los dos gráficos de la RM:

Número de Cluster Descripción
1 Reducción media de movilidad en la zona urbana
2 Reducción más baja de la movilidad en la zona urbana
3 Reducción más alta de la movilidad en la zona urbana
4 Reducción más alta de la movilidad en la TODA la RM

En este caso, es claro que el Cluster \(2\) corresponde a comunas de clase trabajadora que debe movilizarse igualmente en restricciones y cuarentenas. El Cluster \(3\) nuevamente corresponde al grupo de comunas más privilegiadas. El Cluster \(2\) a comunas más heterogéneas (con mayor ingreso que las del primer cluster). El Cluster \(4\) corresponde a comunas más alejadas de las urbe con predominio de población rural.

Analizando los Clusters de las comunas según la variable Mortalidad, se tiene:

Las comunas agrupadas en el extremo izquierdo de color cyan, corresponden a las comunas con una tasa de mortalidad media. Luego en azul, se encuentra el grupo de comunas con mayor tasa de mortalidad. En amarillo, las comunas con tasas muy pequeñas y para finalizar, en rojo las comunas con tasas pequeñas. Observando los dos gráficos de la RM:

Número de Cluster Descripción
1 Tasa más baja de mortalidad
2 Tasa baja de mortalidad
3 Tasa más alta de mortalidad
4 Tasa media de mortalidad

En este caso, comunas como Cerro Navia, Conchalí, La Pintana, Lo Espejo, etc. del Cluster \(3\) de mayor mortalidad, son comunas con mayor índice de pobreza y hacinamiento que las demás.

Analizando los Clusters de las comunas según la variable Tasa de Contagios, se tiene:

Finalmente, las comunas agrupadas en el extremo izquierdo de color cyan, corresponden a las comunas con una tasa de contagios COVID media. Luego en azul, se encuentra el grupo de comunas con mayor tasa de contagios. En amarillo, las comunas con tasas bajas de contagio y para finalizar, en rojo las comunas con las tasas más bajas. Observando los dos gráficos de la RM:

Número de Cluster Descripción
1 Tasa baja de contagios
2 Tasa más alta de contagios
3 Tasa media de contagios
4 Tasa más baja de contagios

El Cluster \(2\) con tasas más altas de contagios, es muy similar al cluster menos favorecido del análisis anterior.