APRENDIZAJE NO SUPERVISADO

Introducción

En el presente estudio se aplica un enfoque de análisis multivariado no supervisado con el fin de explorar y clasificar un conjunto de 100 países en función de diversas variables que describen su realidad social, económica y demográfica. Para ello, se recurre a dos técnicas complementarias: el Análisis de Componentes Principales (ACP) y la Clusterización, empleando los métodos jerárquicos de Ward y el algoritmo de K-means.

Metodología

Descripciones de las Variables

Las variables consideradas en el análisis abarcan dimensiones claves del desarrollo:

  • En el ámbito social se incluyen: la esperanza de vida, los años esperados y promedio de escolarización, la tasa de alfabetización, la tasa de deserción escolar, la tasa de participacion femenina, el trabajo infantil, la tasa de violencia y el consumo de sustancias psicoactivas.

  • En el plano económico se contemplan: el ingreso nacional bruto y la población en situación de pobreza.

  • En cuanto a los factores demográficos y de acceso se integran: la tasa de natalidad, el acceso a las Tecnologías de la Información y Comunicación (TIC) y al agua potable, así como el Índice de Desarrollo Humano (IDH).

Este análisis permite generar una clasificación objetiva de los países en función de sus características estructurales, por consiguiente hemos creado una base de datos con los valores de cada país para empezar las pruebas de segmentacion de los mismos mediante las metodologias que se explicaran mas adelante.

Se ha decidido utilizar las siguientes abreviaturas para las variables que se mencionaran a continuacion:

  • Indice de dsarrollo humano (IDH)
  • Alta Esperanza de vida (Esp_v)
  • Acceso a TIC (AC_TIC)
  • Porcentaje de acceso agua potable (ACC_AP)
  • Bajos valores de Tasa de natalidad (T_NAT)
  • Población en porcentaje de Pobreza (POB_POBR)
  • Ingreso nacional bruto (INB)
  • Acceso a energia electrica (AEE)
  • Años promedio de escolarización (APR_E)
  • Taza alfabetización (TA_AL)
  • Porcentaje de deserción escolar (DES_ESC)
  • No. de Niños trabajando (N_TRA)
  • Población que consume sustancias psicoactivas (CONSM_VIC)
  • Tasa de violencia (TASA_VIOLNC)
  • Tasa de participación femenina (T_PF)

Descripcion del Modelo

Un modelo de aprendizaje no supervisado se refiere a un tipo de modelo que encuentra patrones, estructuras o agrupaciones en los datos por sí mismo, sin que se le diga previamente cuál es la “respuesta correcta”.

ACP (Análisis de Componentes Principales)

El Análisis de Componentes Principales es una técnica estadística de reducción de dimensión utilizada para transformar un conjunto de variables posiblemente correlacionadas en un nuevo conjunto más reducido de variables no correlacionadas llamadas componentes principales. El objetivo principal del ACP es conservar la mayor parte de la información contenida en los datos originales, facilitando su visualización y análisis, especialmente en contextos con muchas variables como lo es en nuestro caso. Esta interpretación se logra al analizar la relación entre los componentes y las variables originales, las cuales vienen dadas por la siguiente combinación lineal:

\[ Z = \lambda_1 X_1 + \lambda_2 X_2 + \cdots + \lambda_p X_p \]

Clusterización

La clusterización es una técnica de aprendizaje no supervisado cuyo objetivo es agrupar observaciones (en este caso, países) en subconjuntos o clústeres, de modo que los elementos dentro de un clúster sean similares entre sí y diferentes de los que están en otros clústeres. En este análisis se utilizan dos enfoques complementarios:

Ward

El método de Ward es una técnica jerárquica que agrupa datos minimizando la varianza dentro de cada clúster. Funciona de la siguiente manera:

  • Cada país empieza siendo su propio cluster individual.
  • Los clusters se van fusionando progresivamente, seleccionando siempre la combinación que minimice el incremento de varianza en el grupo resultante.
  • Este proceso continúa hasta que todos los países estén en un único cluster o hasta alcanzar el número de clusters deseado.

El método de Ward es ideal para obtener clusters bien diferenciados, ya que minimiza la heterogeneidad interna, lo cual lo hace útil para identificar agrupaciones naturales de países con valores similares.

K-means

El método K-means es una técnica no jerárquica que requiere establecer el número de clusters, k, de antemano. Funciona de la siguiente forma:

  • Se eligen k puntos como “centroides” iniciales, cada país se asigna al centroide más cercano formando k grupos
  • Los centroides se recalculan en función de las nuevas asignaciones, y los países se vuelven a asignar al centroide más cercano.Este proceso se repite hasta que los centroides ya no cambian significativamente, es decir, hasta que el agrupamiento se estabiliza.
  • Los objetos se representan con vectores reales de dimensiones (x1, x2,…,xn) y el algoritmo k-means construye k grupos donde se minimiza la suma de distancias de los objetos, dentro de cada grupo S={S1,S2,…,Sk} a su centroide, el problema se formula de la siguiente manera:

\[ \text{MinSE}(\mu_i) = \text{MinS} \sum_{i=1}^{k} \sum_{x_j \in S_i} \|x_j - \mu_i\|^2 \]

Matriz de Correlación

Por medio de esta matriz de correlaciones podemos identificar relaciones significativas entre variables, lo que nos permite realizar una serie de deducciones que ayudan a comprender la estructura interna de los datos antes de aplicar técnicas como el Análisis de Componentes Principales (PCA) o el agrupamiento (clustering). Estas técnicas son útiles para reducir considerablemente la dimensionalidad y facilitar la clasificación de los datos.

Se observan variables fuertemente correlacionadas tanto positiva como negativamente. Por ejemplo, el Índice de Desarrollo Humano presenta altas correlaciones positivas con la Esperanza de vida (0.90), el Acceso a la energía eléctrica (0.91), el Acceso a las TIC (0.90) y los Años promedio de escolarización (0.93). Estas variables reflejan dimensiones asociadas al desarrollo humano y el acceso a educación y tecnología, por lo que probablemente representan una dimensión latente común, que podría denominarse “desarrollo socioeducativo”.

Asimismo, el Acceso a la energía eléctrica también está altamente correlacionado con el Acceso a las TIC (0.88) y con los Años promedio de escolarización (0.83), lo que refuerza la interrelación entre educación y disponibilidad tecnológica.

Por otro lado, se identifican correlaciones negativas importantes entre el Índice de Desarrollo Humano y variables asociadas a la vulnerabilidad social, como la Tasa de natalidad (-0.78), la Deserción escolar (-0.74), la Población en pobreza (-0.87) y el número de Niños trabajando (-0.80). Esto sugiere que, a mayor desarrollo humano, tienden a disminuir estas condiciones adversas.

Gracias al análisis de correlaciones, es posible previsualizar grupos naturales de variables que podrían formar parte de futuras agrupaciones en un análisis más profundo. En ese sentido, se proponen tres grandes bloques temáticos:

1. Bloque de desarrollo socioeducativo:

  • Índice de Desarrollo Humano
  • Acceso a la energía eléctrica
  • Acceso a las TIC
  • Años promedio de escolarización
  • Esperanza de vida

2. Bloque de vulnerabilidad social:

  • Deserción escolar
  • Población en pobreza
  • Niños trabajando
  • Tasa de alfabetización (inversa: analfabetismo)
  • Tasa de natalidad

3. Variables con correlaciones más bajas:

  • Consumo de sustancias psicoactivas
  • Tasa de violencia
  • Tasa de participación femenina

Resultados descriptivos

Gracias a el método k means podemos observar por medio de un diagrama de cajas y alambres la proporción de valores que tiene cada cluster con respecto a cada variable logrando dar unas inocentes conclusiones sobre el tipo de país que puede encontrarse en cada cluster.

##         IDH    ESP_V      AEE    AC_TIC     APR_E       INB      T_AL    T_NAT
## 1 0.9012800 80.89600 16.52400 0.9636000 12.272000 53.197280 0.9556000 13.23200
## 2 0.7299048 72.71190 13.63571 0.7621429  8.716667 14.201429 0.9028571 16.56667
## 3 0.5349394 63.31515 10.60303 0.4300000  5.136364  3.283061 0.6539394 30.05758
##      ACC_AP    DES_ESC    N_TRA POB_POBR CONSM_VIC TASA_VIOLNC     T_PF
## 1 0.9352000 0.03836000 1.020000 15.71600  9.208000    1.888000 56.19200
## 2 0.8302381 0.06109524 1.830952 29.96905  4.021429   12.161905 45.48095
## 3 0.4787879 0.19075758 5.678788 45.33939  4.169697    7.518182 57.21515

Cluster 1 (Azul oscuro):

  • Mejores indicadores de desarrollo: Alto IDH, Alta Esperanza de vida, Alto Acceso a TIC y agua potable, Bajos valores de Tasa de natalidad y Población en situación de Pobreza.
  • Bajos niveles de vulnerabilidad social: Bajos en Deserción escolar, Baja Violencia, Bajo consumo de sustancias.

Cluster 2 (Naranja):

  • Indicadores intermedios: Valores medios en IDH, Esperanza de vida, Acceso a TIC y agua potable.
  • Tendencia a mayor desigualdad: Alta dispersión en variables como Tasa de violencia y Acceso a TIC. Indicadores sociales y económicos peores que el cluster 1 pero mejores que el cluster 3.

Cluster 3 (Verde):

  • Peores indicadores de desarrollo: Bajo IDH, esperanza de vida y acceso a TIC, Alta Tasa de natalidad y pobreza, Peor acceso a agua potable.
  • Mayor vulnerabilidad: Altos niveles en Deserción escolar, Alta tasa de violencia y problemas sociales más marcados.

Conclusión general

El gráfico permite visualizar una clara jerarquía de desarrollo humano y social entre los clusters además podemos comprobar la inocente inferencia sobre el desarrollo de los países por cluster visualizando la siguiente tabla en donde los promedios o centroides de los clusters creados por el modelo k means complementan la inferencia del nivel de desarrollo debido a mejores valores de las variables.

  • Cluster 1 → países más desarrollados.
  • Cluster 2 → países en desarrollo intermedio.
  • Cluster 3 → países con mayores desafíos sociales y económicos.

Resultados del Modelo

Ya pudimos mediante el método de k means dividir en grupos con similitud de valores a la base de países encontrando conclusiones sobre el nivel de desarrollo de los mismos en cada cluster, se esperaría que los clusters formados por el método de Ward fueran similares a los de k means pero no necesariamente debe ser así ya que K-means minimiza la distancia intra-cluster usando centroides (es sensible a la forma y escala de los datos), por otro lado Ward (en jerárquico) también busca minimizar la varianza interna, pero lo hace construyendo una estructura en forma de árbol (dendrograma) uniendo grupos paso a paso, y no recorre iterativamente como k-means.

Resultados Metodo Ward

El dendrograma presentado a continuación fue generado para representar en forma de árbol la interpretación de las relaciones y similitudes entre los elementos analizados, permitiendo una mejor comprensión de la estructura subyacente en el conjunto de datos.

En el podemos observar la creacion de los 3 clusters logrando asi dar una infrencia del porque de la agrupacion de estos paises en cada uno de estos

Cluster 1 (Rosado)

Este grupo representa a países con altos indicadores de salud, educación y economía.

Características promedio:

  • IDH alto: 0.86
  • Esperanza de vida alta: 78.8 años
  • Acceso a TIC casi universal: 0.94
  • Ingreso nacional per cápita elevado: ~37.8 mil USD
  • Tasa de alfabetización alta: ~0.97
  • Baja pobreza: 18.9%
  • Buena tasa de participacion femenina: 55%

Cluster 2 (Verde)

Representa a países en situación de vulnerabilidad y desarrollo insuficiente.

Características promedio:

  • IDH muy bajo: 0.48
  • Esperanza de vida baja: 61.2 años
  • Acceso limitado a TIC y educación: AEE = 9.6, AC_TIC = 0.36
  • Bajo ingreso per cápita: ~5.6 mil USD
  • Alta pobreza: 48.2%
  • Alta tasa de violencia: 10.49
  • Alta natalidad: 33.7%

Cluster 3 (Azul):

Este grupo incluye países que están en un proceso de desarrollo, con mejoras en salud y educación, pero aún con desafíos importantes.

Características promedio:

  • IDH medio: 0.65
  • Esperanza de vida intermedia: 69.2 años
  • Acceso moderado a TIC: 0.62
  • Ingreso per cápita bajo-medio: ~8.75 mil USD
  • Pobreza moderada-alta: 36.5%
  • Alta violencia: 12.28
  • Alfabetización y educación mejorando.

Los clusters formados por el método jerárquico de Ward principalmente clasificó los clusters por diferencias en desarrollo humano (IDH), ingreso, esperanza de vida, educación y pobreza obteniendo así tres clusters clasificados de la misma manera que en k means pero la cantidad de países que conforman cada cluster ha de ser diferente para cada método.

  • Cluster 1 → Países desarrollados
  • Cluster 2 → Países subdesarrollados o en crisis
  • Cluster 3 → Países en transición/desarrollo medio

Resultados Metodo ACP

Al aplicar el análisis de componentes en la base de datos obtenemos el mismo número de componentes como de variables pero el objetivo de este método es conseguir que un número de componentes mucho menor que la cantidad de variables explique la mayor cantidad de varianza del modelo, así como en kmeans encontramos que el número óptimo de clusters que dividen mejor a nuestros países es 3 así mismo encontramos que un optimo número de componentes para explicar la varianza son 3 componentes principales debido a que estos explican alrededor de un 80% de la varianza del modelo, esto puede visualizarse en el siguiente gráfico de codo.

¿Qué nos dicen nuestros componentes?

Estos componentes son considerados dimensiones en un nuevo espacio transformado y ya que tenemos tres componentes principales que explican cierta cantidad de varianza es para nosotros intrigante conocer qué variables dentro de estos componentes dominan, esto significa que tienen cargas absolutas que contribuyen a la explicación de varianza de cada componente, por medio de los siguientes gráficos podemos ver que en cada dimensión la variable que está más cercana al rojo intenso en la explica el mayor valor de varianza posible dentro de esa dimensión.

Variables predominates en dimensiones 1 2 y 3.

Dimensiones 1 y 2

Dimensiones 1 y 2

Dimensiones 1 y 3

Dimensiones 1 y 3

También podemos presenciarlo fácilmente en la siguiente tabla en donde tenemos los valores de varianza explicada de cada variable en cada dimensión, ordenando cada dimensión en orden ascendente podemos obtener la variable que más explica la varianza dentro de la dimensión.

Gracias a esta tabla podemos nombrar de cierta manera a las dimensiones por medio de los variables que dominan dentro de ellas.

  • Dime. 1 = Bienestar → Dominancia de variables que mejoran la calidad de vida y desarrollo de un pais.
  • Dime. 2 = Improcedencia → Dominancia de variables delictivas y ilegales asi como de precariedad de oportunidades.
  • Dime. 3 = Agresividad → Dominancia de variables de violencia y de acompañamiento gubernamental.

¿Los países forman las dimensiones?

Los paises que predominan en la explicacion de la varianza de las dimensiones son los que tiene un perfil muy característico o extremo en esa dimensión ya sea con valores de desarrollo altos o extremandamente bajos. Por medio del siguiente grafico podemos observar que los paises de color mas cercano al rojo intenso son aquellos que contribuyen al comportamiento de las dimensiones en cuestion.

Paises predominantes en dimensiones 1 2 y 3.

Dimension 1 y 2

Dimension 1 y 2

Dimension 1 y 3

Dimension 1 y 3

complementando la información del gráfico que puede llegar a ser algo confuso creamos esta tabla dinámica en la cual podemos observar el top de países que más contribuyen a la explicación de cada una de las tres dimensiones, realizando la misma clasificación ascendente para cada dimensión como se hizo con las variables.

Así mismo podemos realizar un gráfico en el que combinamos los países y las variables que nos dejan presenciar una relación lógica con respecto al análisis de los valores encontrados en cada uno de ellos por ejemplo hacia el lado del vector de índice de desarrollo humano y esperanza de vida se encuentran países con valores óptimos y altos y hacia el lado contrario se encuentran no sólo los países que no tienen estos excelentes valores de calidad de vida sino que también tienen los mejores valores en pobreza y precariedad creando esa hipotesis logica-analitica creada por la misma diferenciación de las dimensiones y sus características.

Dimension 1 y 2

Dimension 1 y 2

Dimension 1 y 3

Dimension 1 y 3

Observemos Cómo ACP Puede Clusterizar

Ya que la finalidad no es crear un modelo predictivo sino entender la estructura de los datos se realizó una caracterización en la que se volvió a generar clusters para ver cómo se repartieron los países con respecto a sus valores predominantes en dichas variables, como podemos ver en la siguientes tablas, se obtuvieron tres clases en las que obtenemos las variables en las que más se destacan los países dentro de estas agrupaciones ya sea por que tienen valores más altos o más bajos que el promedio.

Analizando estas tablas podemos volver a hacer una inocente inferencia sobre el tipo de países que deben estar en cada clase

  • Clase 1 → Países con una calidad de vida baja, no todos los infantes pueden estudiar, una sobrepoblación que puede proceder con escasez de recursos y el pésimo nivel de desarrollo y proporción de servicios básicos puede reducir la esperanza de vida de sus habitantes.
  • Clase 2 → Países en los que predomina el machismo y la opresión femenina así como la poca inversión nacional ya sea para seguridad y educación debido a exceso de actos violentos y deserción escolar.
  • Clase 3 → Países con objetivos de desarrollo claros, con inversiones internas superiores al promedio ya sea para infraestructura, educación y servicios básicos que suman puntos en la escala de un país con una larga y buena calidad de vida.

Una comparación gráfica entre las clases resultantes se puede presenciar en la siguiente imagen en donde sí podemos recordar la clasificación que se le dieron a las clases, la clase 3 que fácilmente podría llamarse países en los que se vive bonito es la contrariedad de la clase 1 que podría ser vista como los top de países en los que no te gustaria vivir y la clase 2 podría ser llamada paises opresivos y con personas violentas.

Conclusiones

  1. Contar con datos estandarizados para realizar un estudio categórico de individuos es fundamental como primer paso en cualquier análisis de datos, ya que permite detectar errores, patrones iniciales o comportamientos atípicos antes de aplicar técnicas más avanzadas como el análisis estadístico inferencial o modelos predictivos.

  2. En ACP al examinar las cargas de las variables en cada componente podemos interpretar qué variables son más influyentes en cada dimensión principal, ayudando a tomar decisiones informadas en contextos como análisis exploratorio proporcionando información valiosa sobre la estructura interna del conjunto de datos