Aprendizaje No Supervisado

Introducción

En este informe, se realiza un análisis multivariante para estudiar las interrelaciones entre países basado en un conjunto de indicadores sociales, económicos y de salud pública. A diferencia de enfoques anteriores en los que había una única variable objetivo (como el IDH), ahora se emplea una estrategia de aprendizaje no supervisado, que se analiza sin etiquetado previo, dando espacio para que las estructuras internas emerjan por sí mismas. Este enfoque ayuda a descubrir los patrones y relaciones entre diferentes conjuntos de datos y simplifica la estructura del conjunto de datos al agrupar países según sus similitudes en la medición cuantitativa. Para lograr este objetivo, se implementan tres métodos estadísticos complementarios:

-El Análisis de Componentes Principales (ACP), que permite reducir la cantidad de variables manteniendo la mayor parte de la información relevante.

-El algoritmo de k-medias (k-means), que segmenta los datos en grupos con características similares.

-El método jerárquico de Ward, que muestra de forma progresiva cómo se van formando los grupos a partir de las distancias entre observaciones.

La combinación de estas herramientas no solo facilita la visualización y comprensión de los datos, sino que también permite detectar agrupaciones significativas que pueden servir como base para estudios comparativos, recomendaciones o algún otro tipo de decisiones.

Metodología

Se trabajó con una base de datos cuantitativa contruida a partir de Our World in Data y el Banco mundial de datos, centrandonos en el año 2021. Las variables fueron estandarizadas y se aplicó un Análisis de Componentes Principales (ACP) para reducir la dimensionalidad. Con base en los primeros componentes, se llevó a cabo una clasificación de países utilizando métodos de clustering jerárquico y k-means.

Base de datos

La base de datos empleada en este estudio fue construida a partir de indicadores cuantitativos disponibles en la plataforma Our World in Data y el Banco mundial de datos, todos correspondientes al año 2021. La selección de variables se centró en aspectos sociales, económicos y de salud, con el propósito de capturar una visión amplia del contexto de distintos países.

La base de datos final consiste en 106 países y contiene 17 variables numéricas, estandarizadas para facilitar el análisis. Este conjunto de datos sirvió como punto de partida para aplicar algunas técnicas de reducción de dimensionalidad y agrupamiento sin ningún objetivo de clasificación previo, siguiendo el enfoque de aprendizaje no supervisado del estudio.

Descripción de Variables

A continuación, se presenta una breve descripción de cada una de las variables cuantitativas utilizadas en este análisis:

  • mort_infantil: Número de muertes de menores de un año por cada 1.000 nacidos vivos.
  • alcohol_pc: Consumo anual de alcohol puro per cápita, medido en litros.
  • vida_esp: Esperanza de vida al nacer, medida en años.
  • agua_pot: Porcentaje de la población con acceso a fuentes seguras de agua potable.
  • pib_pc: Producto Interno Bruto per cápita, medido en dólares internacionales ajustados por paridad de poder adquisitivo.
  • cardio_muertes: Tasa de mortalidad atribuida a enfermedades cardiovasculares, por cada 100.000 habitantes.
  • suicidios: Tasa de suicidios por cada 100.000 habitantes.
  • idh: Índice de Desarrollo Humano, medida compuesta de salud, educación e ingreso.
  • edu_gasto: Porcentaje del PIB nacional destinado al gasto en educación.
  • desempleo: Porcentaje de la población económicamente activa que se encuentra sin empleo.
  • homicidios: Tasa de homicidios intencionales por cada 100.000 habitantes.
  • corrupcion: Índice de percepción de la corrupción (mayores valores indican menor corrupción percibida).
  • felicidad: Índice de percepción subjetiva del bienestar y satisfacción con la vida.
  • horas_trab: Promedio anual de horas trabajadas por persona empleada.
  • informalidad: Porcentaje de empleo que se realiza en el sector informal.
  • camas_hosp: Número de camas hospitalarias disponibles por cada 1.000 habitantes.
  • dens_pob: Densidad de población, expresada como habitantes por kilómetro cuadrado.

Estadísticos descriptivos

Antes de meternos de lleno en los análisis multivariados, quisimos revisar primero cómo se comporta cada variable por separado. Para eso, calculamos algunos estadísticos básicos como la media, la mediana, la desviación estándar y los rangos. Esto nos ayudó a tener una primera idea general de la distribución de los datos y a notar si había valores atípicos o diferencias marcadas entre países. Además, nos permitió entender mejor las escalas de cada indicador y la variedad que hay en nuestra base de datos.

Estadísticos descriptivos de las variables del estudio
variable media mediana desviacion minimo maximo
mort_infantil 2.13 1.13 2.57 0.23 11.69
alcohol_pc 6.22 6.52 4.31 0.00 16.99
vida_esp 74.31 75.60 8.31 31.50 84.40
agua_pot 70.99 81.25 29.78 6.10 100.00
pib_pc 30128.26 18102.75 27743.94 1145.10 134105.60
cardio_muertes 72262.68 22700.95 119095.00 145.40 530694.70
suicidios 9.11 8.20 5.87 0.70 37.40
idh 0.77 0.78 0.15 0.39 0.96
edu_gasto 4.46 4.26 1.76 0.36 13.77
desempleo 5.97 4.85 4.18 0.10 23.50
homicidios 4.99 2.30 7.45 0.10 41.40
corrupcion 47.98 43.00 19.62 19.00 87.00
felicidad 5.70 5.67 1.03 3.08 7.77
horas_trab 40.16 40.00 1.46 37.00 48.00
informalidad 42.51 35.60 29.57 5.20 93.60
camas_hosp 2.93 2.00 2.71 0.20 13.40
dens_pob 243.10 91.50 848.59 2.00 8358.00

Análisis de las variables a partir de los estadísticos descriptivos

Mediante las estadísticas descriptivas es posible observar el comportamiento individual de cada variable y la forma en que varían entre los países. En esta sección se describe brevemente la distribución de los principales indicadores incluidos en el análisis:

1. Mortalidad infantil (mort_infantil)
Esta variable muestra el número de muertes de niños menores de un año por cada mil nacidos vivos. La media indica que hay una presencia moderada de mortalidad infantil, pero los valores extremos revelan una marcada desigualdad: mientras algunos países apenas registran muertes infantiles, en otros las cifras son considerablemente más altas, lo cual puede estar asociado a problemas en salud pública y condiciones socioeconómicas críticas.

2. Consumo de alcohol per cápita (alcohol_pc)
Refleja el promedio de litros de alcohol puro consumidos por persona al año. La media se encuentra alrededor de los 6 litros, con una alta dispersión entre países, lo cual sugiere diferencias culturales y en políticas de salud respecto al consumo de sustancias.

3. Esperanza de vida (vida_esp)
Con una media de aproximadamente 74 años, esta variable muestra una alta expectativa de vida en muchos países. Sin embargo, los valores mínimos indican que aún existen territorios donde vivir más de 60 años no es lo común, posiblemente por factores estructurales de pobreza, acceso a servicios médicos o conflictos.

4. Acceso a agua potable (agua_pot)
La mayoría de países tienen altos niveles de acceso a agua segura, pero los valores mínimos revelan que algunas regiones todavía enfrentan serios retos en infraestructura básica. La amplia dispersión también puede deberse a diferencias entre zonas urbanas y rurales.

5. PIB per cápita (pib_pc)
Uno de los indicadores con mayor variabilidad, el PIB per cápita revela una gran desigualdad en los niveles de ingreso: mientras unos países superan los $130,000 por habitante, otros apenas superan los $1,000. Esta variable tiene una distribución asimétrica, con una mediana bastante inferior a la media.

6. Muertes por enfermedades cardiovasculares (cardio_muertes)
Muestra una altísima dispersión entre países, desde cifras moderadas hasta territorios con más de medio millón de muertes anuales. Esto refleja tanto diferencias demográficas como en el acceso a tratamientos preventivos.

7. Suicidios por cada 100,000 habitantes (suicidios)
Aunque la media ronda los 9 casos por cada 100 mil personas, algunos países reportan valores superiores a 30, lo cual podría relacionarse con factores socioculturales, salud mental y acceso a atención psicológica.

8. Índice de Desarrollo Humano (idh)
El IDH oscila entre 0.4 y casi 1.0, reflejando disparidades en educación, salud e ingreso. La mayoría de países estudiados tienen valores relativamente altos, pero existen casos con niveles de desarrollo humano bastante bajos.

9. Gasto público en educación (edu_gasto)
Expresado como porcentaje del PIB, esta variable se concentra en un rango entre el 3% y el 6%, lo que sugiere que en general se asigna un presupuesto moderado a la educación pública. Los valores extremos muestran políticas muy diferenciadas entre países.

10. Desempleo (desempleo)
La media y mediana están cercanas al 6%, pero existen casos en los que la tasa supera el 20%, indicando situaciones económicas críticas o estructuras laborales informales muy marcadas.

11. Tasa de homicidios (homicidios)
Hay países con tasas muy bajas y otros con niveles alarmantes de violencia, lo cual resalta el problema de seguridad y violencia estructural en ciertas regiones.

12. Percepción de corrupción (corrupcion)
Con un rango que va de 10 a más de 80, este indicador muestra la percepción de integridad institucional. Una alta variabilidad revela la falta de estándares comunes de gobernanza.

13. Índice de felicidad (felicidad)
La mayoría de países muestran niveles moderados de satisfacción con la vida, pero hay extremos que reflejan tanto sociedades muy optimistas como otras donde la percepción del bienestar es limitada.

14. Promedio de horas trabajadas semanalmente (horas_trab)
En general, los países se agrupan cerca de las 40 horas semanales, aunque algunos superan con creces este promedio. Esto puede indicar niveles de informalidad o falta de regulación laboral.

15. Porcentaje de informalidad laboral (informalidad)
Esta variable muestra niveles desde el 5% hasta casi el 90%, lo cual habla de diferencias en la estructura económica, fiscalización laboral y acceso a derechos.

16. Camas hospitalarias por cada 1,000 habitantes (camas_hosp)
Refleja el acceso a servicios hospitalarios. Los valores bajos indican sistemas de salud con infraestructura limitada.

17. Densidad poblacional (dens_pob)
Los datos presentan una enorme dispersión, desde países con muy baja densidad hasta otros con más de 8,000 personas por km². Esto refleja diferencias geográficas, urbanización e incluso políticas migratorias.

Interpretación de la comparación de variables por clúster

La gráfica muestra la distribución de cada una de las 17 variables cuantitativas según los tres clústeres identificados en el análisis. Esta visualización permite comparar el comportamiento típico de cada grupo de países y resaltar las diferencias estructurales más relevantes.

Principales hallazgos

  • Cluster 1 (rojo):
    Agrupa países con valores intermedios o moderados en la mayoría de variables. Se destacan por tener menor PIB per cápita, mayor informalidad y mayores niveles de mortalidad infantil en comparación con los otros grupos. Esto sugiere que este clúster representa economías en desarrollo o con desafíos estructurales importantes.

  • Cluster 2 (verde):
    Se caracteriza por niveles intermedios en variables como PIB per cápita, educación y felicidad, pero también muestra valores más altos en corrupción y homicidios. Estos países podrían representar economías de ingreso medio con contrastes internos significativos.

  • Cluster 3 (morado):
    Es el grupo con mejores indicadores en casi todas las variables: alta esperanza de vida, mayor inversión en salud y educación, bajos niveles de informalidad, y alta disponibilidad de camas hospitalarias. También tienen el mayor PIB per cápita y menores tasas de homicidios, mortalidad infantil y desempleo. Este clúster refleja países con altos niveles de desarrollo humano.

Conclusión

Esta comparación evidencia cómo los clústeres capturan diferencias significativas en dimensiones clave como salud, educación, economía y bienestar social. La agrupación permitió reducir la complejidad del análisis y también identificar patrones claros entre los países según su desempeño multivariable.

Matriz de correlación

Como parte del análisis preliminar, se exploraron las relaciones entre las variables mediante una matriz de correlación. Esta herramienta permite identificar si ciertos indicadores tienden a aumentar o disminuir juntos, o si por el contrario no tienen una relación significativa.

Con este análisis buscamos observar asociaciones iniciales entre aspectos económicos, sociales y de salud. Las correlaciones cercanas a 1 indican una relación directa fuerte, mientras que valores próximos a -1 reflejan una relación inversa fuerte. Si el valor es cercano a 0, significa que las variables no presentan una relación lineal clara entre sí.

Este paso resulta clave para entender cómo interactúan las variables y detectar posibles redundancias o patrones interesantes que podrían influir en las técnicas multivariadas aplicadas más adelante.

Resultados de los modelos

Luego de haber presentado los fundamentos del análisis no supervisado, en esta sección nos enfocamos en los resultados obtenidos al aplicar cada una de las técnicas seleccionadas.
En primer lugar, se utilizó el Análisis de Componentes Principales (ACP), que permite reducir la cantidad de variables manteniendo la mayor parte de la información relevante. Luego, se aplicaron dos métodos de agrupamiento: el algoritmo de k-medias (k-means), que segmenta los datos en grupos con características similares, y el método jerárquico de Ward, que muestra de forma progresiva cómo se van formando los grupos a partir de las distancias entre observaciones.

En los apartados siguientes, se mostrarán los resultados obtenidos con cada uno de estos métodos, destacando los patrones de agrupación identificados y su posible interpretación.

Análisis de Componentes Principales (Modelo ACP)

El Análisis de Componentes Principales (ACP) se aplicó con el objetivo de reducir la cantidad de variables y facilitar la exploración de los datos. Al trabajar con múltiples indicadores numéricos de distintos países, esta técnica permite resumir la información en unos pocos componentes que conservan la mayor parte de la variabilidad presente en los datos originales. De esta forma, se hace más sencillo observar patrones y relaciones entre los países antes de aplicar los métodos de agrupamiento.

Aplicamos el ACP, sobre los datos ya estandarizados. Este análisis nos permite reducir la dimensionalidad de la base manteniendo la mayor cantidad posible de variabilidad. Así, podemos identificar patrones, relaciones entre variables y posibles agrupamientos entre países.

En el gráfico de varianza explicada observamos que los tres primeros componentes principales explican en conjunto aproximadamente 61.1% de la variabilidad total de los datos (Dim1: 41.3%, Dim2: 10.7%, Dim3: 9.1%).

Esto justifica que nos concentremos en estos tres ejes para el análisis. El primer componente explica por sí solo una parte sustancial de la variabilidad (más del 40%), lo que indica la existencia de una dimensión dominante en los datos. Las otras dos dimensiones aportan información complementaria que ayuda a identificar otras estructuras relevantes entre los países.

Dimensión 1: Desarrollo humano y condiciones de vida

Las variables que más contribuyen a esta dimensión son:

  • idh (Índice de Desarrollo Humano)
  • informalidad(Porcentaje de informalidad laboral)
  • vida_esp (Esperanza de vida)
  • agua_pot (Acceso a agua potable)
  • mort_infantil (Mortalidad infantil)
  • pib_pc (Producto Interno Bruto per cápita)
  • corrupcion
  • camas_hosp (Camas hospitalarias por cada mil habitantes)

Este componente concentra una gran parte de la variabilidad total de los datos y puede interpretarse como una dimensión de desarrollo humano y condiciones de vida generales.

Las variables que lo definen están muy relacionadas con factores estructurales que determinan la calidad de vida de la población: la salud (vida_esp, mort_infantil, camas_hosp), el acceso a servicios básicos (agua_pot), el desempeño económico (pib_pc), el desarrollo institucional (corrupcion), la estabilidad laboral (informalidad), y el índice de desarrollo humano como resumen de varios de estos aspectos.

En este eje, los países que obtienen valores altos tienden a presentar mejores condiciones socioeconómicas: mayor esperanza de vida, mejor acceso a servicios de salud, menos mortalidad infantil, menor informalidad laboral, y mayor desarrollo institucional.

En contraste, los países con valores bajos en este componente reflejan debilidades significativas en estas dimensiones, lo que sugiere un menor nivel de desarrollo general.

Dimensión 2: Factores laborales, salud mental y percepción de vida

Las variables que más aportan a esta dimensión son:

  • suicidios(Suicidios por cada 100,000 habitantes)
  • felicidad (Índice de felicidad)
  • desempleo
  • horas_trab(Promedio de horas trabajadas semanalmente)
  • alcohol_pc(Consumo de alcohol per cápita)

Esta dimensión refleja principalmente aspectos relacionados con el bienestar subjetivo y las condiciones laborales.

Se destacan variables que nos hablan del estrés, la estabilidad emocional y la calidad de vida en el entorno laboral y personal. Los países con valores altos en esta dimensión tienden a mostrar mayores niveles de malestar o presión social, ya sea por más suicidios, mayor consumo de alcohol o desempleo. Por el contrario, los valores bajos reflejan mayor bienestar emocional y mejores condiciones laborales.

Esta dimensión permite identificar patrones donde el trabajo, la salud mental y la percepción de la vida se entrelazan para definir la calidad de vida de las poblaciones.

Dimensión 3: Infraestructura en salud y dinámica laboral

Las variables que más aportan a esta dimensión son:

  • cardio_muertes(Muertes por enfermedades cardiovasculares)
  • horas_trab(Promedio de horas trabajadas semanalmente)
  • edu_gasto(Gasto público en educación)
  • camas_hosp(Camas hospitalarias por cada 1,000 habitantes)

Esta dimensión pone el foco en la capacidad del sistema de salud y las exigencias del entorno laboral.

Los países con valores altos en esta dimensión tienden a presentar mayores niveles de enfermedades cardiovasculares junto con menos inversión en salud y educación, y menos infraestructura hospitalaria. Esto puede estar asociado a un sistema de salud más débil o a estilos de vida menos saludables.

También se observa la carga laboral (horas trabajadas), lo cual sugiere una posible relación entre exceso de trabajo y problemas de salud, especialmente del corazón.

Por el contrario, valores bajos indican mejores condiciones de salud pública, mayor inversión social y un entorno laboral más equilibrado.

Esta dimensión aporta una mirada más estructural sobre cómo las condiciones del sistema influyen directamente en la salud de la población.

Gráficos de ACP – Variables e Individuos

Como se trabajó con tres dimensiones principales (Dim1, Dim2 y Dim3), se construyo un total de seis gráficos: tres para las variables y tres para los individuos (países). En cada uno se combinan dos dimensiones (Dim1 vs Dim2, Dim1 vs Dim3, y Dim2 vs Dim3), lo que nos permite analizar la relación entre variables o entre países desde diferentes ángulos.

Se decidió usar estos gráficos en 2D (de a dos dimensiones) porque son mucho más intuitivos y fáciles de leer. Aunque los gráficos en 3D pueden mostrar más información de golpe, tienden a ser más difíciles de interpretar, especialmente cuando queremos identificar direcciones, relaciones o contribuciones claras.

Gráficos de Variables

En estos gráficos se proyectaron las 17 variables originales como vectores dentro del plano definido por cada par de dimensiones. La idea es visualizar qué tanto aporta cada variable a la estructura descubierta por el ACP.

Para facilitar la lectura, cada vector está coloreado según su contribución y tiene una dirección y longitud específica. Aquí va una guía rápida para interpretarlos:

Longitud del vector: A mayor longitud, mejor representada está la variable en ese plano. Es decir, esa variable tiene más peso en la explicación de la varianza entre los ejes correspondientes.

Dirección del vector: Nos indica cómo se relaciona la variable con las dimensiones. Si dos vectores apuntan en la misma dirección, hay correlación positiva; si apuntan en sentidos contrarios, es negativa. Si forman un ángulo cercano a 90°, no hay relación entre ellas.

Color del vector: Usamos una escala de colores para destacar qué variables tienen más influencia. Los vectores rojos son los más importantes en ese plano, seguidos por los amarillos. Los azules tienen menor impacto.

Gráfico de variables - Dim1 vs Dim2

El gráfico muestra cómo se distribuyen las variables en el plano definido por las dimensiones 1 (Desarrollo y calidad de vida) y 2 (Factores laborales y salud mental).

Las variables más alejadas del centro, como informalidad, vida_esp, mort_infantil, pib_pc y agua_pot, son las que más contribuyen a este plano. En cambio, desempleo y felicidad tienen poca relevancia aquí, al estar cerca del centro.

Se evidencian relaciones opuestas claras: por ejemplo, informalidad y vida_esp apuntan en direcciones contrarias, lo que indica que a mayor informalidad, menor esperanza de vida. También destaca el grupo cardio_muertes, horas_trab y suicidios, que define gran parte de la dimensión 2, asociada a carga laboral y salud mental.

Gráfico de individuos (países) - Dim1 vs Dim2

En este plano, se pueden ver cómo se distribuyen los países según su nivel de desarrollo y estructura social. A la derecha del gráfico están países como Luxembourg, New Zealand o Norway, que combinan buen desarrollo con mayor estabilidad institucional.

Por otro lado, hacia el extremo inferior derecho aparece Lesotho, que resalta por su bajo desempeño en gobernanza, a pesar de su posición en desarrollo.

En la parte central y superior se concentran países como Bangladesh, Indonesia y Cambodia, que aunque aún no destacan en calidad de vida, muestran una estructura social más dinámica.

Los tonos más rojos indican países bien representados en estas dos dimensiones. Los más morados, como Russia o Moldova, aportan menos a este plano y podrían estar mejor explicados por otras dimensiones.

Gráfico de variables - Dim1 vs Dim3

En este plano se cruzan dos dimensiones distintas: por un lado, el eje 1, que resume desarrollo y calidad de vida, y por el otro, el eje 3, relacionado con infraestructura en salud y dinámica laboral.

Las variables como mort_infantil, informalidad, suicidios, homicidios y horas_trab tienen mayor presencia en esta combinación de dimensiones. Su ubicación alejada del centro indica que son determinantes en esta lectura conjunta.

Se destaca la oposición entre suicidios y variables como camas_hosp, agua_pot y pib_pc, lo que sugiere que una menor infraestructura de salud podría estar vinculada a mayores problemas de salud mental.

En contraste, desempleo, dens_pob y edu_gasto apenas aportan aquí, ya que están cerca del origen. En resumen, este gráfico deja ver cómo factores de salud y carga laboral se combinan con el nivel de desarrollo para marcar contrastes fuertes entre países.

Gráfico de individuos - Dim1 vs Dim3

En este plano, vemos cómo se relacionan los países en términos de desarrollo (eje X) y dinámica laboral e infraestructura en salud (eje Y).

Indonesia destaca completamente a la derecha con un valor alto en desarrollo, pero muy aislado del resto por su posición particular en esta dimensión.

En el extremo superior derecho, países como Senegal, Sierra Leone y Ethiopia muestran cierta actividad laboral, pero bajos niveles de desarrollo. En cambio, a la izquierda, países como Denmark, Germany o Japan combinan mejor desarrollo con una dinámica laboral e infraestructura más estable.

Los colores más intensos (rojo) indican países cuya posición está muy bien explicada por estas dos dimensiones, mientras que los morados aportan poco a este plano.

Gráfico de variables - Dim2 vs Dim3

Este plano cruza dos dimensiones específicas: el eje 2, relacionado con factores laborales y salud mental, y el eje 3, que apunta a la infraestructura en salud y dinámica laboral.

Variables como suicidios, edu_gasto, homicidios y felicidad tienen un papel fuerte en esta combinación, ya que están lejos del centro y con vectores intensamente coloreados. Estas variables reflejan tensiones sociales, salud mental e inversión social.

Por otro lado, vida_esp, agua_pot, corrupcion y informalidad también se destacan, pero en dirección contraria. Esto sugiere una relación inversa: a mayor inversión y bienestar básico, menores problemas de salud mental y violencia.

Mientras tanto, variables como alcohol_pc o camas_hosp tienen una contribución más baja en este plano. En conjunto, este gráfico permite ver claramente dos polos: uno más estructural y otro más social/emocional.

Gráfico de individuos - Dim2 vs Dim3

En este plano vemos la relación entre factores laborales y salud mental (Dim2, eje X) y la infraestructura en salud y dinámica laboral (Dim3, eje Y).

Países como Lesotho, Kiribati y Suriname se separan del resto, indicando situaciones muy particulares en estas dimensiones. Por ejemplo, Lesotho muestra valores extremos tanto en salud mental como en infraestructura.

En contraste, la mayoría de países se agrupa en el centro, con valores más moderados. Indonesia, ubicada en la parte inferior derecha, destaca por su comportamiento diferenciado en ambos factores.

Los tonos más rojos indican países cuya posición está bien representada en este plano, mientras que los morados reflejan menor calidad de representación aquí.

Clusterización mediante k-means

K óptimo de clusters k-means

Para determinar el número óptimo de clusters en los que se debían clasificar los datos, se utilizaron dos métodos complementarios: el método de silueta (silhouette) y el método del codo (elbow). A continuación, se presentan los gráficos que muestran el comportamiento de estos indicadores con diferentes valores del parámetro k, con el fin de obtener el número ideal de agrupaciones para el modelo.

Para saber cuántos grupos usar en el modelo k-means, se usó el método del codo. La lógica es simple: si seguimos sumando clusters, llega un punto en el que ya no mejora mucho la agrupación. Ese “quiebre” o codo es donde conviene parar. En este caso, el gráfico muestra que el valor óptimo de k es 2, porque a partir de ahí la curva se aplana y no aporta gran cosa seguir dividiendo más.

Distribución de Variables por Cluster

library(reshape2) data_long <- melt(BaseAP_agrupado, id.vars = “cluster”, variable.name = “variable”, value.name = “valor”)

Este gráfico muestra cómo se comportan las variables originales dentro de cada uno de los tres clusters generados. En general, la mayoría de las variables tienen valores muy bajos (casi pegadas al cero), excepto por unas cuantas que destacan.

pib_pc es la más clara para diferenciar los grupos. El Cluster 1 tiene los valores más altos, lo que sugiere países con alto desarrollo económico. El Cluster 3, en cambio, muestra un PIB mucho más bajo.

cardio_muertes y suicidios también ayudan a distinguir los clusters. El Cluster 3 concentra los niveles más altos en ambas, lo que podría indicar contextos con problemas en salud pública. El Cluster 1, en cambio, tiene valores bastante bajos en estas dos variables.

El resto de las variables prácticamente no varía entre clusters o tienen valores tan pequeños que apenas se notan en la gráfica (probablemente por diferencia de escala).

En resumen:

  • Cluster 1 : Alto PIB, baja mortalidad y suicidios.
  • Cluster 3 :Bajo PIB, problemas de salud evidentes.
  • Cluster 2 : Algo intermedio.

Método Ward

El método de Ward es una forma de agrupar datos que se enfoca en que los elementos dentro de cada grupo sean lo más parecidos posible. A diferencia de otros métodos que simplemente juntan por cercanía, este va paso a paso uniendo los grupos que menos cambian la estructura general.

se utilizo porque ayuda a que los clusters queden bien organizados, sin meter países que no tienen mucho que ver entre sí. En resumen, es un método que cuida que cada grupo tenga sentido y que no se desordene el análisis al juntar los datos.

Interpretación del Dendrograma: ¿Cómo se agrupan los países?

Este dendrograma es básicamente un árbol que nos muestra qué países se parecen entre sí en función de las variables que analizamos. Los que están más junticos abajo, son los más parecidos; y los que se conectan más arriba, tienen diferencias más grandes. Para hacer el análisis más claro, se cortó el árbol en 3 grupos principales (clusters), cada uno con su color: rojo, verde y azul.

Cluster Rojo: Países Altamente Diferenciados

Este grupo es pequeñito pero bien especial. Se une al resto del árbol a una altura súper alta, lo que indica que sus países son muy distintos del resto. Aquí están los países con indicadores tan altos que no tienen con quién compararse.Por ejemplo, Estados Unidos.

¿Qué tienen en común? PIB per cápita altísimo, innovación, desarrollo por las nubes. Son como los países “élite”, los que tienen todo andando a otro nivel.

Cluster Verde: Países con Desarrollo Sólido y Diversificado

Este es el grupo más grande. Aquí encontramos países que, aunque no son tan extremos como los del grupo rojo, muestran buenos niveles de desarrollo. Se parecen entre sí, pero también tienen subgrupos internos con características más específicas.

¿Qué se ve dentro del grupo?

Hay países súper parecidos (ej. Lituania y Letonia) que casi parecen gemelos.

Están los nórdicos (Suecia, Finlandia, etc.) que son muy parecidos por su sistema de bienestar.

Otros como Alemania, Austria o Países Bajos, que tienen buen desarrollo pero con sus diferencias.

¿Qué significa esto? Este grupo tiene un desarrollo alto o medio-alto, y aunque hay matices, en general comparten ciertas condiciones estables: buena calidad de vida, servicios públicos fuertes, etc.

Cluster Azul: Países con Desafíos Compartidos en el Desarrollo

Este grupo junta a países que todavía tienen varios retos por delante. Se conectan entre ellos a alturas intermedias, lo que indica que se parecen, pero no tanto como los del grupo verde.

¿Quiénes están aquí?

Algunos africanos (Togo, Kenia, Namibia),

Otros asiáticos (Pakistán, Indonesia),

Y unos de Europa Oriental o Asia Central (Georgia, Tayikistán…).

¿Qué tienen en común? PIB más bajo, acceso limitado a servicios, desigualdad, o desafíos estructurales. Comparten un contexto más vulnerable o en proceso de desarrollo.

Conclusión General del Dendrograma

El dendrograma no solo muestra cómo se agrupan los países, sino cuánto se parecen o se diferencian. Nos deja ver:

Un grupo exclusivo de países muy avanzados (rojo),

Una mayoría con buen desarrollo, pero más diversos entre sí (verde),

Y otro conjunto que enfrenta desafíos similares en su camino al desarrollo (azul).

Conclusiones Finales

Este estudio mostró cómo el aprendizaje no supervisado puede ayudarnos a descubrir patrones que, a simple vista, no son tan evidentes en los datos sobre el desarrollo global. Gracias a técnicas como el clustering y el análisis de componentes principales, fue posible identificar tres realidades socioeconómicas bastante distintas:

  1. Países avanzados: con buenos indicadores de salud y economía, pero que enfrentan retos en salud mental.
  2. Economías emergentes: en proceso de mejora, aunque con grandes desafíos como la informalidad laboral.
  3. Países en situación crítica: donde la pobreza limita el acceso a servicios básicos y atención médica.

El análisis reafirmó que el desarrollo humano no puede medirse con una sola variable. Aunque el IDH fue clave, otras variables como la informalidad y la salud mental también jugaron un papel importante.

Desde el punto de vista metodológico, el estudio permitió comprobar que:

  • El ACP resumió con éxito las 17 variables en solo 3 dimensiones principales.
  • Los métodos de agrupamiento (k-means y Ward) ofrecieron resultados coherentes entre sí.
  • Los patrones hallados coinciden con lo que dicen algunas teorías, pero también agregan detalles interesantes.

Más allá de los resultados numéricos, lo valioso fue poder convertir tantos datos en algo que tenga sentido y pueda ser útil para entender mejor las diferencias entre países. Aunque este trabajo no pretende dar soluciones definitivas, sí creemos que estas herramientas pueden abrir caminos para pensar y actuar de forma más informada frente a los problemas sociales complejos que nos rodean.

Fuentes de información