EXPLORACIÓN MULTIVARIADA BASANDOSE EN INDICADORES DE DESAROLLO: UN ESTUDIO ENFOCADO EN TÉCNICAS DE APRENDIZAJE NO SUPERVISADO

Introducción

En el presente estudio se llevan a cabo diferentes métodos de análisis no supervisado con el fin de explorar patrones de agrupamiento en una muestra de países utilizando una serie de variables cuantitativas relacionadas con aspectos principalmente económicos, sociales y de bienestar. De esta manera, el objetivo final es identificar grupos de países con características similares y conocer qué variables son las más determinantes en la segmentación dada.

Mediante la aplicación de técnicas de aprendizaje como el Análisis de Componentes Principales (ACP) y clusterización (k-means y Ward), se busca reducir la dimensionalidad de la información que se recopiló anteriormente y poder segmentar cada observación (en este caso países) en grupos homogeneos para una interpretación más efectiva de las caracteristicas comunes entre ellos. Para ello, se recopiló un nuevo conjunto de variables para unificarlo con la base de datos del estudio de CLASIFICACIÓN DEL DESARROLLO HUMANO A TRAVÉS DE MODELOS DE PROGRAMACIÓN SUPERVISADA, para poder tener una base de datos compuesta por un mayor número de columnas y que los modelos desarrollaran una ejecución óptima.

Metodología

Primeramente, se comenzó el estudio realizando una busqueda de un nuevo conjunto de variables para complementar, como ya fue mencionado anteriormente, el conjunto de variables ya existentes utilizado en la investigación de Aprendizaje supervisado. De igual manera, se empleo la plataforma Our World in Data para esta tarea, reuniendo variables con información centrada en el año 2015. Para este estudio se utilizaron solamente variables cuantitativas, retransformando nuevamente la variable de Desarrollo_alto en idh (Esta variable fue la objetivo en el estudio de aprendizaje supervisado).

Selección variables y limpieza de datos

En este estudio se decidio incluir el mayor número de variables posibles sin comprometer el tamaño de la muestra, esto dado que algunas variables presentaban un número de observaciones relativamente bajo en el año enfocado, por ende, al incluirlas en la base de datos final disminuiría considerablemente el número de países de la tabla.

Al principio se tenia en cuenta la variable referente al porcentaje de la población sin educación formal, sin embargo, esta presentaba una cantidad de información relevante para el estudio minimo, haciendo que el conjunto de observaciones disminuyera bastante.

Entre las variables que se tenian pensadas incluir en el estudion pero al final se decidio no utilizarlas estan la población sin acceso a agua potable y la tasa de muertes por contaminación en el aire. Ambas variables hacian parte del conjunto de variables preliminar, no obstante, por las razones mencionadas anteriormente se consideró que no aportan un beneficio a la investigación.

Posteriormente, ya teniendo definidas las variables que se utilizarían en el estudio, se recopiló toda la información en una misma tabla, ordenando los valores de cada variable por el nombre del país. De igual manera, se eliminaron los países con datos faltantes (NA), con el objetivo de que cada país contara con la información requerida para la ejecución de los modelos.

Base de datos

A continuación, se presenta la base de datos final utilizada en el estudio. Como ya fue mencionado anteriormente, los indicadores cuantitativos se obtuvieron de la plataforma Our World in Data centrandose en el año 2015. La base de datos integra información de 17 variables con 54 países diferentes, incluyendo una gran variedad de factores que permiten tener un análisis de los modelos con diferentes enfoques.

Las 17 variables que se usarán en el estudio son:

PIB per cápita (pib_percapita)
Gasto público en educación como porcentaje del PIB (porcen_pib_educacion)
Índice de percepción de la corrupción (ind_corrupcion)
Comercio como porcentaje del PIB (porcen_pib_comercio)
Satisfacción vital autoinformada (satisfaccion_vital)
Esperanza de vida (esperanza_vida)
Tasa de desempleo (desempleo)
Número total de emigrantes (num_emigrantes)
Emisiones de CO2 per cápita (dioxido_percapita)
Porcentaje de la población con inseguridad alimentaria moderada o grave (inseguridad_alimentaria)
Porcentaje de la población con acceso a la electricidad (porcen_electricidad)
Porcentaje de la población con desnutrición (desnutricion)
Porcentaje de la población que vive en la pobreza extrema (porcen_pobreza)
Gasto sanitario total como porcentaje del PIB (porcen_pib_salud)
Ingresos fiscales como porcentaje del PIB (porcen_pib_fiscales)
Porcentaje de la población que utiliza internet (internet)
Índice de Desarrollo Humano (idh)

Resultados descriptivos

En esta sección se analizarán a traves de diferentes gráficas y tablas las variables seleccionadas para el estudio, esto con el objetivo de comprender patrones y contrastes que surgen de manera individual y colectiva.

Estadisticos descriptivos

Se realizó un análisis exploratorio de los datos mediante estadisticos descriptivos los cuales permiten observar el comportamiento de las variables, principalmente los rangos y su distribución. Para ello, se construyó una tabla donde se recopila información de cada una de las variables haciendo referencia a la: media, mediana, desviación estandar y rango. La tabla se muestra a continuación:

PIB per cápita (pib_percapita)

El PIB per cápita mide el ingreso promedio por habitante. La media de la varaible refleja en términos generales que los países incluidos en el estudio tienen niveles de ingreso relativamente altos, aunque la desviación demuestra que existe una gran diferencia entre los ingresos en algunos países, respaldada por los valores extremos, en donde algunos paises superan los $100,000 mientras que otros apenas pasan los $2,300. La mediana inferior a la media muestra que los datos presentan una distribución asimetrica hacia la derecha sesgada por unos pocos países con ingresos considerablemente altos.

Gasto público en educación como porcentaje del PIB (porcen_pib_educacion)

Este porcentaje refleja la prioridad que le da cada país a la educación. Con una mediana cercana al 5%, la mayoria invierte entre 3% y 6% de su PIB en educación pública. La distribución de esta variable tiende a ser simetrica gracias a la cercania de la media y la mediana, y los valores extremos muestran como algunos países se enfocan en la inversión de educación para un mejor desarrollo del país, y otros priorizan otros aspectos dejando este apartado a un lado, bien puede deberse a la falta de recursos del país o directamente porque no lo consideran un factor necesario para apoyar.

Índice de percepción de la corrupción (ind_corrupcion)

Este índice refleja la confianza gubernamental, donde 0 es muy corrupto y 100 es muy transparente. Una media de 55 indica transparencia moderada en promedio, sin embargo, la gran desviación refleja que hay países con serios problemas de corrupción (que serian los índices cercanos a 25) y otros con niveles casi óptimos (los que estan por encima de 80-85). La mediana cercana a la media sugiere una distribución relativamente equilibrada de los datos.

Comercio como porcentaje del PIB (porcen_pib_comercio)

El comercio internacional (exportaciones + importaciones) puede superar el 100% del PIB en pequeñas economias muy abiertas. Una mediana de 84% sugiere que la mitad de países tiene un comercio equivalente a al menos esa proporción de su PIB. Grandes valores atípicos demuestran economías de servicios globales, mientras que valores minimos (cerca del 30%) corresponden a economias más autosuficientes o con barreras comerciales.

Satisfacción vital autoinformada (satisfaccion_vital)

Este es un indicador subjetivo el cual refleja como la gente valora su bienestar. Con una media y memdiana cercana a 6, la mayoria de los países reportan satisfaccíon moderada, pero no muy alta. Bajos puntajes, como por ejemplo menos de 4, se puede decir que se encuentran en regiones con conflictos o pobreza media o alta. El valor bajo de desviación indica que las percepciones varian menos que las cifras económicas que se pueden analizar en otras variables. En general, son datos equilibrados con un balance que se puede considerar como aceptable.

Esperanza de vida (esperanza_vida)

La esperanza de vida encierra factores de salud pública, nutrición y condiciones sociales. Con una mediana y media entre en 76 y 77 años, la mitad de los países supera esa edad al nacer. Países con menos de 60 años aproximadamente pueden estar enfrentando crisis sanitarias o de violencia.

Tasa de desempleo (desempleo)

La tasa de desempleo simboliza la estructura del mercado laboral de las personas activas económicamente. Con mediana en 6.8%, la mitad de países registra tasas moderadas, y algunos valores superiores al 15% suelen corresponder a crisis económicas o factores sociales que inciden directamente en el aspecto laboral de un país.

Número total de emigrantes (num_emigrantes)

Esta cifra refleja el número de habitantes que abandona hacia otros territorios. En principio se puede observar que existe una gran asimetria en los datos, algunos pocos países aportan millones de emigrantes, mientras que la mediana sugiere que la mitad de los países registra flijos moderados de personas. Si en este estudio se abarcara una variable que representara el número total de habitantes por país, se podría analizar la tasa de migración de cada territorio, sin embargo, para la investigación no resulta relevante conocer la población total de habitantes.

Emisiones de CO2 per cápita (dioxido_percapita)

Esta variable representa las emisiones de CO2 por persona las cuales son medidas en toneladas. El valor del promedio propone que la mayoria de los países presentan niveles medios de emisiones. Existen valores extremadamente bajos, los cuales indican principalmente poca industrialización, y valores por encima de 15 toneladas los cuales corresponden a territorios desarrollados industrialmente y con cierta dependencia a combustibles fosiles. La mediana por debajo de la media da a entender que unos pocos países con emisiones más altas elevan el promedio, pero no tanto.

Porcentaje de la población con inseguridad alimentaria moderada o grave (inseguridad_alimentaria)

Representa la proporción de personas que no accede con regularidad a alimentación con dietas saludables o sufren carencia de energia. La mediana indica que en la mitad de países más de uno de cada diez personas sufre inseguridad alimentaria. Los valores extremos en el rango se pueden interpretar como crisis humanitarias desencadenados probablemente por aspectos sociales o económicos.

Porcentaje de la población con acceso a la electricidad (porcen_electricidad)

Esta variable representa que porcentaje de la población tiene acceso directo a servicio de energia. La electrificación se puede considerar como un determinante básico de desarrollo en un país. Con una mediana del 100%, al menos la mitad de países ofrece cobertura completa de electricidad a toda su población, y la media respalda que no existen tantos casos donde el porcentaje sea un valor minimo. Los valores atipicos inferiores pueden entenderse como apartados rurales o con presencia de conflictos que impiden la cobertura completa.

Porcentaje de la población con desnutrición (desnutricion)

Este porcentaje complementa la inseguridad alimentaria, pero puntualmente mide la carencia calórica crónica. Una mediana baja indica que en la mitad de países poco más del 2% sufre desnutrición, sin embargo, los valores máximos presentan obstaculos en la salud pública en países con bajos ingresos y poca posibilidad de inversión en este sector.

Porcentaje de la población que vive en la pobreza extrema (porcen_pobreza)

Se cataloga como pobreza extrema de manera estandar a los ingresos diarios por debajo de los $2.15 dolares, teniendo en cuenta las diferencias entre países y la inflación. Este problema afecta en promedio aproximadamente al 4% de la población, pero la mediana baja sugiere que en muchos países casi no existe. Según el rango de valores, en algunos paises más de la mitad de la población vive en extrema pobreza, y esto se puede deber a diferentes factores que sobrepasan lo económico, como bien puede ser la corrupción gubernamental o conflictos presentes en el territorio.

Gasto sanitario total como porcentaje del PIB (porcen_pib_salud)

Representa la prioridad a la sanidad pública por parte del estado. Con una mediana que ronda entre el 7% y 8%, la mayoría de los países invierten entre el 5% y 10% del PIB nacional a este fin. Extremos bajos menores al 3% reflejan sistemas sanitarios debiles, mientras que en algunos otros países cuentan con sistemas de salud con buen respaldo económico. De acuerdo a los valores resultantes se puede observar que los datos presentan un equilibrio aceptable en su distribución.

Ingresos fiscales como porcentaje del PIB (porcen_pib_fiscales)

Este indicador mide la capacidad recaudatoria del estado. Una mediana casi del 30% muestra un nivel sólido de impuestos. Los valores menores al 10% demuestran economias informales o con baja presión gubernamental, mientras que valores mayores al 45% reflejan estados con amplio poder gubernamental en este ambito. La diferencia entre los valores maximos y minimos es notoria, pero en términos generales existe una simetria en los datos de esta variable.

Porcentaje de la población que utiliza internet (internet)

En esta variable se mide cuanta población se conecta a la red para diferentes propositos. Esto puede ser sinonimo de avances tecnologicos y desarrollo general del país, sin embargo, hoy en dia se ha facilitado mucho la conectividad, entonces no necesariamente es una relación significativa directamente proporcional con el progreso de una nación. Con una mediana de casi el 70%, la mitad de países tiene un acceso muy alto, mientras que valores bajos menores al 10% muestran brechas digitales presentes actualmente. De igual manera se puede observar que hay países con más del 80% de la población con acceso a la red, lo cual puede deberse a un gran esfuerzo por parte de las entidades públicas para estar a la altura en el ambito de la conexion y cultura digital.

Índice de Desarrollo Humano (idh)

Este índice esta compuesto por varios factores a la vez, principalmente de salud, educación e ingreso, resumiendo asi el nivel de desarrollo global de un país. A pesar de que en este estudio no se cataloga como factor objetivo, esta variable puede jugar un papel fundamental en la clasificación de los países en grupos que se diferencien notoriamente los unos de los otros. Además, puede de cierta manera explicar los resultados de acuerdo a como se interprete lo que arrojen los modelos. La mediana de 0.8 (la cual se puede catalogar como “alto desarrollo”), indica que la mitad de países alcanza o supera esa barrera. El rango completo evidencia la diferencia que separa los países que presentan más dificultades respecto a los que estan mejor desarrollados a manera general.

Matriz de correlación

Además, se realizó un análisis de la posible relación entre las variables mediante una matriz de correlación, en donde se relacionan entre sí las 17 variables seleccionadas. De esta manera se pueden identificar patrones de asociación entre diferentes aspectos para asi poder obtener conclusiones iniciales basandose en los resultados. Las correlaciones presentes en la matriz se interpretan de la siguiente manera: Cuando el valor es cercano a 1 o -1 significa una asociación fuerte positiva o negativa respectivamente, en cambio, cuando el valor es cercano a 0 hace referencia a que las variables no tienen una relación lineal significativa.

A continuación se presentan algunos de los hallazgos más relevantes obtenidos a traves de la matriz de correlación:

El IDH es una variable que presenta altas correlaciones con aspectos de salud y economía. Se puede decir que esta variable resume aceptablemente el bienestar general de la población. Es intuitivo pensar que a mayor desarrollo, los países presentan una mayor esperanza de vida, mayor nivel de satisfacción vital, y un mayor acceso a beneficios que faciliten su cotidianidad.
De igual manera, se puede observar como el pib per cápita tiene un rol importante en variables politicas o ambientales. Cuando los países presentan un mayor desarrollo económico tambien emiten más dioxido de carbono por persona. Se puede intuir que hay un conflicto entre la sostenibilidad ambiental y el desarrollo económico, mayormente en países industrializados como puede ser el caso de China o países del medio oriente. Por otro lado, los países donde se percibe menos corrupción a su vez se asocia con países con mejores ingresos y desarrollo, lo cual respalda la idea de que existe el apoyo gubernamental para el progreso del territorio en los países desarrollados.
De primera vistase puede observar que la cantidad de emigrantes no tiene mucha relación con el comportamiento de las demás variables. Esto puede tener sentido dado que este factor esta influenciado por factores contextuales o geopoliticos los cuales no se reflejan directamente en las otras variables del estudio.
Los países con más ingresos en forma de impuestos pueden estar relacionados con una mayor capacidad de inversión en salud pública. Además, se puede apreciar como la limitación económica tambien impide el acceso a tecnologia y educación digital. Los países con mayor pobreza y mala nutrición presentan regularmente bajos niveles de desarrollo.

Este análisis permite conocer en un primer vistazo como se relacionan las variables del estudio y cómo se pueden interpretar en un contexto real y usarlo como base para el análisis de los modelos de clasificación.

Gráficos multivariables

A continuación se presenta un análisis multivariable e individual de las variables empleadas en la investigación. Esto permite identificar a primera vista tendencias generales entre países en diferentes aspectos, lo cual puede dar a entender en un contexto real el significado de los datos usados en el estudio, y que no sean solo valores númericos que carecen de un sentido.

Boxplot distribución variables económicas escaladas

El gráfico de cajas muestra la distribución de cinco variables estandarizadas relacionadas con el ámbito económico, lo que permite comparar su comportamiento relativo entre países. Para poder contrastar la distribución de las variables se realizó una escala del gráfico, expresando los valores en unidades de desviación estandar respecto a la media, lo que facilita la comparación entre variables de distinta magnitud como es en este caso.

La variable pib_percapita presenta una mediana cercana a cero, lo que indica que, en promedio, los países presentan niveles de ingreso per cápita relativamente cercanos al promedio global tomado. Sin embargo, se puede observar varios valores atipicos superiores, los cuales reflejan la existencia de países con ingresos por persona muy elevados, como puede ser el caso de Luxermbugro, que superan ampliamente el promedio de la muestra.

Por otro lado, la variable de porcen_pib_comercio tambien presenta una mediana ligeramente negativa, lo que sugiere que la mayoria de los países tiene un grado de apertura comercial moderado respecto a la media. Los valores extremos superiores podrian representar países que son altamente dependientes del comercio exeterior.

La distribución de la variable porcen_pib_educacion es bastante simetrica y centrada, lo que refleja que la mayoria de los países asignan un porcentaje similiar del PIB a la educación. Respecto a los extremos, existen valores atipicos superiores que reflejan casos puntuales donde el gasto en educación es considerablemente mayor, lo cual puede corresponder a gobiernos con politicas públicas orientadas al desarrollo positivo del capital humano.

A pesar de que la variable porcen_pib_fiscales muestra cierta dispersión, esta tiene una distribución relativament eequilibrada. La concentración de la mediana cerca del cero sugiere uniformidad en los niveles de recaudación de impuestos como proporción del PIB entre los países. La menor prpesencia de valores atipicos muestra que la mayoria de los países tienen niveles similares de ingresos fiscales, con pocas excepciones claro esta.

La variable pocern_pib_salud presenta una mediana positiva, lo que indica que en promedio los países tienden a gastar un poco más en salud que la media general del conjunto. Los valores atipicos elevados podrian estar representando países con sistemas de salud costosos o altamente privatizados, como Estados Unidos, que presenta fuertes inversiones en el desarrollo del territorio.

En general, el gráfico evidencia que, si bien existe cierta uniformidad entre los países en variables como educación y recaudación fiscal, otras como el PIB per cápita y el comercio presentan una mayor dispersión, reflejando diferencias más marcadas entre países con distinto nivel de desarrollo. Estas diferencias sirven como un análisis preliminar para la segmentación posterior mediante las técnicas de aprendizaje que abordará el estudio.

Gráfico de barras promedio variables sociales

Este gráfico muestra el promedio de cuatro variables agrupadas como un subconjunto de clase social. El objetivo o proposito de este gráfico es comparar el nivel promedio de estas condiciones sociales entre los países participantes del estudio.

Primeramente, la variable internet, la cual presenta un promedio en torno al 63%, indica que el acceso a este servicio es extendido, pero aun con carencias. Aun existen países con niveles bajos de conectividad, afectando negativamente su integración en educación y economía digital.

Por otro lado, refiriendose a la variable de electricidad, esta muestra el promedio más alto entre todas las variables, cercano al 95%, sugiriendo asi que en general, los países cuentan con un acceso muy elevado a la electricidad. Al parecer, esta nececidad básica se encuentra casi completamente cubierta, sin embargo, este valor puede ocultar diferencias con países menos desarrollados donde aun existen deficiencias en este aspecto.

Ahora, enfocandose en la variable con el promedio más “bajo”, se encuentra la satisfacción vital autoinformada, no obstante, la interpretación de esta variable respecto a las demás puede ser un poco engañosa, puesto que aparentemente puede verse como la más baja, sin embargo, hay que tener en cuenta que esta se encuentra en una escala diferente, pero de igual manera se incluyó en la gráfica por ser parte de este subgrupo de variables. El valor promedio bajo se puede interpretar como una percepción moderada de bienestar subjetivo en la población, lo cual puede estar relacionado con factores como la inseguridad económica, la desigualdad social o las crisis de diferentes clases, como politicas, ambientales, sociales, entre otras más. A pesar de que el acceso a servicios básicos como electricidad o salud puede estar garantizado, esto no necesariamente se traduce en una alta satisfacción con la vida.

Finalmente, la variable de esperanza de vida, la cual apoyandose en la tabla de estadisticos descriptivos, presenta un valor promedio cercano a los 76 años, reflejando avances significativos en salud pública, nutrición y condiciones de vida en gran parte de los países. Este promedio indica que la mayoria de los países del conjunto de datos tienen contextos relativamente favorables en términos de longevidad de los habitantes.

En conclusión, se puede decir que aunque los promedios reflejan una cobertura aceptable en servicios fundamentales como electricidad y salud, la menor media en la satisfacción vital y el uso de internet evidencian aspectos del desarrollo que requieren una mayor atención, especialmente desde un enfoque cualitativo del bienestar de la población.

Histograma Índice de corrupción

Esta gráfica muestra la distribución del índice de percepción de la corrupción (donde valores más altos indican menor corrupción percibida y valores bajos reflejan una alta percepción de corrupción). Se consideró relevante analizar por separado esta variable ya que desde un punto de vista general, este factor puede estar relacionado con muchas otras de las variables utilizadas en el estudio, dado que dependiendo del índice percibido en cada país, se puede dar explación a otros fenomenos y problematicas presentes en el territorio.

La mayor concentración de países se encuentra en un rango de 30 a 40, lo que indica que una proporción significativa de ellos presenta una percepción relativamente alta de corrupción. Esto es malo puesto que altos niveles de corrupción pueden estar directamente enlazados con una mayor desigualdad y una gestion ineficiente de los recursos públicos, afectando aspectos como la salud, educación, entre otros más. A medida que el índice aumenta, la distribución se vuelve más uniforme, con varios países ubicados en un rango de 60 a 90, lo cual refleja una percepción más favorable y aceptableen términos de transparencia. De igual manera, se observó que muy pocos países tienen un índice por debajo de 25, lo que sugiere que los niveles extremadamente altos de corrupción no son predominantes en la muestra.

En general, el gráfico evidencia una notable variabilidad entre los países en cuanto a la percepción de corrupción. La diversidad en la distribución del índice revela una clara fragmentación en la transparencia gubernamental entre países.

Aprendizaje no supervisado

Introducción a los modelos

Ya adentrandose en el eje cenetral del estudio, el aprendizaje no supervisado es una técnica orientada a descubrir estructuras propias en los datos sin contar con una variable objetivo definida previamente. A diferencia del trabajo anterior, donde se calificaban los datos según un umbral del IDH, en esta investigación se trabaja directamente con variables unicamente cuantitativas y se intenta encontrar patrones de agrupación entre países con caracteristicas similares y posteriormente darle un significado a los resultados arrojados.

A lo largo de este apartado se explorarán diferentes métodos de aprendizaje de este tipo, puntualmente se abordará: el Análisis de Componentes principales (ACP), el cual permite reducir la dimensionalidad de los datos manteniendo la mayor cantidad posible de información relevante; la clusterización de k-means, la cual segmenta los datos en grupos con caracteristicas similares; y la clusterización Ward, que permite visualizar como los datos se agrupan progresivamente en un esquema jerárquico.

Análisis de Componentes Principales (ACP)

El Análisis de Componentes Principales (ACP) es una técnica que permite transformar un conjunto amplio de variables en un número reducido de componentes principales, como su nombre lo indica. Estos componentes representan combinaciones de las variables originales del estudio y a su vez explican la mayor parte de la variabilidad de los datos existentes. Se puede decir que este método tiene como ventaja la facilidad para visualizar las relaciones entre las filas y columnas de la tabla, además de que resulta más óptimo cuando se trabaja con bastantes indicadores, como es el caso de esta investigación.

Clusterización mediante k-means

El k-means es un algoritmo que se basa en el agrupamiento de datos realizando una segmentacion en un número definido de grupos o clusters, esto lo realiza de tal manera que los datos en cada grupo sean lo más parecidos entre si y diferentes de los datos de los otros grupos. Este método es util para organizar datos ajustando los centros de los gripos con el objetivo de que se consiga una distribucion estable entre los países en este caso.

Clusterización mediante Ward

El método jerarquico de Ward se basa en el agrupamiento de acuerdo a la distancia entre observaciones. Este algoritmo de clusterización se puede diferenciar de k-means dado que este no parte de un número fijo de grupos, sino que va generando una estructura en forma de árbol en la cual los países se agrupan según su similitud. La ventaja de este método es que permite una interpretación más gradual y visual del proceso de agrupamiento, puesto que se puede observar la manera en la que se van uniendo los datos entre si.

Método de la silueta (silhouette)

Esta es una técnica del aprendizaje no supervisado para la evaluación de la calidad de los clusters formados. Este método se basa en dos aspectos clave: la cohesión y la separación.

La cohesión se refiere a que tan juntos estan los datos dentro de un mismo grupo. Un buen grupo reune elementos que son muy parecidos, como en el caso de este estudio, países que tienen caracteristicas socioeconómicas similares. Por otro lado, la separación muestra que tan diferentes son estos grupos entre si, o sea, que tan claros y distintos estan unos grupos de otros.

Este método usa un número llamado ancho de la silueta (Average silhouette width), que va desde -1 hasta 1 y ayuda a entender que tan buenos son los grupos. Cuando este número esta cerca a 1 significa que los países dentro de un grupo son muy parecidosentre si y, además, ese grupo es muy diferente de los demás, lo cual es lo buscado idealmente. Por otro lado, si el número esta cerca de 0, quiere decir que los grupos se mezclan y no estan bien separados, y finalmente si el número es negativo, puede ser que algunos países esten en el grupo equivocado.

Resultados de los modelos

A partir de la aplicación de los modelos no supervisados, se obtuvieron distintas agrupaciones de países que en principio comparten caracteristicas similares. A continuación, se presentan los resultados especificos arrojados por cada modelo.

Es importante mencionar que para determinar cuantos clusters eran más adecuados en el presente análisis de segmentación de países, se utilizó una técnica que permite comparar múltiples criterios de validación interna con el objetivo de encontrar el valor óptimo de k. Esta técnica se implementó a traves del paquete NbClust, el cual evalua distintos índices para sugerir la mejor cantidad de clusters.

A continuación, se presenta una parte de los resultados obtenidos posterior a la ejecucíon de la técnica:

Como se puede apreciar en los resultados, se encontraron las siguientes sugerencias:

9 índices propusieron que el mejor número de clusters es 2
9 índices propusieron 3 clusters
1 índices propusieron 4 clusters
1 índices propusieron 5 clusters
1 índices propusieron 7 clusters
2 índices propusieron 8 clusters
4 índices propusieron 10 clusters

Aunque hubo cierta variación en los resultados, el valor k = 3 fue uno de los más sugeridos junto con k = 2, sin embargo, el valor de k = 2 fue el escogido entre todos. Esta misma idea se utilizó en el resto del estudio. Posteriormente, para reforzar e iluestrar la decisión del parametro k, se utilizó en algunas técnicas de aprendizaje el método de la silueta, como se podrá apreciar en el siguiente apartado del informe.

Clusterización mediante k-means

k óptimo de clusters k-means

Para determinar el número óptimo de clusters en los que se debian clasificar los datos se utilizó el método de silueta (silhouette). A continuación se presenta el gráfico que muestra el comportamiento del Average silhouette width con diferentes valores del parametro k, esto con el fin de obtener el valor optimo de agrupaciones para el modelo.

En este caso, se observó que el valor máximo del ancho de sulueta se alcanza cuando se forman dos clusters (k = 2). Lo anterior quiere decir que, con esa cantidad, los países dentro de cada grupo son muy parecidos entre si y los dos grupos son bastante diferentes entre ellos. En otras palabras, los 54 países estudiados se agrupan en dos categorias bien diferenciadas. Aunque se evaluan valores de k hasta 10, se evidenció que si se optara por elegir más de dos clusters se obtendria una disminución en el valor promedio del ancho de la silueta, lo que indica que la división en más grupos no aporta tanta información adicional relevante.

Gráfica de clusters para k-means

En el siguiente gráfico se puede observar los clusters generados por el algoritmo k-means, en donde se pueden identificar visualmente cuales países pertenecen a cada grupo y que tan lejos o cerca estan entre si.

Primeramente, en la parte inferior del gráfico se puede observar el eje X (Dim1), el cual ayuda a ver como se diferencian los países según su nivel de desarollo. Este eje es el más importante porque concentra la mayor parte de la información que se usa para la agrupación (51.5%). Se puede ver que en la parte derecha estan los países con mejores condiciones: tienen más ingresos, mejores servicios de salud y educación, menos corrupción y buen acceso a servicios como el internet. En cambio, hacia la parte izquierda se encuentran los países que enfrentan más dificultades: pobreza, poco acceso a servicios basicos, inseguridad alimentaria, entre otros factores más. Por otro lado, en el eje Y (Dim2) se aporta información (13%), pero no tanta como en el eje X. En esta parte se pueden resaltar varias diferencias, como los niveles de desigualdad dentroo de los países o si estos están más enfocados en crecer económicamente o en mejorar la parte social y ambiental. No es el eje más fuerte, pero si complementa y ayuda a entender mejor como se distribuyen los países en los grupos.

Teniendo en cuenta lo que representan los ejes del gráfico y como se distribuyen los países, se decidió asignarle un nombre representativo a cada uno de los grupos, basandose en las similitudes que comparten dentro de cada cluster.

Cluster Naranja (1): “Países con buen desarrollo y mejor calidad de vida”

Este grupo esta formado por 32 países, los cuales a manera general tienen buenas condiciones de vida y un desarrollo considerablemente bueno. Son países donde las personas viven muchos años, la corrupción es baja, y la mayoria de la población tiene acceso a servicios basicos como agua, salud y educación.

Tambien se destacan por tener economias fuertes, con un ingreso monetario por persona alto, y buenos sistemas de salud y educación. Además, la mayoria de sus habitantes tiene acceso a internet, y estos se sienten satisfechos con su vida. En este grupo se pueden encontrar países como Alemania, Francia, Dinamarca, Suecia, Estados Unidos o el Reino Unido.

Cluster Azul (2): “Países con desafios de desarrollo”

Por otro lado, este grupo reune 22 países, los cuales de aun enfrentan muchas dificultades en diferentes aspectos. Tienen problemas como puede ser la baja esperanza de vida de la población, altos niveles de pobreza, y servicios básicos limitados. Sus instituciones tambien son más fragiles: hay más corrupción y el gobierno recauda pocos impuestos, lo cual se traduce como una reducción en la capacidad para poder invertir en salud, educación o infraestructura.

Además, en estos países es más común encontrar inseguridad alimentaria y desnutrición, derivada muy probablemente por la pobreza extrema que abunda en una parte de los habitantes. Algunos ejemplos de este grupo son países principalmente africanos o latinoamericanos como Kenia, Togo, Honduras, Paraguay, Namibia, Republica Dominicana, Ucrania o Moldavia.

Clusterización mediante Ward

k óptimo de clusters Ward

Para encontrar el número optimo k de clusters para la ejecución del modelo se empleó nuevamente el método de silueta (silhouette). Para cada valor de k se obtienen resultados distintos lo cual afecta directamente el rendimiento del modelo. Se puede observar el comportamiento del método a traves del gráfico presentado a continuación.

Como se puede apreciar, en el gráfico se observa que el ancho promedio de la silueta alcanza su valor máximo cuando k es igual a 2, lo que indica que los datos se agrupan mejor en dos clusters. Esto significa que, con esa cantidad de grupos, los países se encuentran correctamente segmentados. Al aumentar o disminuir el valor de k, el ancho de la silueta toma valores no tan convenientes, como ya se explico antes, lo que sugiere que un número mayor de grupos no mejoraria la agrupación y se correria el riesgo de que se generen resultados inconsistentes.

Dendograma Ward

A continuación se presenta el dendograma generado del modelo Ward, el cual permite visualizar la representación jerarquica de la agrupación. Cada rama del árbol muestra la cercania entre los países y como se agrupan de forma progresiva hasta llegar a la partición final. Se identifica un corte que permite dividir el conjunto en dos grupos principales, de la misma manera que lo sugirió el análisis de silueta.

En el eje X se encuentran los países, cada uno representa un elemento del conjunto de datos que se agrupa en clusters según sus similitudes. El eje Y representa la altura o la distancia a la que se unen los grupos. Una altura de 0 singifica que los países son muy similares, mientras que alturas mayores, como 20, indica un menor grado de similitud entre ellos.

En la parte izquierda del dendograma (Naranja), dentro del primer cluster, se puede observar que hay 37 países agrupados. Desde el nivel más bajo de agrupamiento, se observan pares de países como Latvia (Letonia) y Lithuania (Lituania), los cuales presentan alta similitud, la cual podría darse en variables como PIB per cápita y satisfacción vital. Otros países que se agrupan con una similitud muy alta son Sweden (Suecia), Denmark (Dinamarca), Finland (Finlandia) e Iceland (Islandia), los cuales presentan similitudes en variables como desempleo e Índice de Desarrollo Humano (IDH).

Pasando más arriba del gráfico, en países como Slovakia (Eslovaquia), Slovenia (Eslovenia), Czechia (Chequia), Estonia (Estonia), Austria (Austria) y Netherlands (Paises Bajos), los cuales comparten similitudes en variables de desarrollo, pero sus diferencias empiezan a ser más notorias, por ejemplo, en el caso de la variable del índice de corrupción. Tambien se observó países como United States (Estados Unidos) y Germany (Alemania), los cuales estan agrupados a una altura mayor indicando menos similitudes, pero entre las pocas variables que comparten esta el PIB per cápita y el Índice de Desarrollo Humano (IDH).

Por otr lado, se puede ver la agrupación de países como Greece (Grecia), Spain (España), Croatia (Croacia), Portugal (Portugal), Bulgaria (Bulgaria) y Tunisia (Túnez), los cuales presentan un desarrollo alto, aunque tambien con ciertas diferencias. Por último, centrandose en países como Luxembourg (Luxemburgo), que es un país que se incorpora con mayor altura, demuestra que es un país con distintos valores dentro de las variables en comparación a otros países dentro de ese cluster, posiblemente por su PIB per cápita, el cual es un poco más alto que el resto, lo cual lo separa incluso de países desarrollados.

En conclusión, este cluster esta compuesto por países con niveles similares en ambitos como desarrollo humano, aunque hay diferencias entre ellos. La mayoria tienen buena economia, buen acceso a servicios básicos y una calidad de vida aceptable. Este cluster indica que, a pesar de sus diferencias culturales o geograficas, estos países tienen varios puntos en común, los cuales los hacen muy parecidos entre si cuando se trata de analizar variables relacionadas con el desarrollo y la calidad de vida.

Por otro lado, en la parte derecha del dendograma (Azul)“, se encuentran agrupados 17 países, los cuales reflejan una menor similitud, ya que se unen en alturas más posteriores en el diagrama. Lo anterior indica que estos países presentan diferencias mucho más marcadas entre ellos.

Se puede observar, por ejemplo, que Indonesia (Indonesia) y Pakistan (Pakistan) se agrupan en alturas bajas dentro del cluster, lo que indica que algunas de sus variables como PIB per cápita son bastante parecidas. Otros países como Albania (Albania) y Georgia (Georgia) tienen varibales más parecidas entre ellos como el porcentaje del PIb en educación, satisfacción vital y esperanza de vida.

De igual manera, viendo el subgrupo confirmado por Botswana (Botsuana), Namibia (Namibia), Togo (Togo), Kenya (Kenia) y Cote d´lvoire (Costa de Marfil), son países africanos que podrían compartir variables como Índice de Desarrollo Humano (IDH), Inseguridad alimentaria y desempleo. Tambien se incluyen paises como Iran (Iran), Albania (Albania), Georgia (Georgia) y Tajikistan (Tayikistán), los cuales presentan valores comunes en variables como el acceso a la electricidad.

En resumen, este cluster agrupa países que comparten niveles de desarollo más limitados, como un menor PIB per cápita, más pobreza y menor esperanza de vida. Este lado del dendograma muestra que estos países comparten un nivel general de desarrollo más bajo que el otro lado. Se reflejan realidades más vulnerables y problemas similares, arrastradas en parte por aspectos geográficos, culturales o sociales.

Modelo ACP

Este modelo, como ya fue mencionado antes, es una técnica utilizada para reducir un conjunto de datos en uno más pequeño. Este crea nuevas variables no correlacionadas llamadas componentes principales (o dimensiones), los cuales representan bien a las variables originales, con la diferencia de que no se repite la misma información que ya se tiene.

La primera nueva variable es la que más información brinda, la segunda un poco menos, y asi sucesivamente; de esta forma, se eligen las dimensiones que entre ellas reprensentan un porcentaje adecuado (normalmente entre 70% - 80%) y se realiza un análisis posterior. Esto puede ayudar a entender mejor los datos, hacer gráficos más claros y trabajar más facilmente con ellos.

Variabilidad de los datos

	Eigenvalue	Varianza (%)	Varianza acumulada (%)
Dim.1	8.7485	51.4620	51.4620
Dim.2	2.2208	13.0638	64.5258
Dim.3	1.4050	8.2646	72.7904
Dim.4	1.3175	7.7502	80.5406
Dim.5	0.8891	5.2298	85.7703
Dim.6	0.6066	3.5681	89.3384
Dim.7	0.4060	2.3883	91.7268
Dim.8	0.3428	2.0166	93.7434
Dim.9	0.2824	1.6612	95.4046
Dim.10	0.2159	1.2699	96.6746
Dim.11	0.1338	0.7874	97.4619
Dim.12	0.1111	0.6533	98.1153
Dim.13	0.1037	0.6099	98.7252
Dim.14	0.0791	0.4655	99.1907
Dim.15	0.0567	0.3337	99.5244
Dim.16	0.0422	0.2481	99.7725
Dim.17	0.0387	0.2275	100.0000

La tabla anterior muestra algunos datos relevantes que ayudan a determinar con cuantos componentes principales se trabajará. Para entenderla mejor, a continuación se presenta una breve definición de cada concepto que compone la tabla:

Dimensíon: Son combinaciones lineales de las variables originales y estan ordenadas según el porcentaje de varianza. En este caso, se tiene 17 dimensiones porque el conjunto de datos cuenta con 17 variables.
Eigenvalue: Es un número que dice cuanta varianza (o información) del conjunto de datos original esta explicando cada componente principal. Según el criterio de Kaiser, se debe usar solo aquellas dimensiones que cuenten con un Eigenvalue mayor o igual a 1, ya que estas representan más información que una variable original promedio.
Varianza: Es el porcentaje de varianza que explica la dimensión, es decir, que tanta información del conjunto de datos se explica con ese eje nuevo.
Varianza acumulativa: Es la suma acumulativa de los porcentajes de varianza por cada componente. Sirve principalmente para visualizar hasta que dimension tomaremos.

Scree plot

El scree plot es una gráfica de barras que muestra el porcentaje de varianza para cada dimensión, es decir, los porcentajes de la gráfica anterior; este ayuda a visualizar de mejor forma qué componentes se usarán. Se puede observar que sólo aparecen las primeras diez dimensiones.

El codo pronunciado tras la segunda dimensión sugiere que retener las dos primeras componentes es suficiente para conservar más del 64% de la variabilidad, y extiende razonablemente la interpretación hasta la tercera o cuarta dimensión si se busca capturar patrones secundarios en las variables.

Componentes principales

Se decidió trabajar con las 3 primeras dimensiones, las cuales representan un 72,88% de los datos. Según el criterio de Kaiser, lo ideal es haber trabajado tambien con la dimensión 4, ya que esta cuenta con un eigenvalue mayor a 1, sin embargo, se consideró que un 7% adicional no era un porcentaje muy significativo, sumando el hecho de que las primeras tres dimensiones aportan más del 70% de la información.

Ya habiendo elegido las dimensiones, se le asignó un nombre a cada componente principal con el objetivo de identificar con mayor facilidad lo que representa cada una, basandose en las contribuciones de las variables a cada una de ellas.

Dimension 1: Desarrollo y bienestar

Esta dimensión refleja el nivel de desarollo humano, calidad de vida y acceso a servicios básicos. Las variables que se podrian considerar ligadas al desarollo de un país (como el IDH y la esperanza de vida) representan más de un 50% de esta dimensión.

Dimension 2: Inversión social

Refleja como algunos países invierten en mejorar la calidad de vida de su población, especialmente en la educación. Sin embargo, tambien refleja si esa inversión realmente es efectiva o si llega a las personas. Por ejemplo, en el caso de Namibia (el país más representativo de esta dimensión), se tiene que este gasta casi un 10% del PIB en educación, pero sigue teniendo altos niveles de desnutrición y pobreza, además de niveles no tan altos de porcentaje de electricidad e índice de corrupción. Se puede decir que los países que destacan son aquellos que priorizan la educación como motor de desarollo, dejando de lado otros factores importantes.

Dimension 3: Estructura económica y mercado laboral

Esta dimensión muestra como esta organizada la economía en un país, basandose en los gastos del PIB, importaciones y exportaciones. Además, las variables de desempleo y dioxido per cápita pueden proveer una idea de si el tipo de economía es viable o no.

Gráficos de ACP - Variables e individuos

Al ser 3 dimensiones, se realizaron seis gráficos de variables e individuos (países), con ejes X y Y respectivamente. De esta forma, se puede análizar cada componente principal desde diferentes perspectivas. Se consideró la idea de hacer solo dos gráficos interactivos en 3D, pero estos no son tan faciles de interpretar como uno de dos ejes, además de que pueden resultar confusos.

Los gráficos de variables muestran 17 variables originales como vectores en un plano de dos ejes, acompañados de una escala de colores: aazul, amarillo y rojo. Los vectores cuentan con diferentes longitudes, direcciones y colores que brindan información acerca de ellos. A continuación se presenta un resumen explicativo de los conceptos claves para una interpretación óptima de los gráficos:

Longitud: Representa que tan bien representada esa variable en el ele al que se esta acercando. Cuanto más larga sea la longitud del vector, mayor será la contribución a la dimensión.
Dirección: Indica la correlación entre esa variable y la(s) dimension(es). Las variables que apuntan en la misma dirección estan positivamente correlacionadas; en caso contrario, estan negativamente correlacionadas. Por último, si forma un ángulo de 90° (perpendiculares), no tienen ninguna correlación.
Color: Es el grado de contribución de cada variable a la(s) dimension(es). En este caso, las variables rojas y amarillas son las más representativas.

Relación de las dimensiones 1 y 2

Eje X: DIMENSION 1 - Desarrollo y bienestar

Eje Y: DIMENSION 2 - Inversion social

Se puede observar que las variables cercanas al punto (0,0) no son relevantes para explicar estas dos dimensiones; tal es el caso de las variables desempleo y porcen_pib_comercio; el comercio tiene un papel relativamente independiente a las inversiones sociales realizadas en cada país. Por otro lado, se puede observar que hay variables opuestas, como lo son porcen_electricidad con porcen_pobreza y desnutricion, esta primera indica lo decisiva que es esta variable para explicar el nivel de desarollo humano, entre otros hallazgos relevantes.

Como se observó en las tablas anteriores, los países más representativos son: Togo, Kenya y Cote d’Ivoire en la dimensión 1. En la dimensión 2, se tiene a: Namibia, Pakistan y Botsuana. Cabe destacar que todos ellos estan en los cuadrantes II y III, es decir, tienen valores o muy bajos o muy altos, dependiendo de las variables.

Relación de las dimensiones 1 y 3

Eje X: DIMENSION 1 - Desarrollo y bienestar

Eje Y: DIMENSION 3 - Estructura económica y mercado laboral

En este gráfico se puede observar que la mayoria de las variables estan positivamente o negativamente correlacionadas. Como ejemplos se tene inseguridad_alimentaria con idh y satisfaccion_vital. Este gráfico refuerza la idea de que la dimensión 1 esta relacionada con el desarrollo humano, mientras que la dimensión 3 capta otras diferencias que no se observaron en el gráfico de la dimension 1 y 2.

En este gráfico se puede apreciar como países con altos puntajes en desarrollo humano (como Luxemburgo o Suecia)_ se ubican a la derecha y muy abajo, lo que refleja economías sólidas con bajas tasas de desempleo y migración limitada. Por el contrario, naciones como Costa de marfil y Togo aparecen en el cuadrante inferior izquierdo, indicando tanto bajos niveles de desarollo como mercados laborales relativamente estables. En el cuadrante II se encuentran países con menor desarollo y mercados laborales dificiles. En el cuadrante I se agrupan economías que, a pesar de un nivel de vida elevado, enfrentan ciertos problemas de mercado laboral.

Relación de las dimensiones 2 y 3

Eje X: DIMENSION 2 - Inversion social

Eje Y: DIMENSION 3 - Estructura económica y mercado laboral

Las variables porcen_pib_educacion, porcen_pib_salud y desempleo son las que más destacan en este gráfico. Esto sugiere que la dimensión 3 esta relacionada con la estructura económica orientada al desarrollo social. Se puede observar que variables como porcen_pobreza e inseguridad_alimentaria se orientan en sentido contrario a las variables anteriores. Esto confirma que un mayor gasto social se opone directamente a la pobreza y la inseguridad alimentaria. De acuerdo a la interpretación de los resultados, se puede entender que altos niveles de desempleo suelen ir de la mano con movimientos migratorios más intentos, además de que hay economías avanzadas con fuerte conectividad y mayor impacto ambiental, pero con mercados laborales que se pueden considerar positivos.

Se puede observar un grupo de alta inversión social integrado por Finlandia, Dinamarca y Austria, donde el fuerte gasto en salud y educación coincide con mercados laborales estables. En el cuadrante II resltan países como Ghana o Pakistan, los cuales combinan bajos niveles de ijnversión social con desempleo elevado y fuerte migración. Tambien se puede resaltar el cuadrante IV, el cual contiene economías emergentes que a pesar de invertir en aspectos sociales, mantienen tasas de desempleo moderadas y una menor migración.

Conclusiones

A manera de conclusión, a través de este trabajo se puede observar que los modelos de aprendizaje no supervisado permitieron identificar patrones y agrupaciones de países con caracteristicas similares, sin la necesidad de una variable objetivo como si fue necesario en el estudio anterior. Esto hizo posible descubrir información valiosa directamente desde los datos, lo que demuestra que este tipo de análisis es útil incluso sin tener una respuesta o rumbo conocido desde el inicio de la investigación.

Si se tuviera que trabajar con una variable objetivo, se trabajaria nuevamente con la variable correspondiente al IDH, y de hecho, esta variable aportó “simbolicamente” un sentido a los datos en general, puesto que esta fuertemente asociada a otras variables, lo cual se pudo observar en la matriz de correlación.

En términos generales, los métodos de segmentación revelaron consistentemente dos grandes grupos, y esto va un poco de la mano con las hipotesis preliminares que se tuvieron como grupo antes de desarrollar esta investigación. Si bien es cierto que tambien se pensó en algun momento la idea de tener 3 grupos diferentes, con el objetivo de tener una clasificación más detallada de los datos, los 2 grupos arrojados por los modelos representan de igual manera gran parte de la realidad en el mundo, clasificando los países y permitiendo una interpretación que demuestra que este tema no puede ser entendido desde un unico indicador.

Contraste de estudios

De manera paralela, se quiso contrastar de cierta manera el presente estudio con el de Aprendizaje supervisado, esto con el objetivo de evidenciar que tan similares son las formas de clasificación de cada tipo de aprendizaje. Si se clasificara el conjunto de datos actual a traves del criterio del estudio pasado, el cual consisitia en determinar si un país tenia un desarrollo alto a través de la variable de Índice de Desarrollo Humano (idh) transformada en binaria (idh (Rango de 0 a 1) -> Desarollo_Alto (Si/No)), se puede encontrar que no habria mucha diferencia en los resultados arrojados por los modelos de aprendizaje supervisado y no supervisado.

A continuación se presentan dos gráficos de barras correspondientes a los países del conjunto de datos actual clasificados con criterios utilizados en el estudio pasado correspondiente al de Aprendizaje supervisado.

Primeramente, en este gráfico se puede observar la clasificación de todos los países del conjunto de datos actual, en donde estos aparecen clasificados de acuerdo a un umbral puesto en 0.7 para la variable de idh. Las barras en color verde hacen referencia a los países con desarrollo ato de acuerdo a el criterio impuesto, por el contrario, los países con barras de color rojo clasifican como un desarrollo medio o bajo.

Si se contrastan ambos subgrupos de países junto con los resultados de la clasificación no supervisada, se puede observar que ambos presentan grandes similitudes, puesto que en ambos modelos de clasificación, los métodos arrojaron resultados parecidos para la categorización de las observaciones. Si bien es cierto que la clasificación no es exactamente igual en ambos casos, los resultados son bastante similares, demostrando de cierta manera una buena consistencia de los modelos entre si.

Ahora bien, tomando como punto de corte el 0.8 para la clasificación del desarrollo de los países de la muestra, se puede observar como incrementa la similitud entre ambas clasificaciones. Este era el punto de corte pensado en el estudio pasado, sin embargo, como ya se explicó en dicho trabajo, este umbral causaba un desbalance entre las clases de los conjuntos, pero en este caso aparentemente el incremento ocasiona que los resultados sean más parecidos aún. Los países que por lo general se catalogan como no desarrollados en el presente trabajo tambien lo hacen en el estudio pasado; y los que se consideraban altamente desarrollados en el aprendizaje no supervisado tambien lo hacen en el aprendizaje supervisado.

De esta manera, se puede decir a manera de conclusión, que la variable referente al Índice de Desarrollo Humano presena un papel primordial en este estudio, siendo un factor decisivo a la hora de clasificacar los países en grupos con caracteristicas similares. Tambien se puede hablar sobre como a pesar de no darle una “restricción” a los modelos para clasificar en este caso, estos presentan una buena capacidad para interpretar los datos que se les proporcionan para que internamente categoricen la información dada. El IDH es una variable que encierra una gran variedad de factores, por ende tiende a tomar un rol importante en el proceso de categorización, y en términos practicos esto tiene sentido, puesto que la función de este índice es representar en términos globales el estado de un territorio.

Consideraciones metodológicas

Se pueden considerar algunas conclusiones y consideraciones con base a los resultados arrojados:

Los métodos de clusterización K-means y Ward mostraron resultados consistentes al dividir a los países en dos grupos aceptablemente definidos, dejando en evidencia las desigualdades que existen a nivel global desde una muestra tomada, sin embargo, aunque el valor óptimo de clusters sugeridos fue 2, si se hubiera tomado la decisión de incluir más clusters podría haber permitido capturar diferentes perspectivas dentro del grupo de países, desglosando claramente leves diferencias el grupo de países desarollados y segmentando de una manera más detallada los países con poco desarollo, dado que son más heterogeneos en su subgrupo. El uso de los dos grupos simplificó de cierta manera la lectura global de los resultados, pero redujo a su vez la capacidad de análisis y diferenciación en la clasificación.
El uso del ACP ayudó a resumir la información de las 17 variables en solo 3 dimensiones clave sin perder detalles importantes, explicando asi el 72.8% de la variabilidad. Una cuarta dimensión hubiera enriquecido las interpretaciones, posiblemente revelando patrones relacionados que no fueron evidentes utilizando las tres dimensiones establecidads, no obstante no se consideró que hizo falta luego de analizar los resultados, puesto que asi se mantuvo una simplicidad análitica con las variables trabajadas, sacrificando cierta profundidad de estudio en favor de una mayor claridad para el lector.
Se pudo haber considerado incluir otras variables en el estudio aparte de las ya mencionadas, con la finalidad de brindar diferentes angulos nuevos para el proceso de clasificación. Esto podría haber cambiado la estructura de los clusters o influido en la construcción de dimensiones más explicativas, pero en términos de análisis de resultados, tener 17 indicadores no represento un problema al ejecutar los modelos.

Finalmente, al realizar este estudio se puede observar como los modelos encuentran su propio orden de clasificación, el cual no esta muy alejado de la realidad, y de hecho, tampoco esta alejado del estudio de aprendizaje supervisado, más alla de que esta investigación toma la mayoria de elementos de aquel estudio. Se puede decir que los datos presentan estructuras más alla de las simples categorias, mostrando coherencia entre métodos en el desarrollo de la categorización de los datos.

Bibliografía

Barandica, O. J. (2023, 16 de abril). Data Visualization in R. Recuperado de https://www.joaquibarandica.com/post/datavizr/
Our World in Data. (2015). GDP per capita. Recuperado de https://ourworldindata.org/grapher/gdp-per-capita-worldbank
Our World in Data. (2015). Public spending on education as a share of GDP. Recuperado de https://ourworldindata.org/grapher/total-government-expenditure-on-education-gdp?tab=table&time=2013..latest&country=USA_GBRESP_FRADEU_NORSWE
Our World in Data. (2015). Corruption Perception Index. Recuperado de https://ourworldindata.org/grapher/ti-corruption-perception-index?tab=table&time=2018
Our World in Data. (2015). Trade as a share of GDP. Recuperado de https://ourworldindata.org/grapher/trade-as-share-of-gdp?tab=table&time=2023
Our World in Data. (2015). Human Development Index. Recuperado de https://ourworldindata.org/grapher/human-development-index
Our World in Data. (2015). Self-reported life satisfaction. Recuperado de https://ourworldindata.org/grapher/happiness-cantril-ladder?tab=table&time=2023
Our World in Data. (2015). Life expectancy at birth. Recuperado de https://ourworldindata.org/grapher/life-expectancy?tab=table&time=latest
Our World in Data. (2015). Unemployment rate. Recuperado de https://ourworldindata.org/grapher/unemployment-rate
Our World in Data. (2015). Total number of emigrants. Recuperado de https://ourworldindata.org/explorers/migration?tab=table&time=2024 &facet=none&hideControls=false&Metric=International+emigrants&Period=Total&country=USA_DEUFRA_GBRSYR_TURYEM_INDCAN
Our World in Data. (2015). Per capita CO2 emissions. Recuperado de https://ourworldindata.org/grapher/co-emissions-per-capita?tab=table&time=latest
Our World in Data. (2015). Public health expenditure as a share of GDP. Recuperado de https://ourworldindata.org/grapher/public-health-expenditure-share-gdp?tab=table&time=2021
Our World in Data. (2015). Share of the population with access to electricity. Recuperado de https://ourworldindata.org/grapher/share-of-the-population-with-access-to-electricity?tab=table&time=2019
Our World in Data. (2015). Total healthcare expenditure as a share of GDP. Recuperado de https://ourworldindata.org/grapher/total-healthcare-expenditure-gdp?tab=table
Our World in Data. (2015). Tax revenues as a share of GDP. Recuperado de https://ourworldindata.org/grapher/tax-revenues-as-a-share-of-gdp-unu-wider?tab=table&time=2015
Our World in Data. (2015). Share of population living in extreme poverty. Recuperado de https://ourworldindata.org/grapher/share-of-population-in-extreme-poverty?tab=table
Our World in Data. (2015). Share of the population using the Internet. Recuperado de https://ourworldindata.org/grapher/share-of-individuals-using-the-
Our World in Data. (2015). Prevalence of moderate or severe food insecurity in the total population. Recuperado de https://ourworldindata.org/grapher/share-of-population-with-moderate-or-severe-food-insecurity
Our World in Data. (2015). Share of people that are undernourished. Recuperado de https://ourworldindata.org/grapher/prevalence-of-undernourishment

EXPLORACIÓN MULTIVARIADA BASANDOSE EN INDICADORES DE DESAROLLO: UN ESTUDIO ENFOCADO EN TÉCNICAS DE APRENDIZAJE NO SUPERVISADO

Juan Millán - Jhoan Rios - Diana Ruiz - Jhonnatan Valenzuela

2025-05-15

Introducción

Metodología

Selección variables y limpieza de datos

Base de datos

Resultados descriptivos

Estadisticos descriptivos

Matriz de correlación

Gráficos multivariables

Boxplot distribución variables económicas escaladas

Gráfico de barras promedio variables sociales

Histograma Índice de corrupción

Aprendizaje no supervisado

Introducción a los modelos

Método de la silueta (silhouette)

Resultados de los modelos

Clusterización mediante k-means

k óptimo de clusters k-means

Gráfica de clusters para k-means

Clusterización mediante Ward

k óptimo de clusters Ward

Dendograma Ward

Modelo ACP

Variabilidad de los datos

Scree plot

Componentes principales

Gráficos de ACP - Variables e individuos

Relación de las dimensiones 1 y 2

Relación de las dimensiones 1 y 3

Relación de las dimensiones 2 y 3

Conclusiones

Contraste de estudios

Consideraciones metodológicas

Bibliografía