En el presente estudio se llevan a cabo diferentes métodos de análisis no supervisado con el fin de explorar patrones de agrupamiento en una muestra de países utilizando una serie de variables cuantitativas relacionadas con aspectos principalmente económicos, sociales y de bienestar. De esta manera, el objetivo final es identificar grupos de países con características similares y conocer qué variables son las más determinantes en la segmentación dada.
Mediante la aplicación de técnicas de aprendizaje como el Análisis de Componentes Principales (ACP) y clusterización (k-means y Ward), se busca reducir la dimensionalidad de la información que se recopiló anteriormente y poder segmentar cada observación (en este caso países) en grupos homogeneos para una interpretación más efectiva de las caracteristicas comunes entre ellos. Para ello, se recopiló un nuevo conjunto de variables para unificarlo con la base de datos del estudio de CLASIFICACIÓN DEL DESARROLLO HUMANO A TRAVÉS DE MODELOS DE PROGRAMACIÓN SUPERVISADA, para poder tener una base de datos compuesta por un mayor número de columnas y que los modelos desarrollaran una ejecución óptima.
Primeramente, se comenzó el estudio realizando una busqueda de un nuevo conjunto de variables para complementar, como ya fue mencionado anteriormente, el conjunto de variables ya existentes utilizado en la investigación de Aprendizaje supervisado. De igual manera, se empleo la plataforma Our World in Data para esta tarea, reuniendo variables con información centrada en el año 2015. Para este estudio se utilizaron solamente variables cuantitativas, retransformando nuevamente la variable de Desarrollo_alto en idh (Esta variable fue la objetivo en el estudio de aprendizaje supervisado).
En este estudio se decidio incluir el mayor número de variables posibles sin comprometer el tamaño de la muestra, esto dado que algunas variables presentaban un número de observaciones relativamente bajo en el año enfocado, por ende, al incluirlas en la base de datos final disminuiría considerablemente el número de países de la tabla.
Al principio se tenia en cuenta la variable referente al porcentaje de la población sin educación formal, sin embargo, esta presentaba una cantidad de información relevante para el estudio minimo, haciendo que el conjunto de observaciones disminuyera bastante.
Entre las variables que se tenian pensadas incluir en el estudion pero al final se decidio no utilizarlas estan la población sin acceso a agua potable y la tasa de muertes por contaminación en el aire. Ambas variables hacian parte del conjunto de variables preliminar, no obstante, por las razones mencionadas anteriormente se consideró que no aportan un beneficio a la investigación.
Posteriormente, ya teniendo definidas las variables que se utilizarían en el estudio, se recopiló toda la información en una misma tabla, ordenando los valores de cada variable por el nombre del país. De igual manera, se eliminaron los países con datos faltantes (NA), con el objetivo de que cada país contara con la información requerida para la ejecución de los modelos.
A continuación, se presenta la base de datos final utilizada en el estudio. Como ya fue mencionado anteriormente, los indicadores cuantitativos se obtuvieron de la plataforma Our World in Data centrandose en el año 2015. La base de datos integra información de 17 variables con 54 países diferentes, incluyendo una gran variedad de factores que permiten tener un análisis de los modelos con diferentes enfoques.
Las 17 variables que se usarán en el estudio son:
En esta sección se analizarán a traves de diferentes gráficas y tablas las variables seleccionadas para el estudio, esto con el objetivo de comprender patrones y contrastes que surgen de manera individual y colectiva.
Se realizó un análisis exploratorio de los datos mediante estadisticos descriptivos los cuales permiten observar el comportamiento de las variables, principalmente los rangos y su distribución. Para ello, se construyó una tabla donde se recopila información de cada una de las variables haciendo referencia a la: media, mediana, desviación estandar y rango. La tabla se muestra a continuación:
PIB per cápita (pib_percapita)
Gasto público en educación como porcentaje del PIB (porcen_pib_educacion)
Índice de percepción de la corrupción (ind_corrupcion)
Comercio como porcentaje del PIB (porcen_pib_comercio)
Satisfacción vital autoinformada (satisfaccion_vital)
Esperanza de vida (esperanza_vida)
Tasa de desempleo (desempleo)
Número total de emigrantes (num_emigrantes)
Emisiones de CO2 per cápita (dioxido_percapita)
Porcentaje de la población con inseguridad alimentaria moderada o grave (inseguridad_alimentaria)
Porcentaje de la población con acceso a la electricidad (porcen_electricidad)
Porcentaje de la población con desnutrición (desnutricion)
Porcentaje de la población que vive en la pobreza extrema (porcen_pobreza)
Gasto sanitario total como porcentaje del PIB (porcen_pib_salud)
Ingresos fiscales como porcentaje del PIB (porcen_pib_fiscales)
Porcentaje de la población que utiliza internet (internet)
Índice de Desarrollo Humano (idh)
Además, se realizó un análisis de la posible relación entre las variables mediante una matriz de correlación, en donde se relacionan entre sí las 17 variables seleccionadas. De esta manera se pueden identificar patrones de asociación entre diferentes aspectos para asi poder obtener conclusiones iniciales basandose en los resultados. Las correlaciones presentes en la matriz se interpretan de la siguiente manera: Cuando el valor es cercano a 1 o -1 significa una asociación fuerte positiva o negativa respectivamente, en cambio, cuando el valor es cercano a 0 hace referencia a que las variables no tienen una relación lineal significativa.
A continuación se presentan algunos de los hallazgos más relevantes obtenidos a traves de la matriz de correlación:
El IDH es una variable que presenta altas correlaciones con aspectos de salud y economía. Se puede decir que esta variable resume aceptablemente el bienestar general de la población. Es intuitivo pensar que a mayor desarrollo, los países presentan una mayor esperanza de vida, mayor nivel de satisfacción vital, y un mayor acceso a beneficios que faciliten su cotidianidad.
De igual manera, se puede observar como el pib per cápita tiene un rol importante en variables politicas o ambientales. Cuando los países presentan un mayor desarrollo económico tambien emiten más dioxido de carbono por persona. Se puede intuir que hay un conflicto entre la sostenibilidad ambiental y el desarrollo económico, mayormente en países industrializados como puede ser el caso de China o países del medio oriente. Por otro lado, los países donde se percibe menos corrupción a su vez se asocia con países con mejores ingresos y desarrollo, lo cual respalda la idea de que existe el apoyo gubernamental para el progreso del territorio en los países desarrollados.
De primera vistase puede observar que la cantidad de emigrantes no tiene mucha relación con el comportamiento de las demás variables. Esto puede tener sentido dado que este factor esta influenciado por factores contextuales o geopoliticos los cuales no se reflejan directamente en las otras variables del estudio.
Los países con más ingresos en forma de impuestos pueden estar relacionados con una mayor capacidad de inversión en salud pública. Además, se puede apreciar como la limitación económica tambien impide el acceso a tecnologia y educación digital. Los países con mayor pobreza y mala nutrición presentan regularmente bajos niveles de desarrollo.
Este análisis permite conocer en un primer vistazo como se relacionan las variables del estudio y cómo se pueden interpretar en un contexto real y usarlo como base para el análisis de los modelos de clasificación.
A continuación se presenta un análisis multivariable e individual de las variables empleadas en la investigación. Esto permite identificar a primera vista tendencias generales entre países en diferentes aspectos, lo cual puede dar a entender en un contexto real el significado de los datos usados en el estudio, y que no sean solo valores númericos que carecen de un sentido.
El gráfico de cajas muestra la distribución de cinco variables estandarizadas relacionadas con el ámbito económico, lo que permite comparar su comportamiento relativo entre países. Para poder contrastar la distribución de las variables se realizó una escala del gráfico, expresando los valores en unidades de desviación estandar respecto a la media, lo que facilita la comparación entre variables de distinta magnitud como es en este caso.
La variable pib_percapita presenta una mediana cercana a cero, lo que indica que, en promedio, los países presentan niveles de ingreso per cápita relativamente cercanos al promedio global tomado. Sin embargo, se puede observar varios valores atipicos superiores, los cuales reflejan la existencia de países con ingresos por persona muy elevados, como puede ser el caso de Luxermbugro, que superan ampliamente el promedio de la muestra.
Por otro lado, la variable de porcen_pib_comercio tambien presenta una mediana ligeramente negativa, lo que sugiere que la mayoria de los países tiene un grado de apertura comercial moderado respecto a la media. Los valores extremos superiores podrian representar países que son altamente dependientes del comercio exeterior.
La distribución de la variable porcen_pib_educacion es bastante simetrica y centrada, lo que refleja que la mayoria de los países asignan un porcentaje similiar del PIB a la educación. Respecto a los extremos, existen valores atipicos superiores que reflejan casos puntuales donde el gasto en educación es considerablemente mayor, lo cual puede corresponder a gobiernos con politicas públicas orientadas al desarrollo positivo del capital humano.
A pesar de que la variable porcen_pib_fiscales muestra cierta dispersión, esta tiene una distribución relativament eequilibrada. La concentración de la mediana cerca del cero sugiere uniformidad en los niveles de recaudación de impuestos como proporción del PIB entre los países. La menor prpesencia de valores atipicos muestra que la mayoria de los países tienen niveles similares de ingresos fiscales, con pocas excepciones claro esta.
La variable pocern_pib_salud presenta una mediana positiva, lo que indica que en promedio los países tienden a gastar un poco más en salud que la media general del conjunto. Los valores atipicos elevados podrian estar representando países con sistemas de salud costosos o altamente privatizados, como Estados Unidos, que presenta fuertes inversiones en el desarrollo del territorio.
En general, el gráfico evidencia que, si bien existe cierta uniformidad entre los países en variables como educación y recaudación fiscal, otras como el PIB per cápita y el comercio presentan una mayor dispersión, reflejando diferencias más marcadas entre países con distinto nivel de desarrollo. Estas diferencias sirven como un análisis preliminar para la segmentación posterior mediante las técnicas de aprendizaje que abordará el estudio.
Esta gráfica muestra la distribución del índice de percepción de la corrupción (donde valores más altos indican menor corrupción percibida y valores bajos reflejan una alta percepción de corrupción). Se consideró relevante analizar por separado esta variable ya que desde un punto de vista general, este factor puede estar relacionado con muchas otras de las variables utilizadas en el estudio, dado que dependiendo del índice percibido en cada país, se puede dar explación a otros fenomenos y problematicas presentes en el territorio.
La mayor concentración de países se encuentra en un rango de 30 a 40, lo que indica que una proporción significativa de ellos presenta una percepción relativamente alta de corrupción. Esto es malo puesto que altos niveles de corrupción pueden estar directamente enlazados con una mayor desigualdad y una gestion ineficiente de los recursos públicos, afectando aspectos como la salud, educación, entre otros más. A medida que el índice aumenta, la distribución se vuelve más uniforme, con varios países ubicados en un rango de 60 a 90, lo cual refleja una percepción más favorable y aceptableen términos de transparencia. De igual manera, se observó que muy pocos países tienen un índice por debajo de 25, lo que sugiere que los niveles extremadamente altos de corrupción no son predominantes en la muestra.
En general, el gráfico evidencia una notable variabilidad entre los países en cuanto a la percepción de corrupción. La diversidad en la distribución del índice revela una clara fragmentación en la transparencia gubernamental entre países.
Ya adentrandose en el eje cenetral del estudio, el aprendizaje no supervisado es una técnica orientada a descubrir estructuras propias en los datos sin contar con una variable objetivo definida previamente. A diferencia del trabajo anterior, donde se calificaban los datos según un umbral del IDH, en esta investigación se trabaja directamente con variables unicamente cuantitativas y se intenta encontrar patrones de agrupación entre países con caracteristicas similares y posteriormente darle un significado a los resultados arrojados.
A lo largo de este apartado se explorarán diferentes métodos de aprendizaje de este tipo, puntualmente se abordará: el Análisis de Componentes principales (ACP), el cual permite reducir la dimensionalidad de los datos manteniendo la mayor cantidad posible de información relevante; la clusterización de k-means, la cual segmenta los datos en grupos con caracteristicas similares; y la clusterización Ward, que permite visualizar como los datos se agrupan progresivamente en un esquema jerárquico.
Análisis de Componentes Principales (ACP)
Clusterización mediante k-means
Clusterización mediante Ward
Esta es una técnica del aprendizaje no supervisado para la evaluación de la calidad de los clusters formados. Este método se basa en dos aspectos clave: la cohesión y la separación.
La cohesión se refiere a que tan juntos estan los datos dentro de un mismo grupo. Un buen grupo reune elementos que son muy parecidos, como en el caso de este estudio, países que tienen caracteristicas socioeconómicas similares. Por otro lado, la separación muestra que tan diferentes son estos grupos entre si, o sea, que tan claros y distintos estan unos grupos de otros.
Este método usa un número llamado ancho de la silueta (Average silhouette width), que va desde -1 hasta 1 y ayuda a entender que tan buenos son los grupos. Cuando este número esta cerca a 1 significa que los países dentro de un grupo son muy parecidosentre si y, además, ese grupo es muy diferente de los demás, lo cual es lo buscado idealmente. Por otro lado, si el número esta cerca de 0, quiere decir que los grupos se mezclan y no estan bien separados, y finalmente si el número es negativo, puede ser que algunos países esten en el grupo equivocado.
A partir de la aplicación de los modelos no supervisados, se obtuvieron distintas agrupaciones de países que en principio comparten caracteristicas similares. A continuación, se presentan los resultados especificos arrojados por cada modelo.
Es importante mencionar que para determinar cuantos clusters eran más adecuados en el presente análisis de segmentación de países, se utilizó una técnica que permite comparar múltiples criterios de validación interna con el objetivo de encontrar el valor óptimo de k. Esta técnica se implementó a traves del paquete NbClust, el cual evalua distintos índices para sugerir la mejor cantidad de clusters.
A continuación, se presenta una parte de los resultados obtenidos posterior a la ejecucíon de la técnica:
Como se puede apreciar en los resultados, se encontraron las siguientes sugerencias:
9 índices propusieron que el mejor número de clusters es 2
9 índices propusieron 3 clusters
1 índices propusieron 4 clusters
1 índices propusieron 5 clusters
1 índices propusieron 7 clusters
2 índices propusieron 8 clusters
4 índices propusieron 10 clusters
Aunque hubo cierta variación en los resultados, el valor k = 3 fue uno de los más sugeridos junto con k = 2, sin embargo, el valor de k = 2 fue el escogido entre todos. Esta misma idea se utilizó en el resto del estudio. Posteriormente, para reforzar e iluestrar la decisión del parametro k, se utilizó en algunas técnicas de aprendizaje el método de la silueta, como se podrá apreciar en el siguiente apartado del informe.
Para determinar el número óptimo de clusters en los que se debian clasificar los datos se utilizó el método de silueta (silhouette). A continuación se presenta el gráfico que muestra el comportamiento del Average silhouette width con diferentes valores del parametro k, esto con el fin de obtener el valor optimo de agrupaciones para el modelo.
En este caso, se observó que el valor máximo del ancho de sulueta se alcanza cuando se forman dos clusters (k = 2). Lo anterior quiere decir que, con esa cantidad, los países dentro de cada grupo son muy parecidos entre si y los dos grupos son bastante diferentes entre ellos. En otras palabras, los 54 países estudiados se agrupan en dos categorias bien diferenciadas. Aunque se evaluan valores de k hasta 10, se evidenció que si se optara por elegir más de dos clusters se obtendria una disminución en el valor promedio del ancho de la silueta, lo que indica que la división en más grupos no aporta tanta información adicional relevante.
En el siguiente gráfico se puede observar los clusters generados por el algoritmo k-means, en donde se pueden identificar visualmente cuales países pertenecen a cada grupo y que tan lejos o cerca estan entre si.
Primeramente, en la parte inferior del gráfico se puede observar el eje X (Dim1), el cual ayuda a ver como se diferencian los países según su nivel de desarollo. Este eje es el más importante porque concentra la mayor parte de la información que se usa para la agrupación (51.5%). Se puede ver que en la parte derecha estan los países con mejores condiciones: tienen más ingresos, mejores servicios de salud y educación, menos corrupción y buen acceso a servicios como el internet. En cambio, hacia la parte izquierda se encuentran los países que enfrentan más dificultades: pobreza, poco acceso a servicios basicos, inseguridad alimentaria, entre otros factores más. Por otro lado, en el eje Y (Dim2) se aporta información (13%), pero no tanta como en el eje X. En esta parte se pueden resaltar varias diferencias, como los niveles de desigualdad dentroo de los países o si estos están más enfocados en crecer económicamente o en mejorar la parte social y ambiental. No es el eje más fuerte, pero si complementa y ayuda a entender mejor como se distribuyen los países en los grupos.
Teniendo en cuenta lo que representan los ejes del gráfico y como se distribuyen los países, se decidió asignarle un nombre representativo a cada uno de los grupos, basandose en las similitudes que comparten dentro de cada cluster.
Cluster Naranja (1): “Países con buen desarrollo y mejor calidad de vida”
Este grupo esta formado por 32 países, los cuales a manera general tienen buenas condiciones de vida y un desarrollo considerablemente bueno. Son países donde las personas viven muchos años, la corrupción es baja, y la mayoria de la población tiene acceso a servicios basicos como agua, salud y educación.
Tambien se destacan por tener economias fuertes, con un ingreso monetario por persona alto, y buenos sistemas de salud y educación. Además, la mayoria de sus habitantes tiene acceso a internet, y estos se sienten satisfechos con su vida. En este grupo se pueden encontrar países como Alemania, Francia, Dinamarca, Suecia, Estados Unidos o el Reino Unido.
Cluster Azul (2): “Países con desafios de desarrollo”
Por otro lado, este grupo reune 22 países, los cuales de aun enfrentan muchas dificultades en diferentes aspectos. Tienen problemas como puede ser la baja esperanza de vida de la población, altos niveles de pobreza, y servicios básicos limitados. Sus instituciones tambien son más fragiles: hay más corrupción y el gobierno recauda pocos impuestos, lo cual se traduce como una reducción en la capacidad para poder invertir en salud, educación o infraestructura.
Además, en estos países es más común encontrar inseguridad alimentaria y desnutrición, derivada muy probablemente por la pobreza extrema que abunda en una parte de los habitantes. Algunos ejemplos de este grupo son países principalmente africanos o latinoamericanos como Kenia, Togo, Honduras, Paraguay, Namibia, Republica Dominicana, Ucrania o Moldavia.
Para encontrar el número optimo k de clusters para la ejecución del modelo se empleó nuevamente el método de silueta (silhouette). Para cada valor de k se obtienen resultados distintos lo cual afecta directamente el rendimiento del modelo. Se puede observar el comportamiento del método a traves del gráfico presentado a continuación.
Como se puede apreciar, en el gráfico se observa que el ancho promedio de la silueta alcanza su valor máximo cuando k es igual a 2, lo que indica que los datos se agrupan mejor en dos clusters. Esto significa que, con esa cantidad de grupos, los países se encuentran correctamente segmentados. Al aumentar o disminuir el valor de k, el ancho de la silueta toma valores no tan convenientes, como ya se explico antes, lo que sugiere que un número mayor de grupos no mejoraria la agrupación y se correria el riesgo de que se generen resultados inconsistentes.
A continuación se presenta el dendograma generado del modelo Ward, el cual permite visualizar la representación jerarquica de la agrupación. Cada rama del árbol muestra la cercania entre los países y como se agrupan de forma progresiva hasta llegar a la partición final. Se identifica un corte que permite dividir el conjunto en dos grupos principales, de la misma manera que lo sugirió el análisis de silueta.
En el eje X se encuentran los países, cada uno representa un elemento del conjunto de datos que se agrupa en clusters según sus similitudes. El eje Y representa la altura o la distancia a la que se unen los grupos. Una altura de 0 singifica que los países son muy similares, mientras que alturas mayores, como 20, indica un menor grado de similitud entre ellos.
En la parte izquierda del dendograma (Naranja), dentro del primer cluster, se puede observar que hay 37 países agrupados. Desde el nivel más bajo de agrupamiento, se observan pares de países como Latvia (Letonia) y Lithuania (Lituania), los cuales presentan alta similitud, la cual podría darse en variables como PIB per cápita y satisfacción vital. Otros países que se agrupan con una similitud muy alta son Sweden (Suecia), Denmark (Dinamarca), Finland (Finlandia) e Iceland (Islandia), los cuales presentan similitudes en variables como desempleo e Índice de Desarrollo Humano (IDH).
Pasando más arriba del gráfico, en países como Slovakia (Eslovaquia), Slovenia (Eslovenia), Czechia (Chequia), Estonia (Estonia), Austria (Austria) y Netherlands (Paises Bajos), los cuales comparten similitudes en variables de desarrollo, pero sus diferencias empiezan a ser más notorias, por ejemplo, en el caso de la variable del índice de corrupción. Tambien se observó países como United States (Estados Unidos) y Germany (Alemania), los cuales estan agrupados a una altura mayor indicando menos similitudes, pero entre las pocas variables que comparten esta el PIB per cápita y el Índice de Desarrollo Humano (IDH).
Por otr lado, se puede ver la agrupación de países como Greece (Grecia), Spain (España), Croatia (Croacia), Portugal (Portugal), Bulgaria (Bulgaria) y Tunisia (Túnez), los cuales presentan un desarrollo alto, aunque tambien con ciertas diferencias. Por último, centrandose en países como Luxembourg (Luxemburgo), que es un país que se incorpora con mayor altura, demuestra que es un país con distintos valores dentro de las variables en comparación a otros países dentro de ese cluster, posiblemente por su PIB per cápita, el cual es un poco más alto que el resto, lo cual lo separa incluso de países desarrollados.
En conclusión, este cluster esta compuesto por países con niveles similares en ambitos como desarrollo humano, aunque hay diferencias entre ellos. La mayoria tienen buena economia, buen acceso a servicios básicos y una calidad de vida aceptable. Este cluster indica que, a pesar de sus diferencias culturales o geograficas, estos países tienen varios puntos en común, los cuales los hacen muy parecidos entre si cuando se trata de analizar variables relacionadas con el desarrollo y la calidad de vida.
Por otro lado, en la parte derecha del dendograma (Azul)“, se encuentran agrupados 17 países, los cuales reflejan una menor similitud, ya que se unen en alturas más posteriores en el diagrama. Lo anterior indica que estos países presentan diferencias mucho más marcadas entre ellos.
Se puede observar, por ejemplo, que Indonesia (Indonesia) y Pakistan (Pakistan) se agrupan en alturas bajas dentro del cluster, lo que indica que algunas de sus variables como PIB per cápita son bastante parecidas. Otros países como Albania (Albania) y Georgia (Georgia) tienen varibales más parecidas entre ellos como el porcentaje del PIb en educación, satisfacción vital y esperanza de vida.
De igual manera, viendo el subgrupo confirmado por Botswana (Botsuana), Namibia (Namibia), Togo (Togo), Kenya (Kenia) y Cote d´lvoire (Costa de Marfil), son países africanos que podrían compartir variables como Índice de Desarrollo Humano (IDH), Inseguridad alimentaria y desempleo. Tambien se incluyen paises como Iran (Iran), Albania (Albania), Georgia (Georgia) y Tajikistan (Tayikistán), los cuales presentan valores comunes en variables como el acceso a la electricidad.
En resumen, este cluster agrupa países que comparten niveles de desarollo más limitados, como un menor PIB per cápita, más pobreza y menor esperanza de vida. Este lado del dendograma muestra que estos países comparten un nivel general de desarrollo más bajo que el otro lado. Se reflejan realidades más vulnerables y problemas similares, arrastradas en parte por aspectos geográficos, culturales o sociales.
Este modelo, como ya fue mencionado antes, es una técnica utilizada para reducir un conjunto de datos en uno más pequeño. Este crea nuevas variables no correlacionadas llamadas componentes principales (o dimensiones), los cuales representan bien a las variables originales, con la diferencia de que no se repite la misma información que ya se tiene.
La primera nueva variable es la que más información brinda, la segunda un poco menos, y asi sucesivamente; de esta forma, se eligen las dimensiones que entre ellas reprensentan un porcentaje adecuado (normalmente entre 70% - 80%) y se realiza un análisis posterior. Esto puede ayudar a entender mejor los datos, hacer gráficos más claros y trabajar más facilmente con ellos.
Eigenvalue | Varianza (%) | Varianza acumulada (%) | |
---|---|---|---|
Dim.1 | 8.7485 | 51.4620 | 51.4620 |
Dim.2 | 2.2208 | 13.0638 | 64.5258 |
Dim.3 | 1.4050 | 8.2646 | 72.7904 |
Dim.4 | 1.3175 | 7.7502 | 80.5406 |
Dim.5 | 0.8891 | 5.2298 | 85.7703 |
Dim.6 | 0.6066 | 3.5681 | 89.3384 |
Dim.7 | 0.4060 | 2.3883 | 91.7268 |
Dim.8 | 0.3428 | 2.0166 | 93.7434 |
Dim.9 | 0.2824 | 1.6612 | 95.4046 |
Dim.10 | 0.2159 | 1.2699 | 96.6746 |
Dim.11 | 0.1338 | 0.7874 | 97.4619 |
Dim.12 | 0.1111 | 0.6533 | 98.1153 |
Dim.13 | 0.1037 | 0.6099 | 98.7252 |
Dim.14 | 0.0791 | 0.4655 | 99.1907 |
Dim.15 | 0.0567 | 0.3337 | 99.5244 |
Dim.16 | 0.0422 | 0.2481 | 99.7725 |
Dim.17 | 0.0387 | 0.2275 | 100.0000 |
La tabla anterior muestra algunos datos relevantes que ayudan a determinar con cuantos componentes principales se trabajará. Para entenderla mejor, a continuación se presenta una breve definición de cada concepto que compone la tabla:
Dimensíon: Son combinaciones lineales de las variables originales y estan ordenadas según el porcentaje de varianza. En este caso, se tiene 17 dimensiones porque el conjunto de datos cuenta con 17 variables.
Eigenvalue: Es un número que dice cuanta varianza (o información) del conjunto de datos original esta explicando cada componente principal. Según el criterio de Kaiser, se debe usar solo aquellas dimensiones que cuenten con un Eigenvalue mayor o igual a 1, ya que estas representan más información que una variable original promedio.
Varianza: Es el porcentaje de varianza que explica la dimensión, es decir, que tanta información del conjunto de datos se explica con ese eje nuevo.
Varianza acumulativa: Es la suma acumulativa de los porcentajes de varianza por cada componente. Sirve principalmente para visualizar hasta que dimension tomaremos.
El scree plot es una gráfica de barras que muestra el porcentaje de varianza para cada dimensión, es decir, los porcentajes de la gráfica anterior; este ayuda a visualizar de mejor forma qué componentes se usarán. Se puede observar que sólo aparecen las primeras diez dimensiones.
El codo pronunciado tras la segunda dimensión sugiere que retener las dos primeras componentes es suficiente para conservar más del 64% de la variabilidad, y extiende razonablemente la interpretación hasta la tercera o cuarta dimensión si se busca capturar patrones secundarios en las variables.
Se decidió trabajar con las 3 primeras dimensiones, las cuales representan un 72,88% de los datos. Según el criterio de Kaiser, lo ideal es haber trabajado tambien con la dimensión 4, ya que esta cuenta con un eigenvalue mayor a 1, sin embargo, se consideró que un 7% adicional no era un porcentaje muy significativo, sumando el hecho de que las primeras tres dimensiones aportan más del 70% de la información.
Ya habiendo elegido las dimensiones, se le asignó un nombre a cada componente principal con el objetivo de identificar con mayor facilidad lo que representa cada una, basandose en las contribuciones de las variables a cada una de ellas.
Dimension 1: Desarrollo y bienestar
Esta dimensión refleja el nivel de desarollo humano, calidad de vida y acceso a servicios básicos. Las variables que se podrian considerar ligadas al desarollo de un país (como el IDH y la esperanza de vida) representan más de un 50% de esta dimensión.
Dimension 2: Inversión social
Refleja como algunos países invierten en mejorar la calidad de vida de su población, especialmente en la educación. Sin embargo, tambien refleja si esa inversión realmente es efectiva o si llega a las personas. Por ejemplo, en el caso de Namibia (el país más representativo de esta dimensión), se tiene que este gasta casi un 10% del PIB en educación, pero sigue teniendo altos niveles de desnutrición y pobreza, además de niveles no tan altos de porcentaje de electricidad e índice de corrupción. Se puede decir que los países que destacan son aquellos que priorizan la educación como motor de desarollo, dejando de lado otros factores importantes.
Dimension 3: Estructura económica y mercado laboral
Esta dimensión muestra como esta organizada la economía en un país, basandose en los gastos del PIB, importaciones y exportaciones. Además, las variables de desempleo y dioxido per cápita pueden proveer una idea de si el tipo de economía es viable o no.
Al ser 3 dimensiones, se realizaron seis gráficos de variables e individuos (países), con ejes X y Y respectivamente. De esta forma, se puede análizar cada componente principal desde diferentes perspectivas. Se consideró la idea de hacer solo dos gráficos interactivos en 3D, pero estos no son tan faciles de interpretar como uno de dos ejes, además de que pueden resultar confusos.
Los gráficos de variables muestran 17 variables originales como vectores en un plano de dos ejes, acompañados de una escala de colores: aazul, amarillo y rojo. Los vectores cuentan con diferentes longitudes, direcciones y colores que brindan información acerca de ellos. A continuación se presenta un resumen explicativo de los conceptos claves para una interpretación óptima de los gráficos:
Longitud: Representa que tan bien representada esa variable en el ele al que se esta acercando. Cuanto más larga sea la longitud del vector, mayor será la contribución a la dimensión.
Dirección: Indica la correlación entre esa variable y la(s) dimension(es). Las variables que apuntan en la misma dirección estan positivamente correlacionadas; en caso contrario, estan negativamente correlacionadas. Por último, si forma un ángulo de 90° (perpendiculares), no tienen ninguna correlación.
Color: Es el grado de contribución de cada variable a la(s) dimension(es). En este caso, las variables rojas y amarillas son las más representativas.
Eje X: DIMENSION 1 - Desarrollo y bienestar
Eje Y: DIMENSION 2 - Inversion social
Se puede observar que las variables cercanas al punto (0,0) no son relevantes para explicar estas dos dimensiones; tal es el caso de las variables desempleo y porcen_pib_comercio; el comercio tiene un papel relativamente independiente a las inversiones sociales realizadas en cada país. Por otro lado, se puede observar que hay variables opuestas, como lo son porcen_electricidad con porcen_pobreza y desnutricion, esta primera indica lo decisiva que es esta variable para explicar el nivel de desarollo humano, entre otros hallazgos relevantes.
Como se observó en las tablas anteriores, los países más representativos son: Togo, Kenya y Cote d’Ivoire en la dimensión 1. En la dimensión 2, se tiene a: Namibia, Pakistan y Botsuana. Cabe destacar que todos ellos estan en los cuadrantes II y III, es decir, tienen valores o muy bajos o muy altos, dependiendo de las variables.
Eje X: DIMENSION 1 - Desarrollo y bienestar
Eje Y: DIMENSION 3 - Estructura económica y mercado laboral
En este gráfico se puede observar que la mayoria de las variables estan positivamente o negativamente correlacionadas. Como ejemplos se tene inseguridad_alimentaria con idh y satisfaccion_vital. Este gráfico refuerza la idea de que la dimensión 1 esta relacionada con el desarrollo humano, mientras que la dimensión 3 capta otras diferencias que no se observaron en el gráfico de la dimension 1 y 2.
En este gráfico se puede apreciar como países con altos puntajes en desarrollo humano (como Luxemburgo o Suecia)_ se ubican a la derecha y muy abajo, lo que refleja economías sólidas con bajas tasas de desempleo y migración limitada. Por el contrario, naciones como Costa de marfil y Togo aparecen en el cuadrante inferior izquierdo, indicando tanto bajos niveles de desarollo como mercados laborales relativamente estables. En el cuadrante II se encuentran países con menor desarollo y mercados laborales dificiles. En el cuadrante I se agrupan economías que, a pesar de un nivel de vida elevado, enfrentan ciertos problemas de mercado laboral.
Eje X: DIMENSION 2 - Inversion social
Eje Y: DIMENSION 3 - Estructura económica y mercado laboral
Las variables porcen_pib_educacion, porcen_pib_salud y desempleo son las que más destacan en este gráfico. Esto sugiere que la dimensión 3 esta relacionada con la estructura económica orientada al desarrollo social. Se puede observar que variables como porcen_pobreza e inseguridad_alimentaria se orientan en sentido contrario a las variables anteriores. Esto confirma que un mayor gasto social se opone directamente a la pobreza y la inseguridad alimentaria. De acuerdo a la interpretación de los resultados, se puede entender que altos niveles de desempleo suelen ir de la mano con movimientos migratorios más intentos, además de que hay economías avanzadas con fuerte conectividad y mayor impacto ambiental, pero con mercados laborales que se pueden considerar positivos.
Se puede observar un grupo de alta inversión social integrado por Finlandia, Dinamarca y Austria, donde el fuerte gasto en salud y educación coincide con mercados laborales estables. En el cuadrante II resltan países como Ghana o Pakistan, los cuales combinan bajos niveles de ijnversión social con desempleo elevado y fuerte migración. Tambien se puede resaltar el cuadrante IV, el cual contiene economías emergentes que a pesar de invertir en aspectos sociales, mantienen tasas de desempleo moderadas y una menor migración.
A manera de conclusión, a través de este trabajo se puede observar que los modelos de aprendizaje no supervisado permitieron identificar patrones y agrupaciones de países con caracteristicas similares, sin la necesidad de una variable objetivo como si fue necesario en el estudio anterior. Esto hizo posible descubrir información valiosa directamente desde los datos, lo que demuestra que este tipo de análisis es útil incluso sin tener una respuesta o rumbo conocido desde el inicio de la investigación.
Si se tuviera que trabajar con una variable objetivo, se trabajaria nuevamente con la variable correspondiente al IDH, y de hecho, esta variable aportó “simbolicamente” un sentido a los datos en general, puesto que esta fuertemente asociada a otras variables, lo cual se pudo observar en la matriz de correlación.
En términos generales, los métodos de segmentación revelaron consistentemente dos grandes grupos, y esto va un poco de la mano con las hipotesis preliminares que se tuvieron como grupo antes de desarrollar esta investigación. Si bien es cierto que tambien se pensó en algun momento la idea de tener 3 grupos diferentes, con el objetivo de tener una clasificación más detallada de los datos, los 2 grupos arrojados por los modelos representan de igual manera gran parte de la realidad en el mundo, clasificando los países y permitiendo una interpretación que demuestra que este tema no puede ser entendido desde un unico indicador.
De manera paralela, se quiso contrastar de cierta manera el presente estudio con el de Aprendizaje supervisado, esto con el objetivo de evidenciar que tan similares son las formas de clasificación de cada tipo de aprendizaje. Si se clasificara el conjunto de datos actual a traves del criterio del estudio pasado, el cual consisitia en determinar si un país tenia un desarrollo alto a través de la variable de Índice de Desarrollo Humano (idh) transformada en binaria (idh (Rango de 0 a 1) -> Desarollo_Alto (Si/No)), se puede encontrar que no habria mucha diferencia en los resultados arrojados por los modelos de aprendizaje supervisado y no supervisado.
A continuación se presentan dos gráficos de barras correspondientes a los países del conjunto de datos actual clasificados con criterios utilizados en el estudio pasado correspondiente al de Aprendizaje supervisado.
Primeramente, en este gráfico se puede observar la clasificación de todos los países del conjunto de datos actual, en donde estos aparecen clasificados de acuerdo a un umbral puesto en 0.7 para la variable de idh. Las barras en color verde hacen referencia a los países con desarrollo ato de acuerdo a el criterio impuesto, por el contrario, los países con barras de color rojo clasifican como un desarrollo medio o bajo.
Si se contrastan ambos subgrupos de países junto con los resultados de la clasificación no supervisada, se puede observar que ambos presentan grandes similitudes, puesto que en ambos modelos de clasificación, los métodos arrojaron resultados parecidos para la categorización de las observaciones. Si bien es cierto que la clasificación no es exactamente igual en ambos casos, los resultados son bastante similares, demostrando de cierta manera una buena consistencia de los modelos entre si.
Ahora bien, tomando como punto de corte el 0.8 para la clasificación del desarrollo de los países de la muestra, se puede observar como incrementa la similitud entre ambas clasificaciones. Este era el punto de corte pensado en el estudio pasado, sin embargo, como ya se explicó en dicho trabajo, este umbral causaba un desbalance entre las clases de los conjuntos, pero en este caso aparentemente el incremento ocasiona que los resultados sean más parecidos aún. Los países que por lo general se catalogan como no desarrollados en el presente trabajo tambien lo hacen en el estudio pasado; y los que se consideraban altamente desarrollados en el aprendizaje no supervisado tambien lo hacen en el aprendizaje supervisado.
De esta manera, se puede decir a manera de conclusión, que la variable referente al Índice de Desarrollo Humano presena un papel primordial en este estudio, siendo un factor decisivo a la hora de clasificacar los países en grupos con caracteristicas similares. Tambien se puede hablar sobre como a pesar de no darle una “restricción” a los modelos para clasificar en este caso, estos presentan una buena capacidad para interpretar los datos que se les proporcionan para que internamente categoricen la información dada. El IDH es una variable que encierra una gran variedad de factores, por ende tiende a tomar un rol importante en el proceso de categorización, y en términos practicos esto tiene sentido, puesto que la función de este índice es representar en términos globales el estado de un territorio.
Se pueden considerar algunas conclusiones y consideraciones con base a los resultados arrojados:
Los métodos de clusterización K-means y Ward mostraron resultados consistentes al dividir a los países en dos grupos aceptablemente definidos, dejando en evidencia las desigualdades que existen a nivel global desde una muestra tomada, sin embargo, aunque el valor óptimo de clusters sugeridos fue 2, si se hubiera tomado la decisión de incluir más clusters podría haber permitido capturar diferentes perspectivas dentro del grupo de países, desglosando claramente leves diferencias el grupo de países desarollados y segmentando de una manera más detallada los países con poco desarollo, dado que son más heterogeneos en su subgrupo. El uso de los dos grupos simplificó de cierta manera la lectura global de los resultados, pero redujo a su vez la capacidad de análisis y diferenciación en la clasificación.
El uso del ACP ayudó a resumir la información de las 17 variables en solo 3 dimensiones clave sin perder detalles importantes, explicando asi el 72.8% de la variabilidad. Una cuarta dimensión hubiera enriquecido las interpretaciones, posiblemente revelando patrones relacionados que no fueron evidentes utilizando las tres dimensiones establecidads, no obstante no se consideró que hizo falta luego de analizar los resultados, puesto que asi se mantuvo una simplicidad análitica con las variables trabajadas, sacrificando cierta profundidad de estudio en favor de una mayor claridad para el lector.
Se pudo haber considerado incluir otras variables en el estudio aparte de las ya mencionadas, con la finalidad de brindar diferentes angulos nuevos para el proceso de clasificación. Esto podría haber cambiado la estructura de los clusters o influido en la construcción de dimensiones más explicativas, pero en términos de análisis de resultados, tener 17 indicadores no represento un problema al ejecutar los modelos.
Finalmente, al realizar este estudio se puede observar como los modelos encuentran su propio orden de clasificación, el cual no esta muy alejado de la realidad, y de hecho, tampoco esta alejado del estudio de aprendizaje supervisado, más alla de que esta investigación toma la mayoria de elementos de aquel estudio. Se puede decir que los datos presentan estructuras más alla de las simples categorias, mostrando coherencia entre métodos en el desarrollo de la categorización de los datos.