Introducción

Se conoce al aprendizaje no supervisado como un método de entrenamiento en el cual se utiliza información no clasificada ni etiquetada previamente, lo cual, permite que el algoritmo generado actúe sobre la información sin guía alguna. A comparación con el aprendizaje supervisado, no es posible aplicar de forma directa un problema de regresión o clasificación dado a que no se tiene idea de cuáles pueden ser los valores finales o datos de salida; la metodología del método de aprendizaje no supervisado se explicará a continuación en el informe.

Dentro del modelo se hace uso de 13 variables con el fin de generar los factores necesarios para el funcionamiento y comprensión del mismo, es posible clasificarlas en los siguientes grupos: Desarrollo sostenible y medioambiente, economía y comercio, población y demografía, empleo y mercado laboral, y por último transporte y movilidad; A lo largo del informe se introducirán adecuadamente el concepto de cada variable integrada en los diversos grupos. El objetivo del modelo está basado en, mediante la creación de factores, explicar con la menor cantidad posible de componentes el porcentaje de variabilidad en relación a los individuos del modelo y los factores anteriormente mencionados.

Metodología usada

Método Ward o Jerárquico

Para este modelo de aprendizaje no supervisado, se usó la metodología Ward o jerárquica, se utilizó este método con el fin de crear grupos de datos, también conocidos como clusters, en los cuales se puedan encontrar relaciones o similitudes entre los destinos dados que permitan una clasificación de los países.

Mediante este método se calcula la distancia entre los distintos datos, luego empieza a agruparlos, tomando aquellos valores que tengan una menor distancia, creando parejas de datos, luego trios y así sucesivamente hasta agrupar los puntos pertenecientes a cada grupo(cluster) de manera que todos los puntos pertenecientes a cada grupo grupo queden lo más cercanos al punto medio formado por estos.

Se hizo uso de dendogramas, el cual va ayudar a ilustrar las divisiones realizadas a cada uno de los individuos.

Análisis de componentes principales (ACP)

Permite reducir la dimensionalidad, para tratar de explicar la mayor cantidad de los datos con el menor número de componentes posible, tratando de hacer más sencillo y manejable el análisis de los datos, sintetizando la información de tal manera que se logre conservar las características principales del conjunto inicial.

Se hizo uso de funciones como “prcomp()” la cual convierte la base de datos en componentes principales, en donde cada componente explica un porcentaje del comportamiento de las variables, los cuales están organizados de mayor a menor según que el porcentaje que representa cada componente, una vez creados los componentes principales.

Descripción de las variables

Las variables 14 seleccionadas para la creación del modelo de entrenamiento de aprendizaje no supervisado fueron las siguientes:

  • Acceso a la electricidad (% de la población): Cantidad porcentual de la población de un país en su totalidad que tiene accesos a servicios eléctricos.

    Con respecto a la base de datos, el país con la menor cantidad porcentual de la población con acceso a electricidad es de 30.60% y el porcentaje más alto es de 100%. El promedio porcentual de la población de los países con acceso a la electricidad en el año 2020 fue de 90.10% y la mediana o el dato central fue de 100%. Se observa en el histograma que el intervalo con mayor frecuencia de porcentaje poblacional de un país con acceso a la electricidad está entre 90% a 100%.

  • Acceso a la electricidad rural (% de la población rural):Cantidad porcentual de la población de un país en la zona rural que tiene accesos a servicios eléctricos.

    En torno a la zona rural de los países, según la base de datos se  tiene que el país con la menor cantidad porcentual de la población rural es de 9.32% y el mayor es de 100%. El promedio porcentual de la población rural de los países con acceso a la electricidad en el año 2020 fue de 84.88% y la mediana de 100%. Según el histograma el intervalo con mayor frecuencia está entre 90% y 100%.

  • Acceso a combustibles y tecnologías limpias para cocinar

    Como el nombre lo indica, la variables se refiere al promedio poblacional del país en cuestión que tiene acceso a combustibles y tecnologías amigables con el medioambiente enfocadas en la cocina. Los combustibles limpios incluyen el gas natural, la electricidad, el biogás y combustibles líquidos como el etanol y el metanol. Por parte de las tecnologías se abarcan estufas mejoradas y ventiladas las cuales queman combustibles limpios.

    El menor porcentaje de la población de un país con acceso a combustible y tecnologías limpias para poder cocinar es del 5% y el mayor es de 100%. La cantidad promedio de esta variables en el año 2020 fue de 73.11% y la mediana tuvo un valor de 91.65%. Con respecto al histograma el intervalo con la mayor frecuencia porcentual se sitúa entre el 80% y 100%.

  • Superficie forestal

    Hace referencia al espacio poblado con diversas especies forestales arbóreas como una manifestación forestal principal, en la cual, su fracción de cubierta supera el  5%. Esta variable contempla el avance o desarrollo de los recursos naturales y biodiversidad de un país. En el año 2020 el menor porcentaje del área forestal de un país fue de 0% y el mayor porcentaje fue de 90.13%, con respecto al promedio porcentual del área forestal de un país el valor fue de 30.70% y en torno a la mediana está se fue de 30.70%, teniendo tanto el promedio como la valores bastantes similares.

  • Exportaciones de bienes y servicios

    Son el conjunto de todos los bienes y servicios vendidos por un país fuera de su territorio para su uso. Son aquellas operaciones en las cuales los residentes de un territorio suministran bienes y servicios a aquellos que no lo son. Está variables representa una oportunidad en el comercio exterior.

    El menor ingreso de exportaciones de bienes y servicios en torno al PIB en el año 2020 entre los países fue de 0.45 dólares mientras que el más alto fue de 199.61 dólares. En relación al promedio y la mediana estos tomaron valores de 37.53 y 29.30 respectivamente entre los países. Estos datos pueden verse gráficamente en el siguiente diagrama de cajas.

  • Crecimiento del PIB

    Se define al PIB como un indicador económico que suma el valor de todos los bienes y servicios finales producidos en un país. En torno a su crecimiento, se refiere a un aumento porcentual en su valor dentro de un periodo de tiempo determinado.

    En el año 2020 el país con menor porcentaje anual de crecimiento del PIB tuvo un valor de -33.49% haciendo referencia a un decrecimiento del mismo y por otro lado el país con el mayor crecimiento tuvo un valor de 6.18% como se puede observar en el diagrama de cajas. Con respecto al promedio y a la mediana del crecimiento porcentual del PIB se observan valores de -4.73% y -4.14 respectivamente.

  • Inflación, precios al consumidor

    Indica el aumento de precios en los bienes y servicios en un país dentro de un periodo determinado. A su vez también implica una disminución del poder adquisitivo. Con respecto a la base de datos podemos observar que el menor valor anual de la inflación en el año 2020 fue de -2.59 lo que indica un decrecimiento, mientras que el mayor fue de 557.20. Por otro lado, observamos que el valor promedio de la inflación fue de 9.60 y la mediana de 2.30.

  • Tasa de fecundidad, total (nacimientos por mujer)

    Mide la cantidad media de hijos por mujer. Sobre la tasa de fecundidad se observa que en la base de datos el menor valor porcentual fue de 0.8% y el mayor corresponde al 5.30%. El valor promedio de esta variable en el año 2020 fue de 2.38% y en torno a la mediana tenemos valores del 1.96%.

  • Esperanza de vida al nacer, total (años)

    Indicador que se contempla el promedio de años que vive una determinada población nacida en el mismo año. En relación a los países en el año 2020 se tiene que el menor valor de la esperanza de vida fue de 52 años de edad y el más alto fue de 84 años. El promedio y la mediana de la esperanza de vida entre los países dieron como resultado 73 años de edad. 

    En el histograma se puede observar la frecuencia con respecto a la esperanza de vida en años situándose la mayoría de los datos entre los 60 a los 85 años. 

    En el diagrama de cajas se observa la variabilidad de los datos con respecto a la esperanza de vida en los distintos países presentes en la base de datos.

  • Tasa de mortalidad, adulto, mujeres (por cada 1.000 mujeres adultas)

    Se refiere a la cantidad de mujeres adultas que mueren por cada 1000 mujeres adultas entre los 15 a 60 años. El valor más bajo entre los países en el año 2020 con relación a la tasa de mortalidad por cada 1000 mujeres adultas fue de 23 mujeres, esto quiere decir que por cada 1000 mujeres mueren 23 de ellas, en torno al valor más alto fue de 357 muertes por cada 1000 mujeres. El promedio y la mediana de muertes fue de 113 y 94 mujeres respectivamente. 

  • Tasa de mortalidad, adultos, hombres (por cada 1.000 hombres adultos)

    Se refiere a la cantidad de hombres adultos que mueren por cada 1000 hombres. Según la base de datos el valor más bajo de muertes por cada 1000 hombres entre los países en el año 2020 fue de 49 muertes masculinas y el valor más alto fue de 415 muertes. El promedio de muertes masculinas en el año 2020 fue de 184 muertes y la mediana se situó en un valor de 173 muertes.

  • Población total de un país.

    Correspondiente a la población de personas en los diferentes países en el año 2020 se obtuvo que el menor valor poblacional fue de 214929 personas, mientras que el valor más elevado se situó en los 1411100000 habitantes. El promedio de residentes para el mismo año fue de 62445094 mientras que para la mediana se obtuvo un valor de 12654043.

  • Empleadores, total (% del empleo total) (estimación modelada de la OIT):

    Porcentaje total de la población la cual tiene la propiedad o el control de una empresa o una organización. En relación con la base de datos en el año 2020 se tiene que el menor valor porcentual para la cantidad de empleadores de un país fue del 0.05% y el para el más alto se obtuvo el valor de 12.22%. El promedio porcentual del total de empleadores fue de 3.30% mientras que la mediana dió un valor de 3.04%, bastante cercano al promedio.

  • Transporte aéreo, pasajeros transportados.

    En el siguiente diagrama de cajas podemos observar que el valor de la cantidad de pasajeros transportados en el año 2020 en los distintos países, la menor cantidad de pasajeros transportados en un país fue de 1593, mientras que la mayor cantidad de pasajeros reflejo un valor de 417255845. El promedio de esta variable se situó en un valor de 15219248, y por otro lado la mediana se situó en 1256595 pasajeros.

Resultados principales

Se inicia con una matriz de correlación de las variables para verificar que variables se encuentran más correlacionadas a otras. Esta mide el grado de relación lineal entre cada par de variables, los valores de correlación lineal se pueden ubicar entre -1 y +1. Sin embargo, que haya relación entre las variables no es suficiente para sacar conclusiones sobre la relación causa-efecto.

Las correlaciones positivas se muestran de color azul, mientras que las negativas de color rojo. La intensidad del color y el tamaño de las elipses son proporcionales a los coeficientes de correlación. En el lado derecho el color la leyenda muestra los coeficientes de correlación y los colores correspondientes.

Se utilizó la matriz de correlación para evaluar la fuerza y dirección de la relación entre las variables, un valor de correlación alto y positivo indica que las variables miden la misma destreza o características, por el contrario si las variables no están altamente correlacionadas, entonces las variables pueden medir diferentes características o no estar claramente definidas.

Este se usó con el fin de identificar en número óptimo de clusteres que se utilizarían, el cual dice que es 2.

Sin embargo, utilizando el método del codo se observa, como entre los componentes 3 hasta el 10 no hay mucha diferencia en su porcentaje de información explicada, es decir que hay mucho ruido entre ellos. Debido a esto se decidió utilizar los primeros 3 componentes, puesto que con este número de factores se explica el 64.9 % de la información suministrada.

Se separaron los 3 factores a partir del dendograma, visualizando los países que se encuentran dentro de cada factor para que los individuos sean más claros de identificar.

Interpretación de los factores

Factor 1

Las variables que más contribuyeron a este fue de expectativa de vida, el ratio de mortalidad de adultas mujeres, ratio de fertilidad total, acceso de electricidad tanto en zonas rurales y la población total. Por otro lado, los inidividuos (países) que más relacionados se encuentran a este factor son Nigeria, Zimbabwe, Mozambique, Uganda y entre otros países del continente de Africa que se encuentran de primeros.

Al análisar los datos en la base de tanto las varibales como los individuos, se notó que los países que se encuentran de primeros, cuentan con cifras inferiores a la de la mayoría de los países, además, las variables se encuentran relacionadas al Indice de Desarrollo Humano (IDH). Por lo tanto, el factor uno, las variables y los individuos que pertenecen a este factor son relacionados al IDH, clasificando los que se encuentran de primeros como los más bajos en el IDH y los que se encuentran de últimos con mayor IDH.

Por lo tanto, en el gráfico de los individuos en los factores, los países que se encuentran hacia el lado derecho es donde se encuentran los valores más bajos, mientras que hacia el lado izquierdo aumenta.

Factor 2

En este factor, solo 2 varibales fueron los mayores contribuyentes, estos son la población total y la cantidad de pasajeros aéreos. Los países que más relacionados se encontraron fueron China, Estados Unidos e India.

Al observar la base de datos, la relación de ambas partes es que son quienes tienen una mayor población en comparación a los demás países y por tener una mayor población, la cantidad de pasajeros que se movilizan de manera aérea también es mayor. Por ende, el factor 2 crece hacia abajo y decrece hacia arriba.

Como resultado, el término que más se ajusta a las variables e individuos, teniendo en cuenta las condiciones de estos, es Crecimiento Poblacional.

Factor 3

En el siguiente factor, las variables que más influenciaron fueron el crecimiento del PIB, total de empleados, área forestal, inflación al precio del consumidor y exportaciones de bienes y servicios. Por otra parte, los individuos que se asocian a este son Zimbabwe, Las Bahamas, Irlanda, entre otros.

Verificando los datos, junto con la gráfica de los individuos y variables, al relacionarlos se observa que por lo menos la variable del PIB crece hacia abajo y decrece hacia arriba, en contraste, países como Zimbabwe e Irlanda se encuentran del lados opuestos, dando a entender que Zimbabwe tiene un PIB menor e Irlanda uno mayor.

Teniendo en cuenta lo anterior, el concepto que más define las variables e individuos es Indice de Progreso Económico.

Gráficos

Individuos en PC1 y PC2

La distribución y el nivel de representación de los individuos (países) con respecto a los factores 1 y 2. El nivel de representación se encuentra relacionado con el valor de claridad y la posición de los países en el gráfico, pues los mejores representados son los puntos que se encuentran en la periferia, mientras que los que tienen menor representación están más hacia el centro.

Por ejemplo, Nigeria que está ubicado en la extrema derecha se encuentra muy bien representado por el factor 1, mientras que Nepal está ubicado más hacia el centro y no está tan bien representado por el factor 1.

Individuos en PC1 y PC3

Muestra la misma distribución y el nivel de representación pero en este caso de los individuos (países) con respecto a los factores 1 y 3.

Variables en PC1 y PC3

Muestra la contribución de las variables a los factores, en este caso a los factores 1 y 2. Por ejemplo, la variable IS.AIR:PSGR (Transporte aéreo, pasajeros transportados) está contribuyendo más al factor 2 y tiene un nivel de contribución alto para dicho componente.

Variables en PC1 y PC3

Es la contribución de las variables a los factores, en este caso a los factores 1 y 3. De acuerdo al ejemplo que tomamos en la gráfica anterior, se puede observar que la variable descrita, en este caso contribuye más al factor 1 y su nivel de contribución se podría decir que es inferior a 3.

Biplot de individuos y variables

Visualiza y explora relaciones entre las variables y los individuos (países) de nuestra base de datos utilizada en el modelo.

Por otro lado, en esta gráfica se visualiza ya como los individuos se agrupan en cada factor, el factor 3 (crecimiento pobalcional) es el que cuenta con menor número de individuos relacionados, mientras que el 1 (indice de desarrollo humano) es el que tiene mayor número de individuos relacionados.

Caracterización

  • La primera clase, se encuentra compuesta por variables como el acceso a la electricidad en zonas rurales, acceso a la electricidad de la población total y entre otras como el acceso a combustibles, tecnologías y la expectativa de vida. La media de la clase es superior a la media global, por lo tanto la mayoría de estos países en términos de desarrollo y acceso son bastante altos, en comparación a los demás. Por consiguiente, esta clase de países se clasificó como países desarrollados.

  • La segunda clase, hay variables como el ratio de la fertilidad total, la mortalidad en adultos tanto en hombres como mujeres, la inflación en compras a precio del consumidor y el crecimiento del PIB anual, entre otras, como las exportaciones de bienes y servicios. Al observar la media de las clases esta es mayor a la global, a diferencia de los años de expectativa de vida, la cual es menor a la global. Así que, en estos países no se encuentra una calidad de vida demasiado alta o acomodada, en resumen, esta clase de países se clasificó como países emergentes.

  • La tercera clase, solo cuenta con dos variables y estas son el total de la población del país y la cantidad de pasajeros que se movilizan de manera aérea. En esta clase, ambas medias son mayores a la media global, por lo tanto los países que se encuentran en esta clase son aquellos que cuentan con una población bastante extensa, por ende, esta clase de países se clasificaron como países con sobrepoblación.

Al clasificar los países en cada una de estas clases, dependiendo de su acceso a diferentes tecnologías y la calidad de vida, el modelo debe ser capaz de predecir dependiendo del crecimiento económico de los países o como van estos accediendo a diferentes tecnologías, además de mejorar la calidad de vida dentro de estos, si los países deben ser clasificados de alguna manera diferente si este tiene un cambio en las características anteriormente mencionadas.

Realizando una prueba con 8 países sin grupo, para saber la efectividad de predicción del modelo, en el cual se incorporaron a un gráfico con puntos lila, se obtuvo lo siguiente

Como se visualiza en el gráfico, este clasificó a 5 de los 8 países como países desarrollados (grupo 1) y los otros 3 como países emergentes (grupo 2), mientras que este no clasificó ninguno de los países como algún país con sobrepoblación (grupo 3).

Conclusiones

Con respecto a la creación del modelo de entrenamiento de aprendizaje no supervisado, usando el método jerárquico (Ward) con el propósito de clasificar los datos, en el caso de los países, mediante un análisis de sus componentes principales (los factores). Se puede observar que el modelo clasifica los datos en tres diferentes clases, por medio de ciertas variables. Para la primera clase se optó por nombrarla como países desarrollados debido a ciertas características especiales que presentaban los datos con respecto a las variables, por ejemplo, el promedio de acceso a electricidad poblacional, combustibles y tecnologías es mayor al promedio global; sin mencionar que la esperanza de vida de estos países se ubica también por encima del promedio global. Las cuales son características mayormente presentadas en países con un IDH o Índice de Desarrollo Humano mayor o igual a 0.9.

En relación a la segunda clase se tomó la decisión de llamarla países emergentes dado a que los países se caracterizaban por tener en ejemplo, una mayor mortalidad y fertilidad media que el promedio global, además de una menor expectativa de vida a la global; en relación a las variables nombradas en la primera clase este grupo de países cuenta con cantidades y promedios menores a la media global. Lo cual es característico de naciones con un IDH menor a 0.9.

Por otro lado, la tercera clase hace meramente referencia al crecimiento poblacional. Más allá de esto, la clase no cuenta o no presenta mayor relevancia en el análisis anteriormente propuesto. 

Referencias