Introducción

Clasificar los países siempre ha sido una labor ardua de hacer, y vitalmente necesaria para poder predecir escenarios futuros; a partir de un historial que demuestra correlaciones en diversos factores. En este trabajo se realizará un estudio frente a diferentes variables de algunos países que cuentan con los datos suficientes para poder ser recopilados.

Generalmente, cada país recolecta información relevante sobre algunos factores, como lo pueden ser la tasa de mortalidad, la expectativa de vida, el gasto, la inversión, el acceso a la electricidad, la población, etc. Cada uno de estos datos son muy importantes para poder visualizar tendencias, saber si un país está teniendo avances o si por el contrario, va en decaimiento.

Se utilizará un modelo de aprendizaje no supervisado, es decir, que no se tendrán previas salidas de resultados que permitan entrenar un modelo para que sea capaz de predecir bajo la experiencia de haber estudiado previamente unos datos. Sino que por el contrario, se tendrá que hacer un análisis profundo, bajo la correlación que presentan los datos.

Será necesario clusterizar datos y realizar un Análisis de Componentes Principales (ACP), esto quiere decir, un agrupamiento de ellos gracias a sus semejanzas en sus indicadores. Se espera que sean lo más acertados posible frente a una agrupación homogénea que permita sacar conclusiones.

Metodología

A continuación se presentan los dos tipos de metodología que se usaron para el desarrollo de nuestro modelo.

El Análisis de Componentes Principales (ACP): Tiene como objetivo transformar un conjunto de variables, a las que se denominan variables originales, en un nuevo conjunto de variables denominadas componentes principales. Estas últimas se caracterizan por estar no correlacionadas entre sí.

El Análisis de Cluster o Clusterización: Tiene como objetivo clasificar determinada cantidad de observaciones, cumpliendo con las siguientes características:

  • Que cada observación contenida en cada cluster (grupo formado), sean lo más parecidas posibles respecto a las demás variables que están incluidas dentro de este.

  • Que cada cluster sea lo más distinto posible de los otros respecto a las variables que se están teniendo en cuenta, pues de esta forma cada uno de los clusters contendría entre sí a las observaciones que son mejores explicadas por dichas variables.

Procedimiento

Iniciando el proceso, se cargaron las librerías que usaremos para realizar la manipulación de las bases de datos, gráficos, modelo y demás procedimientos que se deba realizar para el análisis. Estas librerías son: tidiverse, readr, readxl, ggplot2, plotly, FactoClass, factoextra, corrplot, caret, stats, dplyr.

Una vez hecho esto, se procedió a cargar la base de datos suministrada de todos los países del mundo con indicadores de diferentes años. En este caso, únicamente se centrará en un año en específico, por lo que se deberá hacer la depuración de los datos a continuación.

Depuración de datos

En primer lugar, como se mencionó anteriormente, se filtraron los datos del respectivo año que se tomará, este año fue 2013. Para continuar, se quitaron las variables que no presentan datos en ellas o no tienen los suficientes como para que el modelo sea eficiente. Finalizando la depuración de la base, se quitaron los datos faltantes y esta quedó con 90 países y 16 variables de indicadores.

Con esta limpieza de los datos, se omiten las siguientes 6 variables de la base de datos original:

  • Country_Name
  • Year
  • AG.AGR.TRAC.NO (Agricultural machinery, tractors)
  • SI.POV.GINI (Gini index)
  • EN.ATM.HFCG.KT.CE (HFC gas emissions (thousand metric tons of CO2 equivalent))
  • SI.POV.MDIM (Multidimensional poverty headcount ratio (% of total population))

Siguiendo la depuración una vez la base está limpia, se manipularon los datos para adicionar los nombres de los países con la función rownames, y se realizó el cambio de los nombres de las variables para hacer que sean más manejables. Estos quedaron nombrados de la siguiente manera:

  • EG.ELC.ACCS.ZS (Access to electricity (% of population)) → A.ELEC
  • EG.ELC.ACCS.RU.ZS (Access to electricity, rural (% of rural population)) → A.ELEC.RU
  • EG.CFT.ACCS.ZS (Access to clean fuels and technologies for cooking (% of population)) → A.CL.TEC
  • IS.AIR.PSGR (Air transport, passengers carried) → AIR.TR
  • EG.USE.ELEC.KH.PC (Electric power consumption (kWh per capita)) → EL.PO.CO
  • SL.EMP.MPYR.ZS (Employers, total (% of total employment) (modeled ILO estimate)) → EM
  • GC.XPN.TOTL.GD.ZS (Expense (% of GDP)) → EX
  • NE.EXP.GNFS.ZS (Exports of goods and services (% of GDP)) → EXP
  • SP.DYN.TFRT.IN (Fertility rate, total (births per woman)) → FE.RA
  • AG.LND.FRST.ZS (Forest area (% of land area)) → FO.AR
  • NY.GDP.MKTP.KD.ZG (GDP growth (annual %)) → GDP
  • FP.CPI.TOTL.ZG (Inflation, consumer prices (annual %)) → INF
  • SP.DYN.LE00.IN (Life expectancy at birth, total (years)) → LIFE.EXP
  • SP.DYN.AMRT.FE (Mortality rate, adult, female (per 1,000 female adults)) → MOR.RA.M
  • SP.DYN.AMRT.MA (Mortality rate, adult, male (per 1,000 male adults)) → MOR.RA.H
  • SP.POP.TOTL (Population, total) → PO

Para finalizar con la depuración, se partieron dos nuevas bases: una de 85 países y otra con los 5 restantes. Esto se hizo con el objetivo de que al finalizar el modelo, se realizará una predicción y evaluará la efectividad de este. Siendo así la base de datos principal, quedó de la siguiente manera:

Descripción de la Variables

Teniendo en cuenta las variables que quedaron en nuestra base de datos, se realizará un breve análisis sobre cada una de ellas a partir de cierta información recolectada del Banco Mundial.

  • Acceso a la electricidad (A.ELEC): Este indicador se refiere al porcentaje de personas por país que cuenta con energía eléctrica en sus viviendas. Usualmente este indicador es más alto en países desarrollados.

  • Acceso a la electricidad en zona rural (A.ELEC.RU): Representa el porcentaje de personas de la zona rural que cuentan con energía eléctrica.

  • Acceso a tecnologías y combustibles limpios para cocinar (A.CL.TEC): Se refiere al porcentaje de la población que cuenta con combustibles limpios para poder cocinar.

  • Transporte aereo (AIR.TR): Este indicador indica el total de pasajeros transportados por aire.

  • Consumo de energia (EL.PO.CO): Indica el total de energía consumida por persona en cada país.

  • Empleados totales (EM): Se refiere al porcentaje total de empleados en un país.

  • Gastos (EX): Es el porcentaje de gastos en el PIB.

  • Exportaciones de bienes y servicios (EXP): Es el porcentaje de exportaciones bienes y servicios en el PIB.

  • Tasa de fertilidad (FE.RA): Se refiere al número de nacimientos por mujeres en edades fértiles.

  • Área forestal (FO.AR): Es el porcentaje de la tierra total que es en realidad área forestal.

  • Crecimiento del PIB (GDP): Porcentaje anual de crecimiento del PIB respecto al año anterior.

  • Inflación (INF): Cambio en los precios de los productos que compran las personas, respecto al año anterior.

  • Esperanza de vida (LIFE.EXP): Número promedio de años que se puede esperar vivir en un país o región.

  • Tasa de mortalidad en mujeres (MOR.RA.M): Se refiere al total de mujeres que fallecen por cada 1000 mujeres adultas.

  • Tasa de mortalidad en hombres (MOR.RA.H): Se refiere al total de hombres que fallecen por cada 1000 hombres adultos.

  • Población (PO): Cantidad de personas que pueblan un país.

Correlación de las variables

En el siguiente gráfico se presentará la correlación entre las variables. Entre más intensidad tenga el color sin importar si es rojo o azul, significa que es mayor la relación entre esas variables. Los azules, por encima de 0, significa que la relación es directamente proporcional y los rojos, inversamente proporcional.

ACP

Para empezar el proceso fue necesario estandarizar los datos, reescalándolos para poder comparar sus unidades, dicho procedimiento es el análisis de componentes principales con la función prcomp; esta es una forma rápida de realizar el ACP. Posteriormente será necesario generar un gráfico que permite ver la varianza de los valores propios (eigenvalues) vs el número de dimensiones utilizando la función fviz_eig(), lo cual arroja los siguientes resultados:

Como se puede observar, la dimensión 1 representa de manera acertada el 45,35% de las variables, recorrer el gráfico con el mouse para ver estos porcentajes. Y la dimensión 2 representa un 10,04% de las variables. Se usará el criterio del codo, es decir, únicamente se tomarán las primera dos dimensiones para el modelo, siendo capaz de explicar el 55,39%. Esto se puede visualizar de mejor forma en la siguiente tabla:

##                  Dim.1      Dim.2
## A.ELEC     10.96958506  0.2563814
## A.ELEC.RUR 11.52356860  0.4622403
## A.CL.TEC   10.70167504  0.2350297
## AIR.TR      1.30249535 36.9268302
## EL.PO.CO    3.06177602  0.2760701
## EM          1.71021782  0.1024099
## EX          5.87968305  6.6576440
## EXP         1.91284004 10.5264301
## FE.RA      10.31396031  0.1562758
## FO.AR       0.02438814  3.0521913
## GDP         5.73827527  0.7171695
## INF         3.26300428  1.9215044
## LIFE.EXP   12.42498625  0.3394394
## MOR.RA.M   11.50974924  0.8903875
## MOR.RA.H    9.41924166  1.2698873
## PO          0.24455387 36.2101092

Esta tabla refleja en porcentajes la contribución de cada variable en cada una de las dimensiones. De esta manera, se podrá determinar cuales variables harán parte de los factores, donde se tendrán dos factores para el modelo que estarán representados por las variables con mayor Cos2, es decir, mayor representación en la dimensión.

- Factores

En el anterior gráfico se pueden observar las variables que más influyen para explicar el primer factor, y dadas sus características se decidió llamar Calidad de vida.

Este gráfico muestra las variables que más influyen para explicar el segundo factor, y dadas sus características se decidió llamar Población y Demanda aérea.

- Gráficos

Una vez identificados los factores a utilizar, se puede observar en los siguientes gráficos los países y variables representados por ambas dimensiones. Además, permite hacer un análisis para identificar cómo los factores clasifican los países y dar una idea de cuántos clusters generar para el modelo.

Ya analizados los gráficos anteriores, se llega a la conclusión de que se necesitará de 3 clusters para el modelo. El paso siguiente es generar el modelo, con 2 ejes, 2 factores y los 3 clusters antes mencionados.

- Dendograma

Este dendrograma muestra la agrupación de los datos país por país en cada uno de los clusters, aquí se denotan los 3 clusters hechos.

- Dimensión 1 vs Dimensión 2

En el gráfico se observa la agrupación de los países en los clusters, vistos desde la representación de cada país a las dimensiones.

Características de los clusters

## class: 1
##            Test.Value   Class.Mean Frequency  Global.Mean
## A.ELEC.RUR      6.739       98.168        59       84.974
## A.CL.TEC        6.645       93.116        59       78.548
## A.ELEC          6.504       99.267        59       90.393
## LIFE.EXP        6.339       77.254        59       74.108
## EX              4.881       31.916        59       27.825
## EXP             3.186       54.034        59       46.582
## EM              3.183        4.281        59        3.763
## EL.PO.CO        2.753     5936.236        59     4628.181
## PO             -2.753 16876630.712        59 45420729.200
## INF            -3.566        2.584        59        3.837
## GDP            -4.563        2.135        59        3.213
## MOR.RA.H       -5.393      143.652        59      181.065
## FE.RA          -5.728        1.804        59        2.229
## MOR.RA.M       -6.438       70.219        59      106.056
## ------------------------------------------------------------ 
## class: 2
##        Test.Value Class.Mean Frequency Global.Mean
## AIR.TR      6.332   79195550         8    18489122
## PO          4.929  284250447         8    45420729
## ------------------------------------------------------------ 
## class: 3
##            Test.Value  Class.Mean Frequency  Global.Mean
## MOR.RA.M        7.507     227.490        18      106.056
## FE.RA           6.830       3.702        18        2.229
## MOR.RA.H        6.239     306.863        18      181.065
## GDP             4.444       6.265        18        3.213
## INF             3.445       7.354        18        3.837
## EXP            -2.167      31.854        18       46.582
## AIR.TR         -2.792 1842640.508        18 18489122.322
## EL.PO.CO       -2.792     773.053        18     4628.181
## EM             -3.035       2.328        18        3.763
## EX             -4.453      16.981        18       27.825
## LIFE.EXP       -7.162      63.777        18       74.108
## A.CL.TEC       -7.462      31.008        18       78.548
## A.ELEC         -7.930      58.951        18       90.393
## A.ELEC.RUR     -8.263      37.956        18       84.974

En la tabla anterior se muestran las variables que más representan cada clase o cluster, y además de esto, las medias de las variables de los países que se encuentran en los clusters junto con las medias globales para ser comparadas.

El primer grupo (Cluster 1), cuenta con países con alta cobertura de acceso a la electricidad en la población, una alta esperanza de vida y bajos índices de mortalidad tanto en hombres como mujeres. Debido a esto se decidió llamar este primer grupo como Países desarrollados y en vía de desarrollo y esta compuesto de 59 países.

El segundo grupo (Cluster 2), cuenta con países que tienen una población mucho mayor al de la media y aparte de esto una alta demanda aérea. Teniendo esto en cuenta, se decidió llamar a este grupo como Países con mayor población y esta compuesto de 8 países.

El tercer grupo (Cluster 3), es contrario al primer grupo debido a que los países en él tienen altas tasas de mortalidad, baja esperanza de vida, y su cobertura de electricidad y tecnologías para cocinar son más bajas que la media de países. Debido a esto se decidió llamar este grupo como Países poco desarrollados y esta compuesto de 18 países.

## class: 1
##            Test.Value   Class.Mean Frequency  Global.Mean
## A.ELEC.RUR      6.739       98.168        59       84.974
## A.CL.TEC        6.645       93.116        59       78.548
## A.ELEC          6.504       99.267        59       90.393
## LIFE.EXP        6.339       77.254        59       74.108
## EX              4.881       31.916        59       27.825
## EXP             3.186       54.034        59       46.582
## EM              3.183        4.281        59        3.763
## EL.PO.CO        2.753     5936.236        59     4628.181
## PO             -2.753 16876630.712        59 45420729.200
## INF            -3.566        2.584        59        3.837
## GDP            -4.563        2.135        59        3.213
## MOR.RA.H       -5.393      143.652        59      181.065
## FE.RA          -5.728        1.804        59        2.229
## MOR.RA.M       -6.438       70.219        59      106.056
## ------------------------------------------------------------ 
## class: 2
##        Test.Value Class.Mean Frequency Global.Mean
## AIR.TR      6.332   79195550         8    18489122
## PO          4.929  284250447         8    45420729
## ------------------------------------------------------------ 
## class: 3
##            Test.Value  Class.Mean Frequency  Global.Mean
## MOR.RA.M        7.507     227.490        18      106.056
## FE.RA           6.830       3.702        18        2.229
## MOR.RA.H        6.239     306.863        18      181.065
## GDP             4.444       6.265        18        3.213
## INF             3.445       7.354        18        3.837
## EXP            -2.167      31.854        18       46.582
## AIR.TR         -2.792 1842640.508        18 18489122.322
## EL.PO.CO       -2.792     773.053        18     4628.181
## EM             -3.035       2.328        18        3.763
## EX             -4.453      16.981        18       27.825
## LIFE.EXP       -7.162      63.777        18       74.108
## A.CL.TEC       -7.462      31.008        18       78.548
## A.ELEC         -7.930      58.951        18       90.393
## A.ELEC.RUR     -8.263      37.956        18       84.974

Prueba del modelo

Al inicio del procedimiento se realizó una selección de 85 países que estarían en el modelo y otros 5 por aparte que se guardaron para poder realizar una prueba a este. Es decir, la prueba de este modelo consiste en la predicción de los valores y agrupación que se le da a cada país. Estos se adicionan y se verifica si el modelo los agrupa de manera adecuada.

En este gráfico se puede identificar donde el modelo posiciona los nuevos países anexados, siendo Zambia y Estados Unidos los más representados por las dimensiones.

Este último gráfico permite la clasificación que le ha dado el modelo a cada uno de los 5 países anexados. Introduciendo dos al primer grupo, de los países desarrollados y en vía de desarrollo, uno al grupo de países más poblados y uno al grupo de países poco desarrollados.

Conclusiones

A partir de los resultados y el previo análisis realizado del modelo, se concluye lo siguiente:

  • Al observar los gráficos de cosenos cuadrados tanto para los individuos como para las variables, es posible deducir que a medida que los datos se alejan del origen de coordenadas, mayor será la correlación que tengan estos frente a las dimensiones. Su tonalidad de color es una gran ayuda para poder observar esto, y es gracias a la librería factoextra.

  • La principal desventaja de utilizar un modelo de aprendizaje no supervisado se basa en que nunca será posible dar con un modelo lo suficientemente confiable, respecto a los datos que se abordan sin que haya una correlación estadística entre ellos. Es decir, que habrá ocasiones en las que algunos datos suministrados no cobrarán importancia.

  • Este tipo de modelos requiere una ardua labor de análisis, generando que la calidad del modelo y los resultados, estén atados a la interpretación que se les dé a los resultados que arrojan los algoritmos, además del tiempo que se requiere para suponer patrones y nombrar los mismos.

  • Una vez hecha la predicción del modelo es posible encontrar un dato atípico, en este caso Estados Unidos. Esto puede deberse a que el país no es bien representado por ninguna de las dimensiones, y se encuentra demasiado alejado de todos los clusters.

  • Se considera que el modelo arroja buenos resultados al agrupar los países, siempre y cuando se cuente con los suficientes datos de las mismas variables trabajadas. Además de esto, el número de clusters es adecuado respecto a los indicadores y factores resultantes; y en caso de predecir futuros datos en años posteriores, se podría realizar un análisis sobre la evolución de cada país y ver si su clasificación ha cambiado a lo largo de los años.

Referencias Bibliográficas

Capítulo 6 Análisis Cluster | Técnicas Multivariadas con R. (n.d.). Bookdown. Retrieved June 7, 2023, from https://bookdown.org/jsalinas/tecnicas_multivariadas/cluster.html

Data Access And Licensing | Data Catalog. (n.d.). World Bank Data Catalog. Retrieved June 7, 2023, from https://datacatalog.worldbank.org/public-licenses#cc-by

Kinter, P. (2023, May 12). Aprendizaje no supervisado: explicado de forma compacta. Alexander Thamm GmbH. Retrieved June 7, 2023, from https://www.alexanderthamm.com/es/blog/asi-funciona-el-aprendizaje-maquina-sin-supervision/

Unsupervised learning ‘credit card clients’. (2022, July 17). Orlando Joaqui Barandica. Retrieved June 7, 2023, from https://www.joaquibarandica.com/post/ansupervised/