Clasificar los países siempre ha sido una labor ardua de hacer, y vitalmente necesaria para poder predecir escenarios futuros; a partir de un historial que demuestra correlaciones en diversos factores. En este trabajo se realizará un estudio frente a diferentes variables de algunos países que cuentan con los datos suficientes para poder ser recopilados.
Generalmente, cada país recolecta información relevante sobre algunos factores, como lo pueden ser la tasa de mortalidad, la expectativa de vida, el gasto, la inversión, el acceso a la electricidad, la población, etc. Cada uno de estos datos son muy importantes para poder visualizar tendencias, saber si un país está teniendo avances o si por el contrario, va en decaimiento.
Se utilizará un modelo de aprendizaje no supervisado, es decir, que no se tendrán previas salidas de resultados que permitan entrenar un modelo para que sea capaz de predecir bajo la experiencia de haber estudiado previamente unos datos. Sino que por el contrario, se tendrá que hacer un análisis profundo, bajo la correlación que presentan los datos.
Será necesario clusterizar datos y realizar un Análisis de Componentes Principales (ACP), esto quiere decir, un agrupamiento de ellos gracias a sus semejanzas en sus indicadores. Se espera que sean lo más acertados posible frente a una agrupación homogénea que permita sacar conclusiones.
A continuación se presentan los dos tipos de metodología que se usaron para el desarrollo de nuestro modelo.
El Análisis de Componentes Principales (ACP): Tiene como objetivo transformar un conjunto de variables, a las que se denominan variables originales, en un nuevo conjunto de variables denominadas componentes principales. Estas últimas se caracterizan por estar no correlacionadas entre sí.
El Análisis de Cluster o Clusterización: Tiene como objetivo clasificar determinada cantidad de observaciones, cumpliendo con las siguientes características:
Que cada observación contenida en cada cluster (grupo formado), sean lo más parecidas posibles respecto a las demás variables que están incluidas dentro de este.
Que cada cluster sea lo más distinto posible de los otros respecto a las variables que se están teniendo en cuenta, pues de esta forma cada uno de los clusters contendría entre sí a las observaciones que son mejores explicadas por dichas variables.
Iniciando el proceso, se cargaron las librerías que usaremos para realizar la manipulación de las bases de datos, gráficos, modelo y demás procedimientos que se deba realizar para el análisis. Estas librerías son: tidiverse, readr, readxl, ggplot2, plotly, FactoClass, factoextra, corrplot, caret, stats, dplyr.
Una vez hecho esto, se procedió a cargar la base de datos suministrada de todos los países del mundo con indicadores de diferentes años. En este caso, únicamente se centrará en un año en específico, por lo que se deberá hacer la depuración de los datos a continuación.
En primer lugar, como se mencionó anteriormente, se filtraron los datos del respectivo año que se tomará, este año fue 2013. Para continuar, se quitaron las variables que no presentan datos en ellas o no tienen los suficientes como para que el modelo sea eficiente. Finalizando la depuración de la base, se quitaron los datos faltantes y esta quedó con 90 países y 16 variables de indicadores.
Con esta limpieza de los datos, se omiten las siguientes 6 variables de la base de datos original:
Siguiendo la depuración una vez la base está limpia, se manipularon los datos para adicionar los nombres de los países con la función rownames, y se realizó el cambio de los nombres de las variables para hacer que sean más manejables. Estos quedaron nombrados de la siguiente manera:
Para finalizar con la depuración, se partieron dos nuevas bases: una de 85 países y otra con los 5 restantes. Esto se hizo con el objetivo de que al finalizar el modelo, se realizará una predicción y evaluará la efectividad de este. Siendo así la base de datos principal, quedó de la siguiente manera:
Teniendo en cuenta las variables que quedaron en nuestra base de datos, se realizará un breve análisis sobre cada una de ellas a partir de cierta información recolectada del Banco Mundial.
En el siguiente gráfico se presentará la correlación entre las variables. Entre más intensidad tenga el color sin importar si es rojo o azul, significa que es mayor la relación entre esas variables. Los azules, por encima de 0, significa que la relación es directamente proporcional y los rojos, inversamente proporcional.
Para empezar el proceso fue necesario estandarizar los datos, reescalándolos para poder comparar sus unidades, dicho procedimiento es el análisis de componentes principales con la función prcomp; esta es una forma rápida de realizar el ACP. Posteriormente será necesario generar un gráfico que permite ver la varianza de los valores propios (eigenvalues) vs el número de dimensiones utilizando la función fviz_eig(), lo cual arroja los siguientes resultados:
Como se puede observar, la dimensión 1 representa de manera acertada el 45,35% de las variables, recorrer el gráfico con el mouse para ver estos porcentajes. Y la dimensión 2 representa un 10,04% de las variables. Se usará el criterio del codo, es decir, únicamente se tomarán las primera dos dimensiones para el modelo, siendo capaz de explicar el 55,39%. Esto se puede visualizar de mejor forma en la siguiente tabla:
## Dim.1 Dim.2
## A.ELEC 10.96958506 0.2563814
## A.ELEC.RUR 11.52356860 0.4622403
## A.CL.TEC 10.70167504 0.2350297
## AIR.TR 1.30249535 36.9268302
## EL.PO.CO 3.06177602 0.2760701
## EM 1.71021782 0.1024099
## EX 5.87968305 6.6576440
## EXP 1.91284004 10.5264301
## FE.RA 10.31396031 0.1562758
## FO.AR 0.02438814 3.0521913
## GDP 5.73827527 0.7171695
## INF 3.26300428 1.9215044
## LIFE.EXP 12.42498625 0.3394394
## MOR.RA.M 11.50974924 0.8903875
## MOR.RA.H 9.41924166 1.2698873
## PO 0.24455387 36.2101092
Esta tabla refleja en porcentajes la contribución de cada variable en cada una de las dimensiones. De esta manera, se podrá determinar cuales variables harán parte de los factores, donde se tendrán dos factores para el modelo que estarán representados por las variables con mayor Cos2, es decir, mayor representación en la dimensión.
En el anterior gráfico se pueden observar las variables que más influyen para explicar el primer factor, y dadas sus características se decidió llamar Calidad de vida.
Este gráfico muestra las variables que más influyen para explicar el segundo factor, y dadas sus características se decidió llamar Población y Demanda aérea.
Una vez identificados los factores a utilizar, se puede observar en los siguientes gráficos los países y variables representados por ambas dimensiones. Además, permite hacer un análisis para identificar cómo los factores clasifican los países y dar una idea de cuántos clusters generar para el modelo.
Ya analizados los gráficos anteriores, se llega a la conclusión de que se necesitará de 3 clusters para el modelo. El paso siguiente es generar el modelo, con 2 ejes, 2 factores y los 3 clusters antes mencionados.
Este dendrograma muestra la agrupación de los datos país por país en cada uno de los clusters, aquí se denotan los 3 clusters hechos.
En el gráfico se observa la agrupación de los países en los clusters, vistos desde la representación de cada país a las dimensiones.
## class: 1
## Test.Value Class.Mean Frequency Global.Mean
## A.ELEC.RUR 6.739 98.168 59 84.974
## A.CL.TEC 6.645 93.116 59 78.548
## A.ELEC 6.504 99.267 59 90.393
## LIFE.EXP 6.339 77.254 59 74.108
## EX 4.881 31.916 59 27.825
## EXP 3.186 54.034 59 46.582
## EM 3.183 4.281 59 3.763
## EL.PO.CO 2.753 5936.236 59 4628.181
## PO -2.753 16876630.712 59 45420729.200
## INF -3.566 2.584 59 3.837
## GDP -4.563 2.135 59 3.213
## MOR.RA.H -5.393 143.652 59 181.065
## FE.RA -5.728 1.804 59 2.229
## MOR.RA.M -6.438 70.219 59 106.056
## ------------------------------------------------------------
## class: 2
## Test.Value Class.Mean Frequency Global.Mean
## AIR.TR 6.332 79195550 8 18489122
## PO 4.929 284250447 8 45420729
## ------------------------------------------------------------
## class: 3
## Test.Value Class.Mean Frequency Global.Mean
## MOR.RA.M 7.507 227.490 18 106.056
## FE.RA 6.830 3.702 18 2.229
## MOR.RA.H 6.239 306.863 18 181.065
## GDP 4.444 6.265 18 3.213
## INF 3.445 7.354 18 3.837
## EXP -2.167 31.854 18 46.582
## AIR.TR -2.792 1842640.508 18 18489122.322
## EL.PO.CO -2.792 773.053 18 4628.181
## EM -3.035 2.328 18 3.763
## EX -4.453 16.981 18 27.825
## LIFE.EXP -7.162 63.777 18 74.108
## A.CL.TEC -7.462 31.008 18 78.548
## A.ELEC -7.930 58.951 18 90.393
## A.ELEC.RUR -8.263 37.956 18 84.974
En la tabla anterior se muestran las variables que más representan cada clase o cluster, y además de esto, las medias de las variables de los países que se encuentran en los clusters junto con las medias globales para ser comparadas.
El primer grupo (Cluster 1), cuenta con países con alta cobertura de acceso a la electricidad en la población, una alta esperanza de vida y bajos índices de mortalidad tanto en hombres como mujeres. Debido a esto se decidió llamar este primer grupo como Países desarrollados y en vía de desarrollo y esta compuesto de 59 países.
El segundo grupo (Cluster 2), cuenta con países que tienen una población mucho mayor al de la media y aparte de esto una alta demanda aérea. Teniendo esto en cuenta, se decidió llamar a este grupo como Países con mayor población y esta compuesto de 8 países.
El tercer grupo (Cluster 3), es contrario al primer grupo debido a que los países en él tienen altas tasas de mortalidad, baja esperanza de vida, y su cobertura de electricidad y tecnologías para cocinar son más bajas que la media de países. Debido a esto se decidió llamar este grupo como Países poco desarrollados y esta compuesto de 18 países.
## class: 1
## Test.Value Class.Mean Frequency Global.Mean
## A.ELEC.RUR 6.739 98.168 59 84.974
## A.CL.TEC 6.645 93.116 59 78.548
## A.ELEC 6.504 99.267 59 90.393
## LIFE.EXP 6.339 77.254 59 74.108
## EX 4.881 31.916 59 27.825
## EXP 3.186 54.034 59 46.582
## EM 3.183 4.281 59 3.763
## EL.PO.CO 2.753 5936.236 59 4628.181
## PO -2.753 16876630.712 59 45420729.200
## INF -3.566 2.584 59 3.837
## GDP -4.563 2.135 59 3.213
## MOR.RA.H -5.393 143.652 59 181.065
## FE.RA -5.728 1.804 59 2.229
## MOR.RA.M -6.438 70.219 59 106.056
## ------------------------------------------------------------
## class: 2
## Test.Value Class.Mean Frequency Global.Mean
## AIR.TR 6.332 79195550 8 18489122
## PO 4.929 284250447 8 45420729
## ------------------------------------------------------------
## class: 3
## Test.Value Class.Mean Frequency Global.Mean
## MOR.RA.M 7.507 227.490 18 106.056
## FE.RA 6.830 3.702 18 2.229
## MOR.RA.H 6.239 306.863 18 181.065
## GDP 4.444 6.265 18 3.213
## INF 3.445 7.354 18 3.837
## EXP -2.167 31.854 18 46.582
## AIR.TR -2.792 1842640.508 18 18489122.322
## EL.PO.CO -2.792 773.053 18 4628.181
## EM -3.035 2.328 18 3.763
## EX -4.453 16.981 18 27.825
## LIFE.EXP -7.162 63.777 18 74.108
## A.CL.TEC -7.462 31.008 18 78.548
## A.ELEC -7.930 58.951 18 90.393
## A.ELEC.RUR -8.263 37.956 18 84.974
Al inicio del procedimiento se realizó una selección de 85 países que estarían en el modelo y otros 5 por aparte que se guardaron para poder realizar una prueba a este. Es decir, la prueba de este modelo consiste en la predicción de los valores y agrupación que se le da a cada país. Estos se adicionan y se verifica si el modelo los agrupa de manera adecuada.
En este gráfico se puede identificar donde el modelo posiciona los nuevos países anexados, siendo Zambia y Estados Unidos los más representados por las dimensiones.
Este último gráfico permite la clasificación que le ha dado el modelo a cada uno de los 5 países anexados. Introduciendo dos al primer grupo, de los países desarrollados y en vía de desarrollo, uno al grupo de países más poblados y uno al grupo de países poco desarrollados.
A partir de los resultados y el previo análisis realizado del modelo, se concluye lo siguiente:
Al observar los gráficos de cosenos cuadrados tanto para los individuos como para las variables, es posible deducir que a medida que los datos se alejan del origen de coordenadas, mayor será la correlación que tengan estos frente a las dimensiones. Su tonalidad de color es una gran ayuda para poder observar esto, y es gracias a la librería factoextra.
La principal desventaja de utilizar un modelo de aprendizaje no supervisado se basa en que nunca será posible dar con un modelo lo suficientemente confiable, respecto a los datos que se abordan sin que haya una correlación estadística entre ellos. Es decir, que habrá ocasiones en las que algunos datos suministrados no cobrarán importancia.
Este tipo de modelos requiere una ardua labor de análisis, generando que la calidad del modelo y los resultados, estén atados a la interpretación que se les dé a los resultados que arrojan los algoritmos, además del tiempo que se requiere para suponer patrones y nombrar los mismos.
Una vez hecha la predicción del modelo es posible encontrar un dato atípico, en este caso Estados Unidos. Esto puede deberse a que el país no es bien representado por ninguna de las dimensiones, y se encuentra demasiado alejado de todos los clusters.
Se considera que el modelo arroja buenos resultados al agrupar los países, siempre y cuando se cuente con los suficientes datos de las mismas variables trabajadas. Además de esto, el número de clusters es adecuado respecto a los indicadores y factores resultantes; y en caso de predecir futuros datos en años posteriores, se podría realizar un análisis sobre la evolución de cada país y ver si su clasificación ha cambiado a lo largo de los años.
Capítulo 6 Análisis Cluster | Técnicas Multivariadas con R. (n.d.). Bookdown. Retrieved June 7, 2023, from https://bookdown.org/jsalinas/tecnicas_multivariadas/cluster.html
Data Access And Licensing | Data Catalog. (n.d.). World Bank Data Catalog. Retrieved June 7, 2023, from https://datacatalog.worldbank.org/public-licenses#cc-by
Kinter, P. (2023, May 12). Aprendizaje no supervisado: explicado de forma compacta. Alexander Thamm GmbH. Retrieved June 7, 2023, from https://www.alexanderthamm.com/es/blog/asi-funciona-el-aprendizaje-maquina-sin-supervision/
Unsupervised learning ‘credit card clients’. (2022, July 17). Orlando Joaqui Barandica. Retrieved June 7, 2023, from https://www.joaquibarandica.com/post/ansupervised/