En el siguiente informe realizaremos una segmentación de países según indicadores del Banco Mundial, este proceso consiste en la agrupación de países con características similares en función de variables económicas, sociales y demográficas.
Utilizando las técnicas de análisis de componentes principales (ACP) y algoritmos de clusterización como k-means o Ward, podemos reducir la dimensionalidad de los datos y agrupar los países en clusters homogéneos.
Esta segmentación nos ayuda a identificar patrones y diferencias significativas entre cada uno de ellos, para entender asi de una mejor manera su situación socioeconómica. Al seleccionar indicadores relevantes y aplicar técnicas estadísticas, podemos resumir la información y obtener una visión más clara de cada uno de los distintos grupos.
Estos indicadores son de vital importancia en el mundo puesto que nos dan una idea de el estado de cada país en diferentes aspectos tales como:
La seguridad alimentaria de los habitantes
El cuidado del medio ambiente
La situación económica
Además el banco mundial ofrece estas bases de datos de manera libre al público con el fin de poner fin a la pobreza extrema y promover la prosperidad compartida de manera sostenible.
En el aprendizaje no supervisado no tenemos clases de salida esperadas, ni output predeterminado. Esto genera a su vez un gran reto ya que es un tanto difícil saber si debemos o no generar otro modelo con el que podamos sentirnos más satisfechos.
Sus tecnicas son:
ACP: Sirve para reducir la dimensionalidad de un conjunto de datos, su objetivo es encontrar las variables más relevantes y resumirlas.
Clusterización: Es una técnica de aprendizaje automático no supervisado que agrupa objetos y permite clasificar en grupos homogéneos en función de sus características comunes.
Ward: Este método de clustering aglomerativo, comienza considerando cada objeto como un cluster y luego va fusionando gradualmente los clusters más similares
K- means: Es un método de clustering particional que divide los datos en un número predefinido de clusters, selecciona k centroides iniciales y asigna cada dato al cluster cuyo centroide está más cerca.
Se cargó la base de datos para su manipulación y se procedió a seleccionar el año 2000 dentro de varios años que se tenían,
Se realizo la limpieza o depuracion de la base de datos , se filtró por año , se limpiaron variables vacías y faltantes nos quedo entonces una base con 127 paises y 13 variables.
En este apartado se explicaran las variables un poco mas detallas
EG.ELC.ACCS.ZS: El porcentaje de la población que tiene acceso a la electricidad en un país en total. En cuanto a la base de datos, el país con el porcentaje más bajo de población con acceso a la energía eléctrica es de 3.2% y el más alto es de 100% . El porcentaje promedio de la población del país con acceso a la energía eléctrica es de 78.82% , y la mediana o cifra central es de 97.9% .Estos resultados nos dicen que la mayoria de los paises tienen en un 100% acceso a la electricidad.
EG.ELC.ACCS.RU.ZS: El porcentaje de la población de un país que tiene acceso a electricidad en áreas rurales. En cuanto a las áreas rurales de cada país, según la base de datos, el país con la menor proporción de población rural es de 1.29% y la más alta es de 100% . La proporción promedio de población rural en países electrificados es de 70.44% y la mediana es 94.16%.
EG.CFT.ACCS.ZS: Se refiere a la población promedio del país que tiene acceso a combustibles y tecnologías eco amigables en la cocina. En países con acceso a estos combustibles y tecnologías, la población capaz de cocinar oscila entre un mínimo del 0.5% y un máximo del 100% . La media de esta variable es del 65.67% y la mediana del 82.4%.
SL.EMP.MPYR.ZS: Porcentaje total de empleadores. Según la base de datos, la tasa nacional de desempleo en el 2000 era del 0.11% y alcanzó un valor máximo del 17.12%. El promedio de todos los empleadores fue de 3.48% mientras que la mediana fue de 3.04%
AG.LAND.FIRST.ZS: Es el espacio donde las diferentes especies forestales son la principal forma de expresión forestal, y poseen una tasa de cobertura mayor al 5%. Se tiene en cuenta el desarrollo del medio ambiente de un país. En el siguiente histograma vemos que el intervalo de mayor frecuencia de el porcentaje de la superficie terrestre está entre el 20% y el 40%.
FP.CPI.TOTL.ZG: Aumento de los precios de los bienes y servicios en el país a lo largo del tiempo. Podemos ver que la tasa de inflación disminuyó un 3.84 y un crecimiento del 324.9969 Por otro lado, podemos ver que el precio promedio es 10.49051 y la media es de 3.433516.
SP.DYN.TFRT.IN: Tasa de fertilidad. La base de datos muestra una tasa mínima del 1.11% y una tasa máxima del 7.24%. El valor promedio es de 2.89% , y alrededor de la media tenemos el 2.4%
SP.DYN.LE00.IN: Esperanza de vida al nacer. Según el país en el año 2000 , la esperanza de vida mínima es de 45 años y la máxima es de 81 años . La edad promedio es de 68 años y la mediana es de 70 años.
SP.DYN.AMRT.FE: Tasa de mortalidad en mujeres entre los 15 y los 60 años. La tasa de mortalidad más baja fue de 47 mujeres, lo que significa 47 muertes por cada 1000 mujeres, y la tasa de mortalidad más alta fue de 554 por cada 1000 mujeres. El promedio de mortalidad fue de 155 mujeres y la tasa de mortalidad mediana fue de 121 mujeres
SP.DYN.AMRT.MA: Tasa de mortalidad en hombres adultos. La tasa de mortalidad más baja fue de 87 hombres, lo que significa 87 muertes por cada 1000 mujeres, y la tasa de mortalidad más alta fue de 652 por cada 1000 hombres. El promedio de mortalidad fue de 237 hombres y la tasa de mortalidad mediana fue de 218 hombres
SP.POP.TOTL: Población total. Según las estadísticas nacionales en el año 2000 la población más pequeña fue de 102603 habitantes y la población más grande fue de 1262645000 habitantes. El promedio de habitantes fue de 44075785 y la mediana fue de 8872109.
Como primera medida realizamos una matriz de correlaciones para determinar qué variables están más estrechamente relacionadas entre sí. Esta matriz mide el grado de correlación entre dos variables, con una línea de correlación entre -1 y +1. Aunque esto no es suficiente para establecer causalidad.
Tambien tenemos la misma matriz de una manera mas vistosa
Nuestro objetivo es tener un nivel de exactitud igual o mayor al 70% en el modelo de aprendizaje no supervisado, para esto pasamos nuestras variables a factores con el fin de explicar de mejor manera el modelo, en el siguiente histograma se pueden observar el paso de las variables a factores y el porcentaje que tiene cada uno
Debido a este resultado se obto por tomar los 4 primeros factores para obtener asi una exactitud del 74,7%.
Para mirar que paises influyen en cada factor, los separamos en un dendograma que nos permite visualizar cada uno de ellos.
Al graficar los resultados de cada factor y como influye cada variable en ellos se tomo la desicion de nombrar los factores de la siguiente manera:
Factor 1: En donde las variables que mas influyen son la electricidad total y rural, tasa de fertilidad, acceso a combustibles y tecnologias de cocina, esperanza de vida al nacer, tasa de mortalidad en adultos hombres y mujeres, se decidio llamarlo Indice energetico y salud
Factor 2: Las variables que mas influyen en este factor son exportaciones de bienes y servicios, inflacion en los precios al consumidor y la poblacion total, permitiendonos nombrar asi este factor como Factor ICE: Economico
Factor 3: En este factor las variables que mas influyeron fueron el crecimiento del PIB, la superficie forestal y la poblacion la total, dandonos la opción de nombrar este factor como IDF: Forestal
Factor 4: Donde las variables que influyeron de mayor manera son la poblacion totalidad, la esperanza d evida al nacer y el acceso a combustibles y tecnologias de cocina, a este lo llamamos Indice sociambiental
Para entender mejor el comportamiento de cada uno de los datos y variables en las dimensiones o factores se realizaron los siguientes graficos:
En este grafico podemos analizar los paises en cuanto a las dimensiones 1 y 2
Aqui analizamos los mismos paises pero en ralacion con las dimensiones 3 y 4 con esto podemos notar el cambio que hay en la relacion de las diferentes dimensiones
En resumen esto nos ayuda a entender mejor la estructura de nuestros datos y las relaciones que tiene entre cada uno de los paises de este espacio de componentes principales.
Por otro lado en la siguiente grafica podemos observar la relación entre los paises y las variables de nuestra base de datos.
En las siguientes gráficas se puede visualizar el como los individuos se agrupan en cada factor, el factor 2 llamado Factor ICE: Economico y el factor 1 llamado Indice energetico y de salud tienen un número similar de individuos relacionados, sin embargo, el factor 2 cuenta con un grupo completo aunque con pocos individuos.
En este tenemos la relacion del factor 4 denominado Indice sociambiental y el factor 3 llamado IDF: forestal, se puede notar que los grupos estan bastante relacionados entre si
En este apartado analizaremos cada las clases de nuestras componentes
Clase 1: Esta se encuentra conformada por el acceso a combustibles y tecnologias limpias para cocinar, la tasa de fertilidad, el acceso a la electricidad total y rural, empleadores, la esperanza de vida y la tasa de mortalidad en hombres y mujeres adultos. Al ser la media de la clase mayor o superior a la media global, la mayoría de los países con los que trabajamos son bastante desarrollados ya que cuentan con accesos bastante altos, aunque estos contienen una tasa de mortalidad menor. Por lo tanto, a esta clase de paises los denominaremos como PDIMB o Paises Desarrollados con indice de mortalidad bajo.
Clase 2: En esta segunda clase tenemos la tasa de mortalidad en hombres y mujeres adultos, la tasa de fertilidad, el crecimiento del PIB, empleadores, el acceso a la electricidad total y rural,la esperanza de vida y el acceso a combustibles y tecnologias limpias para cocinar. Al ser la media de la mayoria de las variables menor o inferior a la meida global, se puede deducir que estos paises estan tan desarrollados como los de la primera clase, por ende decidimos ponerle a esta clase PSD o Paises Subdesarrollados.
Clase 3: Esta se encuentra conformada por el crecimiento del PIB, exportaciones de bienes y servicios,el acceso a combustibles y tecnologias limpias para cocinar, la tasa de fertilidad y el acceso a la electricidad total y rural. Al ser la media de la clase mayor o superior a la media global, nos da a entender que estos paises estan bastante desarrollados o avanzados en comparacion a otros, por ende a esta clase decidimos llamarla PD o Paises desarrollados.
Clase 4: ESta se encuentra conformada por 2 variables las cuales son el acceso a la electricidad rural y el acceso a combustibles y tecnologias limpias para cocinar. Se puede observar que en esta la media es menor a la global por ende se decidio llamar PBRE o Paises con bajos recursos energeticos
Al tener ya tener nuestros paises clasificados segun sus caracteristicas el modelo debe predicir en que clase debe ir cada pais, si se da un cambio en las características debe reorganizar el pais en la clase que sea mas conveniente.
Se realizo un modelo jerarquico o Ward, el cual es un metodo del analisis de aprendizaje no supervisado, este con el fin de segmentar los paises respecto a diferentes caracteristicas en el año 2000, esto mediante factores tambien conocidos como componentes principales.
Este modelo nos clasifico a los paises teniendo como base ciertas variables en 4 clases las cuales fueron:
Clase 1: Paises Desarrollados con indice de mortalidad bajo ya que la mayoria de sus datos son mayores a los del promedio glogal y segun el IDH estas caracteristicas las posee un pais desarrollado, pero al poseer un indice de mortalidad bajo ya que el promedio mundial para este es de 155 por cada 1000 mujeres y 237 por cada 1000 hombres, en donde nuestra clase tiene que de mujeres son 84 y de hombres 162, se decidio aclarar que son desarrollados pero con indice de mortalidad bajo
Clase 2: Paises Subdesarrollados ya que en esta clase algunas caracteristicas importantes estan por debajo de la media en comparacion con la clase 1 las cuales la sobrepasan, incluyendo una de ellas que es muy importante en el IDH la cual es el crecimiento del PIB.
Clase 3: Paises desarrollados ya que practicamente todos sus datos sobrepasan la media global y segun el IDH estas caracteristicas las posee un pais desarrollado.
Clase 4: Paises con bajos recursos energeticos ya que esta clase solo posee 2 variables que son acceso a la electricidad rural y el acceso a combustibles y tecnologias limpias para cocinar; ambas por debajo de la media y segun el IDH un pais es bajo en recursos si sus caracteristicas no sobrepasan la media global
Para concluir nuestro modelo nos clasifica en 4 clases pero relacionadas en parejas ya que estan los paises desarrollados y los paises desarrollados peron con una condicion que es que tienen un indece de mortalidad bajo lo cual puede generar sobrepoblación
Por otro lado estan los paises subdesarrollados y aquellos paises que bien se pueden considerar subdesarrollados pero cuentan con pocos recursos energeticos, lo cual cierta parte de paises subdesarrollados posee.