El aprendizaje no supervisado es una técnica de análisis de datos que permite descubrir patrones y estructuras ocultas en los datos sin la necesidad de etiquetas previas. En este trabajo se utilizó esta técnica en RStudio, para desarrollar una segmentación de países según los indicadores suministrados por la base de datos, con información de países y variables socioeconómicas específicamente del año 2013, como el porcentaje de población total y rural que tienen acceso a electricidad, combustibles y tecnologías limpias, el consumo de energía eléctrica, exportaciones de bienes y servicios, tasa de fertilidad, inflación, crecimiento del PIB y demás indicadores que permiten la segmentación de los diferentes paises.
El objetivo de esta segmentación fue identificar grupos de países con características similares, en términos de los factores seleccionados. Para esto, se aplicaron técnicas como el análisis de clusters y componentes principales para identificar similitudes y reducir la dimensionalidad. El estudio proporciona una comprensión más profunda del desarrollo socioeconómico y demográfico de los países.
No todos los países y zonas alrededor del mundo tienen el mismo acceso a la electricidad, lo que quiere decir que el acceso a la electricidad sirve como un buen indicador de otros indicadores de riqueza y oportunidades en un país.
“De acuerdo con la agencia internacional de energía, alrededor de 1.200 millones de personas en todo el mundo no tienen acceso a la electricidad en sus hogares,muchas de ellas, aproximadamente el 95%, son personas situadas en África y Asia”.
De acuerdo con un estudio realizado por la agencia internacional de energía, la mayoría de las personas que no tienen acceso a la electricidad forman parte de la población rural, ya que alrededor del 84% de las personas sin acceso a la electricidad viven en zonas rurales.
Alrededor del mundo existen un número importante de personas que no tienen acceso a combustibles y tecnologías limpias como métodos de cocina y calefacción seguros y limpios, en su lugar, aproximadamente 2.800 millones de personas dependen de la quema de carbón, madera u otro tipo de biomasa como estiércol animal y residuos de cultivos, lo que provoca la contaminación del aire interior y exterior.
Pasajeros aereos: Son los pasajeros aéreos transportados, los cuales incluyen pasajeros de aeronaves nacionales e internacionales de compañías aéreas registradas en el país.
Consumo.e.eléctrica: Se refiere al consumo de energía eléctrica kWh per cápita, es decir, la cantidad de energía utilizada por cada individuo de un país, para diferentes usos, como la fabricación industrial, manejar vehículos eléctricos, o el uso de dispositivos electrónicos. El consumo de energía es necesario para el desarrollo de los países, pues gracias a esta, se permite la producción industrial, el funcionamiento del sector de servicios,el funcionamiento de electrodomésticos y dispositivos electrónicos, entre otros.
Empleadores: Los empleadores son aquellos trabajadores que trabajan por cuenta propia o con uno o varios socios, es decir, trabajos en los que la remuneración depende directamente de los beneficios derivados de los bienes y servicios, y, en esta capacidad, han contratado, de forma continua, una o más personas para trabajar para ellos como empleados.
Los empleadores son parte importante del crecimiento económico de un país, puesto que ayudan a combatir la pobreza y a tener mayor estabilidad económica y social, favoreciendo a los hogares y las empresas.
Gasto: Se refiere a los pagos en efectivo por actividades operativas del gobierno en el suministro de bienes y servicios. Incluye la compensación de los empleados (como sueldos y salarios), intereses y subsidios, subvenciones, beneficios sociales y otros gastos como rentas y dividendos.
Exportaciones: Las exportaciones de bienes y servicios representan el valor de todos los bienes y otros servicios de mercado proporcionados al resto del mundo.
Las exportaciones de bienes y servicios son un indicador clave del desarrollo económico de un país, donde a un mayor nivel de exportaciones indica que el país tiene la capacidad de producir bienes y servicios competitivos que son demandados en los mercados internacionales, lo cual es fundamental para el crecimiento económico y la generación de empleo, además aporta a la industrialización, satisface las necesidades de consumo de bienes no producidos en el país.
Ahora, es importante recalcar que la tasa de fertilidad no depende únicamente de los factores biológicos de la mujer, sino que también depende de factores culturales y económicos del contexto donde proviene cada mujer, pues se ha sabido que las áreas con economías menos desarrolladas son las que tienen tasas de fertilidad más altas, ya sea por falta de acceso a métodos anticonceptivos o por razones de cultura y creencias.
Los ecosistemas forestales son sumamente importantes, estos aportan beneficios económicos, sociales y ambientales, pues ayudan a la regulación del clima y amortiguamiento del impacto de fenómenos naturales, generan oxígeno, protegen la biodiversidad.
El PIB es la suma del valor agregado bruto de todos los productores residentes en la economía más los impuestos sobre los productos y menos los subsidios no incluidos en el valor de los productos. Se calcula sin hacer deducciones por depreciación de bienes fabricados o por agotamiento y degradación de los recursos naturales.
Gini: El índice de Gini mide en qué medida la distribución de ingresos o consumo entre individuos o hogares dentro de una economía se desvía de una distribución perfectamente igualitaria. Un índice de Gini de 0 representa la igualdad perfecta, mientras que un índice de 100 implica desigualdad perfecta.
Inflación: La inflación medida por el índice de precios al consumidor refleja el cambio porcentual anual en el costo para el consumidor promedio de adquirir una canasta de bienes y servicios que puede ser fijo o cambiar en intervalos específicos, como anualmente. La inflación es un fenómeno económico en el cual los bienes y servicios aumentan a lo largo del tiempo, lo que quiere decir que con la misma cantidad de dinero, se puede comprar una menor cantidad de productos a comparación con períodos anteriores, lo que puede afectar negativamente a los consumidores y a la economía en general.
Esperanza de vida: La esperanza de vida al nacer indica el número de años que viviría un recién nacido si los patrones de mortalidad prevalecientes en el momento de su nacimiento se mantuvieran iguales a lo largo de su vida.
Esta tasa aporta diversas características de una sociedad, como las condiciones de vida de las poblaciones, la reducción o aumento de la mortalidad, condiciones de alimentación, sanidad y demás para calificar el desarrollo social de un país.
Pobreza extrema: Se refiere al porcentaje de personas que son multidimensionalmente pobres, es decir, las personas con carencias de recursos necesarios para satisfacer sus necesidades básicas para vivir dignamente, como el acceso a agua potable, alimentos y otros servicios básicos como la salud y educación. Esta es una situación que afecta a millones de personas a nivel mundial, especialmente a países vulnerables
Mortalidad.mujer: La tasa de mortalidad de adultos, mujeres, es la probabilidad de morir entre los 15 y los 60 años, es decir, la probabilidad de que una mujer de 15 años muera antes de cumplir los 60 años, si está sujeta a las tasas de mortalidad específicas por edad de los valores especificados de año entre esas edades.
Mortalidad.hombres: La tasa de mortalidad de adultos, hombres, es la probabilidad de morir entre los 15 y los 60 años, es decir, la probabilidad de que un hombre de 15 años muera antes de cumplir los 60 años, si está sujeto a las tasas de mortalidad específicas por edad de los valores especificados de año entre esas edades.
Población: Esta variable de población total se basa en la definición de población de facto, que cuenta a todos sus residentes independientemente de su estatus legal o ciudadanía.
La correlación entre las diferentes variables explicadas
anteriormente se muestra en el siguiente gráfico.
El anterior gráfico mide la magnitud de la asociación lineal entre dos variables de las 18 variables que tendremos en cuenta para el modelo, este toma valores entre -1 y 1 donde las que están en el cero quiere decir que no tienen correlación, -1 correlación negativa perfecta y 1 correlación positiva perfecta. El gráfico nos muestra por colores las diferentes correlaciones que hay entre las variables, donde las variables que se encuentran con un color morado oscuro tienen correlación negativa intensa o perfecta, como por ejemplo la esperanza de vida con la mortalidad de mujeres y hombres, es decir, tienen entre ellos una asociación inversa.
Por otro lado, las que se encuentran con un color blanco o muy clarito, quiere decir que no existe asociación, entre estas está el gasto y el área forestal, por último los que se encuentran con un color rojo fuerte o llegando a este, quiere decir que tienen una asociación directa, como por ejemplo el consumo de electricidad de la población y de la población rural.
En la siguiente tabla encontramos las estadísticas descriptivas de las variables anteriormente descritas, entre estas estadísticas está la media y los máximos y mínimos de cada variable.
| Variable | Mean | Min | Max |
|---|---|---|---|
| electricidad | 99.47 | 87.18 | 100 |
| rural.electricidad | 98.67 | 73.41 | 100 |
| combustibles | 95.60 | 44.50 | 100 |
| pasajeros aereos | 18588641.14 | 20004.00 | 109062321.52 |
| consumo.e.electrica | 6917.95 | 631.54 | 54799.17 |
| empleadores | 4.26 | 0.46 | 12.78 |
| gasto | 37.02 | 15.45 | 60.30 |
| exportaciones | 58.82 | 18.09 | 176.38 |
| fertilidad | 1.64 | 1.27 | 2.70 |
| area forestal | 34.98 | 0.47 | 73.52 |
| crecimiento.PIB | 1.34 | -6.59 | 8.49 |
| gini | 34.79 | 25.40 | 52.60 |
| inflación | 2.24 | -0.92 | 7.69 |
| esperanza de vida | 78.43 | 71.96 | 83.08 |
| pobreza extrema | 28.25 | 13.00 | 74.20 |
| mortalidad.mujer | 61.31 | 33.37 | 114.73 |
| mortalidad.hombres | 128.54 | 62.59 | 265.85 |
| poblacion | 17677836.59 | 323764.00 | 80645605.00 |
Al analizar estos valores podemos obtener una visión más precisa sobre las diferentes variables. A partir de esto tenemos que en cuanto a la electricidad es un indicador importante del desarrollo y las oportunidades económicas de un país y según los datos el promedio global de acceso a la electricidad es del 99.47%, lo que indica que la gran mayoría de la población tiene acceso a este servicio. Sin embargo, es importante resaltar que hay una variabilidad entre los países, con un mínimo de 87.18% y un máximo del 100%, lo que indica que algunos países aún enfrentan desafíos a la hora de que se le sea suministrado electricidad a su población.
Por otro lado, el acceso a la electricidad en áreas rurales es esencial para el desarrollo y la mejora de la calidad de vida de las comunidades rurales. Los datos muestran que, en promedio, el 98.67% de la población rural tiene acceso a la electricidad. Sin embargo, al igual que con el indicador anterior, existen diferencias significativas entre los países, con un mínimo del 73.41% y un máximo del 100%. Estas disparidades destacan la necesidad de esfuerzos adicionales para garantizar un acceso equitativo a la electricidad en áreas rurales.
La variable de la pobreza extrema indica el porcentaje de personas que viven en estas condiciones, según los resultados, el promedio global de la pobreza extrema es de 28.29%, en esta variable existe una variabilidad con un mínimo de del 13% y un máximo del 74.2%, estas diferencia reflejan las desigualdades económicas y sociales existentes entre los países, así como los diferentes niveles de desarrollo.
El aprendizaje no supervisado consiste en un modelo que analiza y utiliza información para determinar patrones y similitudes entre los datos. En este trabajo se utiliza la técnica de análisis de grupos o clustering, donde los algoritmos se encargan de formar grupos de manera autónoma para finalmente asignarlos a los datos.
El Análisis de Componentes Principales (APC), es una técnica de reducción de dimensionalidad aplicada por Karl Pearson, que transforma variables correlacionadas en componentes principales no correlacionados, capturando la variabilidad de los datos y facilitando el análisis de patrones. Estos componentes principales también obtienen el nombre de factores y están dadas por la combinación lineal de todas las variables, de la siguiente manera:
\[ Z= λ_{1}X_{1}+λ_{2}X_{2} +...+λ_{p}X_{p}\] Es decir, el método de APC permite “condensar” la información aportada por múltiples variables en solo unas pocas componentes.
Para el agrupamiento de los datos se utilizó el método de agrupamiento jerárquico o método de Ward, el cual establece que la distancia entre dos clústeres se define por el aumento en la suma de los cuadrados después de fusionar los clústeres. Este método fue presentado por Joe H. Ward.
Después de una breve definición de la metodología de aprendizaje no supervisado, procederemos a explicar paso por paso cómo realizamos nuestro modelo.
1) Limpieza y normalización de los datos.
Se eligió uno de los años que se encontraban en la base de datos, en esta se visualizaban varios datos faltantes, por lo tanto, se buscó un año que tuviera una menor cantidad de datos faltantes, siendo el 2013.
Inicialmente esta base de datos contaba con 20 variables y 267 filas las cuales contenían países, ciudades, islas y continentes, durante este proceso, se identificaron dos variables completamente vacías, debido a esto, se optó por eliminar las variables “Emisiones de hidrofluorocarbonos (HFC) en kilotoneladas equivalentes de dióxido de carbono (CO2)” y “Número de tractores utilizados en la agricultura” de la base de datos. Como resultado, el modelo tuvo que trabajar con dos variables menos en su análisis posterior, luego se realizó la limpieza de la base de datos, donde se eliminaron las filas con datos faltantes y se obtuvo finalmente una base de datos con 18 variables y 34 filas que se redujo a únicamente países.
base2=filter(base,Year=="A2013")
View(base2)
base3=base2[,c(1,2,3,4,5,7,8,9,10,11,12,13,14,15,17,18,19,20,21,22)]
View(base3)
base4 <- na.omit(base3)
View(base4)
2) Metodo Ward
En esta parte, se inicia el modelo de aprendizaje no supervisado utilizando el método jerárquico a través de una estandarización. Se aplicó un análisis de componentes principales (APC) para reducir la dimensionalidad de los datos y se utilizó la función “prcomp” para estandarizar los datos. Posteriormente, se generó un gráfico de los valores propios utilizando la función “fviz_eig” para visualizar la varianza explicada por cada componente principal en el análisis de APC, el cual se analizará mas adelante.
estandarizacion=prcomp(base7,scale = TRUE)
fviz_eig(estandarizacion,ylab = "Porcentaje de varianza explicada",
xlab="Numero de factores",
main=".",barfill ="pink",
addlabels = TRUE)+theme_classic()
3) Análisis de Componentes Principales
Se crearon gráficas que representan las variables y los individuos en el análisis de componentes principales. Estas permiten visualizar la contribución de las variables y la distribución de los individuos en el espacio de los componentes principales, brindando una mejor comprensión del análisis de ACP.
Luego se acceden a los resultados del ACP para identificar las variables más importantes y se calcula la suma de las contribuciones. Estos resultados proporcionan información clave sobre la importancia y el impacto de las variables.
4) Clustering
En esta parte, se realiza un análisis de componentes principales (ACP) con dos factores y se generan cuatro clusters. Luego, se crea un nuevo data frame, llamado Nueva Base, que combina la variable de cluster con la base de datos original. Esto permite asignar a cada observación un cluster específico. Finalmente, se grafican los resultados del ACP para visualizar la estructura de los clusters obtenidos.
Por último, obtenemos una descripción de los grupos formados en el análisis y sus características principales.
resultado_ACP<-FactoClass(base7,dudi.pca)
2 #cantidad de factores
2 #hacer el cluster con x cantidad de factores
4 # cantidad de cluster
resultado_ACP$cluster
# unir base de datos con la nueva variable cluster
NuevaBase<-data.frame(Cluster=resultado_ACP$cluster,base7)
Grupo<-NuevaBase$Cluster
s.class((resultado_ACP$dudi)$li,Grupo,sub="Componentes 1 y 2",possub="bottomright",xax=1,yax=2,col=c(1,2,3,4))
#Descripción de los grupos (Análisis de medias)
resultado_ACP$carac.cont
1) Metodo Ward
En el siguiente gráfico observamos la varianza explicada por cada componente principal en el analisis de APC.
Dado que el objetivo del APC es reducir la dimensionalidad, nos interesa utilizar la cantidad mínima de factores pero que sean suficientes para explicar los datos, por lo tanto, decidimos utilizar como criterio para la elección del número óptimo de factores, que con la menor cantidad de estos, sumen al menos el 50% de la varianza explicada acumulada. En consecuencia de lo anterior, se decidió utilizar 2 componentes, es decir, que tenemos un porcentaje de varianza de 52.3% para el análisis.
2) Análisis de Componentes Principales
Las siguientes gráficas representan las variables y los individuos en el ánalisis de componentes principales.
En el anterior gráfico, encontramos la distribución de los individuos entre los factores, donde podemos observar que tan representados se encuentran los individuos por cada uno de los factores, donde los que están en el centro son los peores representados y los que están en la periferia son los mejores representados, por otro lado, los colores de los puntos indican la calidad de representación de cada país en relación a los factores 1 y 2, donde los puntos más oscuros tienen una mejor representación.
Teniendo en cuenta lo anterior podemos identificar en la gráfica un punto atípico que corresponde al país de honduras, este país a diferencia de los demás representa una gran cantidad de máximos o mínimos en la base de datos inicial, de igual forma es el país mayor representado por ambos factores ya que a diferencia de los demás es el que muestra un color más oscuro.
Por otro lado, países como Lituania y República Eslovaca están siendo representados por el factor 2, lo que significa que estos comparten características similares en relación con el factor 1 y su representación en él es bastante precisa.
En el gráfico también podemos notar que el país de Chile tiene una la calidad de representación mucho menor a 0.2 lo que significa que tiene una representación deficiente y además se aprecia que esta se ubica en la mitad de ambos factores lo que quiere decir que es un país tiene una representación débil en ambos factores.
El siguiente gráfico, nos muestra las contribuciones de cada variable a cada uno de los factores.
Se observa que las variables de combustibles, electricidad rural y electricidad están contribuyendo al factor 1, mientras que las variables de área forestal y consumo.e.elecrica tienen una contribución inferior a 2.5 en este mismo factor. En cuanto al factor 2, se destaca la contribución de las variables de empleadores y pasajeros. Continuando con el análisis, se evidencia que las variables de esperanza de vida y mortalidad femenina presentan una relación opuesta, lo que implica que el factor 1 está siendo confrontado por estas dos variables.
La siguiente gráfica condensa la información de distribución de los individuos y las variables en un mismo gráfico.
Accediendo a los resultados del ACP visualizamos en específico las contribuciones de las variables a los primeros dos factores y con base en esto se le asignó un nombre a cada factor.
| variable | Dim1 | Dim2 |
|---|---|---|
| electricidad | 9.827444e+00 | 3.90465122 |
| rural.electricidad | 1.043531e+01 | 3.81022444 |
| combustibles | 1.102371e+01 | 0.89430612 |
| pasajeros aereos | 5.058829e-01 | 16.56830676 |
| consumo.e.electrica | 1.868599e+00 | 0.91719023 |
| empleadores | 3.303599e+00 | 15.52271813 |
| gasto | 4.813807e+00 | 0.10108457 |
| exportaciones | 1.512929e+00 | 2.99807609 |
| fertilidad | 6.406023e+00 | 5.08596233 |
| area forestal | 1.299093e+00 | 0.04225179 |
| crecimiento.PIB | 2.729554e+00 | 0.23993118 |
| gini | 8.179152e+00 | 0.77646051 |
| inflación | 4.649586e+00 | 0.07095150 |
| esperanza de vida | 9.009859e+00 | 11.28457291 |
| pobreza extrema | 9.325425e+00 | 0.02859246 |
| mortalidad.mujer | 1.005131e+01 | 6.87673310 |
| mortalidad.hombres | 5.058556e+00 | 16.99762934 |
| poblacion | 1.508118e-04 | 13.88035732 |
El factor 1 está siendo formado con mayor intensidad por las variables, combustibles, rural.electricidad y mortalidad.mujer, por lo tanto se le asignó el nombre de “Índice de acceso energético y salud de la mujer”.
El factor 2 está siendo formado con mayor intensidad por las variables, mortalidad.hombres, pasajeros aéreos y empleadores, por lo tanto, se le asignó el nombre de “Índice de seguridad laboral y transporte aéreo”
Ahora, en la siguiente tabla encontramos las contribuciones de los individuos en los factores.
| variable | Dim1 | Dim2 |
|---|---|---|
| Armenia | 0.606421312 | 7.619466e+00 |
| Austria | 1.303258143 | 1.939454e-01 |
| Belgium | 1.082757027 | 1.299692e-02 |
| Bulgaria | 0.698125042 | 3.141648e+00 |
| Chile | 0.118037248 | 7.282503e-02 |
| Colombia | 4.007053334 | 1.289948e+00 |
| Costa Rica | 0.755280211 | 8.565154e-04 |
| Croatia | 0.165895353 | 3.855385e-01 |
| Cyprus | 1.701564195 | 3.821909e-04 |
| Czechia | 0.847831420 | 7.986865e-01 |
| Dominican Republic | 9.805256332 | 1.307716e+00 |
| Estonia | 0.001253871 | 2.504365e+00 |
| Finland | 0.920272238 | 1.534486e-01 |
| France | 0.944332634 | 6.529772e+00 |
| Germany | 0.794645234 | 8.329463e+00 |
| Greece | 1.484878142 | 1.236810e+00 |
| Honduras | 51.721074553 | 1.023891e+01 |
| Hungary | 0.005060081 | 2.660704e+00 |
| Iceland | 2.183590976 | 9.685417e-01 |
| Ireland | 0.839848219 | 2.679419e+00 |
| Italy | 1.105395592 | 6.893442e+00 |
| Latvia | 0.481371475 | 6.684005e+00 |
| Lithuania | 0.572116280 | 1.128234e+01 |
| Luxembourg | 1.661671010 | 6.828028e-01 |
| Malta | 2.196387063 | 8.325545e-02 |
| Netherlands | 1.688596205 | 5.335366e-01 |
| Poland | 0.047820841 | 6.982605e-01 |
| Romania | 0.753164115 | 3.943732e+00 |
| Serbia | 2.037963571 | 1.404353e+00 |
| Slovak Republic | 0.390618074 | 3.487021e+00 |
| Slovenia | 1.537271028 | 2.109415e-01 |
| Spain | 1.125278249 | 4.472843e+00 |
| Sweden | 1.075077267 | 2.428906e+00 |
| Turkiye | 2.399657193 | 4.127935e+00 |
En la anterior tabla, podemos visualizar que para el factor 1 “Índice de acceso energético y salud de la mujer” la mayor contribución la hacen los paises, Honduras y Republica Dominicana, por otro lado, para el factor 2 “Índice de seguridad laboral y transporte aéreo”, la mayor contribución la hacen los países, Lituania y Honduras nuevamente.
3) Clustering
El dendograma usa el algoritmo de clustering jerárquico, en el cual calcula las distancias entre cada par de clases fusionadas secuencialmente.
En el dendograma anterior, vemos cómo quedan distribuidos los países en los diferentes clusters, honduras en un grupo, desde alemania hasta Países bajos otro grupo, desde República dominicana hasta Turquía otro y el último grupo desde croacia hasta Romania. El diagrama los ordena de modo que los miembros de cada clase o grupo sean vecinos.
Por último, en el siguiente gráfico se visualiza como los individuos se agrupan en cada cluster.
Se puede observar que el cluster con menor cantidad de individuos es el 4, el cual se compone unicamente por el país Honduras, es decir que no se relacionó con ningún otro país, mientras que el cluster número 2 es el que cuenta con mayor cantidad de Paises relacionados, 17 exactamente.
4) Descripción de los grupos (Análisis de medias)
La primera clase de países en el conjunto de datos presenta medias desfavorables en comparación con las medias globales, lo que sugiere que estos países se encuentran en una etapa de desarrollo más baja. Se observa una alta mortalidad en hombres y mujeres, una baja cantidad de pasajeros aéreos y una esperanza de vida más baja en esta clase en comparación con la media global. Estas diferencias en las medias indican condiciones de desarrollo menos favorables y respaldan la inferencia de que la primera clase está compuesta por países subdesarrollados.
La segunda clase de países en el conjunto de datos parece representar países desarrollados. Esto se deduce de varias observaciones: la esperanza de vida en esta clase tiene una media superior a la media global, lo que indica que los países en esta clase tienen una esperanza de vida más alta en promedio. Además, la media de inflación en esta clase es inferior a la media global, lo que sugiere una mayor estabilidad económica. Asimismo, la media de pobreza extrema en esta clase es menor que la media global, lo que indica una menor incidencia de pobreza extrema en estos países. En conjunto, estos indicios respaldan la inferencia de que la segunda clase está compuesta por países desarrollados, con mejores condiciones de vida, mayor estabilidad económica y menor incidencia de pobreza extrema.
En la tercera clase, se observan discrepancias entre las medias de clase y las medias globales en varias variables. Por ejemplo, la desigualdad (Gini) tiene una media de clase mayor que la media global, la inflación muestra una media de clase más alta, el crecimiento del PIB tiene una media de clase superior y las exportaciones presentan una media de clase menor. Sin embargo, estas diferencias no permiten realizar conclusiones claras sobre el desarrollo de los países en esta clase en relación con estas variables. Las variaciones en las medias pueden deberse a diferentes factores, como las características particulares de los países incluidos en esta clase, las condiciones económicas y políticas específicas, entre otros. Por lo tanto, no es posible llegar a una conclusión definitiva o generalizada sobre el nivel de desarrollo de los países de esta clase basándose únicamente en las diferencias entre las medias de clase y las medias globales de estas variables.
La cuarta clase consta únicamente de un país en el análisis. En este país, se observan diferencias significativas en comparación con las medias globales en varias variables. Por ejemplo, la pobreza extrema tiene una media de clase que es más del doble que la media global. Además, la tasa de fertilidad en este país es casi el doble que la media global, lo cual indica un mayor número de nacimientos. La mortalidad en mujeres también es casi el doble que la media global, lo que sugiere condiciones de salud y atención médica menos favorables para las mujeres en este país. La desigualdad, medida por el índice Gini, es mayor en este país en comparación con la media global, lo que indica una distribución de ingresos menos equitativa. Por último, el acceso a electricidad y combustible es menor en este país en comparación con la media global, lo que puede indicar limitaciones en la infraestructura y servicios básicos. En resumen, este país de la cuarta clase presenta desafíos significativos en términos de pobreza, fertilidad, mortalidad, desigualdad y acceso a servicios básicos por tanto consideramos que es un país subdesarrollado.
Finalmente realizamos la predicción con una muestra de 7 paises de nuesta base de datos, donde se buscó clasificarlos en las diferentes clases anteriormente encontradas, dependiendo de sus caracteristicas en los diferentes componentes.
| Pais | Armenia | Austria | Belgium | Bulgaria | Chile | Colombia |
|---|---|---|---|---|---|---|
| electricidad | 99.42000 | 100.00 | 100.00 | 100.00 | 99.60000 | 97.77942 |
| rural.electricidad | 99.43715 | 100.00 | 100.00 | 100.00 | 100.00 | 90.07377 |
| combustibles | 97.50 | 100.00 | 100.00 | 87.71 | 100.00 | 88.45 |
| pasajeros aereos | 45000 | 15037454 | 9521421 | 1013220 | 13806283 | 26929238 |
| consumo.e.electrica | 1928.734 | 8509.612 | 7989.672 | 4639.706 | 3893.506 | 1317.966 |
| empleadores | 0.4622048 | 4.4855900 | 4.2991340 | 3.9201340 | 4.273860 | 4.6761330 |
| gasto | 22.63718 | 46.62162 | 45.54207 | 32.95554 | 20.19630 | 33.28519 |
| exportaciones | 28.35349 | 53.44129 | 79.32435 | 64.58170 | 32.08746 | 18.08644 |
| fertilidad | 1.600 | 1.440 | 1.760 | 1.480 | 1.786 | 1.905 |
| area forestal | 11.58890 | 46.94612 | 22.77173 | 34.95394 | 23.19705 | 54.44246 |
| crecimiento.PIB | 3.30000000 | 0.02550471 | 0.45924219 | -0.56049397 | 3.30850825 | 5.13399352 |
| gini | 30.6 | 30.8 | 27.7 | 36.6 | 45.8 | 52.6 |
| inflación | 5.7896678 | 2.0001562 | 1.1130959 | 0.8900935 | 1.7895555 | 2.0169922 |
| esperanza de vida | 73.67600 | 81.13659 | 80.58780 | 74.86098 | 79.33900 | 75.82700 |
| pobreza extrema | 30.5 | 18.8 | 20.8 | 48.0 | 20.4 | 24.3 |
| mortalidad.mujer | 72.570 | 45.326 | 57.509 | 82.085 | 62.354 | 74.943 |
| mortalidad.hombres | 194.234 | 89.369 | 94.410 | 184.811 | 112.222 | 151.666 |
| poblacion | 2901385 | 8479823 | 11159407 | 7265115 | 17509925 | 46237930 |
En el anterior gráfico se puede observar la clasificación que el modelo le dió a los nuevos paises, representandolos con puntos morados, donde a 4 de estos los clasificó en el grupo 2 como paises desarrollados, a un pais en la clase 1 como paises subdesarrollados y a 2 paises en el grupo 3, es decir, sus características tampoco permiten realizar conclusiones sobre su estado de desarrollo, asi como los paises que componen esta clase.
El análisis de las estadísticas descriptivas confirma la capacidad de las variables para clasificar los países en categorías de desarrollados y subdesarrollados. A través de nuestro modelo de aprendizaje no supervisado, hemos identificado cuatro clases distintas. La primera clase representa a los países subdesarrollados, mientras que la segunda clase representa a los países desarrollados. Sin embargo, también hemos observado una tercera clase, que agrupa a aquellos países cuya clasificación fue ambigua debido a la confusión en los datos. Es importante destacar que en la cuarta clase encontramos un país particular, Honduras, que muestra características subdesarrolladas pero no fue clasificado inicialmente en la primera clase.
En conclusión, nuestros resultados respaldan la capacidad de las variables seleccionadas para clasificar los países en categorías de desarrollo. Sin embargo, revelan la presencia de dificultad en la clasificación precisa debido a la ambigüedad en algunos casos. El caso de Honduras muestra la importancia de una evaluación más detallada para comprender las razones detrás de las clasificaciones y abordar las inconsistencias en los datos.
International Energy Agency. (March 14, 2015). Energy Poverty [Online]. Available: http://www.iea.org/topics/energypoverty/
World Bank. (March 14, 2015). Energy Overview [Online]. Available: http://www.worldbank.org/en/topic/energy/overview#1
Fernandez, R. (Septiembre 21, 2021). Ranking de los 20 países con la tasa de fertilidad más baja del mundo en 2021 [Online]. Available: https://es.statista.com/estadisticas/657147/ranking-de-paises-con-las-tasas-de-fertilidad-mas-bajas/#:~:text=%C2%BFQu%C3%A9%20es%20la%20tasa%20de,sino%20tambi%C3%A9n%20culturales%20y%20econ%C3%B3micos.
smartgrids info. Consumo de energía eléctrica [Online]. Available: https://www.smartgridsinfo.es/consumo-energia-electrica#:~:text=El%20consumo%20de%20energ%C3%ADa%20el%C3%A9ctrica,el%20uso%20de%20dispositivos%20electr%C3%B3nicos.
Acción contra el hambre. Pobreza extrema:definición, causas y cómo erradicarla [Online]. Available: https://www.accioncontraelhambre.org/es/pobreza-extrema-definicion
Digital guide. (septiembre 14, 2020). Unsupervised learning: aprendizaje automático sin restricciones.[Online]. Available: https://www.ionos.es/digitalguide/online-marketing/marketing-para-motores-de-busqueda/unsupervised-learning/#:~:text=El%20aprendizaje%20no%20supervisado%20(en,presentan%20los%20diferentes%20valores%20introducidos.