Indíce

Introducción

En el informe correspondiente, se llevará a cabo un análisis no supervisado que se fundamenta en datos sin etiquetas. En este caso, el algoritmo se encargará de identificar características comunes con el fin de agrupar los datos, siendo el clustering y la técnica ACP sus aplicaciones principales.

En el contexto de este tipo de aprendizaje no supervisado, se realizará el proceso de segmentación de países de una base de datos, en el que enfrentaremos el desafío de determinar cuántos segmentos crear y descubrir subgrupos con características relacionadas. Para abordar esto, se utilizará uno de los algoritmos más utilizados para el agrupamiento de datos: el algoritmo jerárquico. Cabe destacar, que esta técnica de agrupación jerárquica, organiza los datos con el objetivo de determinar los clusters. Este enfoque se basa en la distancia entre los puntos para mostrar posibles combinaciones. A medida que se avanza en el procedimiento, los puntos se agrupan sucesivamente en clústeres, formando una estructura denominada dendrograma.

En base a lo anterior, el objetivo es descubrir patrones en los datos sin la necesidad de utilizar etiquetas, para crear un grupo donde se puede visualizar claramente la jerarquía, facilitando su interpretación. Es decir, mediante la aplicación del análisis multivariado, se explora la estructura compleja de los datos y descubrimos relaciones que no se evidencian a simple vista. Por otra parte, con el análisis de correlación se permite cuantificar la magnitud y dirección de las relaciones entre las variables, para poder identificar el impacto significativo en la segmentación.

1. Metodología

Para comenzar, se cargó la base de datos suministrada, la cual contiene información recopilada de diferentes países a lo largo de varios años, desde 1990 hasta 2022. En este caso, para el modelo que se desarrolló, sólo se tomaron en cuenta los datos correspondientes al año 2015. Una vez cargada la base de datos, se procedió a filtrar por año, creando así una nueva base de datos.

Posteriormente, se llevó a cabo un proceso de depuración de la base de datos, en el cual se eliminaron algunas columnas que tenían poca o ninguna información. Luego, se eliminaron los datos faltantes y las filas que no estaban relacionadas con países. Con estas acciones, se obtuvo finalmente una base de datos compuesta por 106 países y 15 características. Debido a que las columnas de países y año estaban en formato de caracteres, se procedió a renombrar los países utilizando la función ‘rownames’, mientras que la columna de año fue eliminada.

1.1. Técnica ACP

La técnica utilizada para la creación del modelo fue el Análisis de Componentes Principales (ACP), que es una técnica de aprendizaje no supervisado. Se aplica a variables cuantitativas con el objetivo de reducir la dimensionalidad de un conjunto de datos, creando un nuevo conjunto de variables llamadas componentes principales. Estos componentes principales buscan explicar de la mejor manera posible la variación de los datos.

Cabe destacar, que el ACP puede ayudar a eliminar la información redundante de los datos, reducir las variables con ruido y simplificar la estructura de los datos. Además, las componentes principales, también conocidas como factores, se obtienen a través de la siguiente combinación lineal de las variables originales.

\(Z = \lambda 1X1 + \lambda 2X2 + ... + \lambda pXp\)

Un paso importante consiste en estandarizar las variables antes de aplicar el ACP, de manera que tengan una desviación estándar igual a 1. Por defecto, la función prcomp() central de las variables, lo cual implica que su media sea igual a 0. Sin embargo, al utilizar el argumento scale = TRUE, indica que se desea escalar las variables para que tengan una desviación estándar igual a 1.

1.2. Clusterización

Para visualizar la clasificación del conjunto de datos en el modelo, se utiliza el método de Ward. Este método es un criterio aplicado al Análisis de clúster jerárquico, desarrollado originalmente por Joe H. Ward. El método de Ward considera todos los clústeres y el algoritmo calcula la suma de las distancias al cuadrado dentro de cada uno de ellos. Luego, los clústeres se fusionan de forma que se minimicen estas distancias.

En el método de Varianza Mínima de Ward, las distancias iniciales entre los clústeres se definen como el cuadrado de la distancia euclidiana entre los puntos:

\(dij = d(\left\{ Xi \right\}, \left\{ Xj \right\}) = \left\| Xi - Xj \right\|^{2}\)

2. Descripción de las variables

Dimensión 1:

  • Accs.electr (% de la población): Representa el porcentaje de personas que pueden acceder a la electricidad en sus casas o distintos tipos de comunidades. Esta información se obtiene basados en la industria, encuestas a lo largo del país, fuentes externas a las nacionales.

  • Accs.electr.ru (% de la población rural):Hace referencia al porcentaje de personas que viven en zonas rurales que tienen la posibilidad de utilizar energía en sus casas o diferentes tipos de comunidades.

  • Accs.com.tecn.limp (% de la población): Alude al porcentaje de personas que tienen acceso a combustibles que se encuentran limpio y tecnologías en el mismo estado, en otras palabras, habla del porcentaje de personas que utilizan tecnologías y combustibles no contaminantes con el objetivo de preparar sus alimentos.

  • T.Fecundidad (nacimientos por mujer): Esta variable da a conocer cuántos hijos podría llegar a tener en promedio una mujer a lo largo de su vida reproductiva, basándose en las tasas de fecundidad por edad que hay en un año en específico, la cual nos da a conocer el número de hijos que una mujer llegaría a tener en caso de que viviera hasta el final de sus años fértiles.

  • T.Mortalidad.Adul.M (por 1.000 mujeres adultas): Describe la tasa de mortalidad en la población de adultos mujeres. Es una medida de la media que nos expone que tan probable es que una mujer muera durante las edades de 15 a 60 años. Cabe resaltar que se calcula con base a la tasa de mortalidad específica por años. Un dato importante de mencionar, es que esta medida se hace con la estimación del número de mujeres que se espera que fallezcan por cada mil.

  • T.Mortalidad.Adul.H (por 1.000 adultos masculinos): Resalta la tasa de mortalidad en la población de adultos hombres. Es una medida de la media que expone que tan probable es que un hombre muera durante las edades de 15 a 60 años. Cabe resaltar, que se calcula con base a la tasa de mortalidad específica por años. Un dato importante de mencionar, es que la medida se hace con la estimación del número de hombres que se espera que fallezcan por cada mil.

  • Esp.Vida (años): Se trata de un indicador, el cual dice el número de años que se espera que viva una persona desde el momento que es dada a luz. Por supuesto, esta información se basa en los patrones de mortalidad que tiene cada año, por lo que se trata del promedio de la cantidad de años de vida que se espera que una persona cumpla.

Dimensión 2:

  • Poblacion.Total: Esta variable hace referencia a la cantidad total de personas que viven en un país o en una región. Esta medida se hace con base a definición de población de facto, la cual quiere decir que se cuentan todas las personas que vivan en el área, sin importar cual puede ser su estatus legal o su ciudadanía. En este caso, se trata de estimaciones que se hacen con el objetivo de saber que número de personas vivirán en una zona determinada para mitad de año.

  • Trans.aereo: Hace referencia a un indicador que se centra en el transporte aéreo de pasajeros, lo que nos quiere decir el número de personas que viajan en avión, sin importar si dentro o fuera del país, pues se suman todos los pasajeros de las aerolíneas que estén inscritas.

  • Crecim.PIB (% anual): La variable hace referencia al crecimiento de manera anual que tiene el producto interno bruto (PIB) en un país. Como ya es bien sabido, el PIB es la medida del valor total de los bienes y servicios que son producidos en una economía durante un periodo de tiempo determinado. En este caso, esta medida hace referencia al año 2015.

Dimensión 3:

  • Crecim.PIB (% anual): Como se mencionó anteriormente, la variable se refiere al crecimiento anual del Producto Interno Bruto (PIB) de un país en el año 2015. El PIB es la medida del valor total de bienes y servicios producidos en una economía durante un período específico.

  • Expor.BYS (% del PIB): Se refiere a la exportación de bienes y servicios como un porcentaje del producto interno bruto (PIB) de un país. En otras palabras es: que parte del PIB es gastada en bienes y servicios. Lo anteriormente mencionado es expresado de manera porcentual.

  • Superficie.forestal (% de la superficie terrestre): Dice qué porcentaje de la tierra total es la superficie terrestre. Es decir, expresa la superficie forestal como un porcentaje de la superficie terrestre de un país. Por esta razón, se puede decir que ayuda a entender cuánto espacio de un país está comprendido por el bosque.

3. Resultados

3.1. Análisis de correlación de variables

## corrplot 0.92 loaded

En el gráfico anterior se puede observar la correlación entre las variables. El color rojo indica una correlación inversa, el color azul indica una correlación directa y el color blanco indica que las variables no están correlacionadas. Con base en esto, se puede afirmar que la variable EG.ELC.ACCS.ZS está correlacionada de manera directa con la variable EG.ELC.ACCS.RU.ZS, lo que significa que si una variable aumenta, la otra también aumenta. Por otro lado, las variables SP.DYN.ARMT.MA y SP.DYN.LEE00.IN tienen una correlación inversa, lo que implica que cuando una variable aumenta, la otra disminuye. Es importante destacar que el gráfico no indica qué variable es la que aumenta o disminuye.

3.2. Análisis de la regla del codo

En el gráfico anterior se muestra un diagrama de barras que representa las dimensiones y el porcentaje de explicación de todas las variables. Podemos observar que la dimensión uno explica más del 40% del total de la variabilidad, lo cual la convierte en la dimensión más importante en términos de explicación. Por otro lado, la segunda dimensión explica un poco más del 10% de la variabilidad total, es de notar en este gráfico que la regla del codo indicaría que se debe de utilizar solo dos factores, pero para asegurar la cantidad de factores a utilizar se analizará cuánto porcentaje explica cada dimensión.

##        eigenvalue variance.percent cumulative.variance.percent
## Dim.1  6.69029776       44.6019850                    44.60199
## Dim.2  1.58396687       10.5597791                    55.16176
## Dim.3  1.31408643        8.7605762                    63.92234
## Dim.4  1.21536958        8.1024639                    72.02480
## Dim.5  0.81676827        5.4451218                    77.46993
## Dim.6  0.72791262        4.8527508                    82.32268
## Dim.7  0.65070188        4.3380125                    86.66069
## Dim.8  0.61126210        4.0750807                    90.73577
## Dim.9  0.48348691        3.2232461                    93.95902
## Dim.10 0.42452191        2.8301461                    96.78916
## Dim.11 0.21024310        1.4016207                    98.19078
## Dim.12 0.15970036        1.0646690                    99.25545
## Dim.13 0.05549099        0.3699400                    99.62539
## Dim.14 0.03533385        0.2355590                    99.86095
## Dim.15 0.02085738        0.1390492                   100.00000
Con la tabla anterior, se observa el porcentaje explicado por cada dimensión, la regla del codo recomienda 2 dimensiones obteniendo un 55% de explicación en total, pero se quiere poder explicar un 60%. Por eso, se utilizarán 3 dimensiones para poder explicar más porcentaje con menos cantidad de dimensiones.

3.3. Análisis multivariado

3.3.1. Dimensión 1 y 2

En el gráfico anterior se presentan los países que están siendo explicados por cada dimensión. Los países que aparecen en color rojo están muy bien explicados, mientras que aquellos en color azul tienen un nivel bajo de explicación. Por ejemplo, los siguientes países como Etiopía, Kenia, Tanzania, Togo, Zambia y Uganda están muy bien explicados por la dimensión uno. Por otro lado, países como Italia, Francia, Chipre y Malta también están explicados por la dimensión uno, pero de manera opuesta a los países mencionados anteriormente. Además, India y Estados Unidos están siendo explicados por la dimensión dos.

El gráfico anterior refleja la contribución de las variables a los factores, ya que los factores se interpretan por medio de las variables. Cabe destacar, que las variables que están de azul claro indica que están muy bien explicadas por la dimensión uno o dos, mientras que el azul oscuro indica que tienen una representación muy baja. A modo de ejemplo, podemos observar que las variables T.Mortalidad.Adul.H, T.Mortalidad.Adul.M y T.Fecundidad están siendo bien explicadas por la dimensión uno. Del mismo modo, las variables Accs.com.tecn.limp, Esp.Vida, Accs.electr y Accs.electr.ru también están siendo explicadas por la dimensión uno, pero de manera opuesta a las variables anteriores. Por otra parte, se puede apreciar que las variables Poblacion.Total e Trans.aereo están siendo ampliamente captadas por la dimensión dos.

Estas gráficas dan una idea de cuales son las variables y países más representativos para las dimensiones, pero más adelante se dirá que tan explicadas está siendo cada variable por cada dimensión y también por cada país por cada dimensión.

En el gráfico anterior se puede observar que las variables T.Mortalidad.Adul.H, T.Mortalidad.Adul.M y T.Fecundidad explican mejor a los siguientes países: Etiopía, Kenya, Tanzania, Togo, Zambia y Uganda. Por otro lado, las variables Accs.com.tecn.limp, Esp.Vida, Accs.electr y Accs.electr.ru explican mejor a los países Italia, Francia, Cyprus y Malta. Sin embargo, para comprender mejor y determinar si las representan en mayor o menor medida, es necesario consultar la tabla de datos.

Para la dimensión uno, se puede analizar el país Uganda en relación a las variables T.Mortalidad.Adul.M y Accs.electr.ru, las cuales son opuestas. En este caso, Uganda tiene un valor de 280.116 para la variable T.Mortalidad.Adul.M y 9.046 para la variable Accs.electr.ru. Esto indica que los países ubicados en la parte izquierda del gráfico tienen valores más altos en las variables T.Mortalidad.Adul.H, T.Mortalidad.Adul.M y T.Fecundidad, mientras que tienen valores más bajos en las variables Accs.com.tecn.limp, Esp.Vida, Accs.electr y Accs.electr.ru. Siguiendo esta lógica, se puede deducir que los países ubicados en la parte derecha del gráfico tienen valores más altos en las variables Accs.com.tecn.limp, Esp.Vida, Accs.electr y Accs.electr.ru, pero valores más bajos en las variables T.Mortalidad.Adul.H, T.Mortalidad.Adul.M y T.Fecundidad.

Para confirmar esto, se puede observar el caso de Italia, que tiene un valor de 38.612 en la variable T.Mortalidad.Adul.M y 100 en la variable Accs.electr.ru.

Al realizar el análisis con la dimensión dos, se observó el caso de India en relación a las variables Poblacion.Total y Superficie.forestal, las cuales son variables opuestas. India tiene un valor de 1,322,866,505 para la variable Poblacion.Total y 23.8 para la variable Superficie.forestal. Esto significa que países como India, Estados Unidos e Indonesia tienen valores altos en las variables situadas en la parte de arriba del plano y valores más bajos en las variables en la parte de abajo.

3.3.2. Dimensión 3

Ya realizado el análisis de la dimensión 1 y 2, se procede a analizar sólo la dimensión 3, para hacer esto se grafica la dimensión 1 con la 3, pero solo se hablara de la dimensión 3, pues la dimensión 1 fue explicada.

En el gráfico se puede apreciar que hay pocos países que están siendo representados por la dimensión 3. Entre estos países se encuentran Brasil y Estados Unidos. Además, se observa que Irlanda también está representada por la dimensión 3, pero en dirección opuesta en comparación con los otros países.

En el gráfico anterior, se puede notar que la variable Crecim.PIB está siendo muy bien explicada por la dimensión 3. Esto implica que esta variable muestra una variabilidad significativa y consistente en relación con los demás países en esa dimensión específica. Además, la variable Expor.BYS también está siendo explicada por la dimensión 3, aunque en menor medida en comparación con la variable anterior, esto indica que también presentan cierta variabilidad relacionada con esta dimensión. Sin embargo, es importante destacar que la dimensión 3 muestra una relación opuesta con la variable Superficie.forestal.

En el gráfico anterior se puede apreciar la relación entre los países y las variables en el contexto de la dimensión 3. Al analizar Brasil en relación con las variables Crecim.PIB y Superficie.forestal , se observa que estas variables son opuestas en términos de su representación en la dimensión 3. Brasil muestra un valor de -3.545 y un valor de 60.2867, indicando que países como Brasil, Estados Unidos, Belarus, tienen valores altos para las variables Superficie.forestal y Empleadores.t. Por otra parte, los paises tendran en las variables Crecim.PIBy Expor.BYS un valor bajo. A diferencia de los países que están en la parte baja del mapa como Irlanda y Malta, para las variables de la parte de arriba estos países tendrán un valor mayor, pero las variables de abajo tendrán un valor mayor que se puede comprobar mirando a Irlanda en las variables Crecim.PIB y Superficie.forestal, en el que tiene un valor de 24.3704 y un valor 10.9547 correspondientemente, confirmando lo anteriormente dicho.
##                            Dim.1       Dim.2        Dim.3
## Accs.electr         12.165777118  0.20600486 1.296564e+00
## Accs.electr.ru      12.539339476  1.12579956 1.796089e-01
## Accs.comb.tecn.limp 11.704160420  0.02068065 8.417618e-01
## Trans.aereo          0.672174048 24.55797871 5.382631e+00
## Empleadores.t        1.468780877  0.78512470 6.549527e+00
## Gastos               5.047856762  7.52674325 3.070654e-01
## Expor.BYS            2.991147795  5.34410974 1.982057e+01
## T.Fecundidad        11.756056601  0.12605003 1.036072e-01
## Superficie.forestal  0.038002853  7.50914772 1.392358e+01
## Crecim.PIB           0.004162078 13.13219704 4.260782e+01
## Inflacion            3.823644634  3.64470323 4.802386e+00
## Esp.Vida            13.534209691  0.09885949 1.024244e-01
## T.Mortalidad.Adul.M 12.961348601  0.21811810 1.807258e-04
## T.Mortalidad.Adul.H 11.266138050  0.63684707 4.027460e-01
## Poblacion.Total      0.027200996 35.06763587 3.679532e+00

La tabla anterior muestra la significancia de cada variable dentro de las dimensiones, es decir, lo que contribuye cada variable para la creación de cada dimensión.

Para nombrar cada dimensión, se escogieron las variables con mayor porcentaje de significancia en la dimensión.
El gráfico expone variables que representan diferentes aspectos del desarrollo y bienestar de una sociedad. Estas incluyen el acceso a la electricidad con un 12%, en áreas urbanas como rurales con 12%, el acceso a combustibles y tecnologías limpias para cocinar otorga un 11,7%, en la tasa de fecundidad total tiene un 11,7%, la tasa de mortalidad en adultos hombres con 11% y mujeres con 13% y la esperanza de vida al nacer 13%. Por lo que son indicadores importantes para evaluar el progreso y el nivel de desarrollo de una sociedad.
Esta dimensión muestra dos variables relacionadas con la población, el transporte aéreo y crecimiento del PIB. La primera variable es “Población total”, representa el 35%, la segunda es “Transporte aéreo, pasajeros transportados” se refiere al 24,5% y el “Crecimiento anual del PIB” otorga un 13%. Lo cual, estas variables se combinan en el “Conexión aérea poblacional”, que se utiliza para evaluar la accesibilidad y conectividad de una región en términos de transporte aéreo.
La dimensión exhibe tres variables relacionadas que se combinan en el “Desarrollo forestal y competitividad exploradora”, pues se consigue una medida que evalúa el desarrollo y la competitividad de un país en relación con su crecimiento económico del 43%, exportaciones del 19,8% y superficie forestal del 14%, otorgando una visión integral de cómo un país está aprovechando y gestionando sus recursos naturales.

3.4. Clusters

3.4.1. Dendograma

El gráfico presentado en un dendrograma, se puede observar la clasificación de los países, se decidió separar los países en tres grupos para que quedara lo más equitativamente posible, porque al escoger cuatro grupos quedaría una pareja sola en un grupo y si se escogen dos grupos quedarían muchos países en un solo grupo.

Al tener los grupos se creó una nueva base de datos donde se agrega una columna definiendo en qué grupo está cada país:

##              Cluster Accs.electr Accs.electr.ru Accs.comb.tecn.limp Trans.aereo
## Angola             1          42       3.815067                47.2     1244491
## Australia          3         100     100.000000               100.0    69779346
## Austria            3         100     100.000000               100.0    14718641
## Azerbaijan         2         100     100.000000                95.9     1803112
## Bahamas, The       2         100     100.000000               100.0      900028
##              Empleadores.t   Gastos Expor.BYS T.Fecundidad Superficie.forestal
## Angola            4.769471 20.81883  29.75460        5.774            55.65308
## Australia         6.205091 26.77772  20.06807        1.814            17.32482
## Austria           4.509406 46.26845  53.08906        1.490            47.03333
## Azerbaijan       12.418920 24.78871  37.79478        1.940            13.03953
## Bahamas, The      2.855591 16.03606  37.00419        1.576            50.93506
##              Crecim.PIB Inflacion Esp.Vida T.Mortalidad.Adul.M
## Angola        0.9400000 9.3538397 60.65500             229.953
## Australia     2.1527359 1.5083667 82.40000              45.231
## Austria       1.0145016 0.8965633 81.19024              44.687
## Azerbaijan    1.0939759 4.0276857 71.45100              93.653
## Bahamas, The  0.9968008 1.8614830 73.10400             134.412
##              T.Mortalidad.Adul.H Poblacion.Total
## Angola                   321.296        28127721
## Australia                 78.367        23815995
## Austria                   84.688         8642699
## Azerbaijan               194.524         9649341
## Bahamas, The             231.769          392697

A continuación se muestran los países y su respectiva separación en cuatro grupos, en negro los países que conforman el grupo uno, con rojo los países en el grupo dos, con verde los países que están contenidos en el grupo tres y en azul los países en el grupo cuatro. Este gráfico es el mismo que se presento en el análisis multivariado de los individuos, pero cabe resaltar que tiene valores al lado opuesto de las gráficas. Es decir, los países que antes estaban en la parte de abajo ahora van a estar en la parte de arriba de la gráfica y los países que estaban en el lado derecho ahora van a estar en el lado izquierdo y viceversa.

PC1 frente a PC2

El grupo uno, dos y tres están mejor representados por la dimensión 1 y el grupo cuatro por la dimensión 2.

PC1 frente a PC3

El grupo uno, dos y tres también son representados por la dimensión 3.

3.4.2. Caracterización

## class: 1
##                     Test.Value Class.Mean Frequency Global.Mean
## T.Fecundidad             8.429      4.337        23       2.509
## T.Mortalidad.Adul.M      8.250    235.585        23     115.662
## T.Mortalidad.Adul.H      6.970    306.520        23     186.484
## Inflacion                3.418      5.101        23       2.672
## Empleadores.t           -2.445      2.569        23       3.608
## Expor.BYS               -2.486     28.884        23      43.147
## Gastos                  -3.718     18.424        23      25.699
## Accs.comb.tecn.limp     -7.767     23.291        23      72.215
## Esp.Vida                -7.906     63.125        23      73.347
## Accs.electr             -9.268     47.589        23      86.530
## Accs.electr.ru          -9.616     23.271        23      79.738
## ------------------------------------------------------------ 
## class: 2
##                Test.Value Class.Mean Frequency Global.Mean
## Inflacion           2.939      4.238        35       2.672
## Accs.electr         2.392     94.066        35      86.530
## Accs.electr.ru      2.260     89.688        35      79.738
## Gastos             -2.600     21.885        35      25.699
## Expor.BYS          -2.713     31.475        35      43.147
## ------------------------------------------------------------ 
## class: 3
##                     Test.Value Class.Mean Frequency Global.Mean
## Esp.Vida                 7.943     79.522        46      73.347
## Accs.comb.tecn.limp      6.525     96.927        46      72.215
## Gastos                   5.814     32.537        46      25.699
## Accs.electr.ru           5.706     99.881        46      79.738
## Accs.electr              5.310     99.943        46      86.530
## Expor.BYS                4.982     60.334        46      43.147
## Inflacion               -5.616      0.272        46       2.672
## T.Fecundidad            -6.569      1.652        46       2.509
## T.Mortalidad.Adul.M     -6.945     54.963        46     115.662
## T.Mortalidad.Adul.H     -7.325    110.640        46     186.484
## ------------------------------------------------------------ 
## class: 4
##                 Test.Value Class.Mean Frequency Global.Mean
## Poblacion.Total      8.240  821802750         2    41967270
## Trans.aereo          7.333  448574930         2    26008809
Los países que pertenecen a la primera clase , tiene una media de la tasa de Mortalidad tanto en mujeres como hombres alta, la tasa de fecundidad también en comparación con la media global. Por otro lado, estos 23 países tienen un bajo acceso de electricidad, a tecnologías y combustible limpio, en comparación con todo los países y también una media de esperanza de vida por debajo a la media. Es decir, tiene un bienestar y desarrollo bajo. Por lo anterior, se definió este grupo como Países emergentes.

En la segunda clase,los países que la conforman tienen un alto acceso a la electricidad tanto en zonas rurales como urbanas,con esto se infiere que tienen una buena condición de vida, pues estos países cuentan con un bajo porcentaje de exportaciones respecto al Producto Interno Bruto (PIB). Con lo anterior, está clase de países se clasificó como Países avanzados emergentes.

Para esta clase , los 46 países que la conforman tienen la media más alta en esperanza de vida, acceso a electricidad, acceso a combustible y tecnología que tienen las personas, y porcentaje de exportaciones realizadas en cada uno de los países con respecto a la media global. Por otra parte, la tasa de Mortalidad en hombres y mujeres, y la tasa de fecundidad en estos países están por debajo de los otros países.Todo lo anterior , se puede deber a que son países que invierten en educación , investigación , cuentan con los servicios basicos ,etc. Con estás características se dice que tienen un alto desarrollo y bienestar sostenible , es por esto , que esta clase se determinó como Países desarrollados.

Finalmente, la cuarta clase se conforma de los países con mayor población y con mayor cantidad de personas que viajan en avión dentro y fuera de cada país. Por esto, se clasificaron como Países más poblados.

Conclusiones

  • La técnica de ACP se usó con el objetivo de disminuir la dimensionalidad de un conjunto de datos y hallar las dimensiones más importantes que explican la variación que tienen los datos. Por lo que en este caso, se identificaron tres dimensiones principales que lograron alcanzar una cantidad significativa de la variabilidad de los datos, la cual fue de 64%, siendo el factor 1 el más importante.

  • Las correlaciones proporcionan información importante sobre las relaciones entre las variables y permiten un mejor entendimiento de los factores que pueden influir en los indicadores analizados.

  • Los países se presentaron respecto a una función de las dimensiones identificadas por el ACP. Ciertos países estaban bien representados por algunas dimensiones, mientras que otros tenían representaciones que eran opuestas.

  • Los clústeres pueden diferir entre ellos respecto a las variables consideradas. Esto muestra que hay desigualdades importantes, por lo que refiere al desarrollo socioeconómico, acceso a servicios básicos u otras características relevantes entre los grupos de países identificados.

  • El análisis de clústeres proporcionó datos importantes que fueron útiles en la segmentación y comprensión de diferentes grupos de países. Esta clase de segmentación puede ser funcional en el momento de identificar áreas de mejora o la comparación de grupos de países similares.

Referencias

¿Qué es el aprendizaje no supervisado? (s/f). Ibm.com. Recuperado el 4 de junio de 2023, de https://www.ibm.com/es-es/topics/unsupervised-learning

Barandica, O. J. (2022, julio 15). Unsupervised learning “credit card clients”. Orlando Joaqui Barandica. Recuperado el 4 de junio de 2023, de https://www.joaquibarandica.com/post/ansupervised/

Capítulo 11 Aprendizaje No supervisado. (2020, junio 26). Bookdown.org. Recuperado el 4 de junio de 2023, de https://bookdown.org/dparedesi/data-science-con-r/aprendizaje-no-supervisado.html

CodeCogs, Zyba Ltd. (s/f). Equation Editor for online mathematics. Codecogs.com. Recuperado el 5 de junio de 2023, de https://editor.codecogs.com/

Quiroa, M. (2020, junio 3). Esperanza de vida. Economipedia. Recuperado el 6 de junio de 2023, de https://economipedia.com/definiciones/esperanza-de-vida.html

DANE (2023, marzo 24). dane.gov.co. Recuperado el 6 de junio de 2023, de https://www.dane.gov.co/files/investigaciones/poblacion/cp_estadisticasvitales_IVtrim_2022pr.pdf

Demográficos, A. (2015, junio 25). Glosario de Indicadores Básicos de la OPS. Paho.org. Recuperado el 6 de junio de 2023, de https://www.paho.org/hq/dmdocuments/2015/glosario-spa-2014.pdf