En el informe correspondiente, se llevará a cabo un análisis no supervisado que se fundamenta en datos sin etiquetas. En este caso, el algoritmo se encargará de identificar características comunes con el fin de agrupar los datos, siendo el clustering y la técnica ACP sus aplicaciones principales.
En el contexto de este tipo de aprendizaje no supervisado, se realizará el proceso de segmentación de países de una base de datos, en el que enfrentaremos el desafío de determinar cuántos segmentos crear y descubrir subgrupos con características relacionadas. Para abordar esto, se utilizará uno de los algoritmos más utilizados para el agrupamiento de datos: el algoritmo jerárquico. Cabe destacar, que esta técnica de agrupación jerárquica, organiza los datos con el objetivo de determinar los clusters. Este enfoque se basa en la distancia entre los puntos para mostrar posibles combinaciones. A medida que se avanza en el procedimiento, los puntos se agrupan sucesivamente en clústeres, formando una estructura denominada dendrograma.
En base a lo anterior, el objetivo es descubrir patrones en los datos sin la necesidad de utilizar etiquetas, para crear un grupo donde se puede visualizar claramente la jerarquía, facilitando su interpretación. Es decir, mediante la aplicación del análisis multivariado, se explora la estructura compleja de los datos y descubrimos relaciones que no se evidencian a simple vista. Por otra parte, con el análisis de correlación se permite cuantificar la magnitud y dirección de las relaciones entre las variables, para poder identificar el impacto significativo en la segmentación.Para comenzar, se cargó la base de datos suministrada, la cual contiene información recopilada de diferentes países a lo largo de varios años, desde 1990 hasta 2022. En este caso, para el modelo que se desarrolló, sólo se tomaron en cuenta los datos correspondientes al año 2015. Una vez cargada la base de datos, se procedió a filtrar por año, creando así una nueva base de datos.
Posteriormente, se llevó a cabo un proceso de depuración de la base de datos, en el cual se eliminaron algunas columnas que tenían poca o ninguna información. Luego, se eliminaron los datos faltantes y las filas que no estaban relacionadas con países. Con estas acciones, se obtuvo finalmente una base de datos compuesta por 106 países y 15 características. Debido a que las columnas de países y año estaban en formato de caracteres, se procedió a renombrar los países utilizando la función ‘rownames’, mientras que la columna de año fue eliminada.
La técnica utilizada para la creación del modelo fue el Análisis de Componentes Principales (ACP), que es una técnica de aprendizaje no supervisado. Se aplica a variables cuantitativas con el objetivo de reducir la dimensionalidad de un conjunto de datos, creando un nuevo conjunto de variables llamadas componentes principales. Estos componentes principales buscan explicar de la mejor manera posible la variación de los datos.
Cabe destacar, que el ACP puede ayudar a eliminar la información redundante de los datos, reducir las variables con ruido y simplificar la estructura de los datos. Además, las componentes principales, también conocidas como factores, se obtienen a través de la siguiente combinación lineal de las variables originales.
Un paso importante consiste en estandarizar las variables antes de aplicar el ACP, de manera que tengan una desviación estándar igual a 1. Por defecto, la función prcomp() central de las variables, lo cual implica que su media sea igual a 0. Sin embargo, al utilizar el argumento scale = TRUE, indica que se desea escalar las variables para que tengan una desviación estándar igual a 1.
Para visualizar la clasificación del conjunto de datos en el modelo, se utiliza el método de Ward. Este método es un criterio aplicado al Análisis de clúster jerárquico, desarrollado originalmente por Joe H. Ward. El método de Ward considera todos los clústeres y el algoritmo calcula la suma de las distancias al cuadrado dentro de cada uno de ellos. Luego, los clústeres se fusionan de forma que se minimicen estas distancias.
En el método de Varianza Mínima de Ward, las distancias iniciales entre los clústeres se definen como el cuadrado de la distancia euclidiana entre los puntos:
Dimensión 1:
Accs.electr (% de la población): Representa el porcentaje de personas que pueden acceder a la electricidad en sus casas o distintos tipos de comunidades. Esta información se obtiene basados en la industria, encuestas a lo largo del país, fuentes externas a las nacionales.
Accs.electr.ru (% de la población rural):Hace referencia al porcentaje de personas que viven en zonas rurales que tienen la posibilidad de utilizar energía en sus casas o diferentes tipos de comunidades.
Accs.com.tecn.limp (% de la población): Alude al porcentaje de personas que tienen acceso a combustibles que se encuentran limpio y tecnologías en el mismo estado, en otras palabras, habla del porcentaje de personas que utilizan tecnologías y combustibles no contaminantes con el objetivo de preparar sus alimentos.
T.Fecundidad (nacimientos por mujer): Esta variable da a conocer cuántos hijos podría llegar a tener en promedio una mujer a lo largo de su vida reproductiva, basándose en las tasas de fecundidad por edad que hay en un año en específico, la cual nos da a conocer el número de hijos que una mujer llegaría a tener en caso de que viviera hasta el final de sus años fértiles.
T.Mortalidad.Adul.M (por 1.000 mujeres adultas): Describe la tasa de mortalidad en la población de adultos mujeres. Es una medida de la media que nos expone que tan probable es que una mujer muera durante las edades de 15 a 60 años. Cabe resaltar que se calcula con base a la tasa de mortalidad específica por años. Un dato importante de mencionar, es que esta medida se hace con la estimación del número de mujeres que se espera que fallezcan por cada mil.
T.Mortalidad.Adul.H (por 1.000 adultos masculinos): Resalta la tasa de mortalidad en la población de adultos hombres. Es una medida de la media que expone que tan probable es que un hombre muera durante las edades de 15 a 60 años. Cabe resaltar, que se calcula con base a la tasa de mortalidad específica por años. Un dato importante de mencionar, es que la medida se hace con la estimación del número de hombres que se espera que fallezcan por cada mil.
Esp.Vida (años): Se trata de un indicador, el cual dice el número de años que se espera que viva una persona desde el momento que es dada a luz. Por supuesto, esta información se basa en los patrones de mortalidad que tiene cada año, por lo que se trata del promedio de la cantidad de años de vida que se espera que una persona cumpla.
Dimensión 2:
Poblacion.Total: Esta variable hace referencia a la cantidad total de personas que viven en un país o en una región. Esta medida se hace con base a definición de población de facto, la cual quiere decir que se cuentan todas las personas que vivan en el área, sin importar cual puede ser su estatus legal o su ciudadanía. En este caso, se trata de estimaciones que se hacen con el objetivo de saber que número de personas vivirán en una zona determinada para mitad de año.
Trans.aereo: Hace referencia a un indicador que se centra en el transporte aéreo de pasajeros, lo que nos quiere decir el número de personas que viajan en avión, sin importar si dentro o fuera del país, pues se suman todos los pasajeros de las aerolíneas que estén inscritas.
Crecim.PIB (% anual): La variable hace referencia al crecimiento de manera anual que tiene el producto interno bruto (PIB) en un país. Como ya es bien sabido, el PIB es la medida del valor total de los bienes y servicios que son producidos en una economía durante un periodo de tiempo determinado. En este caso, esta medida hace referencia al año 2015.
Dimensión 3:
Crecim.PIB (% anual): Como se mencionó anteriormente, la variable se refiere al crecimiento anual del Producto Interno Bruto (PIB) de un país en el año 2015. El PIB es la medida del valor total de bienes y servicios producidos en una economía durante un período específico.
Expor.BYS (% del PIB): Se refiere a la exportación de bienes y servicios como un porcentaje del producto interno bruto (PIB) de un país. En otras palabras es: que parte del PIB es gastada en bienes y servicios. Lo anteriormente mencionado es expresado de manera porcentual.
Superficie.forestal (% de la superficie terrestre): Dice qué porcentaje de la tierra total es la superficie terrestre. Es decir, expresa la superficie forestal como un porcentaje de la superficie terrestre de un país. Por esta razón, se puede decir que ayuda a entender cuánto espacio de un país está comprendido por el bosque.
## corrplot 0.92 loaded
En el gráfico anterior se muestra un diagrama de barras que representa las dimensiones y el porcentaje de explicación de todas las variables. Podemos observar que la dimensión uno explica más del 40% del total de la variabilidad, lo cual la convierte en la dimensión más importante en términos de explicación. Por otro lado, la segunda dimensión explica un poco más del 10% de la variabilidad total, es de notar en este gráfico que la regla del codo indicaría que se debe de utilizar solo dos factores, pero para asegurar la cantidad de factores a utilizar se analizará cuánto porcentaje explica cada dimensión.
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 6.69029776 44.6019850 44.60199
## Dim.2 1.58396687 10.5597791 55.16176
## Dim.3 1.31408643 8.7605762 63.92234
## Dim.4 1.21536958 8.1024639 72.02480
## Dim.5 0.81676827 5.4451218 77.46993
## Dim.6 0.72791262 4.8527508 82.32268
## Dim.7 0.65070188 4.3380125 86.66069
## Dim.8 0.61126210 4.0750807 90.73577
## Dim.9 0.48348691 3.2232461 93.95902
## Dim.10 0.42452191 2.8301461 96.78916
## Dim.11 0.21024310 1.4016207 98.19078
## Dim.12 0.15970036 1.0646690 99.25545
## Dim.13 0.05549099 0.3699400 99.62539
## Dim.14 0.03533385 0.2355590 99.86095
## Dim.15 0.02085738 0.1390492 100.00000
Con la tabla anterior, se observa el porcentaje explicado por cada
dimensión, la regla del codo recomienda 2 dimensiones obteniendo un 55%
de explicación en total, pero se quiere poder explicar un 60%. Por eso,
se utilizarán 3 dimensiones para poder explicar más porcentaje con menos
cantidad de dimensiones.
En el gráfico anterior se presentan los países que están siendo explicados por cada dimensión. Los países que aparecen en color rojo están muy bien explicados, mientras que aquellos en color azul tienen un nivel bajo de explicación. Por ejemplo, los siguientes países como Etiopía, Kenia, Tanzania, Togo, Zambia y Uganda están muy bien explicados por la dimensión uno. Por otro lado, países como Italia, Francia, Chipre y Malta también están explicados por la dimensión uno, pero de manera opuesta a los países mencionados anteriormente. Además, India y Estados Unidos están siendo explicados por la dimensión dos.
El gráfico anterior refleja la contribución de las variables a los factores, ya que los factores se interpretan por medio de las variables. Cabe destacar, que las variables que están de azul claro indica que están muy bien explicadas por la dimensión uno o dos, mientras que el azul oscuro indica que tienen una representación muy baja. A modo de ejemplo, podemos observar que las variables T.Mortalidad.Adul.H, T.Mortalidad.Adul.M y T.Fecundidad están siendo bien explicadas por la dimensión uno. Del mismo modo, las variables Accs.com.tecn.limp, Esp.Vida, Accs.electr y Accs.electr.ru también están siendo explicadas por la dimensión uno, pero de manera opuesta a las variables anteriores. Por otra parte, se puede apreciar que las variables Poblacion.Total e Trans.aereo están siendo ampliamente captadas por la dimensión dos.
Estas gráficas dan una idea de cuales son las variables y países más representativos para las dimensiones, pero más adelante se dirá que tan explicadas está siendo cada variable por cada dimensión y también por cada país por cada dimensión.
En el gráfico anterior se puede observar que las variables T.Mortalidad.Adul.H, T.Mortalidad.Adul.M y T.Fecundidad explican mejor a los siguientes países: Etiopía, Kenya, Tanzania, Togo, Zambia y Uganda. Por otro lado, las variables Accs.com.tecn.limp, Esp.Vida, Accs.electr y Accs.electr.ru explican mejor a los países Italia, Francia, Cyprus y Malta. Sin embargo, para comprender mejor y determinar si las representan en mayor o menor medida, es necesario consultar la tabla de datos.
Para la dimensión uno, se puede analizar el país Uganda en relación a las variables T.Mortalidad.Adul.M y Accs.electr.ru, las cuales son opuestas. En este caso, Uganda tiene un valor de 280.116 para la variable T.Mortalidad.Adul.M y 9.046 para la variable Accs.electr.ru. Esto indica que los países ubicados en la parte izquierda del gráfico tienen valores más altos en las variables T.Mortalidad.Adul.H, T.Mortalidad.Adul.M y T.Fecundidad, mientras que tienen valores más bajos en las variables Accs.com.tecn.limp, Esp.Vida, Accs.electr y Accs.electr.ru. Siguiendo esta lógica, se puede deducir que los países ubicados en la parte derecha del gráfico tienen valores más altos en las variables Accs.com.tecn.limp, Esp.Vida, Accs.electr y Accs.electr.ru, pero valores más bajos en las variables T.Mortalidad.Adul.H, T.Mortalidad.Adul.M y T.Fecundidad.
Para confirmar esto, se puede observar el caso de Italia, que tiene un valor de 38.612 en la variable T.Mortalidad.Adul.M y 100 en la variable Accs.electr.ru.
Al realizar el análisis con la dimensión dos, se observó el caso de India en relación a las variables Poblacion.Total y Superficie.forestal, las cuales son variables opuestas. India tiene un valor de 1,322,866,505 para la variable Poblacion.Total y 23.8 para la variable Superficie.forestal. Esto significa que países como India, Estados Unidos e Indonesia tienen valores altos en las variables situadas en la parte de arriba del plano y valores más bajos en las variables en la parte de abajo.Ya realizado el análisis de la dimensión 1 y 2, se procede a analizar sólo la dimensión 3, para hacer esto se grafica la dimensión 1 con la 3, pero solo se hablara de la dimensión 3, pues la dimensión 1 fue explicada.
En el gráfico se puede apreciar que hay pocos países que están siendo representados por la dimensión 3. Entre estos países se encuentran Brasil y Estados Unidos. Además, se observa que Irlanda también está representada por la dimensión 3, pero en dirección opuesta en comparación con los otros países.
En el gráfico anterior, se puede notar que la variable Crecim.PIB está siendo muy bien explicada por la dimensión 3. Esto implica que esta variable muestra una variabilidad significativa y consistente en relación con los demás países en esa dimensión específica. Además, la variable Expor.BYS también está siendo explicada por la dimensión 3, aunque en menor medida en comparación con la variable anterior, esto indica que también presentan cierta variabilidad relacionada con esta dimensión. Sin embargo, es importante destacar que la dimensión 3 muestra una relación opuesta con la variable Superficie.forestal.
## Dim.1 Dim.2 Dim.3
## Accs.electr 12.165777118 0.20600486 1.296564e+00
## Accs.electr.ru 12.539339476 1.12579956 1.796089e-01
## Accs.comb.tecn.limp 11.704160420 0.02068065 8.417618e-01
## Trans.aereo 0.672174048 24.55797871 5.382631e+00
## Empleadores.t 1.468780877 0.78512470 6.549527e+00
## Gastos 5.047856762 7.52674325 3.070654e-01
## Expor.BYS 2.991147795 5.34410974 1.982057e+01
## T.Fecundidad 11.756056601 0.12605003 1.036072e-01
## Superficie.forestal 0.038002853 7.50914772 1.392358e+01
## Crecim.PIB 0.004162078 13.13219704 4.260782e+01
## Inflacion 3.823644634 3.64470323 4.802386e+00
## Esp.Vida 13.534209691 0.09885949 1.024244e-01
## T.Mortalidad.Adul.M 12.961348601 0.21811810 1.807258e-04
## T.Mortalidad.Adul.H 11.266138050 0.63684707 4.027460e-01
## Poblacion.Total 0.027200996 35.06763587 3.679532e+00
La tabla anterior muestra la significancia de cada variable dentro de las dimensiones, es decir, lo que contribuye cada variable para la creación de cada dimensión.
Para nombrar cada dimensión, se escogieron las variables con mayor porcentaje de significancia en la dimensión.El gráfico presentado en un dendrograma, se puede observar la clasificación de los países, se decidió separar los países en tres grupos para que quedara lo más equitativamente posible, porque al escoger cuatro grupos quedaría una pareja sola en un grupo y si se escogen dos grupos quedarían muchos países en un solo grupo.
Al tener los grupos se creó una nueva base de datos donde se agrega una columna definiendo en qué grupo está cada país:
## Cluster Accs.electr Accs.electr.ru Accs.comb.tecn.limp Trans.aereo
## Angola 1 42 3.815067 47.2 1244491
## Australia 3 100 100.000000 100.0 69779346
## Austria 3 100 100.000000 100.0 14718641
## Azerbaijan 2 100 100.000000 95.9 1803112
## Bahamas, The 2 100 100.000000 100.0 900028
## Empleadores.t Gastos Expor.BYS T.Fecundidad Superficie.forestal
## Angola 4.769471 20.81883 29.75460 5.774 55.65308
## Australia 6.205091 26.77772 20.06807 1.814 17.32482
## Austria 4.509406 46.26845 53.08906 1.490 47.03333
## Azerbaijan 12.418920 24.78871 37.79478 1.940 13.03953
## Bahamas, The 2.855591 16.03606 37.00419 1.576 50.93506
## Crecim.PIB Inflacion Esp.Vida T.Mortalidad.Adul.M
## Angola 0.9400000 9.3538397 60.65500 229.953
## Australia 2.1527359 1.5083667 82.40000 45.231
## Austria 1.0145016 0.8965633 81.19024 44.687
## Azerbaijan 1.0939759 4.0276857 71.45100 93.653
## Bahamas, The 0.9968008 1.8614830 73.10400 134.412
## T.Mortalidad.Adul.H Poblacion.Total
## Angola 321.296 28127721
## Australia 78.367 23815995
## Austria 84.688 8642699
## Azerbaijan 194.524 9649341
## Bahamas, The 231.769 392697
A continuación se muestran los países y su respectiva separación en cuatro grupos, en negro los países que conforman el grupo uno, con rojo los países en el grupo dos, con verde los países que están contenidos en el grupo tres y en azul los países en el grupo cuatro. Este gráfico es el mismo que se presento en el análisis multivariado de los individuos, pero cabe resaltar que tiene valores al lado opuesto de las gráficas. Es decir, los países que antes estaban en la parte de abajo ahora van a estar en la parte de arriba de la gráfica y los países que estaban en el lado derecho ahora van a estar en el lado izquierdo y viceversa.
PC1 frente a PC2
El grupo uno, dos y tres están mejor representados por la dimensión 1 y el grupo cuatro por la dimensión 2.
PC1 frente a PC3El grupo uno, dos y tres también son representados por la dimensión 3.
## class: 1
## Test.Value Class.Mean Frequency Global.Mean
## T.Fecundidad 8.429 4.337 23 2.509
## T.Mortalidad.Adul.M 8.250 235.585 23 115.662
## T.Mortalidad.Adul.H 6.970 306.520 23 186.484
## Inflacion 3.418 5.101 23 2.672
## Empleadores.t -2.445 2.569 23 3.608
## Expor.BYS -2.486 28.884 23 43.147
## Gastos -3.718 18.424 23 25.699
## Accs.comb.tecn.limp -7.767 23.291 23 72.215
## Esp.Vida -7.906 63.125 23 73.347
## Accs.electr -9.268 47.589 23 86.530
## Accs.electr.ru -9.616 23.271 23 79.738
## ------------------------------------------------------------
## class: 2
## Test.Value Class.Mean Frequency Global.Mean
## Inflacion 2.939 4.238 35 2.672
## Accs.electr 2.392 94.066 35 86.530
## Accs.electr.ru 2.260 89.688 35 79.738
## Gastos -2.600 21.885 35 25.699
## Expor.BYS -2.713 31.475 35 43.147
## ------------------------------------------------------------
## class: 3
## Test.Value Class.Mean Frequency Global.Mean
## Esp.Vida 7.943 79.522 46 73.347
## Accs.comb.tecn.limp 6.525 96.927 46 72.215
## Gastos 5.814 32.537 46 25.699
## Accs.electr.ru 5.706 99.881 46 79.738
## Accs.electr 5.310 99.943 46 86.530
## Expor.BYS 4.982 60.334 46 43.147
## Inflacion -5.616 0.272 46 2.672
## T.Fecundidad -6.569 1.652 46 2.509
## T.Mortalidad.Adul.M -6.945 54.963 46 115.662
## T.Mortalidad.Adul.H -7.325 110.640 46 186.484
## ------------------------------------------------------------
## class: 4
## Test.Value Class.Mean Frequency Global.Mean
## Poblacion.Total 8.240 821802750 2 41967270
## Trans.aereo 7.333 448574930 2 26008809
Para esta clase , los 46 países que la conforman tienen la media más alta en esperanza de vida, acceso a electricidad, acceso a combustible y tecnología que tienen las personas, y porcentaje de exportaciones realizadas en cada uno de los países con respecto a la media global. Por otra parte, la tasa de Mortalidad en hombres y mujeres, y la tasa de fecundidad en estos países están por debajo de los otros países.Todo lo anterior , se puede deber a que son países que invierten en educación , investigación , cuentan con los servicios basicos ,etc. Con estás características se dice que tienen un alto desarrollo y bienestar sostenible , es por esto , que esta clase se determinó como Países desarrollados.
La técnica de ACP se usó con el objetivo de disminuir la dimensionalidad de un conjunto de datos y hallar las dimensiones más importantes que explican la variación que tienen los datos. Por lo que en este caso, se identificaron tres dimensiones principales que lograron alcanzar una cantidad significativa de la variabilidad de los datos, la cual fue de 64%, siendo el factor 1 el más importante.
Las correlaciones proporcionan información importante sobre las relaciones entre las variables y permiten un mejor entendimiento de los factores que pueden influir en los indicadores analizados.
Los países se presentaron respecto a una función de las dimensiones identificadas por el ACP. Ciertos países estaban bien representados por algunas dimensiones, mientras que otros tenían representaciones que eran opuestas.
Los clústeres pueden diferir entre ellos respecto a las variables consideradas. Esto muestra que hay desigualdades importantes, por lo que refiere al desarrollo socioeconómico, acceso a servicios básicos u otras características relevantes entre los grupos de países identificados.
El análisis de clústeres proporcionó datos importantes que fueron útiles en la segmentación y comprensión de diferentes grupos de países. Esta clase de segmentación puede ser funcional en el momento de identificar áreas de mejora o la comparación de grupos de países similares.
¿Qué es el aprendizaje no supervisado? (s/f). Ibm.com. Recuperado el 4 de junio de 2023, de https://www.ibm.com/es-es/topics/unsupervised-learning
Barandica, O. J. (2022, julio 15). Unsupervised learning “credit card clients”. Orlando Joaqui Barandica. Recuperado el 4 de junio de 2023, de https://www.joaquibarandica.com/post/ansupervised/
Capítulo 11 Aprendizaje No supervisado. (2020, junio 26). Bookdown.org. Recuperado el 4 de junio de 2023, de https://bookdown.org/dparedesi/data-science-con-r/aprendizaje-no-supervisado.html
CodeCogs, Zyba Ltd. (s/f). Equation Editor for online mathematics. Codecogs.com. Recuperado el 5 de junio de 2023, de https://editor.codecogs.com/
Quiroa, M. (2020, junio 3). Esperanza de vida. Economipedia. Recuperado el 6 de junio de 2023, de https://economipedia.com/definiciones/esperanza-de-vida.html
DANE (2023, marzo 24). dane.gov.co. Recuperado el 6 de junio de 2023, de https://www.dane.gov.co/files/investigaciones/poblacion/cp_estadisticasvitales_IVtrim_2022pr.pdf
Demográficos, A. (2015, junio 25). Glosario de Indicadores Básicos de la OPS. Paho.org. Recuperado el 6 de junio de 2023, de https://www.paho.org/hq/dmdocuments/2015/glosario-spa-2014.pdf