Introducción

El presente trabajo se realiza en el marco del desarrollo del curso “Gestión de datos” de la Universidad del Valle, en el cual se aborda el tema del aprendizaje no supervisado, el cual ha sido guiado por el libro digital “Data Science con R” del autor: Mg. Daniel Paredes Inilupu del 2020-06-26 especificamente en el capítulo 11.

Lo que se propone a realizar en el presente trabajo es desarrollar un algoritmo de aprendizaje no supervisado en el cual la base de datos que ha sido suministrada por el profesor Orlando Joaqui Barandica se extrajo del Banco Mundial.

La aplicabilidad que tienen los algortimos de aprendizaje no supervisado se relacionan con el agrupamiento o clustering de datos, es decir, se tienen unos sujetos con unas variables que estan relacionadas con estos sujetos y el algoritmo permite agrupar los sujetos según la distancia entre las variables. El algortimo permitirá obtener subgrupos homogéneos los cuales comparten caracteristicas en común.

A continuación se muestran las bases de datos y la limpieza que se realizó hasta obtener la base de datos final con la que se trabajará el algoritmo:

Base original

Aquí se presenta la base de datos original, la cual como se puede observar en la siguiente tabla tiene valores vacios, los vacios se presentan como columnas o filas que carecen de datos y esto hace que la calidad del análisis que se pueda realizar sea menor.

Conteo de vacíos

Con base en lo expuesto anteriormente, se busca identificar tanto las columnas como las filas que presenten menos valores vacíos. Con este propósito, se presenta la siguiente tabla, que muestra la cantidad de valores vacíos en cada año según la variable analizada. Además, se realiza una suma en la última columna denominada “vacios_X_año”, la cual proporciona una visualización de la cantidad de valores vacíos para el año en revisión.

Selección de año
Selección de año
Año_seleccionado Faltantes
A2000 1333

En la tabla se muestra cual fue el año seleccionado y la cantidad de faltantes en dicho año, el cual es el año con menos valores vacíos.

Faltantes en el año selecionado

Se muestran las cantidades de vacíos por columnas que tiene el año seleccionado para posteriormente ser eliminadas con el fin de obtener una base de datos con la mayor cantidad de individuos posible.

Las variables cuya cantidad de vacíos son mayores a 80 fueron seleccionadas para ser eliminadas y se muestran en la siguiente tabla:

Columnas a eliminar
x
AG.AGR.TRAC.NO
EG.USE.ELEC.KH.PC
GC.XPN.TOTL.GD.ZS
SI.POV.GINI
EN.ATM.HFCG.KT.CE
SI.POV.MDIM
Base de datos final

Se presenta la base de datos limpia con los datos definitivos para realizar el código, tiene un total de 16 columnas y 118 filas, dando como resultado la siguiente base de datos:

Descripción de variables

VAR 1

Acceso a la electricidad (% de la población)

Este indicador muestra la proporción de la población de un país o región que tiene acceso a la electricidad. Es una medida importante del desarrollo y el nivel de infraestructura eléctrica de un lugar.

Media SD Mínimo Mediana Máximo
79.84135 29.81003 3.179881 98.90411 100
VAR 2

Acceso a la electricidad, rural (% de la población rural)

Este indicador se refiere al porcentaje de la población rural que tiene acceso a la electricidad. Es especialmente relevante porque el acceso a la electricidad en áreas rurales puede ser más limitado debido a la falta de infraestructura y recursos.

Media SD Mínimo Mediana Máximo
71.86877 37.18915 1.291766 97.2097 100
VAR 3

Acceso a combustibles y tecnologías limpias para cocinar (% de la población)

Este indicador muestra la proporción de la población que utiliza combustibles y tecnologías limpias para cocinar, en lugar de métodos tradicionales más contaminantes. Es una medida importante para evaluar la calidad de vida y la salud de la población.

Media SD Mínimo Mediana Máximo
67.13017 36.80205 0.5 86.1 100
VAR 4

Transporte aéreo, pasajeros transportados

Este indicador mide la cantidad de pasajeros que son transportados por vía aérea. Es una medida de la actividad y el alcance del transporte aéreo en un lugar.

Media SD Mínimo Mediana Máximo
13711169 62656637 34425 1373683 665327414
VAR 5

Empleadores, total (% del empleo total) (estimación modelada de la OIT)

Este indicador se refiere al porcentaje de empleadores en relación con el empleo total en una economía. Representa la proporción de personas que son empleadores o propietarios de negocios en comparación con el total de empleados.

Media SD Mínimo Mediana Máximo
3.494436 2.552295 0.1104269 3.070979 17.12297
VAR 6

Exportaciones de bienes y servicios (% del PIB)

Este indicador representa el valor de las exportaciones de bienes y servicios en relación con el Producto Interno Bruto (PIB) de un país. Muestra la importancia de las exportaciones en la economía y su contribución al crecimiento económico.

Media SD Mínimo Mediana Máximo
41.45731 27.7884 8.844717 36.06971 188.3509
VAR 7

Tasa de fertilidad, total (nacimientos por mujer)

Este indicador muestra el promedio de nacimientos que tiene una mujer a lo largo de su vida. Es un indicador demográfico importante para comprender la dinámica de la población y su crecimiento.

Media SD Mínimo Mediana Máximo
2.81061 1.535062 1.116 2.243 7.249
VAR 8

Superficie forestal (% de la superficie terrestre)

Este indicador muestra el porcentaje de la superficie terrestre cubierta por bosques y áreas forestales. Es una medida de la preservación y conservación de los recursos forestales.

Media SD Mínimo Mediana Máximo
32.21947 22.08007 0.0594806 30.79949 94.30643
VAR 9

Crecimiento del PIB (% anual)

Este indicador muestra el cambio porcentual en el Producto Interno Bruto (PIB) de un país o región en un año determinado. Es una medida clave del crecimiento económico y refleja la expansión o contracción de la actividad económica en un período de tiempo.

Media SD Mínimo Mediana Máximo
4.341292 3.199233 -3.918026 4.125412 19.68179
VAR 10

Inflación, precios al consumidor (% anual)

La inflación es el aumento generalizado y sostenido de los precios de bienes y servicios en una economía durante un período de tiempo. Se expresa como un porcentaje anual y se calcula mediante la comparación de los precios de un conjunto de bienes y servicios a lo largo del tiempo.

Media SD Mínimo Mediana Máximo
10.91251 34.92247 -3.846154 3.412769 324.9969
VAR 11

Esperanza de vida al nacer, total (años)

Este indicador representa el promedio de años que se espera que viva una persona al nacer en un país o región. Es una medida de la salud y el bienestar de la población, y está influenciada por factores como la atención médica, la calidad de vida y los avances en la medicina.

Media SD Mínimo Mediana Máximo
68.91813 9.00052 45.231 71.05371 81.0761
VAR 12

Tasa de recuento de la pobreza multidimensional (% de la población total)

Este indicador mide el porcentaje de la población total que se encuentra en situación de pobreza multidimensional. La pobreza multidimensional se refiere a la privación en múltiples aspectos de la vida, como la educación, la salud, el acceso a servicios básicos y las condiciones de vida.

Media SD Mínimo Mediana Máximo
153.0623 113.2974 47.678 114.849 554.028
VAR 13

Tasa de mortalidad, adultos, mujeres (por cada 1000 mujeres adultas)

Este indicador muestra el número de muertes de mujeres adultas por cada 1000 mujeres en un período de tiempo determinado. Ayuda a evaluar la salud y el bienestar de la población femenina.

Media SD Mínimo Mediana Máximo
235.3788 120.4735 87.232 216.77 652.02
VAR 14

Tasa de mortalidad, adultos, hombres (por cada 1000 hombres adultos)

Este indicador es similar al anterior, pero se refiere a la tasa de mortalidad de hombres adultos por cada 1000 hombres en un período de tiempo determinado. Información Proporción sobre la salud y el bienestar de la población masculina.

Media SD Mínimo Mediana Máximo
46811753 154427124 102603 9797712 1262645000

Metodología

K-means es un algoritmo de clustering ampliamente utilizado en el aprendizaje no supervisado. El objetivo del algoritmo K-means es agrupar un conjunto de datos en K grupos diferentes, donde K es un número predeterminado especificado por el usuario. Cada grupo, también conocido como clúster, está representado por su centroide, que es el punto medio de todos los puntos asignados a ese clúster.

El algoritmo K-means funciona de la siguiente manera:

Selecciona aleatoriamente K centroides iniciales en el espacio de características. Asigna cada punto de datos al centroide más cercano, utilizando una medida de distancia, como la distancia euclidiana. Recalcula los centroides para cada clúster como el punto medio de todos los puntos asignados a ese clúster. Repite los pasos 2 y 3 hasta que los centroides no cambien significativamente o se alcance un número máximo de iteraciones. Una vez que el algoritmo K-means converge, se obtiene una partición de los datos en K clústeres, donde cada punto de datos está asignado a uno de los clústeres. Este algoritmo es ampliamente utilizado en diversas aplicaciones, como la segmentación de clientes, análisis de redes sociales, procesamiento de imágenes y muchas más.

Primero, estandarizamos los datos dividiendo cada variable por su desviación estándar, lo cual nos permite obtener los datos estandarizados por variable. A partir de un gráfico, podemos observar el porcentaje de explicación de cada factor en función del porcentaje de variabilidad de cada variable. Según estos resultados, podemos concluir que el FACTOR 1 puede explicarse en más del 40% de las especificaciones de las variables. Por otro lado, el FACTOR 2 no alcanza a explicarse en un 15% por sí solo, pero al combinar ambos factores, logramos una explicación conjunta de aproximadamente el 56% de las variables.

Datos en el plano

En este gráfico, se utilizó el coseno cuadrado para determinar la calidad de la representación de cada individuo en los factores seleccionados. El objetivo es mostrar de manera visual la distribución de los individuos en relación a los factores representados en los ejes (Eje X = Factor1, Eje Y = Factor2). Los individuos se representan mediante diferentes colores: el ROJO indica una representación óptima, el AMARILLO indica una representación menos adecuada, y el AZUL indica una representación deficiente por parte de los factores. La posición de cada país en el gráfico refleja su nivel de representación. Aquellos países ubicados en la periferia del gráfico son los mejor representados, mientras que los que se encuentran más cercanos al punto (0,0) son los peor representados, como se evidencia por su color AZUL. Por ejemplo, los países Georgia, El Salvador y Colombia se encuentran entre los peor representados por los factores, como indica su ubicación y el color AZUL en el gráfico.

En este gráfico, se intentó representar las variables e individuos con el fin de apreciar cuáles están mejor representados y cómo se relacionan entre sí. En el caso de la variable SP.POP.TOTL, que representa el total de la población de cada país, podemos observar que China es uno de los países con mayor población. Al notar que su vector apunta hacia abajo, indica que a medida que la población total aumenta, la calidad de representación del país disminuye. Por otro lado, la variable SP.DYN.LEOO.IN, que representa la esperanza de vida al nacer en cada país, se dirige hacia el eje x negativo. Esto significa que cuanto más cerca estén los países de la parte izquierda del gráfico y más cerca estén del eje x, mejor se explica el FACTOR 1. Además, dependiendo de qué tan cerca estén del punto (0,0), se puede determinar si la variable está mejor o peor representada. En el caso de los países Grecia, Dinamarca e Islandia, son aquellos que presentan una mejor representación del FACTOR 1 con este tipo de variable. Es importante destacar que estos análisis se basan en la posición y dirección de los vectores en el gráfico, lo cual proporciona información sobre la relación entre las variables y los factores representados.

Resultados por Variables

Con esta línea de código se selecciona los dos primeros factores para tener en la tabla de mayor a menor por cada factor que variable es mejor explicada o contribuye a la realización de los factores.

Resultados individuales

Y con esta línea de código se selecciona los dos primeros factores, pero esta vez mostrado por cada individuo o país que este representa y así encontrar el mayor o menor para la realización de los factores

En este gráfico se presentan todos los países de la tabla seleccionada, incluyendo aquellos utilizados como datos de entrenamiento y los nuevos países suministrados como datos de prueba. Utilizando el modelo entrenado, se incorporan los datos de prueba para determinar su ubicación en el gráfico. A simple vista, se puede observar claramente que Estados Unidos es el país mejor representado por ambos factores. Se encuentra en la parte inferior izquierda del gráfico, alejado del punto (0,0). Esto indica que tiene una alta calidad de representación en relación a los factores considerados.

Gráfico de Cluster a seleccionar

fig.1 Gráfico de Cluster a seleccionar fig.2 Gráfico de Cluster a selecccionar

Se selecciona que nos muestre solo 2 ejes como factores para hacer los clústeres y se suministra que se generen 4 clúster o grupos de países.

Gráfico de Cluster y paises

fig.3 Gráfico de Cluster y paises

Finalmente, en este gráfico se representan todos los países de la base de datos seleccionada. Se pueden observar los puntos agrupados por cada clúster y la dispersión de los puntos en el gráfico. Esta representación visual nos permite apreciar la distribución de los países y la variabilidad existente entre ellos.

Gráfico de Cluster, Individuos y Nuevos individuos

fig.4 Gráfico de Cluster, Individuos y Nuevos individuos

En este gráfico se representan los cuatro grupos seleccionados para los países. Los puntos corresponden a los países que se encuentran dentro de las elipses que están agrupadas. Además, se incluyen los puntos correspondientes a los nuevos países introducidos como datos de prueba en el modelo. Esta representación visual nos brinda una forma más clara de entender la distribución de los países en relación a los FACTORES 1 y 2, así como la capacidad del modelo para generalizar y manejar nuevos datos como prueba. Notese que para el país Estados unidos se coloca otro cluster por separado, ya que se decidio que este es un individuo atipico entonces no pertenece del todo a los demas grupos de paises.

Conclusión

Se realizó un análisis de componentes principales (PCA) como método eficaz para reducir la dimensionalidad de los datos que en el caso de la base de datos utilizada es 18, número amplio de variables que, sin la adecuada aplicación de la técnica, podría presentar problemas para abordar el modelo.

Fue posible aplicar los conocimientos adquiridos tanto en la clase como en la lectura del capítulo nombrado anteriormente, los cuales son útiles para afrontar situaciones donde se requieran agrupar cantidades significativas de datos, como sucede en las áreas de las Ciencias sociales, Minería de datos, Medica y Genética, Marketing, Internet de las cosas, entre muchas otras ramas del conocimiento.