Introducción

El presente trabajo se realiza en el marco del desarrollo del curso “Gestión de datos” de la Universidad del Valle, en el cual se aborda el tema del aprendizaje no supervisado, el cual ha sido guiado por el libro digital “Data Science con R” del autor: Mg. Daniel Paredes Inilupu del 2020-06-26 especificamente en el capítulo 11.

Lo que se propone a realizar en el presente trabajo es desarrollar un algoritmo de aprendizaje no supervisado en el cual la base de datos que ha sido suministrada por el profesor Orlando Joaqui Barandica se extrajo del Banco Mundial.

La aplicabilidad que tienen los algortimos de aprendizaje no supervisado se relacionan con el agrupamiento o clustering de datos, es decir, se tienen unos sujetos con unas variables que estan relacionadas con estos sujetos y el algoritmo permite agrupar los sujetos según la distancia entre las variables. El algortimo permitirá obtener subgrupos homogéneos los cuales comparten caracteristicas en común.

A continuación se muestran las bases de datos y la limpieza que se realizó hasta obtener la base de datos final con la que se trabajará el algoritmo:

Base original

Aquí se presenta la base de datos original, la cual como se puede observar en la siguiente tabla tiene valores vacios, los vacios se presentan como columnas o filas que carecen de datos y esto hace que la calidad del análisis que se pueda realizar sea menor.

Conteo de vacíos

Con base en lo expuesto anteriormente, se busca identificar tanto las columnas como las filas que presenten menos valores vacíos. Con este propósito, se presenta la siguiente tabla, que muestra la cantidad de valores vacíos en cada año según la variable analizada. Además, se realiza una suma en la última columna denominada “vacios_X_año”, la cual proporciona una visualización de la cantidad de valores vacíos para el año en revisión.

Selección de año
Selección de año
Año_seleccionado Faltantes
A2000 1333

En la tabla se muestra cual fue el año seleccionado y la cantidad de faltantes en dicho año, el cual es el año con menos valores vacíos.

Faltantes en el año selecionado

Descripción de las Variables de la Base de datos

Acceso a la electricidad (% de la población)

Este indicador muestra la proporción de la población de un país o región que tiene acceso a la electricidad. Es una medida importante del desarrollo y el nivel de infraestructura eléctrica de un lugar.

Acceso a la electricidad, rural (% de la población rural):

Este indicador se refiere al porcentaje de la población rural que tiene acceso a la electricidad. Es especialmente relevante porque el acceso a la electricidad en áreas rurales puede ser más limitado debido a la falta de infraestructura y recursos.

Acceso a combustibles y tecnologías limpias para cocinar (% de la población):

Este indicador muestra la proporción de la población que utiliza combustibles y tecnologías limpias para cocinar, en lugar de métodos tradicionales más contaminantes. Es una medida importante para evaluar la calidad de vida y la salud de la población.

Transporte aéreo, pasajeros transportados:

Este indicador mide la cantidad de pasajeros que son transportados por vía aérea. Es una medida de la actividad y el alcance del transporte aéreo en un lugar.

Empleadores, total (% del empleo total) (estimación modelada de la OIT):

Este indicador se refiere al porcentaje de empleadores en relación con el empleo total en una economía. Representa la proporción de personas que son empleadores o propietarios de negocios en comparación con el total de empleados.

Exportaciones de bienes y servicios (% del PIB):

Este indicador representa el valor de las exportaciones de bienes y servicios en relación con el Producto Interno Bruto (PIB) de un país. Muestra la importancia de las exportaciones en la economía y su contribución al crecimiento económico.

Tasa de fertilidad, total (nacimientos por mujer):

Este indicador muestra el promedio de nacimientos que tiene una mujer a lo largo de su vida. Es un indicador demográfico importante para comprender la dinámica de la población y su crecimiento.

Superficie forestal (% de la superficie terrestre):

Este indicador muestra el porcentaje de la superficie terrestre cubierta por bosques y áreas forestales. Es una medida de la preservación y conservación de los recursos forestales.

Crecimiento del PIB (% anual):

Este indicador muestra el cambio porcentual en el Producto Interno Bruto (PIB) de un país o región en un año determinado. Es una medida clave del crecimiento económico y refleja la expansión o contracción de la actividad económica en un período de tiempo.

Inflación, precios al consumidor (% anual):

La inflación es el aumento generalizado y sostenido de los precios de bienes y servicios en una economía durante un período de tiempo. Se expresa como un porcentaje anual y se calcula mediante la comparación de los precios de un conjunto de bienes y servicios a lo largo del tiempo.

Esperanza de vida al nacer, total (años):

Este indicador representa el promedio de años que se espera que viva una persona al nacer en un país o región. Es una medida de la salud y el bienestar de la población, y está influenciada por factores como la atención médica, la calidad de vida y los avances en la medicina.

Tasa de recuento de la pobreza multidimensional (% de la población total):

Este indicador mide el porcentaje de la población total que se encuentra en situación de pobreza multidimensional. La pobreza multidimensional se refiere a la privación en múltiples aspectos de la vida, como la educación, la salud, el acceso a servicios básicos y las condiciones de vida.

Tasa de mortalidad, adultos, mujeres (por cada 1000 mujeres adultas):

Este indicador muestra el número de muertes de mujeres adultas por cada 1000 mujeres en un período de tiempo determinado. Ayuda a evaluar la salud y el bienestar de la población femenina.

Tasa de mortalidad, adultos, hombres (por cada 1000 hombres adultos):

Este indicador es similar al anterior, pero se refiere a la tasa de mortalidad de hombres adultos por cada 1000 hombres en un período de tiempo determinado. Información Proporción sobre la salud y el bienestar de la población masculina.

Base de datos completa

Aquí se encuentra la base de datos completa a partir de la cual se va a realizar el análisis de las variables.