Grupo 6:
Manuel
Rincón
Cristian Rivera
Sara Velasco
Luis Eduardo Cambindo
El presente trabajo se realiza en el marco del desarrollo del curso “Gestión de datos” de la Universidad del Valle, en el cual se aborda el tema del aprendizaje no supervisado, el cual ha sido guiado por el libro digital “Data Science con R” del autor: Mg. Daniel Paredes Inilupu del 2020-06-26 especificamente en el capítulo 11.
Lo que se propone a realizar en el presente trabajo es desarrollar un algoritmo de aprendizaje no supervisado en el cual la base de datos que ha sido suministrada por el profesor Orlando Joaqui Barandica se extrajo del Banco Mundial.
La aplicabilidad que tienen los algortimos de aprendizaje no supervisado se relacionan con el agrupamiento o clustering de datos, es decir, se tienen unos sujetos con unas variables que estan relacionadas con estos sujetos y el algoritmo permite agrupar los sujetos según la distancia entre las variables. El algortimo permitirá obtener subgrupos homogéneos los cuales comparten caracteristicas en común.
A continuación se muestran las bases de datos y la limpieza que se realizó hasta obtener la base de datos final con la que se trabajará el algoritmo:
Aquí se presenta la base de datos original, la cual como se puede observar en la siguiente tabla tiene valores vacios, los vacios se presentan como columnas o filas que carecen de datos y esto hace que la calidad del análisis que se pueda realizar sea menor.
Con base en lo expuesto anteriormente, se busca identificar tanto las columnas como las filas que presenten menos valores vacíos. Con este propósito, se presenta la siguiente tabla, que muestra la cantidad de valores vacíos en cada año según la variable analizada. Además, se realiza una suma en la última columna denominada “vacios_X_año”, la cual proporciona una visualización de la cantidad de valores vacíos para el año en revisión.
| Año_seleccionado | Faltantes |
|---|---|
| A2000 | 1333 |
En la tabla se muestra cual fue el año seleccionado y la cantidad de faltantes en dicho año, el cual es el año con menos valores vacíos.
Este indicador muestra la proporción de la población de un país o región que tiene acceso a la electricidad. Es una medida importante del desarrollo y el nivel de infraestructura eléctrica de un lugar.
Este indicador se refiere al porcentaje de la población rural que tiene acceso a la electricidad. Es especialmente relevante porque el acceso a la electricidad en áreas rurales puede ser más limitado debido a la falta de infraestructura y recursos.
Este indicador muestra la proporción de la población que utiliza combustibles y tecnologías limpias para cocinar, en lugar de métodos tradicionales más contaminantes. Es una medida importante para evaluar la calidad de vida y la salud de la población.
Este indicador mide la cantidad de pasajeros que son transportados por vía aérea. Es una medida de la actividad y el alcance del transporte aéreo en un lugar.
Este indicador se refiere al porcentaje de empleadores en relación con el empleo total en una economía. Representa la proporción de personas que son empleadores o propietarios de negocios en comparación con el total de empleados.
Este indicador representa el valor de las exportaciones de bienes y servicios en relación con el Producto Interno Bruto (PIB) de un país. Muestra la importancia de las exportaciones en la economía y su contribución al crecimiento económico.
Este indicador muestra el promedio de nacimientos que tiene una mujer a lo largo de su vida. Es un indicador demográfico importante para comprender la dinámica de la población y su crecimiento.
Este indicador muestra el porcentaje de la superficie terrestre cubierta por bosques y áreas forestales. Es una medida de la preservación y conservación de los recursos forestales.
Este indicador muestra el cambio porcentual en el Producto Interno Bruto (PIB) de un país o región en un año determinado. Es una medida clave del crecimiento económico y refleja la expansión o contracción de la actividad económica en un período de tiempo.
La inflación es el aumento generalizado y sostenido de los precios de bienes y servicios en una economía durante un período de tiempo. Se expresa como un porcentaje anual y se calcula mediante la comparación de los precios de un conjunto de bienes y servicios a lo largo del tiempo.
Este indicador representa el promedio de años que se espera que viva una persona al nacer en un país o región. Es una medida de la salud y el bienestar de la población, y está influenciada por factores como la atención médica, la calidad de vida y los avances en la medicina.
Este indicador mide el porcentaje de la población total que se encuentra en situación de pobreza multidimensional. La pobreza multidimensional se refiere a la privación en múltiples aspectos de la vida, como la educación, la salud, el acceso a servicios básicos y las condiciones de vida.
Este indicador muestra el número de muertes de mujeres adultas por cada 1000 mujeres en un período de tiempo determinado. Ayuda a evaluar la salud y el bienestar de la población femenina.
Este indicador es similar al anterior, pero se refiere a la tasa de mortalidad de hombres adultos por cada 1000 hombres en un período de tiempo determinado. Información Proporción sobre la salud y el bienestar de la población masculina.
Aquí se encuentra la base de datos completa a partir de la cual se va a realizar el análisis de las variables.