El conjunto de datos gapminder, incluido en el paquete dslabs de R, proporciona una visión general de varios indicadores de desarrollo humano y económico en la mayoría de los países del mundo, entre los años 1960 y 2016. Contiene información clave como la esperanza de vida, la mortalidad infantil, la tasa de fertilidad, el producto interno bruto (PIB), y el tamaño de la población, entre otras variables. Este conjunto de datos permite realizar análisis históricos, comparativos y regionales sobre el progreso social y económico a nivel mundial.
country
Tipo: character (string)
Valores únicos: 193 países
Nulos: No
Rango: nombres de países del mundo
Ejemplos: Albania, Zimbabwe
year
Tipo: numeric
Rango: 1960 a 2016
Nulos: No
Límites: mínimo = 1960, máximo = 2016
infant_mortality
Tipo: numeric
Nulos: Sí
Rango:
Mínimo: 1.5
Máximo: 180.2life_expectancy
Tipo: numeric
Nulos: Sí
Rango:
Mínimo: 12.0
Máximo: 89.5fertility
Tipo: numeric
Nulos: No
Rango:
Mínimo: 1.2
Máximo: 9.3population
Tipo: numeric
Nulos: No
Rango:
Mínimo: 9,589
Máximo: 1,357,380,000gdp
Tipo: numeric
Nulos: Sí
Rango:
Mínimo: 0
Máximo: 1,482,000,000,000continent
Tipo: factor (categoría)
Valores únicos: 5
Categorías: Africa, Asia, Europe, Americas, Oceania
Nulos: No
region
Tipo: factor (categoría)
Valores únicos: 22 regiones geográficas
Ejemplos: Western Europe, Eastern Asia, Sub-Saharan Africa
Nulos: No
Los datos provienen de Gapminder, una fundación sin fines de lucro que recopila y visualiza datos estadísticos con el objetivo de promover una visión basada en hechos sobre el desarrollo global. El conjunto de datos fue curado y procesado por los autores del paquete dslabs (David Robinson y Rafael Irizarry) y está diseñado para facilitar la enseñanza y el aprendizaje del análisis de datos en R. La mayoría de las estadísticas provienen de fuentes oficiales como el Banco Mundial y la Organización Mundial de la Salud (OMS).
| Variable | Descripción |
|---|---|
| country | Nombre del país. |
| year | Año de la observación (desde 1960 hasta 2016). |
| infant_mortality | Tasa de mortalidad infantil (muertes por cada 1,000 nacidos vivos). |
| life_expectancy | Esperanza de vida al nacer (en años). |
| fertility | Tasa de fertilidad (número promedio de hijos por mujer). |
| population | Tamaño total de la población del país en ese año. |
| gdp | Producto Interno Bruto (PIB) total del país, en dólares estadounidenses. |
| continent | Continente al que pertenece el país. |
| region | Región geográfica dentro del continente (ej. Asia del Este, Europa del Norte). |
| Elemento | Resultado |
|---|---|
| Observaciones (filas) | 10,545 |
| Variables (columnas) | 9 |
| Rango de años | 1960 a 2016 (¡56 años!) |
| Cantidad de países únicos | 185 países |
| Variables con NA | infant_mortality (1453 NA), fertility (187 NA), population (185 NA), gdp (2972 NA) |
| Tipos de variables | Mezcla de factores (ej. país, continente, región) y numéricos (fertilidad, GDP, etc.) |
| Variables destacadas | life_expectancy, fertility, gdp, population, infant_mortality |
# cargar la libreria ggplot2 y dplyr (librerias como depedencias para graficar y ordenar)
# --> library(ggplot2)
# --> library(dplyr)
library(ggplot2)
library(dplyr)
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
# Cargar archivo de datos
data("gapminder")
# obtener datos para las graficas (2010 para analisis) 2010 tiene mas datos relevantes
#Filtro general para 2010 y datos completos
datos_2010 <- gapminder %>%
filter(year == 2010, !is.na(fertility), !is.na(life_expectancy), !is.na(population), !is.na(gdp), !is.na(continent))
# ---- datos para el historgrama Distribución del PIB (log10) ----
datos_2010 <- datos_2010 %>% mutate(log_gdp = log10(gdp))
# ---- Gráfico 1: Dispersión — Fertilidad vs Esperanza de Vida ----
grafico1 <- ggplot(datos_2010, aes(x = fertility, y = life_expectancy, color = continent)) +
geom_point(size = 3, alpha = 0.7) +
labs(
title = "Relación entre Fertilidad y Esperanza de Vida (2010)",
x = "Tasa de Fertilidad (número de hijos por mujer)",
y = "Esperanza de Vida (años)",
color = "Continente"
) +
theme_minimal()
print(grafico1)
Este gráfico de dispersión muestra cómo se relacionan la tasa de fertilidad (número de hijos por mujer) y la esperanza de vida en distintos países en el año 2010, categorizados por continente.
Se están graficando dos variables cuantitativas:
Eje X: Tasa de fertilidad (número de hijos por mujer).
Eje Y: Esperanza de vida (en años).
Estas variables se eligieron para explorar la relación entre el crecimiento poblacional y el bienestar general de los países. La variable categórica “continente” se representa mediante colores para observar posibles agrupamientos geográficos.
Se busca identificar una posible correlación entre fertilidad y esperanza de vida. En particular, se espera observar si los países con mayor fertilidad tienden a tener una menor esperanza de vida, y viceversa. También se pretende identificar diferencias por continente.
El gráfico revela una clara tendencia negativa entre las dos variables:
A medida que aumenta la tasa de fertilidad, tiende a disminuir la esperanza de vida.
Los países africanos (en rosa), en su mayoría, presentan tasas de fertilidad altas y esperanza de vida baja, lo cual puede estar relacionado con menores niveles de desarrollo económico, sanitario y educativo.
En contraste, los países europeos (azul) y asiáticos (verde) tienden a tener baja fertilidad y alta esperanza de vida, lo que es típico de sociedades más desarrolladas con acceso a sistemas de salud eficaces y control natal.
América y Oceanía muestran un comportamiento intermedio, aunque América presenta una mayor dispersión.
Este gráfico confirma una asociación negativa entre crecimiento poblacional y calidad de vida, un gran hallazgo para mi.
# ---- Gráfico 2: Histograma — Distribución del PIB (log10) ----
datos_2010 <- datos_2010 %>% mutate(log_gdp = log10(gdp))
grafico2 <- ggplot(datos_2010, aes(x = log_gdp)) +
geom_histogram(fill = "#a463e3", color = "black", bins = 30) +
labs(
title = "Distribución del PIB (log10) en 2010",
x = "Log10 del Producto Interno Bruto (PIB)",
y = "Número de países"
) +
theme_minimal()
print(grafico2)
Este histograma muestra cómo se distribuye el Producto Interno Bruto (PIB) de distintos países en el año 2010, utilizando una transformación logarítmica base 10 para facilitar la visualización.
Se está graficando una sola variable cuantitativa:
Eje X: Logaritmo en base 10 del PIB de cada país.
Eje Y: Frecuencia, es decir, el número de países que se encuentran dentro de cada rango del log10 del PIB.
Se utiliza la escala logarítmica porque el PIB presenta una distribución altamente asimétrica, con valores extremos muy elevados. El logaritmo ayuda a reducir esta asimetría y facilita identificar patrones generales
La visualización busca mostrar cómo se distribuyen los países en función de su riqueza económica (PIB), y si esta distribución es simétrica, sesgada o presenta agrupamientos notables. También permite detectar si hay una gran concentración de países en determinados niveles de PIB.
El histograma muestra una distribución aproximadamente normal, con una ligera asimetría a la derecha (sesgo positivo).
La mayor parte de los países tienen un PIB cuyo log10 se encuentra entre 9.5 y 11, lo que indica que muchos países se agrupan en una franja intermedia de producción económica.
Existen algunos países con PIB extremadamente altos (log10 entre 12 y 13), pero son pocos.
También hay una menor proporción de países con PIB bajos (log10 entre 8 y 9).
Este gráfico sugiere que, aunque hay diferencias significativas entre países, la mayoría se encuentran en un rango medio en cuanto a su producción económica, lo cual podría ser útil para segmentar políticas económicas o clasificaciones por niveles de desarrollo.
# ---- Gráfico 3: Dispersión — Fertilidad vs Esperanza de Vida con tamaño de población ----
grafico3 <- ggplot(datos_2010, aes(x = fertility, y = life_expectancy, size = population)) +
geom_point(alpha = 0.5, color = "#1f78b4") +
scale_size_continuous(range = c(1, 10)) +
labs(
title = "Esperanza de Vida vs Fertilidad con Población (2010)",
x = "Tasa de fertilidad",
y = "Esperanza de vida (años)",
size = "Población"
) +
theme_minimal()
print(grafico3)
Este diagrama de dispersión relaciona la esperanza de vida con la tasa de fertilidad de los países en 2010. Además, el tamaño de cada burbuja representa la población total del país, aportando una tercera dimensión clave a la visualización.
Se grafican tres variables:
Eje X: Tasa de fertilidad (número de hijos por mujer).
Eje Y: Esperanza de vida (en años).
Tamaño de burbuja: Población total del país.
Esta combinación se utiliza para observar simultáneamente la relación entre fertilidad y longevidad, y cómo esta relación varía en función del tamaño poblacional de los países.
El gráfico permite identificar si hay una relación entre la tasa de fertilidad y la esperanza de vida, y cómo influye el tamaño poblacional en esa relación. Se busca revelar si los países más poblados siguen una tendencia común o si se comportan de manera diferente.
La gráfica reafirma una clara relación inversa entre la tasa de fertilidad y la esperanza de vida:
Los países con baja fertilidad (menos de 2.5 hijos por mujer) tienden a tener una alta esperanza de vida (mayor a 75 años).
Por el contrario, países con alta fertilidad (más de 4 hijos por mujer) tienen una esperanza de vida más baja, usualmente por debajo de los 65 años.
Además, se puede observar que las burbujas más grandes (es decir, países más poblados) como China o India se agrupan en la parte superior izquierda del gráfico: tienen tasas de fertilidad relativamente moderadas y esperanza de vida media a alta, lo que indica que una gran proporción de la población mundial vive en países con características intermedias en ambos indicadores.
Esto sugiere que los países con mejores condiciones de vida tienden a tener menos hijos por mujer, posiblemente por mayor acceso a educación, salud y planificación familiar, mientras que los países con alta fertilidad aún enfrentan desafíos en estos aspectos.
En este proyecto se realizó un análisis exploratorio del conjunto de datos gapminder, centrado en el año 2010, para visualizar la relación entre indicadores clave del desarrollo humano. A partir de los gráficos generados se pueden destacar los siguientes hallazgos:
Existe una clara relación negativa entre la tasa de fertilidad y la esperanza de vida, lo que sugiere que los países con más hijos por mujer tienden a tener una menor calidad de vida general.
La distribución del PIB, una vez transformado logarítmicamente, muestra una concentración de países con ingresos medianos, pero también evidencia grandes desigualdades económicas entre países.
Las diferencias por continente permiten observar que los países africanos enfrentan mayores desafíos en cuanto a desarrollo, mientras que Europa y Asia tienden a mostrar mejores condiciones socioeconómicas.
En general, el proyecto permitió poner en práctica habilidades fundamentales de manipulación de datos y visualización en R, utilizando herramientas como dplyr y ggplot2, y reflexionar sobre el estado del desarrollo global. Esta experiencia fortalece la capacidad analítica y crítica al trabajar con datos reales y complejos.