El conjunto de datos gapminder recopila indicadores demográficos, económicos y de salud para 185 países del mundo durante el período 1960-2016. Cada fila del data frame representa un país en un año específico e incluye variables como la esperanza de vida al nacer, la tasa de fertilidad, la mortalidad infantil, la población total y el Producto Interno Bruto (PIB). Este dataset permite analizar la evolución del bienestar humano a lo largo de más de cinco décadas y comparar el desarrollo entre continentes y regiones del mundo.
Los datos provienen del paquete dslabs (Data Science Labs), desarrollado por el profesor Rafael A. Irizarry de la Universidad de Harvard como material complementario para el libro Introduction to Data Science: Data Analysis and Prediction Algorithms with R (Irizarry, 2019). A su vez, dslabs toma la información original de la fundación Gapminder (gapminder.org), iniciativa creada por Hans Rosling, Ola Rosling y Anna Rosling Rönnlund para difundir estadísticas globales sobre desarrollo humano. Gapminder consolida datos publicados por organismos como el Banco Mundial, la Organización Mundial de la Salud (OMS), la División de Población de Naciones Unidas y la FAO. Los datos ya vienen procesados y unificados en un único data frame dentro del paquete dslabs, por lo que no requieren limpieza previa más allá de manejar los valores NA en variables económicas y de salud.
| Variable | Descripción |
|---|---|
| country | Nombre del país (factor con 185 niveles). |
| year | Año de la observación, entero entre 1960 y 2016. |
| infant_mortality | Mortalidad infantil: muertes de menores de 1 año por cada 1000 nacidos vivos. |
| life_expectancy | Esperanza de vida al nacer, en años. |
| fertility | Tasa de fertilidad: número promedio de hijos por mujer. |
| population | Población total del país en ese año. |
| gdp | Producto Interno Bruto en dólares estadounidenses. |
| continent | Continente del país (factor con 5 niveles). |
| region | Región geográfica del país (factor con 22 niveles). |
# Dimensiones del data frame
dim(gapminder)
## [1] 10545 9
# Tipos de variable
str(gapminder)
## 'data.frame': 10545 obs. of 9 variables:
## $ country : Factor w/ 185 levels "Albania","Algeria",..: 1 2 3 4 5 6 7 8 9 10 ...
## $ year : int 1960 1960 1960 1960 1960 1960 1960 1960 1960 1960 ...
## $ infant_mortality: num 115.4 148.2 208 NA 59.9 ...
## $ life_expectancy : num 62.9 47.5 36 63 65.4 ...
## $ fertility : num 6.19 7.65 7.32 4.43 3.11 4.55 4.82 3.45 2.7 5.57 ...
## $ population : num 1636054 11124892 5270844 54681 20619075 ...
## $ gdp : num NA 1.38e+10 NA NA 1.08e+11 ...
## $ continent : Factor w/ 5 levels "Africa","Americas",..: 4 1 1 2 2 3 2 5 4 3 ...
## $ region : Factor w/ 22 levels "Australia and New Zealand",..: 19 11 10 2 15 21 2 1 22 21 ...
# Rango del periodo de observacion
range(gapminder$year)
## [1] 1960 2016
# Numero de NA por variable
colSums(is.na(gapminder))
## country year infant_mortality life_expectancy
## 0 0 1453 0
## fertility population gdp continent
## 187 185 2972 0
## region
## 0
El data frame tiene 10,545 observaciones y 9
variables, cubriendo el período 1960-2016 para
185 países. Las variables con más valores faltantes son
gdp, infant_mortality y
fertility, ya que su registro histórico depende de la
capacidad estadística de cada país y muchas naciones pequeñas o en
conflicto no reportaron estos indicadores en las décadas iniciales.
gapminder %>%
filter(year == 2011, !is.na(fertility), !is.na(life_expectancy)) %>%
ggplot(aes(x = fertility, y = life_expectancy, color = continent)) +
geom_point(alpha = 0.7, size = 2.5) +
labs(
title = "Fertilidad vs Esperanza de vida (2011)",
subtitle = "Cada punto representa un país",
x = "Tasa de fertilidad (hijos por mujer)",
y = "Esperanza de vida (años)",
color = "Continente"
) +
theme_minimal(base_size = 12)
Figura 1. Relación entre la tasa de fertilidad y la esperanza de vida por continente en el año 2011.
Interpretación del Gráfico 1. Este gráfico muestra dos variables numéricas continuas: la tasa de fertilidad en el eje X y la esperanza de vida al nacer en el eje Y, para todos los países con datos disponibles en el año 2011. El color distingue el continente de cada país. Se eligieron estas variables porque ambas son indicadores clave del desarrollo humano y están estrechamente ligadas entre sí en la literatura demográfica. La información principal que se espera que el lector obtenga es la fuerte relación negativa entre fertilidad y esperanza de vida: los países con mayor número de hijos por mujer (en su mayoría africanos) presentan esperanzas de vida notablemente menores, mientras que los países europeos, americanos y asiáticos con fertilidades cercanas a 2 hijos por mujer alcanzan esperanzas de vida superiores a los 75 años. Esto ilustra la transición demográfica moderna.
gapminder %>%
filter(year == 2011, !is.na(life_expectancy)) %>%
ggplot(aes(x = life_expectancy)) +
geom_histogram(
binwidth = 2,
fill = "#2E74B5",
color = "white"
) +
labs(
title = "Distribución de la esperanza de vida al nacer (2011)",
subtitle = "Frecuencia de países por rango de esperanza de vida",
x = "Esperanza de vida (años)",
y = "Número de países"
) +
theme_minimal(base_size = 12)
Figura 2. Distribución de la esperanza de vida al nacer entre todos los países en 2011.
Interpretación del Gráfico 2. Se graficó la
distribución de la variable numérica life_expectancy para
el año 2011, usando un histograma con ancho de barra de 2 años. Se
eligió esta variable porque resume en un solo número el nivel general de
salud y calidad de vida de cada país, y observar su distribución global
da una fotografía inmediata de la desigualdad mundial en desarrollo
humano. La información principal que se espera transmitir es que la
distribución es asimétrica hacia la izquierda (sesgo
negativo): la mayoría de los países del mundo en 2011 se
concentran en el rango de 70 a 80 años de esperanza de vida, con una
cola larga hacia los 50-60 años formada por países con menor desarrollo,
principalmente del África subsahariana. Este gráfico complementa al
anterior: confirma que la esperanza de vida mundial ha mejorado
sustancialmente, pero sigue existiendo una brecha de hasta 30 años entre
los países más y menos desarrollados.
El análisis exploratorio del conjunto de datos gapminder
permite identificar dos hallazgos principales. Primero, existe una
relación inversa consistente entre la tasa de fertilidad y la esperanza
de vida, lo que refleja el proceso de transición demográfica asociado al
desarrollo económico y a la mejora de los sistemas de salud. Segundo, la
distribución de la esperanza de vida en el mundo en 2011 muestra que la
mayoría de los países ha alcanzado niveles superiores a los 70 años,
aunque persiste una brecha significativa con un grupo de naciones cuyas
esperanzas de vida aún se ubican entre los 50 y 60 años. Ambos
resultados son coherentes con la literatura demográfica y confirman la
utilidad del dataset para análisis comparativos internacionales.