El conjunto de datos gapminder del
paquete dslabs contiene información demográfica, económica
y de salud pública de países alrededor del mundo a lo largo del tiempo.
Incluye variables como esperanza de vida, tasa de fertilidad, mortalidad
infantil, población y producto interno bruto (PIB) para cientos de
países, abarcando observaciones desde 1960 hasta
2016.
Este dataset es una versión curada y procesada de los datos originales de la Fundación Gapminder (www.gapminder.org), organización sin fines de lucro dedicada a combatir los malentendidos globales mediante el uso de estadísticas. Los datos han sido ampliamente utilizados en análisis educativos y visualizaciones divulgativas, siendo popularizados por el estadístico Hans Rosling.
El dataset fue incluido en el paquete dslabs creado por
Rafael A. Irizarry (Harvard T.H. Chan School of Public
Health) con fines educativos para la enseñanza de ciencia de datos en
R.
| Variable | Descripción |
|---|---|
country |
País (factor con 185 niveles) |
year |
Año de la observación (1960–2016) |
infant_mortality |
Mortalidad infantil: muertes por cada 1,000 nacidos vivos |
life_expectancy |
Esperanza de vida al nacer (en años) |
fertility |
Tasa de fertilidad: número promedio de hijos por mujer |
population |
Población total del país |
gdp |
Producto Interno Bruto total (en dólares estadounidenses) |
continent |
Continente al que pertenece el país (factor con 5 niveles) |
region |
Región geográfica más específica dentro del continente |
# Vista general del dataset
dim(gapminder)
## [1] 10545 9
colSums(is.na(gapminder))
## country year infant_mortality life_expectancy
## 0 0 1453 0
## fertility population gdp continent
## 187 185 2972 0
## region
## 0
El dataset cuenta con 10545 observaciones y 9 variables. Las variables con mayor cantidad de valores perdidos son
gdpeinfant_mortality, posiblemente porque no todos los países tenían registros económicos completos en décadas anteriores.
# Filtrar datos del año 2010 y calcular PIB per cápita
gapminder_2010 <- gapminder %>%
filter(year == 2010, !is.na(gdp), !is.na(population), !is.na(life_expectancy)) %>%
mutate(gdp_per_cap = gdp / population)
ggplot(gapminder_2010, aes(x = gdp_per_cap, y = life_expectancy, color = continent)) +
geom_point(aes(size = population), alpha = 0.7) +
scale_x_log10(labels = scales::dollar_format()) +
scale_size_continuous(name = "Población", labels = scales::comma) +
labs(
title = "PIB per cápita vs. Esperanza de vida por país (2010)",
subtitle = "Cada punto representa un país; tamaño proporcional a la población",
x = "PIB per cápita (escala logarítmica, USD)",
y = "Esperanza de vida (años)",
color = "Continente"
) +
theme_minimal(base_size = 13) +
theme(legend.position = "right")
Este gráfico de dispersión relaciona el PIB per cápita (eje X, en escala logarítmica) con la esperanza de vida (eje Y) de cada país en el año 2010. Cada punto representa un país, su color indica el continente al que pertenece y su tamaño es proporcional a la población.
Se observa una tendencia positiva clara: a mayor PIB per cápita, mayor esperanza de vida. Esta relación es especialmente pronunciada en rangos bajos de ingreso, donde pequeños aumentos en la riqueza están asociados con grandes mejoras en longevidad. Los países africanos (en rojo) tienden a concentrarse en la zona de bajo ingreso y baja esperanza de vida, mientras que los países europeos y americanos ricos se ubican en el extremo superior derecho. La escala logarítmica permite apreciar mejor esta relación no lineal.
ggplot(gapminder_2010, aes(x = life_expectancy, fill = continent)) +
geom_histogram(binwidth = 3, color = "white", alpha = 0.85) +
facet_wrap(~ continent, ncol = 2) +
labs(
title = "Distribución de la Esperanza de Vida por Continente (2010)",
subtitle = "Histograma con intervalos de 3 años",
x = "Esperanza de vida (años)",
y = "Número de países",
fill = "Continente"
) +
theme_minimal(base_size = 13) +
theme(legend.position = "none")
Este histograma muestra la distribución de la esperanza de vida para los países de cada continente en el año 2010. Cada panel corresponde a un continente y la altura de las barras indica cuántos países tienen una esperanza de vida en ese rango.
Se pueden extraer varias conclusiones importantes: Europa presenta una distribución concentrada entre 75 y 82 años, indicando alta homogeneidad y bienestar. América muestra una distribución más dispersa, reflejando las desigualdades entre países desarrollados y en vías de desarrollo. África tiene la distribución más amplia y desplazada hacia valores bajos (entre 50 y 70 años), con alta variabilidad entre sus países. Asia y Oceanía muestran distribuciones intermedias con algunos valores atípicos. En general, el gráfico evidencia las marcadas desigualdades globales en salud y calidad de vida entre continentes.
El análisis del dataset gapminder revela patrones
globales importantes: existe una fuerte correlación positiva entre
riqueza económica y esperanza de vida, aunque esta relación es no
lineal. Las diferencias entre continentes son sustanciales, siendo
África la región con mayores desafíos en términos de desarrollo humano.
Estos patrones subrayan la importancia de políticas económicas y de
salud pública para mejorar la calidad de vida de las poblaciones más
vulnerables.