Descripción de los datos

Descripción general

El conjunto de datos gapminder del paquete dslabs contiene información demográfica, económica y de salud pública de países alrededor del mundo a lo largo del tiempo. Incluye variables como esperanza de vida, tasa de fertilidad, mortalidad infantil, población y producto interno bruto (PIB) para cientos de países, abarcando observaciones desde 1960 hasta 2016.

Este dataset es una versión curada y procesada de los datos originales de la Fundación Gapminder (www.gapminder.org), organización sin fines de lucro dedicada a combatir los malentendidos globales mediante el uso de estadísticas. Los datos han sido ampliamente utilizados en análisis educativos y visualizaciones divulgativas, siendo popularizados por el estadístico Hans Rosling.

El dataset fue incluido en el paquete dslabs creado por Rafael A. Irizarry (Harvard T.H. Chan School of Public Health) con fines educativos para la enseñanza de ciencia de datos en R.


Tabla de variables

Variable Descripción
country País (factor con 185 niveles)
year Año de la observación (1960–2016)
infant_mortality Mortalidad infantil: muertes por cada 1,000 nacidos vivos
life_expectancy Esperanza de vida al nacer (en años)
fertility Tasa de fertilidad: número promedio de hijos por mujer
population Población total del país
gdp Producto Interno Bruto total (en dólares estadounidenses)
continent Continente al que pertenece el país (factor con 5 niveles)
region Región geográfica más específica dentro del continente

# Vista general del dataset
dim(gapminder)
## [1] 10545     9
colSums(is.na(gapminder))
##          country             year infant_mortality  life_expectancy 
##                0                0             1453                0 
##        fertility       population              gdp        continent 
##              187              185             2972                0 
##           region 
##                0

El dataset cuenta con 10545 observaciones y 9 variables. Las variables con mayor cantidad de valores perdidos son gdp e infant_mortality, posiblemente porque no todos los países tenían registros económicos completos en décadas anteriores.


Visualizaciones

Gráfico 1: Diagrama de dispersión — PIB per cápita vs. Esperanza de vida (2010)

# Filtrar datos del año 2010 y calcular PIB per cápita
gapminder_2010 <- gapminder %>%
  filter(year == 2010, !is.na(gdp), !is.na(population), !is.na(life_expectancy)) %>%
  mutate(gdp_per_cap = gdp / population)

ggplot(gapminder_2010, aes(x = gdp_per_cap, y = life_expectancy, color = continent)) +
  geom_point(aes(size = population), alpha = 0.7) +
  scale_x_log10(labels = scales::dollar_format()) +
  scale_size_continuous(name = "Población", labels = scales::comma) +
  labs(
    title = "PIB per cápita vs. Esperanza de vida por país (2010)",
    subtitle = "Cada punto representa un país; tamaño proporcional a la población",
    x = "PIB per cápita (escala logarítmica, USD)",
    y = "Esperanza de vida (años)",
    color = "Continente"
  ) +
  theme_minimal(base_size = 13) +
  theme(legend.position = "right")

Interpretación

Este gráfico de dispersión relaciona el PIB per cápita (eje X, en escala logarítmica) con la esperanza de vida (eje Y) de cada país en el año 2010. Cada punto representa un país, su color indica el continente al que pertenece y su tamaño es proporcional a la población.

Se observa una tendencia positiva clara: a mayor PIB per cápita, mayor esperanza de vida. Esta relación es especialmente pronunciada en rangos bajos de ingreso, donde pequeños aumentos en la riqueza están asociados con grandes mejoras en longevidad. Los países africanos (en rojo) tienden a concentrarse en la zona de bajo ingreso y baja esperanza de vida, mientras que los países europeos y americanos ricos se ubican en el extremo superior derecho. La escala logarítmica permite apreciar mejor esta relación no lineal.


Gráfico 2: Histograma — Distribución de la esperanza de vida por continente (2010)

ggplot(gapminder_2010, aes(x = life_expectancy, fill = continent)) +
  geom_histogram(binwidth = 3, color = "white", alpha = 0.85) +
  facet_wrap(~ continent, ncol = 2) +
  labs(
    title = "Distribución de la Esperanza de Vida por Continente (2010)",
    subtitle = "Histograma con intervalos de 3 años",
    x = "Esperanza de vida (años)",
    y = "Número de países",
    fill = "Continente"
  ) +
  theme_minimal(base_size = 13) +
  theme(legend.position = "none")

Interpretación

Este histograma muestra la distribución de la esperanza de vida para los países de cada continente en el año 2010. Cada panel corresponde a un continente y la altura de las barras indica cuántos países tienen una esperanza de vida en ese rango.

Se pueden extraer varias conclusiones importantes: Europa presenta una distribución concentrada entre 75 y 82 años, indicando alta homogeneidad y bienestar. América muestra una distribución más dispersa, reflejando las desigualdades entre países desarrollados y en vías de desarrollo. África tiene la distribución más amplia y desplazada hacia valores bajos (entre 50 y 70 años), con alta variabilidad entre sus países. Asia y Oceanía muestran distribuciones intermedias con algunos valores atípicos. En general, el gráfico evidencia las marcadas desigualdades globales en salud y calidad de vida entre continentes.


Conclusiones

El análisis del dataset gapminder revela patrones globales importantes: existe una fuerte correlación positiva entre riqueza económica y esperanza de vida, aunque esta relación es no lineal. Las diferencias entre continentes son sustanciales, siendo África la región con mayores desafíos en términos de desarrollo humano. Estos patrones subrayan la importancia de políticas económicas y de salud pública para mejorar la calidad de vida de las poblaciones más vulnerables.