## Warning: package 'dslabs' was built under R version 4.5.3

Descripción de los datos

1. Descripción general del conjunto de datos

El conjunto de datos gapminder contiene información demográfica, económica y de salud de 185 países a lo largo de 57 años, desde 1960 hasta 2016, sumando un total de 10,545 observaciones. El dataset permite analizar cómo han evolucionado indicadores clave del desarrollo humano — como la esperanza de vida, la tasa de fertilidad, la mortalidad infantil y el Producto Interno Bruto — a lo largo del tiempo y en distintas regiones del mundo. Es especialmente útil para comparar el progreso entre continentes y regiones, y para explorar las relaciones entre el desarrollo económico y el bienestar de la población.

2. Fuente de datos

Los datos provienen de la Fundación Gapminder (https://www.gapminder.org), una organización independiente sin fines de lucro con sede en Estocolmo, Suecia, fundada por el estadístico y médico Hans Rosling. La fundación recopila y sistematiza datos de fuentes internacionales reconocidas como el Banco Mundial, la Organización Mundial de la Salud (OMS) y la División de Población de las Naciones Unidas. Los datos han sido preprocesados y consolidados en un único data frame para facilitar su análisis. Este conjunto de datos está disponible en R a través del paquete dslabs, desarrollado por Rafael A. Irizarry y Amy Gill para acompañar el libro “Introduction to Data Science” (2019). Los datos ya se encuentran procesados y listos para su análisis, aunque presentan valores faltantes (NA) en algunas variables — principalmente en gdp e infant_mortality — debido a que no todos los países contaban con sistemas de registro formales en las décadas más tempranas del período cubierto.

Irizarry, R. A. (2019). Introduction to Data Science: Data Analysis and Prediction Algorithms with R. CRC Press. Disponible en: https://rafalab.github.io/dsbook/

3. Tabla resumen de variables

Variable Descripción
country País al que corresponde la observación (Factor, 185 países)
year Año de la observación, desde 1960 hasta 2016 (entero)
infant_mortality Tasa de mortalidad infantil: muertes por cada 1,000 nacimientos (numérico, tiene NAs)
life_expectancy Esperanza de vida promedio en años al nacer (numérico, sin NAs)
fertility Tasa de fertilidad: promedio de hijos por mujer (numérico, tiene NAs)
population Población total del país en el año correspondiente (numérico, tiene NAs)
gdp Producto Interno Bruto total del país en dólares corrientes (numérico, tiene NAs)
continent Continente al que pertenece el país (Factor, 5 niveles)
region Región geográfica más específica dentro del continente (Factor, 22 niveles)

Visualizaciones de datos

# Cargar librerías necesarias
library(dslabs)
library(ggplot2)

# Filtrar datos del año 2011
gapminder_2011 <- gapminder[gapminder$year == 2011, ]
# GRÁFICO 1 - Dispersión: Fertilidad vs Esperanza de Vida (2011)
ggplot(gapminder_2011, aes(x = fertility, y = life_expectancy, color = continent)) +
  geom_point(size = 3, alpha = 0.7) +
  labs(
    title = "Fertilidad vs Esperanza de Vida por País (2011)",
    subtitle = "Cada punto representa un país, coloreado por continente",
    x = "Tasa de Fertilidad (hijos por mujer)",
    y = "Esperanza de Vida (años)",
    color = "Continente"
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(face = "bold", size = 14),
    plot.subtitle = element_text(size = 10)
  )

Variables graficadas y justificación: Este gráfico de dispersión utiliza la tasa de fertilidad (promedio de hijos por mujer) en el eje X y la esperanza de vida (en años) en el eje Y, coloreando cada punto según el continente al que pertenece el país. Se eligieron estas variables porque ambas son indicadores directos del nivel de desarrollo humano de un país y porque, a partir de la inspección del dataset, se identificó que existe una relación inversa entre ellas. El año 2011 fue seleccionado para obtener una fotografía reciente y con datos más completos, evitando la sobreposición de puntos al graficar un único año.

Relación principal: El gráfico revela una clara tendencia negativa: a medida que la tasa de fertilidad aumenta, la esperanza de vida disminuye. Los países europeos (puntos azules) se concentran en la esquina superior izquierda, con fertilidad baja (1-2 hijos) y esperanza de vida alta (más de 75 años). En contraste, la mayoría de países africanos (puntos rojos) se ubican en la esquina inferior derecha, con fertilidades altas (4-8 hijos) y esperanzas de vida menores. Esta visualización permite concluir que los países con mayor desarrollo socioeconómico tienden a tener menos hijos pero poblaciones más longevas, mientras que los países en desarrollo muestran el patrón opuesto.

# GRÁFICO 2 - Histograma: Distribución de la Esperanza de Vida (2011)
ggplot(gapminder_2011, aes(x = life_expectancy)) +
  geom_histogram(binwidth = 5, fill = "#2196F3", color = "white", alpha = 0.85) +
  labs(
    title = "Distribución de la Esperanza de Vida por País (2011)",
    subtitle = "Cada barra representa un rango de 5 años",
    x = "Esperanza de Vida (años)",
    y = "Número de Países"
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(face = "bold", size = 14),
    plot.subtitle = element_text(size = 10)
  )

Variables graficadas y justificación: Este histograma grafica la esperanza de vida (en años) de todos los países en el año 2011, distribuyendo los países en barras de 5 años cada una. Se eligió esta variable porque es la más completa del dataset (sin valores NA), es el indicador más representativo del bienestar de una población y permite visualizar de forma clara cómo se distribuyen los países del mundo según este indicador. El año 2011 se mantuvo consistente con el gráfico anterior para facilitar la comparación.

Información principal: El histograma muestra que la distribución de la esperanza de vida global en 2011 está sesgada hacia la izquierda, con la gran mayoría de países concentrados en el rango de 70 a 80 años. El pico más alto se encuentra entre los 75 y 80 años, con aproximadamente 50 países. Esto indica que para 2011, la mayor parte del mundo ya había alcanzado niveles altos de esperanza de vida. Sin embargo, la existencia de una cola hacia la izquierda — con algunos países por debajo de los 55 años — refleja que aún persisten naciones con condiciones de vida muy precarias, principalmente en el continente africano. Esta asimetría evidencia la desigualdad global en materia de salud y desarrollo.

# GRÁFICO 3 - Líneas: Evolución de la Esperanza de Vida por Continente (1960-2016)

# Calcular el promedio de esperanza de vida por año y continente
gapminder_promedio <- aggregate(
  life_expectancy ~ year + continent,
  data = gapminder,
  FUN = mean,
  na.rm = TRUE
)

# Crear gráfico de líneas
ggplot(gapminder_promedio, aes(x = year, y = life_expectancy, color = continent)) +
  geom_line(size = 1.2) +
  geom_point(size = 1.5, alpha = 0.5) +
  labs(
    title = "Evolución de la Esperanza de Vida por Continente (1960-2016)",
    subtitle = "Promedio anual de esperanza de vida por continente",
    x = "Año",
    y = "Esperanza de Vida Promedio (años)",
    color = "Continente"
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(face = "bold", size = 14),
    plot.subtitle = element_text(size = 10)
  )
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once per session.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Variables graficadas y justificación: Este gráfico de líneas muestra la evolución del promedio anual de esperanza de vida (eje Y) a lo largo del tiempo (eje X, de 1960 a 2016), con una línea de color distinto para cada continente. Se eligieron estas variables para agregar la dimensión temporal que los gráficos anteriores no mostraban — mientras los gráficos 1 y 2 presentan una fotografía del año 2011, este gráfico narra la historia completa de los 56 años que abarca el dataset. El promedio continental permite suavizar las diferencias entre países y observar tendencias globales más claras.

Tendencia principal: El gráfico revela que todos los continentes mejoraron su esperanza de vida entre 1960 y 2016, lo cual es un hallazgo positivo a nivel global. Europa se mantuvo como líder durante todo el período, superando los 79 años en 2016. Asia presenta el crecimiento más notable, partiendo desde aproximadamente 53 años en 1960 y alcanzando niveles similares a los de Américas hacia el año 2010. El caso más llamativo es África, que muestra un estancamiento e incluso una ligera caída en su curva durante los años 90, fenómeno atribuible al impacto devastador de la epidemia del VIH/SIDA en el continente. A partir del año 2000, África retoma su crecimiento de manera sostenida. Esta visualización permite al lector comprender el progreso histórico del bienestar humano a escala global y las brechas que aún persisten entre regiones.