Descripción de los datos

Tema del conjunto de datos

El conjunto de datos gapminder recopila indicadores demográficos, económicos y de salud para 185 países del mundo durante el período 1960-2016. Cada fila del data frame representa un país en un año específico e incluye variables como la esperanza de vida al nacer, la tasa de fertilidad, la mortalidad infantil, la población total y el Producto Interno Bruto (PIB). Este dataset permite analizar la evolución del bienestar humano a lo largo de más de cinco décadas y comparar el desarrollo entre continentes y regiones del mundo.

Fuente de los datos

Los datos provienen del paquete dslabs (Data Science Labs), desarrollado por el profesor Rafael A. Irizarry de la Universidad de Harvard como material complementario para el libro Introduction to Data Science: Data Analysis and Prediction Algorithms with R (Irizarry, 2019). A su vez, dslabs toma la información original de la fundación Gapminder (gapminder.org), iniciativa creada por Hans Rosling, Ola Rosling y Anna Rosling Rönnlund para difundir estadísticas globales sobre desarrollo humano. Gapminder consolida datos publicados por organismos como el Banco Mundial, la Organización Mundial de la Salud (OMS), la División de Población de Naciones Unidas y la FAO. Los datos ya vienen procesados y unificados en un único data frame dentro del paquete dslabs, por lo que no requieren limpieza previa más allá de manejar los valores NA en variables económicas y de salud.

Tabla resumen de variables

Variable Descripción
country Nombre del país (factor con 185 niveles).
year Año de la observación, entero entre 1960 y 2016.
infant_mortality Mortalidad infantil: muertes de menores de 1 año por cada 1000 nacidos vivos.
life_expectancy Esperanza de vida al nacer, en años.
fertility Tasa de fertilidad: número promedio de hijos por mujer.
population Población total del país en ese año.
gdp Producto Interno Bruto en dólares estadounidenses.
continent Continente del país (factor con 5 niveles).
region Región geográfica del país (factor con 22 niveles).

Inspección de los datos

# Dimensiones del data frame
dim(gapminder)
## [1] 10545     9
# Tipos de variable
str(gapminder)
## 'data.frame':    10545 obs. of  9 variables:
##  $ country         : Factor w/ 185 levels "Albania","Algeria",..: 1 2 3 4 5 6 7 8 9 10 ...
##  $ year            : int  1960 1960 1960 1960 1960 1960 1960 1960 1960 1960 ...
##  $ infant_mortality: num  115.4 148.2 208 NA 59.9 ...
##  $ life_expectancy : num  62.9 47.5 36 63 65.4 ...
##  $ fertility       : num  6.19 7.65 7.32 4.43 3.11 4.55 4.82 3.45 2.7 5.57 ...
##  $ population      : num  1636054 11124892 5270844 54681 20619075 ...
##  $ gdp             : num  NA 1.38e+10 NA NA 1.08e+11 ...
##  $ continent       : Factor w/ 5 levels "Africa","Americas",..: 4 1 1 2 2 3 2 5 4 3 ...
##  $ region          : Factor w/ 22 levels "Australia and New Zealand",..: 19 11 10 2 15 21 2 1 22 21 ...
# Rango del periodo de observacion
range(gapminder$year)
## [1] 1960 2016
# Numero de NA por variable
colSums(is.na(gapminder))
##          country             year infant_mortality  life_expectancy 
##                0                0             1453                0 
##        fertility       population              gdp        continent 
##              187              185             2972                0 
##           region 
##                0

El data frame tiene 10,545 observaciones y 9 variables, cubriendo el período 1960-2016 para 185 países. Las variables con más valores faltantes son gdp, infant_mortality y fertility, ya que su registro histórico depende de la capacidad estadística de cada país y muchas naciones pequeñas o en conflicto no reportaron estos indicadores en las décadas iniciales.

Gráficos

Gráfico 1: Relación entre fertilidad y esperanza de vida (2011)

gapminder %>%
  filter(year == 2011, !is.na(fertility), !is.na(life_expectancy)) %>%
  ggplot(aes(x = fertility, y = life_expectancy, color = continent)) +
  geom_point(alpha = 0.7, size = 2.5) +
  labs(
    title    = "Fertilidad vs Esperanza de vida (2011)",
    subtitle = "Cada punto representa un país",
    x        = "Tasa de fertilidad (hijos por mujer)",
    y        = "Esperanza de vida (años)",
    color    = "Continente"
  ) +
  theme_minimal(base_size = 12)
Figura 1. Relación entre la tasa de fertilidad y la esperanza de vida por continente en el año 2011.

Figura 1. Relación entre la tasa de fertilidad y la esperanza de vida por continente en el año 2011.

Interpretación del Gráfico 1. Este gráfico muestra dos variables numéricas continuas: la tasa de fertilidad en el eje X y la esperanza de vida al nacer en el eje Y, para todos los países con datos disponibles en el año 2011. El color distingue el continente de cada país. Se eligieron estas variables porque ambas son indicadores clave del desarrollo humano y están estrechamente ligadas entre sí en la literatura demográfica. La información principal que se espera que el lector obtenga es la fuerte relación negativa entre fertilidad y esperanza de vida: los países con mayor número de hijos por mujer (en su mayoría africanos) presentan esperanzas de vida notablemente menores, mientras que los países europeos, americanos y asiáticos con fertilidades cercanas a 2 hijos por mujer alcanzan esperanzas de vida superiores a los 75 años. Esto ilustra la transición demográfica moderna.

Gráfico 2: Distribución de la esperanza de vida en 2011

gapminder %>%
  filter(year == 2011, !is.na(life_expectancy)) %>%
  ggplot(aes(x = life_expectancy)) +
  geom_histogram(
    binwidth = 2,
    fill     = "#2E74B5",
    color    = "white"
  ) +
  labs(
    title    = "Distribución de la esperanza de vida al nacer (2011)",
    subtitle = "Frecuencia de países por rango de esperanza de vida",
    x        = "Esperanza de vida (años)",
    y        = "Número de países"
  ) +
  theme_minimal(base_size = 12)
Figura 2. Distribución de la esperanza de vida al nacer entre todos los países en 2011.

Figura 2. Distribución de la esperanza de vida al nacer entre todos los países en 2011.

Interpretación del Gráfico 2. Se graficó la distribución de la variable numérica life_expectancy para el año 2011, usando un histograma con ancho de barra de 2 años. Se eligió esta variable porque resume en un solo número el nivel general de salud y calidad de vida de cada país, y observar su distribución global da una fotografía inmediata de la desigualdad mundial en desarrollo humano. La información principal que se espera transmitir es que la distribución es asimétrica hacia la izquierda (sesgo negativo): la mayoría de los países del mundo en 2011 se concentran en el rango de 70 a 80 años de esperanza de vida, con una cola larga hacia los 50-60 años formada por países con menor desarrollo, principalmente del África subsahariana. Este gráfico complementa al anterior: confirma que la esperanza de vida mundial ha mejorado sustancialmente, pero sigue existiendo una brecha de hasta 30 años entre los países más y menos desarrollados.

Conclusiones

El análisis exploratorio del conjunto de datos gapminder permite identificar dos hallazgos principales. Primero, existe una relación inversa consistente entre la tasa de fertilidad y la esperanza de vida, lo que refleja el proceso de transición demográfica asociado al desarrollo económico y a la mejora de los sistemas de salud. Segundo, la distribución de la esperanza de vida en el mundo en 2011 muestra que la mayoría de los países ha alcanzado niveles superiores a los 70 años, aunque persiste una brecha significativa con un grupo de naciones cuyas esperanzas de vida aún se ubican entre los 50 y 60 años. Ambos resultados son coherentes con la literatura demográfica y confirman la utilidad del dataset para análisis comparativos internacionales.

Referencias