Introducción

El análisis de datos cuantitativos y su representación gráfica son fundamentales para la comprensión de fenómenos económicos, sociales y de salud a nivel global. En este trabajo se utiliza el conjunto de datos gapminder, reconocido internacionalmente por compilar información sobre variables clave como el Producto Interno Bruto (PIB) per cápita, la esperanza de vida al nacer, la tasa de fertilidad, la mortalidad infantil y la población total de los países.

Para el procesamiento y visualización de los datos, se emplearon las librerías dplyr y ggplot2 en el entorno de programación R, herramientas esenciales que permiten realizar transformaciones eficientes de datos que aprendimos durante el curso, análisis exploratorio y generación de gráficos de alta calidad. A través de distintos tipos de visualizaciones —incluyendo gráficos de dispersión, diagramas de barras e histogramas— se busca identificar patrones de comportamiento, relaciones entre variables y diferencias regionales significativas.

Este enfoque no solo permite describir los datos, sino también interpretar de manera crítica la dinámica entre desarrollo económico y condiciones de salud pública, apoyándose en prácticas de análisis y verificación de datos que resultan fundamentales en la construcción de modelos y en la toma de decisiones basadas en evidencia.

Objetivos

Objetivo general

Modelar gráficamente y analizar relaciones entre variables socioeconómicas y de salud utilizando el conjunto de datos gapminder y las librerías dplyr y ggplot2, aplicando principios de análisis estadístico y procesamiento de datos para interpretar fenómenos asociados al desarrollo humano.

Objetivos específicos

  • Aplicar los conocimientos adquiridos en el uso de herramientas de manipulación de datos y generación de gráficos (dplyr y ggplot2).

  • Explorar visualmente la relación entre el PIB per cápita y la esperanza de vida, modelando su comportamiento mediante diagramas de dispersión generados con ggplot2 y analizando su correlación como parte del estudio de fenómenos económicos.

  • Comparar la variación de tasas de fertilidad y mortalidad infantil entre regiones, mediante la generación de diagramas de barras, como ejercicio de análisis de datos y validación de hipótesis demográficas.

  • Analizar la distribución de la esperanza de vida a través de histogramas, utilizando ggplot2 como herramienta de visualización de la distribución de variables.

  • Aplicar técnicas de verificación visual de datos y exploración de patrones como etapas preliminares de análisis estadístico, reforzando la comprensión de fenómenos sociales y económicos complejos.

Carga de bibliotecas

## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

Descripción de los datos

El conjunto de datos gapminder contiene información sobre indicadores de salud y económicos para 184 países, abarcando desde 1960 hasta 2016. Incluye métricas clave como la mortalidad infantil, la esperanza de vida, la tasa de fertilidad, la población, el PIB per cápita, y clasificaciones geográficas por continente y región. Además, el conjunto proporciona dos vectores adicionales, oecd y opec, que listan los nombres de los países miembros de la OCDE (Organización para la Cooperación y el Desarrollo Económicos) y de la OPEP (Organización de Países Exportadores de Petróleo) en 2016, respectivamente. Este conjunto es útil para analizar tendencias globales en desarrollo humano, salud y economía a lo largo del tiempo.

Fuente de los datos: Los datos provienen de la Fundación Gapminder, una organización que recopila estadísticas de fuentes como el Banco Mundial, la ONU y otras instituciones internacionales.

Plantilla de tabla resumen:

Variable Descripción
country Indica el nombre del pais
year Año de la observacion
life_expectancy Expectativa de vida al nacer
infant_mortality Mortalidad infantil por 1000 nacidos vivos (numérico)
population Poblacion del pais
gdp PIB per cápita (en dólares ajustados, numérico)
fertility Tasa de fertilidad (hijos por mujer, numérico)
continent Continente del país (factor)
region Región geográfica del país (factor)

Visualizaciones de datos

# Escriba el código R aquí para cargar su archivo de datos
data(gapminder)
# Escriba el código R aquí para crear su primer gráfico
#Grafico de dispersion: Esperanza de vida vs PIB per cápita (2000)
gapminder_2000 <- gapminder %>%
  filter(year == 2000) %>%
  mutate(gdp_per_capita = ifelse(population > 0, gdp / population, NA)) %>%
  filter(!is.na(gdp_per_capita), gdp_per_capita > 0,
         !is.na(life_expectancy), !is.na(population))

ggplot(gapminder_2000, aes(x = gdp_per_capita, y = life_expectancy, 
                           size = population, color = continent)) +
  geom_point(alpha = 0.7) +
  scale_x_log10() +
  scale_size(range = c(2, 15), name = "Población") +
  labs(title = "Esperanza de vida vs PIB per cápita (2000)",
       x = "PIB per cápita (USD, escala log10)",
       y = "Esperanza de vida (años)",
       color = "Continente") +
  theme_minimal()

1. Gráfico de dispersión: Esperanza de vida vs PIB per cápita (2000)

Descripción de las variables

Esta gráfica de dispersión representa:

  • Eje X: PIB per cápita (Producto Interno Bruto dividido entre la población total, en dólares estadounidenses, en escala logarítmica).
  • Eje Y: Esperanza de vida (promedio de años que se espera que viva una persona en cada país).
  • Tamaño de la burbuja: Representa la población total del país.
  • Color: Indica el continente al que pertenece cada país.

La escala logarítmica (log10) en el eje X se utiliza debido a la alta variabilidad del PIB per cápita entre países: algunos presentan valores extremadamente bajos y otros muy elevados. Aplicar esta escala permite visualizar mejor las diferencias relativas y evitar que los datos de países con bajos ingresos queden comprimidos en un extremo del gráfico, facilitando así una interpretación más equilibrada de la relación entre variables.

Estas variables se grafican para analizar la relación entre el desarrollo económico y los indicadores de salud de las poblaciones a nivel mundial en el año 2000.

Interpretación y tendencia principal

Se observa una relación positiva: a mayor PIB per cápita, generalmente se presenta una mayor esperanza de vida.
Sin embargo, la relación no es lineal: el aumento en la esperanza de vida se estabiliza a partir de cierto nivel de ingreso.

  • Los países africanos, con bajos ingresos y menores esperanzas de vida, se agrupan en la parte inferior izquierda del gráfico.
  • Los países europeos y de Oceanía, con altos ingresos y alta esperanza de vida, se sitúan en el extremo superior derecho.

Este gráfico evidencia que el nivel económico está fuertemente asociado al bienestar y longevidad de las poblaciones, aunque otros factores sociales y sanitarios también influyen.

# Escriba el código R aquí para crear su segundo gráfico
# Gráfica de dispersión: Tasa de fertilidad vs Mortalidad infantil (2012)
gapminder_2012 <- subset(gapminder, year == 2000 & !is.na(fertility) & !is.na(infant_mortality))
ggplot(gapminder_2012, aes(x = infant_mortality, y = fertility, color = region)) +
  geom_point() +
  labs(title = "Tasa de fertilidad vs Mortalidad infantil (2012)",
       x = "Mortalidad infantil (por 1000 nacidos vivos)",
       y = "Tasa de fertilidad (hijos por mujer)",
       color = "Región") +
  theme_minimal()

2. Gráfica de dispersión: Tasa de fertilidad vs Mortalidad infantil (2012)

Descripción de las variables

Este gráfico de dispersión muestra la relación entre dos variables:

  • Eje X: Mortalidad infantil (número de muertes de niños menores de 1 año por cada 1,000 nacidos vivos).
  • Eje Y: Tasa de fertilidad (número promedio de hijos por mujer).
  • Color de los puntos: Representa diferentes regiones geográficas.

Se grafican estas variables para analizar cómo las condiciones de salud infantil pueden influir en las decisiones reproductivas de las sociedades. Cada punto en el gráfico representa un país.

Interpretación y tendencia principal

Se observa una relación positiva: en general, los países con mayores tasas de mortalidad infantil presentan también mayores tasas de fertilidad.

Esto sugiere que, en contextos donde la supervivencia infantil es baja, las familias tienden a tener más hijos.
Por el contrario, en regiones donde la mortalidad infantil es baja, como Europa y Oceanía, las tasas de fertilidad son también menores.

La visualización destaca importantes desigualdades regionales en indicadores de desarrollo humano y muestra cómo la salud infantil está relacionada con los patrones de natalidad.

# Escriba el código R aquí para crear su tercer gráfico
# Diagrama de barras: Tasa de fertilidad promedio por región (2012)
gapminder_2012_summary <- gapminder_2012 %>%
  group_by(region) %>%
  summarise(mean_fertility = mean(fertility, na.rm = TRUE))
ggplot(gapminder_2012_summary, aes(x = reorder(region, mean_fertility), y = mean_fertility)) +
  geom_bar(stat = "identity", fill = "purple", color = "black") +
  coord_flip() +
  labs(title = "Tasa de fertilidad promedio por región (2012)",
       x = "Región",
       y = "Tasa de fertilidad promedio (hijos por mujer)") +
  theme_minimal()

gapminder_2000 <- gapminder %>%
  filter(year == 2000, !is.na(life_expectancy))

3. Diagrama de barras: Tasa de fertilidad promedio por región (2012)

Descripción de las variables

Esta gráfica de barras representa:

  • Eje X: Tasa de fertilidad promedio (número de hijos por mujer).
  • Eje Y: Regiones geográficas del mundo.

Cada barra muestra el promedio de hijos por mujer en cada región en el año 2012.

Estas variables se grafican para comparar los niveles de fertilidad entre distintas regiones, permitiendo identificar patrones demográficos asociados a factores económicos, culturales y sociales.

Interpretación y tendencia principal

Se observa que las regiones de África (Middle Africa, Western Africa y Eastern Africa) presentan las tasas de fertilidad promedio más altas, superando los 5 hijos por mujer.

En contraste, las regiones de Europa (Eastern Europe, Southern Europe, Western Europe y Northern Europe) registran las tasas de fertilidad más bajas, cercanas a 1.5 hijos por mujer.

El gráfico evidencia que las regiones menos desarrolladas tienden a mantener tasas de fertilidad más elevadas, mientras que las regiones más desarrolladas presentan una natalidad reducida, reflejando diferencias en acceso a salud, educación y condiciones económicas.

# Escriba el código R aquí para crear su cuarto gráfico
# Histograma: Distribucion de la esperanza de vida año 2000
ggplot(gapminder_2000, aes(x = life_expectancy)) +
  geom_histogram(binwidth = 5, fill = "lightgreen", color = "black") +
  labs(title = "Distribución de la esperanza de vida (2000)",
       x = "Esperanza de vida (años)",
       y = "Número de países") +
  theme_minimal()

4. Histograma: Distribución de la esperanza de vida (año 2000)

Descripción de las variables

Esta gráfica de barras representa:

  • Eje X: Esperanza de vida (años).
  • Eje Y: Número de países.

Cada barra muestra cuántos países tienen una esperanza de vida dentro de un determinado rango en el año 2000.

Estas variables se grafican para analizar cómo se distribuye la esperanza de vida entre los países del mundo en ese año, permitiendo observar patrones de desarrollo humano y desigualdad sanitaria.

Interpretación y tendencia principal

Se observa que la mayoría de los países en el año 2000 tenían una esperanza de vida entre 60 y 80 años.

Sin embargo, existe un grupo de países, principalmente de África, donde la esperanza de vida era considerablemente más baja, en algunos casos inferior a 50 años.

El histograma evidencia las desigualdades en condiciones de vida y salud pública entre diferentes regiones.
En particular, la falta de acceso a servicios básicos de salud en países en vías de desarrollo podría haber influido en la reducción de la esperanza de vida durante esa época.

# Escriba el código R aquí para crear su quinto gráfico
#Mortalidad infantil promedio por continente (2000)
# Crear el resumen
gapminder_2000 <- gapminder %>% 
  filter(year == 2000) %>%
  group_by(continent) %>%
  summarise(mean_infant_mortality = mean(infant_mortality, na.rm = TRUE))

# Gráfico
ggplot(gapminder_2000, aes(x = reorder(continent, mean_infant_mortality), y = mean_infant_mortality)) +
  geom_bar(stat = "identity", fill = "skyblue", color = "black") +
  coord_flip() +
  labs(title = "Mortalidad infantil promedio por continente (2000)",
       x = "Continente",
       y = "Mortalidad infantil promedio (por 1000 nacidos vivos)") +
  theme_minimal()

# 5. Mortalidad infantil promedio por continente (2000)

Descripción de las variables

Esta gráfica de barras representa:

  • Eje X: Continentes del mundo.
  • Eje Y: Mortalidad infantil promedio (número de muertes de niños menores de 1 año por cada 1,000 nacidos vivos).

Cada barra indica el valor promedio de mortalidad infantil en cada continente en el año 2000.

Estas variables se grafican para identificar las diferencias regionales en indicadores de salud infantil.

Interpretación y tendencia principal

Se observa que África presenta la mortalidad infantil promedio más alta, superando significativamente a otros continentes.

En cambio, Europa y Oceanía registran las tasas de mortalidad infantil más bajas.

El gráfico evidencia grandes desigualdades globales en cuanto a la supervivencia infantil, reflejando el impacto de las condiciones socioeconómicas, los sistemas de salud y el acceso a servicios básicos en distintas regiones del mundo.

En áreas con mayor pobreza y menor acceso a educación, la mortalidad infantil tiende a ser más elevada, como consecuencia de la falta de educación sanitaria, deficiencias en los sistemas de salud y, posiblemente, la presión demográfica derivada de poblaciones numerosas con recursos limitados.

# Escriba el código R aquí para crear su sexto gráfico
#Relación entre PIB per cápita y población (2000)
# Filtrar datos para el año 2000
gapminder_2000 <- gapminder %>%
  filter(year == 2000, !is.na(population), !is.na(gdp)) %>%
  mutate(gdp_per_capita = gdp / population)

# Gráfica de dispersión
ggplot(gapminder_2000, aes(x = gdp_per_capita, y = population)) +
  geom_point(color = "darkorange", alpha = 0.7) +
  scale_x_log10() +
  scale_y_log10() +
  labs(title = "Relación entre PIB per cápita y población (2000)",
       x = "PIB per cápita (USD, escala log10)",
       y = "Población total (escala log10)") +
  theme_minimal()

6. Relación entre PIB per cápita y población (2000)

Descripción de las variables

Esta gráfica de dispersión representa:

  • Eje X: PIB per cápita (Producto Interno Bruto dividido entre la población total, en dólares estadounidenses, en escala logarítmica).
  • Eje Y: Población total de cada país (también en escala logarítmica).

Cada punto representa un país en el año 2000.

Estas variables se grafican para analizar la relación entre el tamaño de la población y el nivel de ingreso promedio de los países a nivel mundial.

Interpretación y tendencia principal

Se observa que no existe una relación lineal clara entre el PIB per cápita y la población:

  • Hay países muy poblados con bajo PIB per cápita, como India y China en el año 2000.
  • Los países con mayores PIB per cápita suelen tener poblaciones medianas o pequeñas.

El gráfico refleja que el tamaño poblacional no determina directamente el nivel de riqueza promedio de un país.
Factores como el desarrollo económico, las políticas públicas y la disponibilidad de recursos influyen en esta relación de manera significativa

# Escriba el código R aquí para crear su septimo gráfico
#Relación entre tasa de fertilidad y esperanza de vida (2000)

gapminder_2000 <- gapminder %>%
  filter(year == 2000, !is.na(fertility), !is.na(life_expectancy))

ggplot(gapminder_2000, aes(x = fertility, y = life_expectancy)) +
  geom_point(color = "steelblue", alpha = 0.7) +
  labs(title = "Relación entre tasa de fertilidad y esperanza de vida (2000)",
       x = "Tasa de fertilidad (hijos por mujer)",
       y = "Esperanza de vida (años)") +
  theme_minimal()

7. Relación entre tasa de fertilidad y esperanza de vida (2000)

Descripción de las variables

Esta gráfica de dispersión representa:

  • Eje X: Tasa de fertilidad (número promedio de hijos por mujer).
  • Eje Y: Esperanza de vida (en años).

Cada punto representa un país en el año 2000.

Estas variables se grafican para explorar cómo los patrones de natalidad se relacionan con la longevidad en diferentes países.

Interpretación y tendencia principal

Se observa una relación negativa: en general, los países con tasas de fertilidad más altas presentan menores esperanzas de vida.

Los países donde las mujeres tienen menos hijos tienden a tener mayores esperanzas de vida, reflejando mejores condiciones de salud, educación y desarrollo económico.

Conclusión

El análisis gráfico de los datos provenientes del conjunto gapminder, apoyado en el uso de las librerías dplyr y ggplot2, permitió identificar de manera efectiva patrones de comportamiento y relaciones relevantes entre variables socioeconómicas y de salud para el año 2000 y otros años. A través de las transformaciones de datos realizadas con dplyr y las visualizaciones generadas con ggplot2 diagramas de dispersión, histogramas y gráficos de barras, se evidenció la asociación positiva entre el PIB per cápita y la esperanza de vida, así como la correlación entre tasas de fertilidad elevadas y alta mortalidad infantil.

El uso de estas herramientas facilitó la validación preliminar de hipótesis comunes en los estudios de desarrollo humano y permitió observar desigualdades regionales significativas en los indicadores analizados. La combinación de procesamiento de datos eficiente y visualización clara refuerza la importancia de integrar técnicas de análisis exploratorio en la construcción de modelos y en la interpretación crítica de fenómenos sociales y económicos.

Este proyecto destaca la relevancia de dominar bibliotecas especializadas en análisis de datos como dplyr y ggplot2, así como la importancia de estructurar correctamente los datos de entrada para fundamentar futuras aplicaciones predictivas y evaluaciones basadas en evidencia empírica.