El análisis de datos cuantitativos y su representación gráfica son fundamentales para la comprensión de fenómenos económicos, sociales y de salud a nivel global. En este trabajo se utiliza el conjunto de datos gapminder, reconocido internacionalmente por compilar información sobre variables clave como el Producto Interno Bruto (PIB) per cápita, la esperanza de vida al nacer, la tasa de fertilidad, la mortalidad infantil y la población total de los países.
Para el procesamiento y visualización de los datos, se emplearon las
librerías dplyr y ggplot2 en el entorno de
programación R, herramientas esenciales que permiten realizar
transformaciones eficientes de datos que aprendimos durante el curso,
análisis exploratorio y generación de gráficos de alta calidad. A través
de distintos tipos de visualizaciones —incluyendo gráficos de
dispersión, diagramas de barras e histogramas— se busca identificar
patrones de comportamiento, relaciones entre variables y diferencias
regionales significativas.
Este enfoque no solo permite describir los datos, sino también interpretar de manera crítica la dinámica entre desarrollo económico y condiciones de salud pública, apoyándose en prácticas de análisis y verificación de datos que resultan fundamentales en la construcción de modelos y en la toma de decisiones basadas en evidencia.
Modelar gráficamente y analizar relaciones entre variables
socioeconómicas y de salud utilizando el conjunto de datos
gapminder y las librerías dplyr y
ggplot2, aplicando principios de análisis estadístico y
procesamiento de datos para interpretar fenómenos asociados al
desarrollo humano.
Aplicar los conocimientos adquiridos en el uso de herramientas de manipulación de datos y generación de gráficos (dplyr y ggplot2).
Explorar visualmente la relación entre el PIB per cápita y la
esperanza de vida, modelando su comportamiento mediante diagramas de
dispersión generados con ggplot2 y analizando su
correlación como parte del estudio de fenómenos económicos.
Comparar la variación de tasas de fertilidad y mortalidad infantil entre regiones, mediante la generación de diagramas de barras, como ejercicio de análisis de datos y validación de hipótesis demográficas.
Analizar la distribución de la esperanza de vida a través de
histogramas, utilizando ggplot2 como herramienta de
visualización de la distribución de variables.
Aplicar técnicas de verificación visual de datos y exploración de patrones como etapas preliminares de análisis estadístico, reforzando la comprensión de fenómenos sociales y económicos complejos.
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
El conjunto de datos gapminder contiene información sobre indicadores de salud y económicos para 184 países, abarcando desde 1960 hasta 2016. Incluye métricas clave como la mortalidad infantil, la esperanza de vida, la tasa de fertilidad, la población, el PIB per cápita, y clasificaciones geográficas por continente y región. Además, el conjunto proporciona dos vectores adicionales, oecd y opec, que listan los nombres de los países miembros de la OCDE (Organización para la Cooperación y el Desarrollo Económicos) y de la OPEP (Organización de Países Exportadores de Petróleo) en 2016, respectivamente. Este conjunto es útil para analizar tendencias globales en desarrollo humano, salud y economía a lo largo del tiempo.
Fuente de los datos: Los datos provienen de la Fundación Gapminder, una organización que recopila estadísticas de fuentes como el Banco Mundial, la ONU y otras instituciones internacionales.
Plantilla de tabla resumen:
| Variable | Descripción |
|---|---|
| country | Indica el nombre del pais |
| year | Año de la observacion |
| life_expectancy | Expectativa de vida al nacer |
| infant_mortality | Mortalidad infantil por 1000 nacidos vivos (numérico) |
| population | Poblacion del pais |
| gdp | PIB per cápita (en dólares ajustados, numérico) |
| fertility | Tasa de fertilidad (hijos por mujer, numérico) |
| continent | Continente del país (factor) |
| region | Región geográfica del país (factor) |
# Escriba el código R aquí para cargar su archivo de datos
data(gapminder)
# Escriba el código R aquí para crear su primer gráfico
#Grafico de dispersion: Esperanza de vida vs PIB per cápita (2000)
gapminder_2000 <- gapminder %>%
filter(year == 2000) %>%
mutate(gdp_per_capita = ifelse(population > 0, gdp / population, NA)) %>%
filter(!is.na(gdp_per_capita), gdp_per_capita > 0,
!is.na(life_expectancy), !is.na(population))
ggplot(gapminder_2000, aes(x = gdp_per_capita, y = life_expectancy,
size = population, color = continent)) +
geom_point(alpha = 0.7) +
scale_x_log10() +
scale_size(range = c(2, 15), name = "Población") +
labs(title = "Esperanza de vida vs PIB per cápita (2000)",
x = "PIB per cápita (USD, escala log10)",
y = "Esperanza de vida (años)",
color = "Continente") +
theme_minimal()
Esta gráfica de dispersión representa:
La escala logarítmica (log10) en el eje X se utiliza
debido a la alta variabilidad del PIB per cápita entre países: algunos
presentan valores extremadamente bajos y otros muy elevados. Aplicar
esta escala permite visualizar mejor las diferencias relativas y evitar
que los datos de países con bajos ingresos queden comprimidos en un
extremo del gráfico, facilitando así una interpretación más equilibrada
de la relación entre variables.
Estas variables se grafican para analizar la relación entre el desarrollo económico y los indicadores de salud de las poblaciones a nivel mundial en el año 2000.
Se observa una relación positiva: a mayor PIB per
cápita, generalmente se presenta una mayor esperanza de vida.
Sin embargo, la relación no es lineal: el aumento en la
esperanza de vida se estabiliza a partir de cierto nivel de ingreso.
Este gráfico evidencia que el nivel económico está fuertemente asociado al bienestar y longevidad de las poblaciones, aunque otros factores sociales y sanitarios también influyen.
# Escriba el código R aquí para crear su segundo gráfico
# Gráfica de dispersión: Tasa de fertilidad vs Mortalidad infantil (2012)
gapminder_2012 <- subset(gapminder, year == 2000 & !is.na(fertility) & !is.na(infant_mortality))
ggplot(gapminder_2012, aes(x = infant_mortality, y = fertility, color = region)) +
geom_point() +
labs(title = "Tasa de fertilidad vs Mortalidad infantil (2012)",
x = "Mortalidad infantil (por 1000 nacidos vivos)",
y = "Tasa de fertilidad (hijos por mujer)",
color = "Región") +
theme_minimal()
Este gráfico de dispersión muestra la relación entre dos variables:
Se grafican estas variables para analizar cómo las condiciones de salud infantil pueden influir en las decisiones reproductivas de las sociedades. Cada punto en el gráfico representa un país.
Se observa una relación positiva: en general, los países con mayores tasas de mortalidad infantil presentan también mayores tasas de fertilidad.
Esto sugiere que, en contextos donde la supervivencia infantil es
baja, las familias tienden a tener más hijos.
Por el contrario, en regiones donde la mortalidad infantil es baja, como
Europa y Oceanía, las tasas de fertilidad son también menores.
La visualización destaca importantes desigualdades regionales en indicadores de desarrollo humano y muestra cómo la salud infantil está relacionada con los patrones de natalidad.
# Escriba el código R aquí para crear su tercer gráfico
# Diagrama de barras: Tasa de fertilidad promedio por región (2012)
gapminder_2012_summary <- gapminder_2012 %>%
group_by(region) %>%
summarise(mean_fertility = mean(fertility, na.rm = TRUE))
ggplot(gapminder_2012_summary, aes(x = reorder(region, mean_fertility), y = mean_fertility)) +
geom_bar(stat = "identity", fill = "purple", color = "black") +
coord_flip() +
labs(title = "Tasa de fertilidad promedio por región (2012)",
x = "Región",
y = "Tasa de fertilidad promedio (hijos por mujer)") +
theme_minimal()
gapminder_2000 <- gapminder %>%
filter(year == 2000, !is.na(life_expectancy))
Esta gráfica de barras representa:
Cada barra muestra el promedio de hijos por mujer en cada región en el año 2012.
Estas variables se grafican para comparar los niveles de fertilidad entre distintas regiones, permitiendo identificar patrones demográficos asociados a factores económicos, culturales y sociales.
Se observa que las regiones de África (Middle Africa, Western Africa y Eastern Africa) presentan las tasas de fertilidad promedio más altas, superando los 5 hijos por mujer.
En contraste, las regiones de Europa (Eastern Europe, Southern Europe, Western Europe y Northern Europe) registran las tasas de fertilidad más bajas, cercanas a 1.5 hijos por mujer.
El gráfico evidencia que las regiones menos desarrolladas tienden a mantener tasas de fertilidad más elevadas, mientras que las regiones más desarrolladas presentan una natalidad reducida, reflejando diferencias en acceso a salud, educación y condiciones económicas.
# Escriba el código R aquí para crear su cuarto gráfico
# Histograma: Distribucion de la esperanza de vida año 2000
ggplot(gapminder_2000, aes(x = life_expectancy)) +
geom_histogram(binwidth = 5, fill = "lightgreen", color = "black") +
labs(title = "Distribución de la esperanza de vida (2000)",
x = "Esperanza de vida (años)",
y = "Número de países") +
theme_minimal()
Esta gráfica de barras representa:
Cada barra muestra cuántos países tienen una esperanza de vida dentro de un determinado rango en el año 2000.
Estas variables se grafican para analizar cómo se distribuye la esperanza de vida entre los países del mundo en ese año, permitiendo observar patrones de desarrollo humano y desigualdad sanitaria.
Se observa que la mayoría de los países en el año 2000 tenían una esperanza de vida entre 60 y 80 años.
Sin embargo, existe un grupo de países, principalmente de África, donde la esperanza de vida era considerablemente más baja, en algunos casos inferior a 50 años.
El histograma evidencia las desigualdades en condiciones de vida y
salud pública entre diferentes regiones.
En particular, la falta de acceso a servicios básicos de salud en países
en vías de desarrollo podría haber influido en la reducción de la
esperanza de vida durante esa época.
# Escriba el código R aquí para crear su quinto gráfico
#Mortalidad infantil promedio por continente (2000)
# Crear el resumen
gapminder_2000 <- gapminder %>%
filter(year == 2000) %>%
group_by(continent) %>%
summarise(mean_infant_mortality = mean(infant_mortality, na.rm = TRUE))
# Gráfico
ggplot(gapminder_2000, aes(x = reorder(continent, mean_infant_mortality), y = mean_infant_mortality)) +
geom_bar(stat = "identity", fill = "skyblue", color = "black") +
coord_flip() +
labs(title = "Mortalidad infantil promedio por continente (2000)",
x = "Continente",
y = "Mortalidad infantil promedio (por 1000 nacidos vivos)") +
theme_minimal()
# 5. Mortalidad infantil promedio por continente (2000)
Esta gráfica de barras representa:
Cada barra indica el valor promedio de mortalidad infantil en cada continente en el año 2000.
Estas variables se grafican para identificar las diferencias regionales en indicadores de salud infantil.
Se observa que África presenta la mortalidad infantil promedio más alta, superando significativamente a otros continentes.
En cambio, Europa y Oceanía registran las tasas de mortalidad infantil más bajas.
El gráfico evidencia grandes desigualdades globales en cuanto a la supervivencia infantil, reflejando el impacto de las condiciones socioeconómicas, los sistemas de salud y el acceso a servicios básicos en distintas regiones del mundo.
En áreas con mayor pobreza y menor acceso a educación, la mortalidad infantil tiende a ser más elevada, como consecuencia de la falta de educación sanitaria, deficiencias en los sistemas de salud y, posiblemente, la presión demográfica derivada de poblaciones numerosas con recursos limitados.
# Escriba el código R aquí para crear su sexto gráfico
#Relación entre PIB per cápita y población (2000)
# Filtrar datos para el año 2000
gapminder_2000 <- gapminder %>%
filter(year == 2000, !is.na(population), !is.na(gdp)) %>%
mutate(gdp_per_capita = gdp / population)
# Gráfica de dispersión
ggplot(gapminder_2000, aes(x = gdp_per_capita, y = population)) +
geom_point(color = "darkorange", alpha = 0.7) +
scale_x_log10() +
scale_y_log10() +
labs(title = "Relación entre PIB per cápita y población (2000)",
x = "PIB per cápita (USD, escala log10)",
y = "Población total (escala log10)") +
theme_minimal()
Esta gráfica de dispersión representa:
Cada punto representa un país en el año 2000.
Estas variables se grafican para analizar la relación entre el tamaño de la población y el nivel de ingreso promedio de los países a nivel mundial.
Se observa que no existe una relación lineal clara entre el PIB per cápita y la población:
El gráfico refleja que el tamaño poblacional no determina
directamente el nivel de riqueza promedio de un país.
Factores como el desarrollo económico, las políticas públicas y la
disponibilidad de recursos influyen en esta relación de manera
significativa
# Escriba el código R aquí para crear su septimo gráfico
#Relación entre tasa de fertilidad y esperanza de vida (2000)
gapminder_2000 <- gapminder %>%
filter(year == 2000, !is.na(fertility), !is.na(life_expectancy))
ggplot(gapminder_2000, aes(x = fertility, y = life_expectancy)) +
geom_point(color = "steelblue", alpha = 0.7) +
labs(title = "Relación entre tasa de fertilidad y esperanza de vida (2000)",
x = "Tasa de fertilidad (hijos por mujer)",
y = "Esperanza de vida (años)") +
theme_minimal()
Esta gráfica de dispersión representa:
Cada punto representa un país en el año 2000.
Estas variables se grafican para explorar cómo los patrones de natalidad se relacionan con la longevidad en diferentes países.
Se observa una relación negativa: en general, los países con tasas de fertilidad más altas presentan menores esperanzas de vida.
Los países donde las mujeres tienen menos hijos tienden a tener mayores esperanzas de vida, reflejando mejores condiciones de salud, educación y desarrollo económico.
El análisis gráfico de los datos provenientes del conjunto
gapminder, apoyado en el uso de las librerías
dplyr y ggplot2, permitió identificar de
manera efectiva patrones de comportamiento y relaciones relevantes entre
variables socioeconómicas y de salud para el año 2000 y otros años. A
través de las transformaciones de datos realizadas con
dplyr y las visualizaciones generadas con
ggplot2 diagramas de dispersión, histogramas y gráficos de
barras, se evidenció la asociación positiva entre el PIB per cápita y la
esperanza de vida, así como la correlación entre tasas de fertilidad
elevadas y alta mortalidad infantil.
El uso de estas herramientas facilitó la validación preliminar de hipótesis comunes en los estudios de desarrollo humano y permitió observar desigualdades regionales significativas en los indicadores analizados. La combinación de procesamiento de datos eficiente y visualización clara refuerza la importancia de integrar técnicas de análisis exploratorio en la construcción de modelos y en la interpretación crítica de fenómenos sociales y económicos.
Este proyecto destaca la relevancia de dominar bibliotecas
especializadas en análisis de datos como dplyr y
ggplot2, así como la importancia de estructurar
correctamente los datos de entrada para fundamentar futuras aplicaciones
predictivas y evaluaciones basadas en evidencia empírica.