Descripción de los datos

El conjunto de datos gapminder, incluido en el paquete dslabs de R, proporciona una visión general de varios indicadores de desarrollo humano y económico en la mayoría de los países del mundo, entre los años 1960 y 2016. Contiene información clave como la esperanza de vida, la mortalidad infantil, la tasa de fertilidad, el producto interno bruto (PIB), y el tamaño de la población, entre otras variables. Este conjunto de datos permite realizar análisis históricos, comparativos y regionales sobre el progreso social y económico a nivel mundial.

Datos:

  1. country

    Tipo: character (string)

    Valores únicos: 193 países

    Nulos: No

    Rango: nombres de países del mundo

    Ejemplos: Albania, Zimbabwe

  2. year

    Tipo: numeric

    Rango: 1960 a 2016

    Nulos: No

    Límites: mínimo = 1960, máximo = 2016

  3. infant_mortality

    Tipo: numeric

    Nulos: Sí

    Rango:

     Mínimo: 1.5
    
     Máximo: 180.2
  4. life_expectancy

    Tipo: numeric

    Nulos: Sí

    Rango:

     Mínimo: 12.0
    
     Máximo: 89.5
  5. fertility

    Tipo: numeric

    Nulos: No

    Rango:

     Mínimo: 1.2
    
     Máximo: 9.3
  6. population

    Tipo: numeric

    Nulos: No

    Rango:

     Mínimo: 9,589
    
     Máximo: 1,357,380,000
  7. gdp

    Tipo: numeric

    Nulos: Sí

    Rango:

     Mínimo: 0
    
     Máximo: 1,482,000,000,000
  8. continent

    Tipo: factor (categoría)

    Valores únicos: 5

    Categorías: Africa, Asia, Europe, Americas, Oceania

    Nulos: No

  9. region

    Tipo: factor (categoría)

    Valores únicos: 22 regiones geográficas

    Ejemplos: Western Europe, Eastern Asia, Sub-Saharan Africa

    Nulos: No

Fuente de los datos

Los datos provienen de Gapminder, una fundación sin fines de lucro que recopila y visualiza datos estadísticos con el objetivo de promover una visión basada en hechos sobre el desarrollo global. El conjunto de datos fue curado y procesado por los autores del paquete dslabs (David Robinson y Rafael Irizarry) y está diseñado para facilitar la enseñanza y el aprendizaje del análisis de datos en R. La mayoría de las estadísticas provienen de fuentes oficiales como el Banco Mundial y la Organización Mundial de la Salud (OMS).

Resumen de la inspección del dataset gapminder

Variable Descripción
country Nombre del país.
year Año de la observación (desde 1960 hasta 2016).
infant_mortality Tasa de mortalidad infantil (muertes por cada 1,000 nacidos vivos).
life_expectancy Esperanza de vida al nacer (en años).
fertility Tasa de fertilidad (número promedio de hijos por mujer).
population Tamaño total de la población del país en ese año.
gdp Producto Interno Bruto (PIB) total del país, en dólares estadounidenses.
continent Continente al que pertenece el país.
region Región geográfica dentro del continente (ej. Asia del Este, Europa del Norte).
Elemento Resultado
Observaciones (filas) 10,545
Variables (columnas) 9
Rango de años 1960 a 2016 (¡56 años!)
Cantidad de países únicos 185 países
Variables con NA infant_mortality (1453 NA), fertility (187 NA), population (185 NA), gdp (2972 NA)
Tipos de variables Mezcla de factores (ej. país, continente, región) y numéricos (fertilidad, GDP, etc.)
Variables destacadas life_expectancy, fertility, gdp, population, infant_mortality

Visualizaciones de datos

# cargar la libreria ggplot2 y dplyr (librerias como depedencias para graficar y ordenar)
# --> library(ggplot2)
# --> library(dplyr) 

library(ggplot2)
library(dplyr) 
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
# Cargar archivo de datos
data("gapminder")

# obtener datos para las graficas (2010 para analisis) 2010 tiene mas datos relevantes

#Filtro general para 2010 y datos completos
datos_2010 <- gapminder %>% 
  filter(year == 2010, !is.na(fertility), !is.na(life_expectancy), !is.na(population), !is.na(gdp), !is.na(continent))

# ---- datos para el historgrama Distribución del PIB (log10) ----
datos_2010 <- datos_2010 %>% mutate(log_gdp = log10(gdp))

Gráfico 1: Dispersión — Fertilidad vs Esperanza de Vida

# ---- Gráfico 1: Dispersión — Fertilidad vs Esperanza de Vida ----
grafico1 <- ggplot(datos_2010, aes(x = fertility, y = life_expectancy, color = continent)) +
  geom_point(size = 3, alpha = 0.7) +
  labs(
    title = "Relación entre Fertilidad y Esperanza de Vida (2010)",
    x = "Tasa de Fertilidad (número de hijos por mujer)",
    y = "Esperanza de Vida (años)",
    color = "Continente"
  ) +
  theme_minimal()
print(grafico1)

interpretacion de grafica

Este gráfico de dispersión muestra cómo se relacionan la tasa de fertilidad (número de hijos por mujer) y la esperanza de vida en distintos países en el año 2010, categorizados por continente.

¿Qué variables está graficando y por qué?

Se están graficando dos variables cuantitativas:

  • Eje X: Tasa de fertilidad (número de hijos por mujer).

  • Eje Y: Esperanza de vida (en años).

Estas variables se eligieron para explorar la relación entre el crecimiento poblacional y el bienestar general de los países. La variable categórica “continente” se representa mediante colores para observar posibles agrupamientos geográficos.

¿Qué relación / tendencia / información principal se espera mostrar?

Se busca identificar una posible correlación entre fertilidad y esperanza de vida. En particular, se espera observar si los países con mayor fertilidad tienden a tener una menor esperanza de vida, y viceversa. También se pretende identificar diferencias por continente.

Análisis del resultado

El gráfico revela una clara tendencia negativa entre las dos variables:

  • A medida que aumenta la tasa de fertilidad, tiende a disminuir la esperanza de vida.

  • Los países africanos (en rosa), en su mayoría, presentan tasas de fertilidad altas y esperanza de vida baja, lo cual puede estar relacionado con menores niveles de desarrollo económico, sanitario y educativo.

  • En contraste, los países europeos (azul) y asiáticos (verde) tienden a tener baja fertilidad y alta esperanza de vida, lo que es típico de sociedades más desarrolladas con acceso a sistemas de salud eficaces y control natal.

  • América y Oceanía muestran un comportamiento intermedio, aunque América presenta una mayor dispersión.

Este gráfico confirma una asociación negativa entre crecimiento poblacional y calidad de vida, un gran hallazgo para mi.

Gráfico 2: Histograma — Distribución del PIB (log10)

# ---- Gráfico 2: Histograma — Distribución del PIB (log10) ----
datos_2010 <- datos_2010 %>% mutate(log_gdp = log10(gdp))

grafico2 <- ggplot(datos_2010, aes(x = log_gdp)) +
  geom_histogram(fill = "#a463e3", color = "black", bins = 30) +
  labs(
    title = "Distribución del PIB (log10) en 2010",
    x = "Log10 del Producto Interno Bruto (PIB)",
    y = "Número de países"
  ) +
  theme_minimal()
print(grafico2)

interpretacion de grafica

Este histograma muestra cómo se distribuye el Producto Interno Bruto (PIB) de distintos países en el año 2010, utilizando una transformación logarítmica base 10 para facilitar la visualización.

¿Qué variables está graficando y por qué?

Se está graficando una sola variable cuantitativa:

  • Eje X: Logaritmo en base 10 del PIB de cada país.

  • Eje Y: Frecuencia, es decir, el número de países que se encuentran dentro de cada rango del log10 del PIB.

Se utiliza la escala logarítmica porque el PIB presenta una distribución altamente asimétrica, con valores extremos muy elevados. El logaritmo ayuda a reducir esta asimetría y facilita identificar patrones generales

¿Qué relación / tendencia / información principal se espera mostrar?

La visualización busca mostrar cómo se distribuyen los países en función de su riqueza económica (PIB), y si esta distribución es simétrica, sesgada o presenta agrupamientos notables. También permite detectar si hay una gran concentración de países en determinados niveles de PIB.

Análisis del resultado

El histograma muestra una distribución aproximadamente normal, con una ligera asimetría a la derecha (sesgo positivo).

  • La mayor parte de los países tienen un PIB cuyo log10 se encuentra entre 9.5 y 11, lo que indica que muchos países se agrupan en una franja intermedia de producción económica.

  • Existen algunos países con PIB extremadamente altos (log10 entre 12 y 13), pero son pocos.

  • También hay una menor proporción de países con PIB bajos (log10 entre 8 y 9).

Este gráfico sugiere que, aunque hay diferencias significativas entre países, la mayoría se encuentran en un rango medio en cuanto a su producción económica, lo cual podría ser útil para segmentar políticas económicas o clasificaciones por niveles de desarrollo.

Gráfico 3: Dispersión — Fertilidad vs Esperanza de Vida con tamaño de población (Grafico extra)

# ---- Gráfico 3: Dispersión — Fertilidad vs Esperanza de Vida con tamaño de población ----
grafico3 <- ggplot(datos_2010, aes(x = fertility, y = life_expectancy, size = population)) +
  geom_point(alpha = 0.5, color = "#1f78b4") +
  scale_size_continuous(range = c(1, 10)) +
  labs(
    title = "Esperanza de Vida vs Fertilidad con Población (2010)",
    x = "Tasa de fertilidad",
    y = "Esperanza de vida (años)",
    size = "Población"
  ) +
  theme_minimal()
print(grafico3)

interpretacion de grafica

Este diagrama de dispersión relaciona la esperanza de vida con la tasa de fertilidad de los países en 2010. Además, el tamaño de cada burbuja representa la población total del país, aportando una tercera dimensión clave a la visualización.

¿Qué variables está graficando y por qué?

Se grafican tres variables:

  • Eje X: Tasa de fertilidad (número de hijos por mujer).

  • Eje Y: Esperanza de vida (en años).

  • Tamaño de burbuja: Población total del país.

Esta combinación se utiliza para observar simultáneamente la relación entre fertilidad y longevidad, y cómo esta relación varía en función del tamaño poblacional de los países.

¿Qué relación / tendencia / información principal se espera mostrar?

El gráfico permite identificar si hay una relación entre la tasa de fertilidad y la esperanza de vida, y cómo influye el tamaño poblacional en esa relación. Se busca revelar si los países más poblados siguen una tendencia común o si se comportan de manera diferente.

Análisis del resultado

La gráfica reafirma una clara relación inversa entre la tasa de fertilidad y la esperanza de vida:

  • Los países con baja fertilidad (menos de 2.5 hijos por mujer) tienden a tener una alta esperanza de vida (mayor a 75 años).

  • Por el contrario, países con alta fertilidad (más de 4 hijos por mujer) tienen una esperanza de vida más baja, usualmente por debajo de los 65 años.

Además, se puede observar que las burbujas más grandes (es decir, países más poblados) como China o India se agrupan en la parte superior izquierda del gráfico: tienen tasas de fertilidad relativamente moderadas y esperanza de vida media a alta, lo que indica que una gran proporción de la población mundial vive en países con características intermedias en ambos indicadores.

Esto sugiere que los países con mejores condiciones de vida tienden a tener menos hijos por mujer, posiblemente por mayor acceso a educación, salud y planificación familiar, mientras que los países con alta fertilidad aún enfrentan desafíos en estos aspectos.


Discusión general de los resultados y del proyecto

En este proyecto se realizó un análisis exploratorio del conjunto de datos gapminder, centrado en el año 2010, para visualizar la relación entre indicadores clave del desarrollo humano. A partir de los gráficos generados se pueden destacar los siguientes hallazgos:

En general, el proyecto permitió poner en práctica habilidades fundamentales de manipulación de datos y visualización en R, utilizando herramientas como dplyr y ggplot2, y reflexionar sobre el estado del desarrollo global. Esta experiencia fortalece la capacidad analítica y crítica al trabajar con datos reales y complejos.

Proyecto realizado por Elvis Lizandro Aguilar Tax201930304
Centro Universitario de Occidente
Universidad de San Carlos de Guatemala · Abril 2025