Problema 4: Estimación Bootstrap

A partir de los datos proporcionados en el artículo “In-use Emissions from Heavy Duty Diesel Vehicles” de J. Yanowitz (2001), que detallan la eficiencia de combustible en millas por galón para una muestra de siete camiones, aplicaremos dos métodos bootstrap para construir un intervalo de confianza del 95% para la media poblacional de camiones. Primero, se extraen 1000 muestras bootstrap con reemplazo del conjunto original de datos y se calcula la media para cada muestra. Utilizamos dos métodos para construir los intervalos de confianza: el Método Percentil, que se basa en los percentiles (2.5% y 97.5%) de la distribución de medias bootstrap, y el Método Ajustado, que corrige el intervalo basándose en la media de la muestra original. Este ajuste busca centrar el intervalo alrededor de la media observada de la muestra para corregir posibles sesgos. Estos métodos nos permiten evaluar la precisión y la estabilidad de nuestras estimaciones, proporcionando una visión más robusta de la media poblacional basada en los datos de los camiones originales.

# Datos de la muestra
trucks <- c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45)

# Tamaño de la muestra
n <- length(trucks)

# Número de remuestreos bootstrap
k <- 1000

# Generación de muestras bootstrap y cálculo de las medias
set.seed(123)  # Para reproducibilidad

mean_boost <- replicate(k, {
  sample(trucks, n, replace = TRUE) %>% mean()
})
# Método 1: Intervalo de confianza basado en percentiles
IC_percentil <- quantile(mean_boost, c(0.025, 0.975))

# Método 2: Intervalo de confianza ajustado

IC_ajustado <- 2 * mean(trucks) -  quantile(mean_boost, c(0.025, 0.975))

# Mostrar resultados
cat("Intervalo de confianza Método 1 (Percentil):", IC_percentil)
## Intervalo de confianza Método 1 (Percentil): 4.748393 6.508643
cat("Intervalo de confianza Método 2 (Ajustado):", IC_ajustado)
## Intervalo de confianza Método 2 (Ajustado): 6.320179 4.559929

El intervalo de confianza del Método Percentil se sitúa entre 4.748 y 6.509, ofreciendo una estimación más conservadora debido a su mayor amplitud. En contraste, el intervalo del Método Ajustado varía de 4.560 a 6.320, ajustando los percentiles en función de la media muestral para corregir el sesgo potencial y centrar el intervalo alrededor de la media observada. Ambos intervalos presentan resultados coherentes, aunque con ligeras diferencias, reflejando la variabilidad inherente al enfoque bootstrap. Esta discrepancia en los intervalos, sin embargo, confirma la robustez del análisis al proporcionar una visión consistente sobre la ubicación de la media poblacional. En conjunto, ambos métodos sugieren que la media poblacional de eficiencia de combustible para los camiones se encuentra en el rango aproximado de 4.5 a 6.5 millas por galón.

data.frame(mean_boost) %>%
  ggplot(aes(x = mean_boost)) +
  geom_histogram(bins = 20, fill = "#69b3a2") +
  geom_vline(aes(xintercept = IC_percentil[1], color = "Método 1 (Percentil)"), 
             linetype = "dashed") +
  geom_vline(aes(xintercept = IC_percentil[2], color = "Método 1 (Percentil)"), 
             linetype = "dashed") +
  geom_vline(aes(xintercept = IC_ajustado[1], color = "Método 2 (Ajustado)"), 
             linetype = "dashed") +
  geom_vline(aes(xintercept = IC_ajustado[2], color = "Método 2 (Ajustado)"), 
             linetype = "dashed") +
  geom_vline(aes(xintercept = mean(trucks), color = "Media Muestral"), 
             linetype = "solid") +
  scale_color_manual(values = c("Método 1 (Percentil)" = "#B03060", 
                                "Método 2 (Ajustado)" = "#87CEEB", 
                                "Media Muestral" = "#FF8247")) +
  labs(title = "Distribución de las medias bootstrap",
       x = "Media de la muestra bootstrap",
       y = "Frecuencia",
       color = "Líneas de Intervalo de Confianza") +
  theme_ipsum() +
  theme(
    plot.title = element_text(color = "#016b53", size = 16, face = "bold"),
    legend.title = element_text(size = 12),
    legend.text = element_text(size = 10)
  )