A partir de los datos proporcionados en el artículo “In-use Emissions
from Heavy Duty Diesel Vehicles” de J. Yanowitz (2001), que detallan la
eficiencia de combustible en millas por galón para una muestra de siete
camiones, aplicaremos dos métodos bootstrap para construir un intervalo
de confianza del 95% para la media poblacional de camiones. Primero, se
extraen 1000 muestras bootstrap con reemplazo del conjunto original de
datos y se calcula la media para cada muestra. Utilizamos dos métodos
para construir los intervalos de confianza: el
Método Percentil, que se basa en los percentiles (2.5% y
97.5%) de la distribución de medias bootstrap, y el
Método Ajustado, que corrige el intervalo basándose en la
media de la muestra original. Este ajuste busca centrar el intervalo
alrededor de la media observada de la muestra para corregir posibles
sesgos. Estos métodos nos permiten evaluar la precisión y la estabilidad
de nuestras estimaciones, proporcionando una visión más robusta de la
media poblacional basada en los datos de los camiones originales.
# Datos de la muestra
trucks <- c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45)
# Tamaño de la muestra
n <- length(trucks)
# Número de remuestreos bootstrap
k <- 1000
# Generación de muestras bootstrap y cálculo de las medias
set.seed(123) # Para reproducibilidad
mean_boost <- replicate(k, {
sample(trucks, n, replace = TRUE) %>% mean()
})
# Método 1: Intervalo de confianza basado en percentiles
IC_percentil <- quantile(mean_boost, c(0.025, 0.975))
# Método 2: Intervalo de confianza ajustado
IC_ajustado <- 2 * mean(trucks) - quantile(mean_boost, c(0.025, 0.975))
# Mostrar resultados
cat("Intervalo de confianza Método 1 (Percentil):", IC_percentil)
## Intervalo de confianza Método 1 (Percentil): 4.748393 6.508643
cat("Intervalo de confianza Método 2 (Ajustado):", IC_ajustado)
## Intervalo de confianza Método 2 (Ajustado): 6.320179 4.559929
El intervalo de confianza del Método Percentil se sitúa
entre 4.748 y 6.509, ofreciendo una estimación más conservadora debido a
su mayor amplitud. En contraste, el intervalo del
Método Ajustado varía de 4.560 a 6.320, ajustando los
percentiles en función de la media muestral para corregir el sesgo
potencial y centrar el intervalo alrededor de la media observada. Ambos
intervalos presentan resultados coherentes, aunque con ligeras
diferencias, reflejando la variabilidad inherente al enfoque bootstrap.
Esta discrepancia en los intervalos, sin embargo, confirma la robustez
del análisis al proporcionar una visión consistente sobre la ubicación
de la media poblacional. En conjunto, ambos métodos sugieren que la
media poblacional de eficiencia de combustible para los camiones se
encuentra en el rango aproximado de 4.5 a 6.5 millas por galón.
data.frame(mean_boost) %>%
ggplot(aes(x = mean_boost)) +
geom_histogram(bins = 20, fill = "#69b3a2") +
geom_vline(aes(xintercept = IC_percentil[1], color = "Método 1 (Percentil)"),
linetype = "dashed") +
geom_vline(aes(xintercept = IC_percentil[2], color = "Método 1 (Percentil)"),
linetype = "dashed") +
geom_vline(aes(xintercept = IC_ajustado[1], color = "Método 2 (Ajustado)"),
linetype = "dashed") +
geom_vline(aes(xintercept = IC_ajustado[2], color = "Método 2 (Ajustado)"),
linetype = "dashed") +
geom_vline(aes(xintercept = mean(trucks), color = "Media Muestral"),
linetype = "solid") +
scale_color_manual(values = c("Método 1 (Percentil)" = "#B03060",
"Método 2 (Ajustado)" = "#87CEEB",
"Media Muestral" = "#FF8247")) +
labs(title = "Distribución de las medias bootstrap",
x = "Media de la muestra bootstrap",
y = "Frecuencia",
color = "Líneas de Intervalo de Confianza") +
theme_ipsum() +
theme(
plot.title = element_text(color = "#016b53", size = 16, face = "bold"),
legend.title = element_text(size = 12),
legend.text = element_text(size = 10)
)