Problema 4 - Estimación boostrap
Introducción
El presente análisis tiene como objetivo estimar un intervalo de confianza del 95% para la media de la eficiencia de combustible de una muestra de camiones, utilizando el método bootstrap. Dado que no se cuenta con información sobre la distribución subyacente de los datos, y que el tamaño de la muestra es pequeño, el método bootstrap permite realizar estimaciones robustas mediante el muestreo con reemplazo de la muestra original. Se compararán dos métodos de estimación de intervalos de confianza, utilizando percentiles de las medias bootstrap y un ajuste basado en la media original, con el fin de evaluar la precisión y confiabilidad de las estimaciones obtenidas.
Definición del problema.
El problema es estimar un intervalo de confianza del 95% para la media de la eficiencia de combustible de una población de camiones a partir de una muestra pequeña de datos (7 observaciones). No se dispone de información sobre la distribución de los datos, por lo que no es seguro aplicar métodos paramétricos tradicionales para estimar este intervalo. En su lugar, se utiliza el método bootstrap para obtener intervalos de confianza más robustos.
Definición de los objetivos.
- Construir intervalos de confianza del 95% para la media de la eficiencia de combustible utilizando el método bootstrap.
- Comparar dos métodos de estimación de los intervalos de confianza (Método 1 basado en los percentiles de las medias bootstrap, y Método 2, que ajusta el intervalo centrándolo en la media muestral).
- Analizar y comentar la validez de las estimaciones de acuerdo con la variabilidad de los datos. +Eficiencia de combustible Datos de la muestra original (n = 7). +Medias bootstrap Medias calculadas a partir de las 1000 muestras con reemplazo.
Diseño del experimento.
El experimento consiste en aplicar el método bootstrap para generar estimaciones de intervalos de confianza a partir de la muestra original. Se siguen estos pasos:
- Generar 1000 muestras bootstrap con reemplazo, cada una con el mismo tamaño que la muestra original.
- Calcular la media de eficiencia de combustible para cada una de estas muestras.
- Estimar el intervalo de confianza del 95% para la media de las medias bootstrap utilizando dos métodos diferentes: Método 1: Percentiles 2.5% y 97.5% de las medias bootstrap. Método 2: Ajustar los percentiles basados en la media de la muestra original.
Recolección de la información.
Los datos de la muestra original provienen del artículo In-use Emissions from Heavy Duty Diesel Vehicles de J. Yanowitz (2001), que incluye mediciones de eficiencia de combustible de una muestra de siete camiones. Los valores en millas/galón son: 7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45.
Procesamiento de los datos.
- Bootstrap: Se generaron 1000 muestras con reemplazo de la muestra original, cada una de tamaño 𝑛=7n=7.
- Se calculó la media de cada muestra bootstrap, generando una distribución de 1000 medias.
- Se calcularon los intervalos de confianza utilizando los dos métodos descritos: Método 1: Usando los percentiles 2.5% y 97.5% de las medias bootstrap. Método 2: Ajustando los percentiles alrededor de la media de la muestra original.
Análisis descriptivo o exploratorio de datos.
Probabilidad: Asumimos que las observaciones en la muestra original provienen de una población con una distribución desconocida. Por lo tanto, el método bootstrap es apropiado para generar intervalos de confianza sin hacer suposiciones paramétricas.
Variable aleatoria: Las medias de las muestras bootstrap pueden considerarse como realizaciones de una variable aleatoria que aproxima la media de la población. A medida que generamos más muestras bootstrap, podemos aproximar la distribución de la media poblacional.
Exploración gráfica: El histograma de las medias bootstrap nos permitió visualizar cómo se distribuyen las medias y comparar los intervalos obtenidos por los dos métodos.
# Estimación bootstrap
# Integrar datos
eficiencia <- c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45)
# Implementar bootstrap
# Configurar parámetros
set.seed(123) # para reproducibilidad
k <- 1000 # número de muestras bootstrap
n <- length(eficiencia) # tamaño de la muestra original
# Generar las muestras bootstrap y calcular la media para cada una
medias_bootstrap <- replicate(k, {
muestra_bootstrap <- sample(eficiencia, n, replace = TRUE)
mean(muestra_bootstrap)
})
# Calculo del metodo 1
intervalo_metodo_1 <- quantile(medias_bootstrap, probs = c(0.025, 0.975))
# Calculo del metodo 2
media_original <- mean(eficiencia)
intervalo_metodo_2 <- c(2 * media_original - intervalo_metodo_1[2],
2 * media_original - intervalo_metodo_1[1])
# Crear un dataframe con las medias bootstrap y los intervalos
df <- data.frame(
medias_bootstrap = medias_bootstrap,
metodo_1_lower = intervalo_metodo_1[1],
metodo_1_upper = intervalo_metodo_1[2],
metodo_2_lower = intervalo_metodo_2[1],
metodo_2_upper = intervalo_metodo_2[2]
)
# Ver el dataframe creado
head(df)## medias_bootstrap metodo_1_lower metodo_1_upper metodo_2_lower metodo_2_upper
## 1 4.885714 4.748393 6.508643 4.559929 6.320179
## 2 5.971429 4.748393 6.508643 4.559929 6.320179
## 3 5.310000 4.748393 6.508643 4.559929 6.320179
## 4 5.524286 4.748393 6.508643 4.559929 6.320179
## 5 6.210000 4.748393 6.508643 4.559929 6.320179
## 6 4.784286 4.748393 6.508643 4.559929 6.320179
# Librería ggplot2
library(ggplot2)
# Gráfico 1: Histograma
ggplot(df, aes(x = medias_bootstrap)) +
geom_histogram(aes(y = ..density..), bins = 30, fill = "#999999", alpha = 0.7) +
geom_vline(aes(xintercept = metodo_1_lower), color = "#FF0000", linetype = "dashed", size = 1) + # Método 1 - Inferior
geom_vline(aes(xintercept = metodo_1_upper), color = "#FF0000", linetype = "dashed", size = 1) + # Método 1 - Superior
geom_vline(aes(xintercept = metodo_2_lower), color = "#6565FF", linetype = "dotted", size = 1) + # Método 2 - Inferior
geom_vline(aes(xintercept = metodo_2_upper), color = "#6565FF", linetype = "dotted", size = 1) + # Método 2 - Superior
labs(title = "Histograma de las Medias Bootstrap",
x = "Medias Bootstrap", y = "Densidad") +
theme_minimal()# Gráfico 2: Curva de Densidad
ggplot(df, aes(x = medias_bootstrap)) +
geom_density(color = "#000", fill = "#999999", alpha = 0.5) +
geom_vline(aes(xintercept = metodo_1_lower), color = "#FF0000", linetype = "dashed", size = 1) + # Método 1 - Inferior
geom_vline(aes(xintercept = metodo_1_upper), color = "#FF0000", linetype = "dashed", size = 1) + # Método 1 - Superior
geom_vline(aes(xintercept = metodo_2_lower), color = "#6565FF", linetype = "dotted", size = 1) + # Método 2 - Inferior
geom_vline(aes(xintercept = metodo_2_upper), color = "#6565FF", linetype = "dotted", size = 1) + # Método 2 - Superior
labs(title = "Curva de Densidad de las Medias Bootstrap",
x = "Medias Bootstrap", y = "Densidad") +
theme_minimal()Inferencia estadística.
El método bootstrap nos permitió calcular intervalos de confianza del 95% para la media de la eficiencia de combustible sin suponer una distribución paramétrica específica. Los dos métodos de estimación de los intervalos ofrecieron resultados similares, aunque el Método 2 tiende a ser más conservador, ya que ajusta los percentiles alrededor de la media de la muestra original.
Ambos métodos son válidos en este contexto, pero el Método 1 (basado directamente en los percentiles de las medias bootstrap) es más directo y preciso para muestras pequeñas como esta.
Conclusiones.
- El método bootstrap es útil para estimar intervalos de confianza cuando no se conoce la distribución de los datos, especialmente en muestras pequeñas.
- Los dos métodos de bootstrap para estimar el intervalo de confianza proporcionan resultados razonables y coherentes, aunque el Método 2 es más conservador.
- Para muestras pequeñas como la de este estudio (n = 7), el Método 1 puede ser más adecuado ya que ofrece un intervalo más ajustado.
Recomendaciones.
- En situaciones donde la distribución de los datos es desconocida y el tamaño de muestra es pequeño, el método bootstrap es una opción robusta para la estimación de intervalos de confianza.
- Es recomendable utilizar varios métodos (como se hizo aquí) para comparar los intervalos obtenidos y elegir el más apropiado según el contexto del análisis.
- Dado el pequeño tamaño de la muestra, sería útil obtener más datos para aumentar la precisión de las estimaciones en futuros estudios.