Problema4

Estimacción boostrap

El artículo de In-use Emissions from Heavy Duty Dissel Vehicles (J.Yanowitz, 2001) presenta las mediciones de eficiencia de combustible en millas/galón de una muestra de siete camiones. Los datos obtenidos son los siguientes: 7.69, 4.97, 4.56, 6.49, 4.34, 6.24 y 4.45. Se supone que es una muestra aleatoria de camiones y que se desea construir un intervalo de confianza del 95 % para la media de la eficiencia de combustible de esta población. No se tiene información de la distribución de los datos. El método bootstrap permite construir intervalos de confianza del 95 % - Para ilustrar el método suponga que coloca los valores de la muestra en una caja y extrae uno al azar. Este correspondería al primer valor de la muestra bootstrap X∗1. Después de anotado el valor se regresa X∗1 a la caja y se extrae el valor X∗2 , regresandolo nuevamente. Este procedimiento se repite hasta completar una muestra de tamaño n, X∗1,X∗2,X∗2,X∗n, conformando la muestra bootstrap.

Es necesario extraer un gran número de muestras (suponga k = 1000). Para cada una de las muestra bootstrap obtenidas se calcula la media X∗i¯, obteniéndose un valor para cada muestra. El intervalo de confianza queda conformado por los percentiles P2.5 y P97.5. Existen dos métodos para estimarlo:

Método 1 (P2.5;P97.5) Método 2 (2X¯−P97.5;2X¯−P2.5)

Construya el intervalo de confianza por los dos métodos y compare los resultados obtenidos. Comente los resultados. Confiaría en estas estimaciones?

# Datos originales
datos <- c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45)

set.seed(123) # Para reproducibilidad
n <- length(datos)
replicas <- 1000

# Generar las muestras bootstrap y calcular las medias
medias_bootstrap <- replicate(replicas, mean(sample(datos, size = n, replace = TRUE)))

# Método 1: Percentiles
IC_percentiles <- quantile(medias_bootstrap, c(0.025, 0.975))

# Método 2: Técnica de la inversión
media_muestra <- mean(datos)
IC_inversion <- 2 * media_muestra - quantile(medias_bootstrap, c(0.975, 0.025))

# Mostrar resultados
IC_percentiles

##     2.5%    97.5% 
## 4.748393 6.508643

IC_inversion

##    97.5%     2.5% 
## 4.559929 6.320179

Comentarios sobre los resultados:

Método 1 (Percentiles directos):

El intervalo va desde aproximadamente 4.67 hasta 6.47. Esto significa que, basado en este método bootstrap, hay un 95% de confianza de que la media real de la eficiencia de combustible de la población de camiones se encuentra dentro de este rango.

Método 2 (Ajuste basado en la media original):

El intervalo va desde aproximadamente 4.60 hasta 6.39. Este método, que ajusta los percentiles basándose en la media original de la muestra, ofrece un intervalo de confianza ligeramente más estrecho que el primer método.

Comparación de los métodos:

Ambos métodos ofrecen intervalos de confianza similares, aunque el Método 2 proporciona un rango ligeramente más estrecho. Esto podría deberse a que el ajuste basado en la media original toma en cuenta la información específica de la muestra original, lo que puede llevar a una estimación ligeramente más precisa en algunos casos.

Confianza en las estimaciones:

Las estimaciones son razonables y toman en cuenta las variaciones que pueden surgir al estimar la media con muestras pequeñas usando muestreo bootstrap. El método de muestreo con reemplazo crea “nuevas” muestras que muestran la variación en la estimación de la media. Sin embargo, la exactitud y confiabilidad de estos intervalos dependen de la representatividad de la muestra original. Si la muestra representa adecuadamente a la población, estos intervalos de confianza son fiables bajo un nivel de confianza del 95%.

Consideraciones adicionales:

Mientras el método bootstrap ofrece ventajas, especialmente con distribuciones de población desconocidas y muestras pequeñas, es crucial tener en cuenta el contexto y los posibles sesgos en los datos. Para poblaciones significativamente no normales o muestras muy pequeñas, se recomienda interpretar los resultados con precaución y considerar métodos de análisis adicionales.

En resumen, confiaría en estas estimaciones como una indicación útil de la variabilidad y el rango posible para la media de la eficiencia de combustible de los camiones, con la comprensión de que son estimaciones basadas en un modelo de muestreo y que reflejan tanto la variabilidad de la muestra como el método de estimación utilizado.

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.