En este problema, se busca estimar un intervalo de confianza del 95% para la media de la eficiencia de combustible de una población de camiones basada en una muestra pequeña de datos. Dado que no se tiene información sobre la distribución de los datos, se utiliza el método de bootstrap para construir los intervalos de confianza. Este método es especialmente útil cuando la suposición de normalidad no puede ser garantizada, ya que permite reconstruir la población mediante muestreo con reemplazo.
Los datos originales corresponden a las mediciones de eficiencia de combustible en millas por galón de una muestra de siete camiones:
# Datos originales
data <- c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45)
Para estimar el intervalo de confianza, se utilizan los siguientes pasos:
Se generan 1000 muestras bootstrap a partir de los datos originales. Cada muestra bootstrap se obtiene seleccionando valores al azar de los datos originales, con reemplazo, de manera que cada muestra tenga el mismo tamaño que la muestra original. Para cada muestra bootstrap, se calcula la media.
# Función para generar una muestra bootstrap y calcular la media
bootstrap_sample <- function(data) {
sample_data <- sample(data, size = length(data), replace = TRUE)
return(mean(sample_data))
}
# Generar 1000 muestras bootstrap
set.seed(123)
bootstrap_means <- replicate(1000, bootstrap_sample(data))
Se calcula el intervalo de confianza tomando los percentiles 2.5% y 97.5% de las medias obtenidas a partir de las muestras bootstrap.
# Método 1: Intervalos de Confianza Basados en Percentiles
ci_method1 <- quantile(bootstrap_means, probs = c(0.025, 0.975))
Se ajusta el intervalo de confianza utilizando la media original de los datos y los percentiles obtenidos en el Método 1. Este ajuste considera los errores de estimación para proporcionar un intervalo de confianza potencialmente más robusto.
# Método 2: Intervalos de Confianza Ajustados
original_mean <- mean(data)
ci_method2 <- c(2 * original_mean - ci_method1[2], 2 * original_mean - ci_method1[1])
Los intervalos de confianza obtenidos para la media de la eficiencia de combustible usando los dos métodos son los siguientes:
# Resultados
ci_method1 # Intervalo de confianza por método 1
## 2.5% 97.5%
## 4.748393 6.508643
ci_method2 # Intervalo de confianza por método 2
## 97.5% 2.5%
## 4.559929 6.320179
Método 1: Intervalo de confianza al 95%: [4.75,6.51]
Este método utiliza los percentiles directamente obtenidos de las distribuciones bootstrap, proporcionando un intervalo de confianza basado en la distribución empírica de las medias. Es un método directo y refleja cómo los datos observados se distribuyen a través del proceso de resampling.
Método 2: Intervalo de confianza ajustado: [4.56,6.32]
Este método ajusta el intervalo de confianza utilizando la media original de los datos, lo que puede ofrecer un ajuste más preciso cuando se consideran los errores de estimación. Sin embargo, este ajuste también puede introducir sesgos si la suposición de simetría en la distribución de las medias bootstrap no se cumple.
Ambos métodos proporcionan estimaciones del intervalo de confianza para la media de la eficiencia de combustible.
Ambos intervalos son válidos, pero su efectividad depende de la naturaleza de los datos originales. Si los datos originales están muy sesgados o tienen outliers significativos, el Método 2 podría proporcionar un intervalo más preciso. Sin embargo, si los datos son relativamente simétricos, el Método 1 podría ser igualmente confiable y más fácil de interpretar.
Se recomienda utilizar ambos métodos y comparar los resultados. Si los intervalos son similares, se puede confiar en la robustez de la estimación. En casos donde los intervalos difieren significativamente, puede ser necesario investigar más a fondo la distribución original de los datos o considerar métodos adicionales para la estimación.