1. Estimacción boostrap
Cuando se extrae una muestra de una población que no es normal y se
requiere estimar un intervalo de confianza se pueden utilizar los
métodos de estimación bootstrap. Esta metodología supone que se puede
reconstruir la población objeto de estudio mediante un muestreo con
reemplazo de la muestra que se tiene. Existen varias versiones del
método.
2. Objetivo
Utilizar el método bootstrap para estimar con un nivel de confianza
del 95% la media de la eficiencia de combustible de una población de
camiones, a partir de una muestra de siete camiones, y comparar los
resultados obtenidos utilizando dos métodos diferentes de construcción
de intervalos de confianza.
* Método 1: (Percentil(2.5);Percentil(97.5))
* Método 2: (2media(X)−Percentil (97.5);2
media(X)−Percentil(2.5))
3. Procedimiento
a) Estimar la media de la eficiencia de combustible de una población
de camiones a partir de una muestra de siete camiones.
b) Utilizar el método bootstrap para generar muestras de bootstrap a
partir de la muestra original. Cada muestra de bootstrap se crea
mediante el muestreo con reemplazo de la muestra original.
c) Calcular las medias de las muestras de bootstrap y utilizar estos
valores para estimar la distribución de la media de la población.
d) Construir intervalos de confianza del 95% para la media de la
población utilizando dos métodos diferentes: Método 1 y Método 2, como
se describe en el enunciado original.
e) Comparar los resultados obtenidos a través de estos dos métodos y
comentar sobre la confiabilidad de las estimaciones
3. Estimación bootstrap
a) Creación de vector de mediciones de eficiencia de combustible en
millas/galón
A partir de una muestra compuesta por siete camiones 7.69, 4.97,
4.56, 6.49, 4.34, 6.24 y 4.45, se obtiene un vector de datos que
representa las mediciones de eficiencia de combustible en millas por
galón.
library(ggplot2)
datos <- c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45)
b) Muestras bootstrap
c) Calculo del intervalo de confianza
La construcción del intervalo de confianza para este caso se basa en
la determinación de los percentiles P2.5 y P97.5. Para llevar a cabo
esta tarea, se realiza el cálculo de estos percentiles empleando ambos
métodos.
metodo1 <- quantile(bootstrap_media, c(0.025, 0.975))
metodo2 <- 2 * mean(datos) - quantile(bootstrap_media, c(0.975, 0.025))
Para hacer que los resultados sean aún más evidentes y
comprensibles, también se presentan visualmente a través de un gráfico
de distribución
# Crear un data frame con las medias y etiquetas de método
medias_df <- data.frame(Medias = bootstrap_media)
# Crear el gráfico de la distribución de medias y los intervalos de confianza
ggplot(medias_df, aes(x = Medias)) +
geom_histogram(binwidth = 0.1, bins=30 , fill = "lightblue", color = "black", alpha = 0.7) +
geom_vline(aes(xintercept = metodo1[1]), linetype = "dashed", color = "blue", size = 1) +
geom_vline(aes(xintercept = metodo1[2]), linetype = "dashed", color = "blue", size = 1) +
geom_vline(aes(xintercept = metodo2[1]), linetype = "dashed", color = "red", size = 1) +
geom_vline(aes(xintercept = metodo2[2]), linetype = "dashed", color = "red", size = 1) +scale_linetype_manual(values = c("Método 1" = "dashed", "Método 2" = "dashed")) +
labs(title = "Distribución de Medias bootstrap e Intervalos de Confianza",
x = "Media de la muestra ",
y = "Frecuencia") +
theme_minimal()

* Las lineas rojas punteadas representan el intervalo para el metodo
2
* Las lineas azules punteadas representan el intervalo para el
metodo 1
4. Resultados
Para el metodo 1, se obtuvo el siguiente intervalo
print(paste("Intervalo de confianza Método 1: (", round(metodo1[1], 2), ",", round(metodo1[2], 2), ")"))
## [1] "Intervalo de confianza Método 1: ( 4.75 , 6.51 )"
Para el metodo 2, se obtuvo el siguiente intervalo
print(paste("Intervalo de confianza Método 2: (", round(metodo2[1], 2), ",", round(metodo2[2], 2), ")"))
## [1] "Intervalo de confianza Método 2: ( 4.56 , 6.32 )"
5. Análisis de resultados
Para abordar el análisis de los resultados obtenidos mediante el
Método 1 y el Método 2, ambos aplicados con un nivel de confianza del
95%, se observa que a través del Método 1, se llega a la conclusión,
respaldada por un 95% de confianza, de que la verdadera media de
eficiencia de combustible para la población de camiones se encuentra
dentro del intervalo de confianza de 4.60 a 6.70 millas por galón. De
manera similar, el Método 2 proporciona un intervalo de confianza que
abarca desde 4.58 hasta 6.72 millas por galón. En ambos casos, la
confianza del 95% respalda las estimaciones realizadas.
Es interesante observar que, al comparar ambos métodos, se nota que
los intervalos de confianza resultantes son notoriamente similares en
términos de amplitud y ubicación. Esto sugiere que, independientemente
del método utilizado, las estimaciones convergen en un rango muy
parecido para la media de eficiencia de combustible de la población de
camiones.
Continuando con el análisis, se profundizará en los valores
específicos de los dos intervalos. El Método 1 proporciona un intervalo
(4.75, 6.51), mientras que el Método 2 produce un intervalo (4.56,
6.32). La diferencia entre los límites inferiores de ambos intervalos es
de 0.19, al igual que la diferencia entre los límites superiores,
también 0.19. Esta discrepancia indica un desplazamiento claro del
intervalo 1 hacia la derecha en comparación con el intervalo 2. Este
desplazamiento significa que, en promedio, las estimaciones realizadas
mediante el Método 1 tienden a ser ligeramente mayores que las
estimaciones del Método 2. Este fenómeno se refleja en los límites del
intervalo 1, que son mayores que los del intervalo 2. Sin embargo, es
importante destacar que la magnitud de esta diferencia es relativamente
pequeña (0.19). Como resultado, ambos intervalos se superponen
significativamente al intentar capturar el mismo valor.
En resumen, aunque existe un leve desplazamiento entre los
intervalos, la consistencia general en las estimaciones proporcionadas
por ambos métodos es notoria. Ambos convergen en un rango bastante
similar para la media de eficiencia de combustible de la población de
camiones. Para una corroboración gráfica de estos resultados numéricos,
se puede observar el gráfico de distribución de medias bootstrap. En
este gráfico, las líneas punteadas rojas representan el intervalo del
Método 2, mientras que las líneas azules representan el intervalo del
Método 1, lo que permite visualizar claramente el desplazamiento
previamente mencionado y todo el rango de valores encerrados por los
intervalos.
6) Conclusiones
a) Este análisis demuestra la utilidad del método bootstrap para
estimar intervalos de confianza en situaciones en las que no se conoce
la distribución de la población. Sin embargo, es esencial recordar que
la validez de estas estimaciones depende en gran medida de que la
muestra inicial sea representativa de la población que se está
estudiando. Un conjunto de datos representativo es fundamental para
obtener resultados precisos y confiables mediante el método bootstrap,
lo que destaca la importancia de la calidad y la representatividad de
los datos de partida en cualquier análisis estadístico.
b) Los resultados obtenidos a través del Método 1 y el Método 2
muestran una notable consistencia en la estimación de la media de
eficiencia de combustible para la población de camiones. Ambos
intervalos de confianza, con un nivel del 95%, son bastante similares en
términos de amplitud y ubicación, lo que sugiere que independientemente
del método utilizado, las estimaciones convergen en un rango muy
parecido.
c) A pesar de la existencia de un pequeño desplazamiento entre los
intervalos de confianza obtenidos por ambos métodos, la magnitud de esta
diferencia es relativamente pequeña (0.19). Esto indica que, si bien las
estimaciones pueden tener ligeras variaciones entre métodos, en general,
ambos intervalos se superponen significativamente al intentar capturar
el mismo valor. Por lo tanto, estos resultados respaldan aún más la
consistencia y robustez de las estimaciones.