Problema 4: Estimacción boostrap

1. Estimacción boostrap

Cuando se extrae una muestra de una población que no es normal y se requiere estimar un intervalo de confianza se pueden utilizar los métodos de estimación bootstrap. Esta metodología supone que se puede reconstruir la población objeto de estudio mediante un muestreo con reemplazo de la muestra que se tiene. Existen varias versiones del método.

2. Objetivo

Utilizar el método bootstrap para estimar con un nivel de confianza del 95% la media de la eficiencia de combustible de una población de camiones, a partir de una muestra de siete camiones, y comparar los resultados obtenidos utilizando dos métodos diferentes de construcción de intervalos de confianza.

* Método 1: (Percentil(2.5);Percentil(97.5))

* Método 2: (2media(X)−Percentil (97.5);2 media(X)−Percentil(2.5))

3. Procedimiento

a) Estimar la media de la eficiencia de combustible de una población de camiones a partir de una muestra de siete camiones.

b) Utilizar el método bootstrap para generar muestras de bootstrap a partir de la muestra original. Cada muestra de bootstrap se crea mediante el muestreo con reemplazo de la muestra original.

c) Calcular las medias de las muestras de bootstrap y utilizar estos valores para estimar la distribución de la media de la población.

d) Construir intervalos de confianza del 95% para la media de la población utilizando dos métodos diferentes: Método 1 y Método 2, como se describe en el enunciado original.

e) Comparar los resultados obtenidos a través de estos dos métodos y comentar sobre la confiabilidad de las estimaciones

3. Estimación bootstrap

a) Creación de vector de mediciones de eficiencia de combustible en millas/galón

A partir de una muestra compuesta por siete camiones 7.69, 4.97, 4.56, 6.49, 4.34, 6.24 y 4.45, se obtiene un vector de datos que representa las mediciones de eficiencia de combustible en millas por galón.

library(ggplot2)

datos <- c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45)

b) Muestras bootstrap

Las muestras bootstrap se generan mediante la extracción aleatoria con reemplazo de elementos del vector de datos original, y posteriormente se calcula la media de cada una de estas muestras.

set.seed(123)  # semilla para reproducibilidad
n <- length(datos)  # Tamaño de la muestra
k <- 1000  # Número de muestras bootstrap a generar
bootstrap_media <- replicate(k, mean(sample(datos,n, replace = TRUE)))

c) Calculo del intervalo de confianza

La construcción del intervalo de confianza para este caso se basa en la determinación de los percentiles P2.5 y P97.5. Para llevar a cabo esta tarea, se realiza el cálculo de estos percentiles empleando ambos métodos.

metodo1 <- quantile(bootstrap_media, c(0.025, 0.975))
metodo2 <- 2 * mean(datos) - quantile(bootstrap_media, c(0.975, 0.025))

Para hacer que los resultados sean aún más evidentes y comprensibles, también se presentan visualmente a través de un gráfico de distribución

# Crear un data frame con las medias y etiquetas de método
medias_df <- data.frame(Medias = bootstrap_media)

# Crear el gráfico de la distribución de medias y los intervalos de confianza
ggplot(medias_df, aes(x = Medias)) +
  geom_histogram(binwidth = 0.1, bins=30 , fill = "lightblue", color = "black", alpha = 0.7) +
  geom_vline(aes(xintercept = metodo1[1]), linetype = "dashed", color = "blue", size = 1) +
  geom_vline(aes(xintercept = metodo1[2]), linetype = "dashed", color = "blue", size = 1) +
  geom_vline(aes(xintercept = metodo2[1]), linetype = "dashed", color = "red", size = 1) +
  geom_vline(aes(xintercept = metodo2[2]), linetype = "dashed", color = "red", size = 1) +scale_linetype_manual(values = c("Método 1" = "dashed", "Método 2" = "dashed")) +
  labs(title = "Distribución de Medias bootstrap e Intervalos de Confianza",
       x = "Media de la muestra ",
       y = "Frecuencia") +
  theme_minimal()

* Las lineas rojas punteadas representan el intervalo para el metodo 2

* Las lineas azules punteadas representan el intervalo para el metodo 1

4. Resultados

Para el metodo 1, se obtuvo el siguiente intervalo

print(paste("Intervalo de confianza Método 1: (", round(metodo1[1], 2), ",", round(metodo1[2], 2), ")"))

## [1] "Intervalo de confianza Método 1: ( 4.75 , 6.51 )"

Para el metodo 2, se obtuvo el siguiente intervalo

print(paste("Intervalo de confianza Método 2: (", round(metodo2[1], 2), ",", round(metodo2[2], 2), ")"))

## [1] "Intervalo de confianza Método 2: ( 4.56 , 6.32 )"

5. Análisis de resultados

Para abordar el análisis de los resultados obtenidos mediante el Método 1 y el Método 2, ambos aplicados con un nivel de confianza del 95%, se observa que a través del Método 1, se llega a la conclusión, respaldada por un 95% de confianza, de que la verdadera media de eficiencia de combustible para la población de camiones se encuentra dentro del intervalo de confianza de 4.60 a 6.70 millas por galón. De manera similar, el Método 2 proporciona un intervalo de confianza que abarca desde 4.58 hasta 6.72 millas por galón. En ambos casos, la confianza del 95% respalda las estimaciones realizadas.

Es interesante observar que, al comparar ambos métodos, se nota que los intervalos de confianza resultantes son notoriamente similares en términos de amplitud y ubicación. Esto sugiere que, independientemente del método utilizado, las estimaciones convergen en un rango muy parecido para la media de eficiencia de combustible de la población de camiones.

Continuando con el análisis, se profundizará en los valores específicos de los dos intervalos. El Método 1 proporciona un intervalo (4.75, 6.51), mientras que el Método 2 produce un intervalo (4.56, 6.32). La diferencia entre los límites inferiores de ambos intervalos es de 0.19, al igual que la diferencia entre los límites superiores, también 0.19. Esta discrepancia indica un desplazamiento claro del intervalo 1 hacia la derecha en comparación con el intervalo 2. Este desplazamiento significa que, en promedio, las estimaciones realizadas mediante el Método 1 tienden a ser ligeramente mayores que las estimaciones del Método 2. Este fenómeno se refleja en los límites del intervalo 1, que son mayores que los del intervalo 2. Sin embargo, es importante destacar que la magnitud de esta diferencia es relativamente pequeña (0.19). Como resultado, ambos intervalos se superponen significativamente al intentar capturar el mismo valor.

En resumen, aunque existe un leve desplazamiento entre los intervalos, la consistencia general en las estimaciones proporcionadas por ambos métodos es notoria. Ambos convergen en un rango bastante similar para la media de eficiencia de combustible de la población de camiones. Para una corroboración gráfica de estos resultados numéricos, se puede observar el gráfico de distribución de medias bootstrap. En este gráfico, las líneas punteadas rojas representan el intervalo del Método 2, mientras que las líneas azules representan el intervalo del Método 1, lo que permite visualizar claramente el desplazamiento previamente mencionado y todo el rango de valores encerrados por los intervalos.

6) Conclusiones

a) Este análisis demuestra la utilidad del método bootstrap para estimar intervalos de confianza en situaciones en las que no se conoce la distribución de la población. Sin embargo, es esencial recordar que la validez de estas estimaciones depende en gran medida de que la muestra inicial sea representativa de la población que se está estudiando. Un conjunto de datos representativo es fundamental para obtener resultados precisos y confiables mediante el método bootstrap, lo que destaca la importancia de la calidad y la representatividad de los datos de partida en cualquier análisis estadístico.

b) Los resultados obtenidos a través del Método 1 y el Método 2 muestran una notable consistencia en la estimación de la media de eficiencia de combustible para la población de camiones. Ambos intervalos de confianza, con un nivel del 95%, son bastante similares en términos de amplitud y ubicación, lo que sugiere que independientemente del método utilizado, las estimaciones convergen en un rango muy parecido.

c) A pesar de la existencia de un pequeño desplazamiento entre los intervalos de confianza obtenidos por ambos métodos, la magnitud de esta diferencia es relativamente pequeña (0.19). Esto indica que, si bien las estimaciones pueden tener ligeras variaciones entre métodos, en general, ambos intervalos se superponen significativamente al intentar capturar el mismo valor. Por lo tanto, estos resultados respaldan aún más la consistencia y robustez de las estimaciones.

Problema 4: Estimacción boostrap

Yamuna Devi Mena Ramirez

15/09/2023

1. Estimacción boostrap

2. Objetivo

* Método 1: (Percentil(2.5);Percentil(97.5))

* Método 2: (2media(X)−Percentil (97.5);2 media(X)−Percentil(2.5))

3. Procedimiento

a) Estimar la media de la eficiencia de combustible de una población de camiones a partir de una muestra de siete camiones.

b) Utilizar el método bootstrap para generar muestras de bootstrap a partir de la muestra original. Cada muestra de bootstrap se crea mediante el muestreo con reemplazo de la muestra original.

c) Calcular las medias de las muestras de bootstrap y utilizar estos valores para estimar la distribución de la media de la población.

d) Construir intervalos de confianza del 95% para la media de la población utilizando dos métodos diferentes: Método 1 y Método 2, como se describe en el enunciado original.

e) Comparar los resultados obtenidos a través de estos dos métodos y comentar sobre la confiabilidad de las estimaciones

3. Estimación bootstrap

a) Creación de vector de mediciones de eficiencia de combustible en millas/galón

A partir de una muestra compuesta por siete camiones 7.69, 4.97, 4.56, 6.49, 4.34, 6.24 y 4.45, se obtiene un vector de datos que representa las mediciones de eficiencia de combustible en millas por galón.

b) Muestras bootstrap

Las muestras bootstrap se generan mediante la extracción aleatoria con reemplazo de elementos del vector de datos original, y posteriormente se calcula la media de cada una de estas muestras.

c) Calculo del intervalo de confianza

La construcción del intervalo de confianza para este caso se basa en la determinación de los percentiles P2.5 y P97.5. Para llevar a cabo esta tarea, se realiza el cálculo de estos percentiles empleando ambos métodos.

Para hacer que los resultados sean aún más evidentes y comprensibles, también se presentan visualmente a través de un gráfico de distribución

* Las lineas rojas punteadas representan el intervalo para el metodo 2

* Las lineas azules punteadas representan el intervalo para el metodo 1

4. Resultados

Para el metodo 1, se obtuvo el siguiente intervalo

Para el metodo 2, se obtuvo el siguiente intervalo

5. Análisis de resultados

6) Conclusiones