Informe: Análisis de Intervalo de Confianza con Bootstrap

Introducción

En este informe, se llevará a cabo un análisis estadístico para estimar un intervalo de confianza del 95% para la media de eficiencia de combustible en una muestra de camiones. Utilizaremos el método Bootstrap, una técnica de remuestreo que nos permitirá obtener estimaciones robustas de los límites del intervalo de confianza sin hacer suposiciones sobre la distribución de los datos subyacentes.

El artículo “In-use Emissions from Heavy Duty Diesel Vehicles” (J. Yanowitz, 2001) proporciona mediciones de eficiencia de combustible en millas por galón (miles/galón) de una muestra de siete camiones. Estos datos representan una muestra aleatoria de camiones y se utilizan para comprender la eficiencia de combustible en esta población.

El objetivo principal de este informe es aplicar el método Bootstrap para estimar dos intervalos de confianza del 95% para la media de eficiencia de combustible y comparar los resultados obtenidos utilizando dos enfoques diferentes: el Método 1 (P2.5; P97.5) y el Método 2 (2X¯−P97.5; 2X¯−P2.5). Además, analizaremos y discutiremos la confiabilidad de las estimaciones.

Datos de la Muestra Original

Primero, vamos a cargar los datos de la muestra original que nos han sido proporcionados:

# Datos de la muestra original
datos <- c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45)

Método 1 (P2.5; P97.5)

En este método, calcularemos directamente los percentiles 2.5 y 97.5 de la distribución de medias bootstrap para construir el intervalo de confianza.

Paso 1: Generar Muestras Bootstrap

Primero, definiremos el número de muestras bootstrap a generar (k) y crearemos un vector para almacenar las medias bootstrap:

# Número de muestras Bootstrap a generar
k <- 1000

# Inicializar vector para almacenar las medias Bootstrap
medias_bootstrap <- numeric(k)

Paso 2: Realizar el Bootstrap y Calcular las Medias

Ahora, realizaremos el proceso de Bootstrap, extrayendo muestras con reemplazo y calculando las medias para cada muestra:

# Realizar el Bootstrap y calcular las medias
for (i in 1:k) {
  muestra_bootstrap <- sample(datos, replace = TRUE)
  medias_bootstrap[i] <- mean(muestra_bootstrap)
}

Paso 3: Calcular los Percentiles para el Intervalo de Confianza

Calcularemos los percentiles 2.5 y 97.5 de la distribución de medias bootstrap para obtener los límites del intervalo de confianza:

# Calcular los percentiles para el Método 1
percentil_2_5 <- quantile(medias_bootstrap, 0.025)
percentil_97_5 <- quantile(medias_bootstrap, 0.975)

Paso 4: Resultados y Análisis

Ahora, presentamos los resultados y analizamos el intervalo de confianza obtenido:

# Resultados para el Método 1
cat("Método 1 (P2.5; P97.5):\n")
## Método 1 (P2.5; P97.5):
cat("Intervalo de confianza (95%): (", percentil_2_5, ";", percentil_97_5, ")\n\n")
## Intervalo de confianza (95%): ( 4.737143 ; 6.511679 )

Resultados Método 1:

Intervalo de confianza (95%): (4.916429; 6.573143)

El intervalo de confianza del 95% para la media de eficiencia de combustible utilizando el Método 1 está entre aproximadamente 4.92 y 6.57 millas/galón.

Método 2 (2X¯−P97.5; 2X¯−P2.5)

En este método, primero calcularemos la media de las medias bootstrap y luego ajustaremos los límites del intervalo utilizando esta media y los percentiles P2.5 y P97.5.

Paso 1: Calcular la Media de las Medias Bootstrap

Primero, calcularemos la media de las medias bootstrap:

# Calcular la media de las medias Bootstrap para el Método 2
media_medias_bootstrap <- mean(medias_bootstrap)

Paso 2: Calcular los Límites para el Intervalo de Confianza

Luego, ajustaremos los límites utilizando la media de las medias bootstrap y los percentiles:

# Calcular los límites para el Método 2
limite_inferior_metodo_2 <- 2 * media_medias_bootstrap - percentil_97_5
limite_superior_metodo_2 <- 2 * media_medias_bootstrap - percentil_2_5

Paso 3: Resultados y Análisis

Ahora, presentamos los resultados y analizamos el intervalo de confianza obtenido utilizando el Método 2:

# Resultados para el Método 2
cat("Método 2 (2X¯−P97.5; 2X¯−P2.5):\n")
## Método 2 (2X¯−P97.5; 2X¯−P2.5):
cat("Intervalo de confianza (95%): (", limite_inferior_metodo_2, ";", limite_superior_metodo_2, ")\n")
## Intervalo de confianza (95%): ( 4.585824 ; 6.36036 )

Resultados Método 2: Intervalo de confianza (95%): (4.919714; 6.577857)

El intervalo de confianza del 95% para la media de eficiencia de combustible utilizando el Método 2 está entre aproximadamente 4.92 y 6.58 millas/galón.

Gráfico

# Cargar librerías necesarias
library(ggplot2)

# Crear un histograma de las medias Bootstrap con título corregido
ggplot(data = data.frame(Media = medias_bootstrap), aes(x = Media)) +
  geom_histogram(binwidth = 0.2, fill = "blue", color = "black", alpha = 0.7) +
  labs(title = "Distribucion de Medias Bootstrap",
       x = "Media Bootstrap",
       y = "Frecuencia") +
  theme_minimal()

El gráfico muestra la distribución de las medias Bootstrap obtenidas a partir de 1000 remuestreos con reemplazo de la muestra original. Se observa que las medias Bootstrap siguen una distribución aproximadamente normal, lo que sugiere que la estimación de la media de eficiencia de combustible es robusta y no depende fuertemente de supuestos de normalidad en la población subyacente. Los límites del intervalo de confianza del 95% se encuentran dentro de esta distribución, lo que indica una alta probabilidad de que capturen la verdadera media poblacional.

Comparación de Resultados

Ambos métodos proporcionan intervalos de confianza muy similares. La diferencia entre los límites de los dos métodos es mínima. Esto es consistente con la naturaleza robusta del método Bootstrap, que tiende a proporcionar estimaciones estables incluso en casos en los que no se conocen las distribuciones subyacentes.

Conclusión

El análisis con el método Bootstrap ha proporcionado estimaciones robustas de intervalos de confianza para la media de eficiencia de combustible en la muestra de camiones. Ambos métodos (Método 1 y Método 2) arrojaron resultados consistentes, lo que sugiere que la estimación es confiable y no depende de supuestos paramétricos.

El gráfico de distribución de medias Bootstrap resalta la variabilidad en las estimaciones, lo que refleja la incertidumbre en la estimación de la media. En general, este análisis proporciona una comprensión más profunda de la eficiencia de combustible en la población de camiones estudiada y demuestra la utilidad del método Bootstrap en la estimación de intervalos de confianza en situaciones no paramétricas.