El artículo de In-use Emissions from Heavy Duty Dissel Vehicles (J.Yanowitz, 2001) presenta las mediciones de eficiencia de combustible en millas/galón de una muestra de siete camiones. Los datos obtenidos son los siguientes: 7.69, 4.97, 4.56, 6.49, 4.34, 6.24 y 4.45. Se supone que es una muestra aleatoria de camiones y que se desea construir un intervalo de confianza del 95 % para la media de la eficiencia de combustible de esta población. No se tiene información de la distribución de los datos. El método bootstrap permite construir intervalos de confianza del 95 %. Para ilustrar el método suponga que coloca los valores de la muestra en una caja y extrae uno al azar. Este correspondería al primer valor de la muestra bootstrap 𝑋∗1. Después de anotado el valor se regresa 𝑋∗1 a la caja y se extrae el valor 𝑋∗2 , regresandolo nuevamente. Este procedimiento se repite hasta completar una muestra de tamaño 𝑛, 𝑋∗1,𝑋∗2,𝑋∗2,𝑋∗𝑛, conformando la muestra bootstrap.
Es necesario extraer un gran número de muestras (suponga k = 1000). Para cada una de las muestra bootstrap obtenidas se calcula la media 𝑋∗𝑖¯, obteniéndose un valor para cada muestra. El intervalo de confianza queda conformado por los percentiles 𝑃2.5 y 𝑃97.5. Existen dos métodos para estimarlo:
Método 1 (𝑃2.5;𝑃97.5) Método 2 (2𝑋−𝑃97.5;2𝑋−𝑃2.5)
Construya el intervalo de confianza por los dos métodos y compare los resultados obtenidos. Comente los resultados. ¿Confiaría en estas estimaciones?
n <- 7 # Número de observaciones en la muestra original
m <- 1000 # Número de réplicas de la muestra que se van a generar con el método de Bootstrap
x <- c( 7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45) # datos originales de la muestra
bstrap <- sample(x,n*m,replace=TRUE) # Se extraen m * n valores de la muestra original x con reemplazo
#(es decir, se permiten repeticiones). Este vector contiene todas las muestras bootstrap generadas.
bmatrix <- matrix(bstrap,nrow=m,ncol=n) #b: Se reorganizan los datos de boot en una matriz de m filas y n columnas.
#Cada fila de la matriz representa una muestra bootstrap de tamaño n.
mx <- apply(bmatrix,1,mean) # mx: Se calcula la media de cada una de las m muestras bootstrap. El resultado #es un vector mx de tamaño m, donde cada elemento es la media de una de las muestras
ic1 <- quantile(mx, probs=c(0.025, 0.975)) # se calcula el IC bajo el método 1
cat("El intervalo de confianza para la media de eficiencia de combustible, calculado con el método 1 esta entre" , ic1[1], " y ", ic1[2])
El intervalo de confianza para la media de eficiencia de combustible, calculado con el método 1 esta entre 4.737036 y 6.506107
ic2 <- c(2*mean(mx)-ic1[2], 2*mean(mx)-ic1[1]) # se calcula IC bajo el método 2
cat("El intervalo de confianza para la media de eficiencia de combustible, calculado con el método 2 esta entre" , ic2[1], " y ", ic2[2])
El intervalo de confianza para la media de eficiencia de combustible, calculado con el método 2 esta entre 4.610373 y 6.379444
Adicionalmente, se construyen dos histográmas que representan la distribución de la muestra generada usando el método Bootstrap, señalando los resultados que están dentro de los intervalos de confianza para los dos métodos.
# Histograma del primer conjunto de datos
hist(mx, las = 1, ylim = c(0, 200),
main = "Comparación de Intervalos de Confianza",
ylab = "Frecuencias",
xlab = "Media",
col = rgb(244/255, 164/255, 96/255, 0.5), # Transparencia para superposición
border = "white"
)
abline(v = ic1, col = "red")
grid()
# Histograma del segundo conjunto de datos, superpuesto al primero
hist(mx, las = 1, ylim = c(0, 200),
col = rgb(60/255, 179/255, 113/255, 0.5), # Diferente color con transparencia
border = "white",
add = TRUE # Superponer el segundo histograma sobre el primero
)
abline(v = ic2, col = "blue")
# Agregar la leyenda para los intervalos de confianza
legend(x = "topright", y = 200, legend = c("IC1", "IC2"),
col = c("red", "blue"),
lwd = 2, # grosor de la línea en la leyenda
title = "Intervalos de Confianza",
bg = "white")
Con el método Bootstrap se obtiene una distribución que tiende a un comportamiento normal y simétrico. Por otra parte, los intervalos de confianza varían uno (IC1) respecto al otro (IC2), pues IC1 (rojo) hace que se genere una leve cola a la derecha, mientras que IC2 (azul), mantiene la media de la distribución en el centro. Respecto al rango calculado para ambos intervalos es exactamente el mismo para ambos métodos (1.69175).En conclusión, se puede confiar en estas estimaciones debido a que los intervalos de confianza generados por los 2 métodos permiten deducir que los niveles de confianza se relacionan con la probabilidad a largo plazo de que dichos intervalos contengan el parámetro si se repite el estudio muchas veces.