Ejercicio 4 Metodos: Estimación Bootstrap

Estimacción Boostrap.

El artículo de In-use Emissions from Heavy Duty Dissel Vehicles (J.Yanowitz, 2001) presenta las mediciones de eficiencia de combustible en millas/galón de una muestra de siete camiones. Los datos obtenidos son los siguientes: 7.69, 4.97, 4.56, 6.49, 4.34, 6.24 y 4.45. Se supone que es una muestra aleatoria de camiones y que se desea construir un intervalo de confianza del 95 % para la media de la eficiencia de combustible de esta población. No se tiene información de la distribución de los datos. El método bootstrap permite construir intervalos de confianza del 95 %. Para ilustrar el método suponga que coloca los valores de la muestra en una caja y extrae uno al azar. Este correspondería al primer valor de la muestra bootstrap X∗1. Después de anotado el valor se regresa X∗1 a la caja y se extrae el valor X∗2, regresandolo nuevamente. Este procedimiento se repite hasta completar una muestra de tamaño n, X∗1,X∗2,X∗2,X∗n, conformando la muestra bootstrap.

Es necesario extraer un gran número de muestras (suponga k = 1000). Para cada una de las muestra bootstrap obtenidas se calcula la media, obteniéndose un valor para cada muestra. El intervalo de confianza queda conformado por los percentiles P2.5 y P97.5.

Generación de muestras Bootstrap.

x=c( 7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45) 
boot=sample(x,7000,replace=TRUE) 
b=matrix(boot,nrow=1000,ncol=7)

Se calcula la media a cada muestra Bootstrap.

mx=apply(b,1,mean)

Intervalos de confianza.

Este intervalo de confianza se basa directamente en los percentiles 2.5 y 97.5 de las medias bootstrap.

ic1=quantile(mx, probs=c(0.025, 0.975)) 
ic1

##     2.5%    97.5% 
## 4.725321 6.476071

Este intervalo de confianza ajusta los percentiles utilizando la media muestral original.

ic2=c(2*mean(mx)-ic1[2], 2*mean(mx)-ic1[1]) 
ic2

##    97.5%     2.5% 
## 4.611771 6.362521

Histograma.

hist(mx, las=1, main=" ", ylab = " ", xlab = " ", col="#034A94")
abline(v=ic1, col="#FF7F00",lwd=2)
abline(v=ic2, col="#0EB0C6",lwd=2)

Conclusiones.

El primer intervalo de confianza, tiene un amplio intervalo que refleja la incertidumbre de la estimación de la media de eficiencia de combustible teniendo en cuenta la variabilidad y el volumen de muestras utilizado.

El segundo intervalo es ligeramente más estrecho que el intervalo del Método 1, debido a que se centra en la media muestral original y ajusta los percentiles de acuerdo con esta media.

De ambos metodos el primero es mas confiable al basarse en la variabilidad del muestreo Bootstrap y que su funcionamiento es mejor con muestras pequeñas, por su parte el segundo metodo tiende a ser menos confiable ya que la suposición de simetría alrededor de la media muestral puede no ser valida para el tamaño de la muestra.