4 Estimación bootstrap

a. Se definie un vector de eficiencia en el consumo de combustible en millas/galón para una muestra de siete camiones.

eficiencia=c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45)

mean(eficiencia)

## [1] 5.534286

b. Del vector de eficiencia se extrae una muestra, con reemplazamiento, de tamaño n=7 (bootstrap).

sample(eficiencia, 7, replace=TRUE)

## [1] 6.49 4.34 7.69 6.24 4.45 4.56 4.97

c. Se repite el evento anterior 1000 veces y se guarda en una matriz de tamaño 7 x 1000.

set.seed(1)

n=1000
m=7*n
bootstrap=matrix(sample(eficiencia, m, replace=TRUE), ncol=n)

View(bootstrap)

d. Se calcula la media para cada una de las 1000 muestras bootstrap de tamaño n=7 y se crea el vector eficiencia_media.

eficiencia_media=apply(bootstrap, 2, mean)

head(eficiencia_media)

## [1] 5.725714 5.274286 5.557143 5.584286 5.592857 5.880000

e. Se calculan las medias y los percentiles 2.5 y 97.5 para el vector eficiencia_media.

mean(eficiencia_media)

## [1] 5.53727

ICM1=quantile(eficiencia_media, probs=c(0.025, 0.975))
ICM1

##     2.5%    97.5% 
## 4.725500 6.434286

f1. Intervalo de confianza del 95% para la media de la eficiencia del consumo de combustible en millas/galón por el Método 1.

Por el método 1 que tiene en cuenta el percentil 2.5 como límite inferior y el percentil 97.5 como límite superior, el intervalo de confianza del 95% es 4.73 <= eficiencia_media <= 6.43.

f2. Intervalo de confianza del 95% para la media de la eficiencia del consumo de combustible en millas/galón por el Método 2.

Por el método 2 que toma como límite inferior a 2 veces la media menos el percentil 97.5 y como limite superior a 2 veces la media menos el percentil 2.5, el intervalo de confianza del 95% es 4.64 <= eficiencia_media <= 6.35.

ICM2=c(2*mean(eficiencia_media)-ICM1[2], 2*mean(eficiencia_media)-ICM1[1])
ICM2

##    97.5%     2.5% 
## 4.640254 6.349040

La estimación del intervalo de confianza del 95% con la técnica bootstrap si es confiable porque esta metodología propone que se puede reconstruir la población objeto de estudio mediante un muestreo con reemplazo de la muestra de tamaño n=7 disponible. De esta forma, aunque no se tenga información de la población de la que procede la muestra por el Teorema del límite Central se sabe que a medida que se aumente el tamaño de la muestra, la distribución de la media muestral tenderá a una normal y se debe determinar los percentiles 2.5 y 97.5 para conocer los límites entre los que se encuentran el 95% de los datos, es decir, el intervalo de confianza del 95%.

hist(eficiencia_media, main="Distribución de Medias Bootstrap", xlab=" ", ylab=" ", col="blue")
abline(v=ICM1, col="red", lwd=2)
abline(v=ICM2, col="green", lwd=2)