Estimación boostrap

Cuando se extrae una muestra de una población que no es normal y se requiere estimar un intervalo de confianza se pueden utilizar los métodos de estimación bootstrap. Esta metodología supone que se puede reconstruir la población objeto de estudio mediante un muestreo con reemplazo de la muestra que se tiene. Existen varias versiones del método.

Paso 1: Calculo del boostrap con los datos solicitados con el metodo 1

En este método el intervalo de confianza va comprendido entre los percentiles 2.5 y 97.5

x=c( 7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45) # datos muestra
boot=sample(x,1400,replace=TRUE)   # se extraen n x m muestras
b=matrix(boot,nrow=1000,ncol=7)    # se construye matriz de n x m 
mx=apply(b,1,mean)        
ic1=quantile(mx, probs=c(0.025, 0.975)) # se calcula IC método 1
ic1
##     2.5%    97.5% 
## 4.756107 6.489607

Paso 2: Visualización de datos y resultados

M1=quantile(mx, probs=c(0.025, 0.975)) # se calcula IC método 1
M1
##     2.5%    97.5% 
## 4.756107 6.489607
hist(mx, las=1, main=" ", ylab = " ", xlab = " ", col="#034A94")
abline(v=M1, col="#FF7F00",lwd=2)

(P2.5=4.697857,P97.5=6.480714)

Paso 2: Calculo del boostrap con los datos solicitados con el metodo 2

El metodo2 se multiplica el valor de la media por 2 y luego se resta a los percentiles inferior y superior, calculado en el metodo 1

ic2=c(2*mean(mx)-ic1[2], 2*mean(mx)-ic1[1]) # se calcula IC método 2
ic2
##    97.5%     2.5% 
## 4.650821 6.384321

Paso3: Visualización de los 2 metodos

hist(mx, las=1, main=" ", ylab = " ", xlab = " ", col="#86ff33")
abline(v=ic1, col="#FE7F02",lwd=2)
abline(v=ic2, col="#0EB0C8",lwd=2)

Conclusiones

De acuerdo a los 2 metodos de boostrap podemos inferir que en un intervalo del 95% de confianza para la media de la eficiencia de combustible se encuentra en un intervalo de entre el 4.69% y un 6.48 galones, donde el intervalo del 5.5 y 6 galones se encuentra la media de acuerdo a la estimación bootstrap .

Este metodo es sumamente util para cuando no tenemos certeza de la distribución o sabemos que la distribución de los datos no es normal.