Problema 4

Estimacción boostrap

Solución

Generamos un vector con los datos correspondientes a la eficiencia del combustible.

x=c( 7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45)

Posteriormente generamos un muestreo de 1000 filas de forma artificial para los 7 valores y formamos una matriz 1000x7.

boot=sample(x,7000,replace=TRUE)   
b=matrix(boot,nrow=1000,ncol=7)    

A continuación calculamos la media por cada una de las filas.

mx=apply(b,1,mean) 

Y calculamos el intervalo de confianza según el método 1, este intervalo se encuentra entre los percentiles 2.5 y 97.5.

ic1=quantile(mx, probs=c(0.025, 0.975))
ic1
##     2.5%    97.5% 
## 4.768464 6.505786

Calculamos el intervalo de confianza según el método 2, este método tiene en cuenta la diferencia de dos veces la media sobre cada uno de los percentiles.

ic2=c(2*mean(mx)-ic1[2], 2*mean(mx)-ic1[1])
ic2
##    97.5%     2.5% 
## 4.607509 6.344830
hist(mx, las=1, main=" ", ylab = " ", xlab = " ", col="#034A94")
abline(v=ic1, col="#FF7F00",lwd=2)
abline(v=ic2, col="#0EB0C6",lwd=2)

Conclusiones

  • Debido a que el conjunto de datos original es limitado y cuenta con una variabilidad alta, el intervalo de confianza que se calcula en ambos métodos se representa en un rango amplio, al contar con un 95% de confianza de que la media se encuentre en dicho rango se podría creer que los resultados obtenidos son de alta utilidad, pero este intervalo hace referencia a casi todo el conjunto de datos, por lo tanto para la toma de decisiones en el contexto del ejercicio, puede no ser de mucha utilidad salvo para descartar los valores que se encuentran fuera de los límites del intervalo de confianza.

  • Este método no paramétrico permite generar sintéticamente una distribución de la estimación (en este caso, la media de la eficiencia de combustible) mediante el remuestreo con reemplazo de la muestra original. Esto demuestra la flexibilidad que posee y aplicabilidad en una amplia gama de contextos en los que los datos no son abundantes.

  • Al variar el tamaño de muestra se puede apreciar que los intervalos de confianza no sufren muchos cambios a medida que se supera un umbral, esto se debe a la limitada cantidad de datos del conjunto original, denotando la importancia de la calidad y la cantidad de elementos que se puede conseguir en una muestra para un análisis óptimo.