Problema 4: Estimación Boostrap

CONSIDERACIONES INICIALES:

El boostraping o resmuestreo con reemplazo es una técnica estadística para generar nuevas muestras aleatorias a partir de la muestra inicial, lo que permite conservar las propiedades iniciales y generar estimaciones a partir de las nuevas muestras. El boostraping no asume una distribución especifica, por lo que se considera una técnica de remuestreo no paramétrica. Su característica principal es que cada vez que genera una nueva muestra, puede seleccionar un elemento o registro de la muestra original más de una vez, de allí su connotación de remuestreo con reemplazo.


Desarrollo del problema:

Se genera la muestra inicial, la cual está compuesta por 6 registros sobre mediciones en la eficiencia de combustible en millas/galón de siete camiones, información suministrada por el artículo de In-use Emissions from Heavy Duty Dissel Vehicles (J.Yanowitz, 2001).

datos_combustible <- c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45)


Con la muestra inicial se genera un ciclo for que extraerá 1000 muestras de tamaño 7 a partir de los datos de combustible inicial, muestras cuyos registros podrán repetirse, es decir, podrán ser con reeemplazo. Este ciclo irá llenndo un data frame vacio con la media de cada una de las 1000 muestras generadas.

muestras_media <- data.frame(promedio = numeric()) 

set.seed(832)
for (i in 1:1000) {
  remuestreo <- sample(datos_combustible, replace = TRUE)
  muestras_media[i,'promedio'] <- mean(remuestreo)
}

head(round(muestras_media, 2))
##   promedio
## 1     5.45
## 2     5.64
## 3     5.59
## 4     5.56
## 5     4.78
## 6     5.58


Para determinar sus intervalos de confianza se utilizarán 2 métodos; el primero mediante los percentiles 2.5% y 97.5% y, el segundo, aplicando la fórmula (2X−P97.5; 2X−P2.5), donde X es el promedio general.

p25 <- quantile(muestras_media$promedio, probs = 0.025)
p95 <- quantile(muestras_media$promedio, probs = 0.975)
promedio <- mean(muestras_media$promedio)


# Metodo 1:
cat("Intervalo de confianza metodo 1:(", p25,",", p95,")")
## Intervalo de confianza metodo 1:( 4.741036 , 6.444286 )
# Metodo 2:
intervalo_superior <- 2*promedio-p25
intervalo_inferior <- 2*promedio-p95

cat("Intervalo de confianza metodo 2:(", intervalo_inferior,",", intervalo_superior,")")
## Intervalo de confianza metodo 2:( 4.6191 , 6.32235 )


Asi pues, se observa que los intervalos de confianza son similares entre sí dado el gran numero de muestras que se generaron en el bootstrap, por lo que la selección de cual método emplear es igual de válido en ambos casos.

CONCLUSIONES FINALES: