CONSIDERACIONES INICIALES:
El boostraping o resmuestreo con reemplazo es una técnica estadística para generar nuevas muestras aleatorias a partir de la muestra inicial, lo que permite conservar las propiedades iniciales y generar estimaciones a partir de las nuevas muestras. El boostraping no asume una distribución especifica, por lo que se considera una técnica de remuestreo no paramétrica. Su característica principal es que cada vez que genera una nueva muestra, puede seleccionar un elemento o registro de la muestra original más de una vez, de allí su connotación de remuestreo con reemplazo.
Desarrollo del problema:
Se genera la muestra inicial, la cual está compuesta por 6 registros
sobre mediciones en la eficiencia de combustible en millas/galón de
siete camiones, información suministrada por el artículo de In-use
Emissions from Heavy Duty Dissel Vehicles (J.Yanowitz, 2001).
datos_combustible <- c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45)
Con la muestra inicial se genera un ciclo for que extraerá 1000
muestras de tamaño 7 a partir de los datos de combustible inicial,
muestras cuyos registros podrán repetirse, es decir, podrán ser con
reeemplazo. Este ciclo irá llenndo un data frame vacio con la media de
cada una de las 1000 muestras generadas.
muestras_media <- data.frame(promedio = numeric())
set.seed(832)
for (i in 1:1000) {
remuestreo <- sample(datos_combustible, replace = TRUE)
muestras_media[i,'promedio'] <- mean(remuestreo)
}
head(round(muestras_media, 2))
## promedio
## 1 5.45
## 2 5.64
## 3 5.59
## 4 5.56
## 5 4.78
## 6 5.58
Para determinar sus intervalos de confianza se utilizarán 2
métodos; el primero mediante los percentiles 2.5% y 97.5% y, el segundo,
aplicando la fórmula (2X−P97.5; 2X−P2.5), donde X es el promedio
general.
p25 <- quantile(muestras_media$promedio, probs = 0.025)
p95 <- quantile(muestras_media$promedio, probs = 0.975)
promedio <- mean(muestras_media$promedio)
# Metodo 1:
cat("Intervalo de confianza metodo 1:(", p25,",", p95,")")
## Intervalo de confianza metodo 1:( 4.741036 , 6.444286 )
# Metodo 2:
intervalo_superior <- 2*promedio-p25
intervalo_inferior <- 2*promedio-p95
cat("Intervalo de confianza metodo 2:(", intervalo_inferior,",", intervalo_superior,")")
## Intervalo de confianza metodo 2:( 4.6191 , 6.32235 )
Asi pues, se observa que los intervalos de confianza son
similares entre sí dado el gran numero de muestras que se generaron en
el bootstrap, por lo que la selección de cual método emplear es igual de
válido en ambos casos.
CONCLUSIONES FINALES: