Informe Actividad 2, Problema 4: Estimación boostrap

En este informe se presenta la solución del problema 4, correspondiente a la actividad 2 de la asignatura de Métodos y Simulación estadística.

Obtención de Muestras Bootstrap

Población compuesta de mediciones de eficiencia de combustible en millas/galón de una muestra de siete camiones.

mEfiCom <- c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45)

Para obtener las muestras bootstrap de la población con k = 1000, se genera una función que se compone en primera instancia de otra función de generación de muestras aleatorias con sustitución.

Función para generar muestras aleatorias con sustitución

genera_muestra <- function(data, n) {
  muestra <- sample(data, n, replace = TRUE)
  return(muestra)
}

Función para estimar k muestras bootstrap

n = 7
estimar_k_muestras <- function(data, n, k_muestras) {
  muestras <- lapply(1:k_muestras, function(x) genera_muestra(data, n))
  return(muestras)
}

Se extraen k = 1000 muestras

k = 1000
bootstrap_muestras <- data.frame()
bootstrap_muestras = estimar_k_muestras(mEfiCom, n, k)

Estimación de la Media en muestras Bootstrap

Se estiman las Medias del grupo de muestras

bootstrap_Medias <- data.frame()
for (i in 1:length(bootstrap_muestras)) {
  bootstrap_Medias <- rbind(bootstrap_Medias, mean(bootstrap_muestras[[i]]))
}

Se cambia nombre de columna

colnames(bootstrap_Medias)[1] <- "Media"

Aplicación del método 1

Se estima intervalo de confianza a partir del primer método (P2.5; P97.5)

Ic = quantile(bootstrap_Medias$Media, probs = c(0.025,0.975))
Ic
##     2.5%    97.5% 
## 4.757036 6.414536

Aplicación del método 2

Se estima intervalo de confianza a partir del segundo método (2X¯−P97.5;2X¯−P2.5)

LimSup = 2*mean(bootstrap_Medias$Media) - Ic[1]
LimInf = 2*mean(bootstrap_Medias$Media) - Ic[2]
LimInf[[1]]
## [1] 4.690713
LimSup[[1]]
## [1] 6.348213

Comparación de resultados

Los intervalos de confianza obtenidos mediante cada método fueron los siguientes:

Ic Método 1: (4.75, 6.42) Ic Método 2: (4.64, 6.31)

El intervalo de confianza obtenido con el primer método tiene un nivel de confianza de 95% para las muestras Bootstrap, sin embargo, de las mediciones de eficiencia de combustible en millas/galón de la muestra de siete camiones inicial, tan sólo 2 de 7 muestras estarían dentro de ese intervalo de confianza, estos son: 4.97 y 6.24.

Al verificar el nivel de confianza obtenido con el segundo método, se validan los valores de la muestra bootstrap por debajo del limite inferior y por encima del límite superior:

val_por_deb_lim_inf = sum(bootstrap_Medias$Media < LimInf)
val_por_enc_lim_sup = sum(bootstrap_Medias$Media > LimSup)
total_valores <- val_por_deb_lim_inf + val_por_enc_lim_sup
nivel_confianza_met2 <- (k - total_valores)/k
nivel_confianza_met2
## [1] 0.95

Con el intervalo de confianza obtenido a partir del segundo método, el nivel de confianza corresponde a 95% como era de esperarse, sin embargo, de la muestra de mediciones de eficiencia inicial también se tiene que sólo 2 valores estarían dentro de este intervalo de confianza, estos son nuevamente los valores: 4.97 y 6.24.

Por lo anterior, se concluye que en caso de tenerse que escoger por uno u otro método, no hay una diferencia significativa entre los métodos y se optaría por el segundo dado que tiene un límite inferior menor que podría llegar a ser más confiable e incluir más valores, sin embargo, se considera que ninguno de los métodos es confiable para establecer el intervalo de confianza basado en la muestra.

Se sugeriría explorar otro método para estimar el intervalo de confianza, como podría ser la estimación basada en la varianza, o inclusive sugerir a los encargados de los datos ampliar la muestra inicial de mediciones.