El método bootstrap es una técnica de remuestreo que permite estimar la distribución de un estimador de interés a partir de una muestra de datos, que en ocasiones puede ser muy pequeña. El método fue desarrollado por Bradley Efron en la década de 1970, y es ampliamente utilizado debido a su capacidad para abordar datos sin hacer suposiciones sobre la distribución asociada a los mismos y para enfrentarse a casos donde no es posible hacer más muestreos.
En lugar de depender de distribuciones teóricas, el bootstrap crea muestras adicionales (llamadas muestras bootstrap) extrayendo observaciones con reemplazo de la muestra original. Esto permite estimar intervalos de confianza, errores estándar y realizar pruebas de hipótesis. En este informe abordaremos el cálculo del intervalo de confianza para la media de una muestra usando muestras de bootstrap y dos métodos para el calculo del intervalo de confianza
\[ (P_{2.5}\space ; \space P_{97.5} ) \quad (Metodo\space 1) \] \[ (2 \overline{X} – P_{97.5}\space ;\space 2\overline{X} – P_{2.5}) \quad (Metodo\space 2) \]
El artículo de In-use Emissions from Heavy Duty Dissel Vehicles (J.Yanowitz, 2001) presenta las mediciones de eficiencia de combustible en millas/galón de una muestra de siete camiones. Los datos obtenidos son los siguientes: 7.69, 4.97, 4.56, 6.49, 4.34, 6.24 y 4.45. Los datos son aleatorios, no se conoce la distribución y se busca calcular un intervalo de confianza del 95% para la de media de la eficiencia de combustible.
La serie de datos ( 7.69, 4.97, 4.56, 6.49, 4.34, 6.24 y 4.45 ) se convierte en nuestra población, tiene un total de 7 registros, por tanto el tamaño de cada muestra de bootstrap generada debe ser de n=7, el mismo tamaño que la muestra original. Para el número total de remuestreos o muestras bootstrap generadas se determinó un valor de 1000 muestras.
Camiones=c( 7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45) # Muestra original
Numerodemuestreos=1000 # No. Muestras bootstrap
tamañoM=as.numeric(length(Camiones)) # Tamaño de la muestra n=7
Para repetir el proceso de remuestreo el numero de veces definido (1.000) se hara uso de una función con el remplazo activado, los valores de cada muestreo se almacenaran para conformar una matriz de tamaño n X 1.000 = 7000 valores.
MuestreadorBootstrap <- function(n) {
Muestra=sample(Camiones,tamañoM,replace=TRUE) # se extraen n muestas
return(Muestra)
}
set.seed(123)
ListaBootstrap=do.call(rbind,replicate(Numerodemuestreos, MuestreadorBootstrap(tamañoM), simplify = FALSE))
hist(ListaBootstrap, main = "Distribución de los valores muestreados", xlab = "Valores que toma X", ylab = "Frecuencia", breaks = 25)
En la gráfica superior se puede observar que cada uno de los valores está siendo representado en la muestra bootstrap, puesto que la selección de cada uno de los valores está sujeta a la misma probabilidad. Se observa también que la mayoría de los valores se acumulan por debajo de 6.5.
Ahora para calcular el intervalo de confianza vamos a promediar los valores obtenidos en cada muestra de bootstrap y construir los intervalos en base a los diferentes valores que toma la media en los 1000 remuestreos, con esto podremos definir el rango de valores en el que se puede encontrar el parámetro.
Medias=apply(ListaBootstrap,1,mean)
hist(Medias, las=1, main="Medias calculadas para los muestreos bootstrap", ylab = " Frecuencia", xlab = " Eficiencia de combustible ", col="#B6F20F")
Al graficar la distribución de las medias vemos como estas se distribuyen de acuerdo a un comportamiento “normal” como se esperaba de acuerdo a lo planteado en el teorema del limite central. El valor mas extremo de 7.5 empieza a ser menospreciado en la distribución de la media, lo cual se esperaba al observar como se acumulaban los valores.
Los intervalos con una confiabilidad del 95% para esta distribución de medias están definidos de la siguiente manera:
icmetodo1=quantile(Medias, probs=c(0.025, 0.975)) # se calcula IC método 1
icmetodo1
## 2.5% 97.5%
## 4.748393 6.508643
icmetodo2=c(2*mean(Medias)-icmetodo1[2], 2*mean(Medias)-icmetodo1[1]) # se calcula IC método 2
icmetodo2
## 97.5% 2.5%
## 4.549526 6.309776
\[ IC_{95\%} \quad(4.748393; 6.508643) \quad (Metodo \space 1) \] \[ IC_{95\%} \quad(4.549526; 6.309776) \quad (Metodo\space 1) \] El primer método se basa exclusivamente en los percentiles para construir el intervalo, mientras que el segundo método también incluye la media de todas las observaciones para aportar simetría. Con este conjunto de datos en particular la diferencia entre los intervalos de confianza es muy pequeña, pero si se evidencia que los valores extremos hacia 7.5 de eficiencia de combustible desplazan un poco el valor del intervalo hacia valores superiores en el método 1. El desplazamiento se puede observar en la siguiente grafica:
hist(Medias, las=1, main="Medias calculadas para los muestreos bootstrap", ylab = " Frecuencia", xlab = " Eficiencia de combustible ", col="#B6F20F")
abline(v=icmetodo1, col="red",lwd=2)
abline(v=icmetodo2, col="orange",lwd=2)
legend("topright", legend=c("Intervalo de confianza (Método 1)", "Intervalo de confianza (Método 2)"),
col=c("red", "orange"), lwd=2, cex=0.8)
El sesgo, entendido como la diferencia entre la media de la muestra original y la media de todas las muestras bootstrap se usa para ajustar los intervalos de confianza si el valor obtenido de sesgo es grande. El sesgo calculado para este ejercicio es pequeño, por lo cual un ajuste no cambiaría en mayor medida los resultados observados en el intervalo de confianza.
## El sesgo calculado es: 0.005201429
Si bien el valor del sesgo calculado es pequeño, todavía existen otras fuentes de variabilidad que podrían afectar las estimaciones propuestas. La fuente de sesgo más evidente tiene que ver con la representatividad de la muestra original, si esta no refleja adecuadamente características generales de la población, todas las estimaciones hechas a partir de ella no tienen validez.
Confiaría en las estimaciones hechas y en los intervalos de confianza generados si nos remitimos exclusivamente a la disponibilidad de datos con las que se plantea el problema y su abordaje. No podría afirmar que las estimaciones son confiables en torno a la población de la que se extrajo la muestra original puesto que esta no da información sobre su representatividad, además, es sumamente pequeña y posee una variabilidad considerable.
## varianza: 1.654695
## desviacion: 1.28635
## Coeficiente de variación: 0.2324328