¿Por qué es importante el método bootstrap?

Cuando tomamos variadas replicas de un ensayo para a partir de allí evidenciar el error estandar y realizar estimaciones sobre las caraceristicas de la población, podriamos no necesariamente estar evidenciando información realmente acertada. La metodologia bootstrap permite a los investigadores tomar un ensayo minimizando el error y mediante esta muestra generar multiples repeticiones que permitan inferir de manera mas acertada caracteriticas de la población. Pero ¿Cómo seria posible a partir de una muestra caracyerizar la población?

Figura 1 Tabla ejercicio)

Figura 1 Tabla ejercicio)

Tratemos de identificar los valores que completan la tabla anterior

muestra.gamma<-rgamma(15,1,1/2)## media 1/(1/2)=2, var=1/(1/4)=4
# tomamos gamma como una distribución que no necesariamente es normal 
mean(muestra.gamma)
## [1] 1.397334
sd(muestra.gamma)
## [1] 1.100523
# observamos la media de la muestra y su desviación
hist(muestra.gamma,col="orange")

N<- 15 # numero de replicas 
mi.bootstrap<-numeric(N)
for(i in 1:N)
{
  x <- sample(muestra.gamma,15,replace=TRUE)
  mi.bootstrap[i]<- mean(x)
}
hist(mi.bootstrap,col="orange")

mean(mi.bootstrap)
## [1] 1.357709
sd(mi.bootstrap)
## [1] 0.2787067

Observamos que los valores de la muestra y la desviación se alejan considerablemente, mientras los histogramas evidencian que no se cumplen los supuestos de normalidad y homoceasticidad, para poder aplicar pruebas estadísticas convencionales.Cada vez que corremos el codigo podemos obtener valores de la media y la desviación muy diferentes asi como distribuiones de datos variadas que no son necesariamente gaussianas. En el siguiente codigo evidenciaremos que si modificamos la cantidad de replicas podemos ajustar el metodo bootstrap y lograr que cada vez nuestros datos se aproximen cada vez más a una distribución normal.

muestra.gamma<-rgamma(3200,1,1/2)## media 1/(1/2)=2, var=1/(1/4)=4
# Modificamos las  15 replicas por una valor mucho más alto, ejemplo 3200
mean(muestra.gamma)
## [1] 2.05215
sd(muestra.gamma)
## [1] 2.070989
# observamos la media de la muestra y su desviación
hist(muestra.gamma,col="orange")

N<- 3200 # Modificamos el número de replicas
mi.bootstrap<-numeric(N)
for(i in 1:N)
{
  x <- sample(muestra.gamma,3200,replace=TRUE)# modificamos el número de replicas 
  mi.bootstrap[i]<- mean(x)
}
hist(mi.bootstrap,col="orange")

mean(mi.bootstrap)
## [1] 2.05224
sd(mi.bootstrap)
## [1] 0.03691473

Realizamos una modificación considerable teniendo en cuenta que se reporta en la literatura que el menor número de replicas aconsejable para considerar es 1000, asi con un valor de replicas de 3200, encontramos que los valores de media y varianza no se modifican de forma considerable cada vez que se corren los datos asi como el histograma permite que estos se adapten de mejor manera a una distribución normal.

Con esto para un número considerable de replicas podemos afrimar que la media de la muestra puede asemejar la media de la población.