Bootstrap

Este procedimiento es utilizado para aproximar caracteristicas de las distribucion en el muestreo de un estadistico. Para ello se genera un numero de muestras, a partir de un remuestreo de la muestra original. Su ventaja principal es que no requiere hipotesis sobre el mecanismo generador de datos

Usando la funcion ecdf (empirical cumulative distribution function) se obtiene una distribucion bootstrap, a continuacion se grafica la distribucion teorica y bootstap.

Las características de la distribución empírica se pueden aproximar mediante simulación, realizando repetidamente muestreo aleatorio con reemplazamiento del conjunto de datos original (manteniendo el tamaño muestral):

Ejemplo

Considere unos datos de tamaño 100 con una distribucion normal

dat = rnorm(n = 100,mean = 0,sd = 1)

Ahora se toman 1000 replicas de bootstrap

nboot = 1000
stat.dat = mean(dat)


set.seed(1)
stat.boot = c()
for (i in 1:nboot){
  dat.boot = sample(dat, replace=TRUE)
  stat.boot = c(stat.boot,mean(dat.boot))
}
mean.boot = mean(stat.boot)  
mean.boot

## [1] -0.07732813

hist(stat.boot, freq=FALSE, ylim = c(0,14))
abline(v=mean.boot, lwd=2)
# abline(v=stat.dat)

# Distribución poblacional
curve(dnorm(x, 0, 1/sqrt(1000)), lty=2, add=TRUE)
abline(v=0, lwd=2, lty=2)

Bootstrap natural/básico:

hist(stat.boot-stat.dat, freq=FALSE, ylim = c(0,14))
abline(v=mean.boot-stat.dat, lwd=2)

# Distribución poblacional
# Distribución teórica de stat.dat - stat.teor
curve(dnorm(x, 0, 1/sqrt(1000)), lty=2, add=TRUE)   
abline(v=0, lwd=2, lty=2)

Sesgo y error estándar bootstrap

# sesgo (teor=0)
mean.boot - stat.dat

## [1] -0.001006526

# error estándar
sd(stat.boot)

## [1] 0.08942403

# error estándar teórico
1/sqrt(1000)

## [1] 0.03162278

Funcion optimizada para bootstrap

boot.strap <- function(dat, nboot=1000, statistic=mean)
{
  ndat <- length(dat)
  dat.boot <- sample(dat, ndat*nboot, replace=T)
  dat.boot <- matrix(dat.boot, ncol=nboot, nrow=ndat)
  stat.boot <- apply(dat.boot, 2, statistic)
}

fstatistic <- function(dat){
  #  mean(dat)
  mean(dat, trim=0.2)
  #  median(dat)
  #  max(dat)
}

set.seed(1)
stat.dat <- fstatistic(dat)
stat.boot <- boot.strap(dat, nboot, fstatistic)

res.boot <- c(stat.dat, mean(stat.boot)-stat.dat, sd(stat.boot))
names(res.boot) <- c("Estadístico", "Sesgo", "Err.Std")
res.boot

##  Estadístico        Sesgo      Err.Std 
## -0.132291855  0.001631157  0.106516854

Bootstrap

Luis Zuluaga

28/3/2021

Ejemplo