Para la estimación Bootstrap, se extraen \(k=1000\) muestras de un vector denominado datos, para posteriormente calcular la media por cada muestra y almacenarla en otro vector llamado medias.
library(ggplot2)
set.seed(99)
k <- 1000
datos <- c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45)
n <- length(datos)
medias <- numeric(k)
for (i in 1:k) {
m_bootstrap <- sample(datos, n, replace = TRUE)
medias[i] <- mean(m_bootstrap)
}
Ahora, se procede a construir los intervalos de confianza al 95% con los dos metodos propuestos.
percentiles <- quantile(medias, c(0.025, 0.975))
# Metodo 1
IC1 <- percentiles
# Metodo 2
media_muestra <- mean(datos)
IC2 <- c(2 * media_muestra - percentiles[2], 2 * media_muestra - percentiles[1])
cat("Intervalo de confianza por el método 1: (", IC1[1], ";", IC1[2], ")\n")
## Intervalo de confianza por el método 1: ( 4.748393 ; 6.454429 )
cat("Intervalo de confianza por el método 2: (", IC2[1], ";", IC2[2], ")\n")
## Intervalo de confianza por el método 2: ( 4.614143 ; 6.320179 )
ggplot(data.frame(medias = medias), aes(x = medias)) +
geom_histogram(bins = 20, color = "black", fill = "lightgray") +
geom_vline(xintercept = IC1[1], linetype = 2, color = "red") +
geom_vline(xintercept = IC1[2], linetype = 2, color = "red") +
geom_vline(xintercept = IC2[1], linetype = 2, color = "blue") +
geom_vline(xintercept = IC2[2], linetype = 2, color = "blue") +
geom_vline(xintercept = mean(datos), linetype = 1, color = "orange") + theme_minimal() +
labs(title = "Distribución de las medias bootstrap", x = "Media", y = "Frecuencia") +
theme(plot.title = element_text(hjust = 0.5))+
scale_color_manual(values = c("red","blue","orange"))
Los intervalos con un nivel de confianza del 95% son muy similares entre si, la media de los datos iniciales es de 5.53 aproximadamente y esta se encuentra dentro de ambos intervalos de confianza. Esto implica que, con un 95% de confianza, se puede concluir que la media poblacional es igual o similar a la media de la muestra. Si comparamos ambos metodos, se puede inferir el segundo método como una corrección o ajuste del primer método propuesto. Ambos métodos se consideran confiables para estimar un intervalo de confianza cuando se desconoce la distribución de probabilidad de la que provienen los datos.