Caris Chia Amaya - Weimar Cortes Montiel
Métodos y Simulación estadística
Maestría en Ciencia de Datos
Pontificia Universidad Javeriana de Cali
Estimación boostrap
Cuando se extrae una muestra de una población que no es normal y se requiere estimar un intervalo de confianza se pueden utilizar los métodos de estimación bootstrap. Esta metodología supone que se puede reconstruir la población objeto de estudio mediante un muestreo con reemplazo de la muestra que se tiene. Existen varias versiones del método. Una presentación básica del método se describe a continuación:
El artículo de In-use Emissions from Heavy Duty Diesel Vehicles (J. Yanowitz, 2001) presenta las mediciones de eficiencia de combustible en millas/galón de una muestra de siete camiones. Los datos obtenidos son los siguientes: 7.69, 4.97, 4.56, 6.49, 4.34, 6.24 y 4.45. Se supone que es una muestra aleatoria de camiones y que se desea construir un intervalo de confianza del 95 % para la media de la eficiencia de combustible de esta población. No se tiene información de la distribución de los datos. El método bootstrap permite construir intervalos de confianza del 95 %.
Para ilustrar el método suponga que coloca los valores de la muestra en una caja y extrae uno al azar. Este correspondería al primer valor de la muestra bootstrap \(X_1^*\). Después de anotar el valor se regresa \(X_1^*\) a la caja y se extrae el valor \(X_2^*\), regresándolo nuevamente. Este procedimiento se repite hasta completar una muestra de tamaño \(n\), \(X_1^*, X_2^*, X_n^*\), conformando la muestra bootstrap.
Es necesario extraer un gran número de muestras (suponga \(k = 1000\)). Para cada una de las muestras bootstrap obtenidas se calcula la media \(\overline{X_i^*}\), obteniéndose un valor para cada muestra. El intervalo de confianza queda conformado por los percentiles \(P_{2.5}\) y \(P_{97.5}\). Existen dos métodos para estimar:
\[ (P_{2.5}; P_{97.5}) \]
\[ (2\overline{X} - P_{97.5}; 2\overline{X} - P_{2.5}) \]
Construya el intervalo de confianza por los dos métodos y compare los resultados obtenidos. Comente los resultados. ¿Confiaría en estas estimaciones?
| Método | Intervalo de Confianza |
|---|---|
| Método 1 | (6.908184, 7.154604) |
| Método 2 | (6.909907, 7.156327) |
df <- data.frame(medias_bootstrap = medias_bootstrap)
ggplot(df, aes(medias_bootstrap)) +
geom_histogram(binwidth = 0.01, color = "black", fill = "skyblue", alpha = 0.7) +
geom_vline(aes(xintercept = media_original), color = "red", linetype = "dashed", linewidth = 1) +
geom_vline(aes(xintercept = IC_metodo_1[1]), color = "blue", linetype = "solid", linewidth = 1) +
geom_vline(aes(xintercept = IC_metodo_1[2]), color = "blue", linetype = "solid", linewidth = 1) +
geom_vline(aes(xintercept = IC_metodo_2[1]), color = "green", linetype = "dotted", linewidth = 1) +
geom_vline(aes(xintercept = IC_metodo_2[2]), color = "green", linetype = "dotted", linewidth = 1) +
labs(title = "Distribución de las Medias Bootstrap con Intervalos de Confianza",
x = "Medias Bootstrap",
y = "Frecuencia") +
theme_minimal()
Comparación de Resultados
Método 1: (6.908,7.155)
Este intervalo se calcula directamente a partir de los percentiles 2.5 y 97.5 de las medias obtenidas de las muestras bootstrap.
Método 2: (6.910,7.156)
Este intervalo utiliza una fórmula que ajusta los percentiles mediante la media original, lo que intenta corregir cualquier posible sesgo. Comentarios sobre los Resultados Similitud: Los intervalos de confianza obtenidos por ambos métodos son casi idénticos, con diferencias mínimas en los límites inferior y superior (alrededor de 0.002 unidades). Esto indica que, en este caso, la estimación de la media es muy estable, y ambos métodos están proporcionando intervalos de confianza muy similares.
Método 1: Dado que este método es directo y refleja los percentiles extremos de las medias bootstrap, su estrecha similitud con el Método 2 sugiere que la distribución de las medias bootstrap es simétrica y no presenta sesgo significativo.
Método 2: Aunque introduce un ajuste basado en la media original para corregir posibles sesgos, el hecho de que el intervalo obtenido sea casi idéntico al del Método 1 sugiere que este ajuste no era necesario en este caso, ya que la distribución de las medias bootstrap es simétrica.
¿Confiaría en estas estimaciones?
Sí, confiaría en estas
estimaciones. La cercanía extrema entre los intervalos de confianza
obtenidos por los dos métodos refuerza la fiabilidad de la estimación de
la media de la población. Esta similitud indica que no hay un sesgo
significativo en las muestras bootstrap y que la distribución es
simétrica, lo que hace que ambos métodos sean igualmente válidos en este
contexto. Estos resultados sugieren que las estimaciones proporcionadas
por el bootstrap son estables y confiables, y que cualquiera de los dos
métodos puede ser utilizado con confianza para interpretar la media de
la población.