Actividad 2, Problema 4 de Métodos y Simulación Estadística
Elaborado por:
Harvey D. Bastidas C.
Carlos M. Arcos R.
Cuando se extrae una muestra de una población que no es normal y se requiere estimar un intervalo de confianza se pueden utilizar los métodos de estimación bootstrap. Esta metodología supone que se puede reconstruir la población objeto de estudio mediante un muestreo con reemplazo de la muestra que se tiene. Existen varias versiones del método. Una presentación básica del método se describe a continuación:
El artículo de In-use Emissions from Heavy Duty Dissel Vehicles (J.Yanowitz, 2001) presenta las mediciones de eficiencia de combustible en millas/galón de una muestra de siete camiones. Los datos obtenidos son los siguientes: 7.69, 4.97, 4.56, 6.49, 4.34, 6.24 y 4.45. Se supone que es una muestra aleatoria de camiones y que se desea construir un intervalo de confianza del 95 % para la media de la eficiencia de combustible de esta población. No se tiene información de la distribución de los datos. El método bootstrap permite construir intervalos de confianza del 95 % - Para ilustrar el método suponga que coloca los valores de la muestra en una caja y extrae uno al azar. Este correspondería al primer valor de la muestra bootstrap X∗1. Después de anotado el valor se regresa X∗1 a la caja y se extrae el valor X∗2 , regresandolo nuevamente. Este procedimiento se repite hasta completar una muestra de tamaño n,X∗1 ,X∗2 ,X∗3 , .. ,X∗n, conformando la muestra bootstrap.
Es necesario extraer un gran número de muestras (suponga k = 1000). Para cada una de las muestra bootstrap obtenidas se calcula la media X∗i¯, obteniéndose un valor para cada muestra. El intervalo de confianza queda conformado por los percentiles P2.5 y P97.5. Existen dos métodos para estimarlo:
Construya el intervalo de confianza por los dos métodos y compare los resultados obtenidos. Comente los resultados. Confiaría en estas estimaciones?
Se utilizó el método 1 y luego el método 2 para construir los intervalos de confianza, luego se compararon los resultados y finalmente se comentaron los resultados tratando de responder si las estimaciones son confiables.
En esta sección se siguieron los pasos conforme a la descripción proporcionada para el método 1.
Se usaron los datos de eficiencia de combustible en millas por galón para una muestra de siete camiones: 7.69, 4.97, 4.56, 6.49, 4.34, 6.24 y 4.45.
# Carga los datos de la muestra
datos <- c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45)
# Número de muestras bootstrap
k <- 1000
Esto es necesario para aplicar la fórmula modificada del intervalo de confianza.
# Almacena las medias de las muestras bootstrap
medias_bootstrap <- numeric(k)
Extraeremos un gran número de muestras bootstrap (por ejemplo, 1000) de la muestra original, con reemplazo, y calcularemos la media para cada muestra bootstrap.
# Realiza el muestreo con reemplazo y calcula las medias
set.seed(123) # Para reproducibilidad
for (i in 1:k) {
muestra_bootstrap <- sample(datos, length(datos), replace = TRUE)
medias_bootstrap[i] <- mean(muestra_bootstrap)
}
Determinaremos el intervalo de confianza del 95% para la media de la eficiencia de combustible de la población, usando los percentiles 2.5 y 97.5 de las medias de las muestras bootstrap.
library(knitr)
library(kableExtra)
# Calcular el intervalo de confianza del 95%
intervalo_confianza <- quantile(medias_bootstrap, c(0.025, 0.975))
# Crear un dataframe para la presentación con kable
df_intervalo <- data.frame(
Percentil = c("2.5%", "97.5%"),
Valor = as.numeric(intervalo_confianza)
)
# Generar y personalizar la tabla con kable y kableExtra
kable(df_intervalo, caption = "Intervalo de Confianza del 95% para la Eficiencia de Combustible", format = "html", col.names = c("Percentil", "Valor")) %>%
kable_styling(bootstrap_options = c("striped", "hover"), full_width = F)
| Percentil | Valor |
|---|---|
| 2.5% | 4.748393 |
| 97.5% | 6.508643 |
En esta sección se siguieron los pasos conforme a la descripción proporcionada para el método 2, dado que los datos ya fueron cargados para el método 1, no se repite este paso.
Esto es necesario para aplicar la fórmula modificada del intervalo de confianza.
# Calcular la media de la muestra original
media_original <- mean(datos)
# Número de muestras bootstrap
k <- 1000
# Almacenar las medias de las muestras bootstrap
medias_bootstrap <- numeric(k)
Este paso es similar al Método 1, donde extraemos un gran número de muestras bootstrap y calculamos la media de cada muestra.
set.seed(123) # Asegura reproducibilidad
for (i in 1:k) {
muestra_bootstrap <- sample(datos, length(datos), replace = TRUE)
medias_bootstrap[i] <- mean(muestra_bootstrap)
}
Utilizaremos la media de la muestra original y los percentiles 2.5 y 97.5 de las medias bootstrap para calcular el intervalo de confianza según la fórmula del Método 2.
# Calcular los percentiles 2.5 y 97.5 de las medias bootstrap
percentiles <- quantile(medias_bootstrap, c(0.025, 0.975))
# Calcular el intervalo de confianza modificado según el Método 2
intervalo_confianza_modificado <- 2 * media_original - rev(percentiles)
# Crear un dataframe para la presentación con kable, similar al Método 1
df_intervalo_modificado <- data.frame(
Percentil = c("2.5%", "97.5%"),
Valor = as.numeric(intervalo_confianza_modificado)
)
# Generar y personalizar la tabla con kable y kableExtra
kable(df_intervalo_modificado, caption = "Intervalo de Confianza del 95% para la Eficiencia de Combustible (Método 2)", format = "html", col.names = c("Percentil", "Valor")) %>%
kable_styling(bootstrap_options = c("striped", "hover"), full_width = F)
| Percentil | Valor |
|---|---|
| 2.5% | 4.559929 |
| 97.5% | 6.320179 |
Amplitud del intervalo de confianza: El intervalo de confianza del Método 1 es ligeramente más amplio que el del Método 2. Esto sugiere que el Método 1 podría estar proporcionando una estimación ligeramente más conservadora de la variabilidad de la media de eficiencia de combustible en la población de camiones.
Posición del intervalo de confianza: Ambos intervalos de confianza incluyen rangos de valores similares, pero el intervalo del Método 1 se extiende ligeramente más hacia valores superiores, mientras que el intervalo del Método 2 está un poco más centrado. Esto puede deberse a la forma en que cada método ajusta el intervalo basado en la media de la muestra original y las medias de las muestras bootstrap.
Los métodos de estimación bootstrap son generalmente confiables y ofrecen una herramienta poderosa, especialmente en situaciones donde no se conoce la distribución subyacente de la población y se tienen tamaños de muestra limitados. La fiabilidad de estas estimaciones depende de varios factores:
Representatividad de la muestra: Para que las estimaciones sean confiables, la muestra original debe ser representativa de la población. En este caso, asumimos que los siete camiones constituyen una muestra aleatoria y representativa, pero un tamaño de muestra mayor generalmente proporcionará resultados más precisos y confiables.
Número de re-muestreos bootstrap (k): Hemos utilizado 1000 re-muestreos, lo cual es suficiente para proporcionar estimaciones estables del intervalo de confianza. Sin embargo, incrementar el número de re-muestreos puede mejorar la precisión de las estimaciones hasta cierto punto.
Aplicabilidad de los métodos bootstrap: Dado que los métodos bootstrap no asumen una distribución específica de los datos, son particularmente útiles para datos con distribuciones desconocidas o no normales. Sin embargo, la presencia de datos atípicos extremos o una muestra muy sesgada puede afectar la fiabilidad de las estimaciones.
Ambos métodos proporcionan estimaciones útiles del intervalo de confianza para la media de la eficiencia de combustible, aunque con ligeras diferencias en la amplitud y posición del intervalo. La elección entre los métodos puede depender de la preferencia por un enfoque más conservador (Método 1) versus uno posiblemente más ajustado a la media de la muestra (Método 2).
Para garantizar la fiabilidad de estas estimaciones, es crucial contar con una muestra representativa, utilizar un número adecuado de re-muestreos, y ser consciente de las limitaciones inherentes al tamaño de la muestra y la distribución de los datos. Estos métodos ofrecen flexibilidad y son herramientas valiosas en el análisis estadístico, especialmente cuando las condiciones no permiten el uso de métodos paramétricos tradicionales.