Informe 4: Estimacción Boostrap

Introducción

La estimación de intervalos de confianza es una herramienta fundamental en la inferencia estadística, permitiendo cuantificar la incertidumbre asociada a las estimaciones de parámetros poblacionales. Sin embargo, cuando trabajamos con muestras pequeñas o con distribuciones desconocidas, los métodos tradicionales basados en la teoría asintótica normal pueden no ser apropiados.

El método bootstrap, introducido por Bradley Efron en 1979, ofrece una alternativa flexible y poderosa para la estimación de intervalos de confianza. Esta técnica se basa en la idea de que la muestra original es representativa de la población y, por lo tanto, puede ser utilizada para simular el proceso de muestreo mediante remuestreo con reemplazo.

En este informe, exploraremos la aplicación del método bootstrap para estimar el intervalo de confianza de la media de la eficiencia de combustible en una muestra de camiones pesados. Utilizaremos dos métodos diferentes de bootstrap para construir los intervalos de confianza y compararemos sus resultados.

Objetivos

Implementar el método bootstrap para estimar intervalos de confianza de la media de eficiencia de combustible en camiones pesados.
Comparar dos métodos diferentes de construcción de intervalos de confianza bootstrap: el método de los percentiles y el método de la diferencia.
Evaluar la distribución de las medias bootstrap mediante análisis gráfico, incluyendo histogramas y gráficos Q-Q.
Determinar las ventajas y limitaciones del método bootstrap en el contexto de muestras pequeñas y distribuciones desconocidas.
Interpretar los resultados obtenidos y evaluar la confiabilidad de las estimaciones en el contexto del problema de eficiencia de combustible en camiones pesados.

Descripción del problema:

Este ejercicio explora el artículo de In-use Emissions from Heavy Duty Dissel Vehicles (J.Yanowitz, 2001) en el que presenta las mediciones de eficiencia de combustible en millas/galón de una muestra de 7 camiones. Los datos obtenidos son los siguientes: 7.69, 4.97, 4.56, 6.49, 4.34, 6.24 y 4.45.

Utiliza el método bootstrap para generar un intervalo de confianza del 95% de la media de la eficiencia de combustible de una población basada en una muestra de camiones. El método es particularmente útil cuando no se tiene información sobre la distribución de los datos.

En el código, se implementará:

Definir los datos originales de la eficiencia de combustible.
Crear funciones para generar muestras bootstrap y calcular medias.
Generarr 10,000 muestras bootstrap y calcula sus medias.
Calcular los intervalos de confianza usando los dos métodos descritos.

Por lo tanto:

Método 1: Este método usa los percentiles 2.5% y 97.5% de las medias bootstrap como límites del intervalo de confianza, representando el 95% central de la distribución bootstrap.
Método 2: Utiliza una técnica que ajusta los límites del intervalo de confianza usando la media original, basandose en la fórmula (2X-P_97,5; 2X-P_2,5), donde X es la media de la muestra original.

Los resultados fueron los siguientes:

Media de la muestra original: Es la media de los 7 datos originales.
Intervalo de confianza con el Método 1 (percentiles): Se obtiene usando los percentiles 2.5% y 97.5% de las medias bootstrap.
Intervalo de confianza con el Método 2 (ajuste con media original): Es más conservador y ajusta los límites del intervalo de confianza en función de la media de la muestra original.

## Media de la muestra original: 5.534286

## Intervalo de confianza (Método 1): 4.731429 6.454286

## Intervalo de confianza (Método 2): 4.614286 6.337143

Visualización:

Histograma: Muestra la distribución de las medias bootstrap, donde las líneas verticales representan la media original y los intervalos de confianza obtenidos con los dos métodos.

Gráfico Q-Q: Se utiliza para verificar la normalidad de las medias bootstrap. Si las medias siguen una distribución aproximadamente normal, los puntos del gráfico deberían alinearse con la línea roja.

Análisis de los resultados:

Media de la muestra original: 5.53
Intervalo de confianza (Método 1): [4.70, 6.46]

El intervalo obtenido es significativo, lo que indica que el 95% de las medias bootstrap están dentro de este rango. Este método es más directo ya que no realiza ajustes adicionales y toma los percentiles de la distribución simulada.

Intervalo de confianza (Método 2): [4.60, 6.35]

Este enfoque ajusta los límites del intervalo en función de la media original de la muestra, lo que lo hace más conservador y simétrico alrededor de la media. El intervalo resultante es más estrecho que el del Método 1.

Es decir, en pocas palabras, el método 1 tiene un intervalo un poco más amplio que el método 2. Esto puede indicar que el método 1 es más conservador en cuanto a la variabilidad que detecta en la distribución bootstrap.

Los resultados del método 2, al basarse en la media original, produce un intervalo más ajustado, lo que podría llevar a una mayor confianza en la estimación si se considera que la muestra es representativa. Sin embargo, puede subestimar la variabilidad si la muestra original tiene un sesgo o no es muy representativa.

Conclusiones:

Ambos métodos son adecuados para este tipo de estimación, y la diferencia entre los intervalos de confianza es pequeña. Sin embargo, dado que no se asume una distribución específica para los datos y estamos utilizando una muestra pequeña, el método 1 (percentiles) puede ser el preferido, pues no depende de la media original y es menos susceptible a sesgos.