Introducción

La estimación de intervalos de confianza es una herramienta fundamental en la inferencia estadística, permitiendo cuantificar la incertidumbre asociada a las estimaciones de parámetros poblacionales. Sin embargo, cuando trabajamos con muestras pequeñas o con distribuciones desconocidas, los métodos tradicionales basados en la teoría asintótica normal pueden no ser apropiados.

El método bootstrap, introducido por Bradley Efron en 1979, ofrece una alternativa flexible y poderosa para la estimación de intervalos de confianza. Esta técnica se basa en la idea de que la muestra original es representativa de la población y, por lo tanto, puede ser utilizada para simular el proceso de muestreo mediante remuestreo con reemplazo.

En este informe, exploraremos la aplicación del método bootstrap para estimar el intervalo de confianza de la media de la eficiencia de combustible en una muestra de camiones pesados. Utilizaremos dos métodos diferentes de bootstrap para construir los intervalos de confianza y compararemos sus resultados.

Objetivos

Descripción del problema:

Este ejercicio explora el artículo de In-use Emissions from Heavy Duty Dissel Vehicles (J.Yanowitz, 2001) en el que presenta las mediciones de eficiencia de combustible en millas/galón de una muestra de 7 camiones. Los datos obtenidos son los siguientes: 7.69, 4.97, 4.56, 6.49, 4.34, 6.24 y 4.45.

Utiliza el método bootstrap para generar un intervalo de confianza del 95% de la media de la eficiencia de combustible de una población basada en una muestra de camiones. El método es particularmente útil cuando no se tiene información sobre la distribución de los datos.

En el código, se implementará:
  • Definir los datos originales de la eficiencia de combustible.
  • Crear funciones para generar muestras bootstrap y calcular medias.
  • Generarr 10,000 muestras bootstrap y calcula sus medias.
  • Calcular los intervalos de confianza usando los dos métodos descritos.

Por lo tanto:

  • Método 1: Este método usa los percentiles 2.5% y 97.5% de las medias bootstrap como límites del intervalo de confianza, representando el 95% central de la distribución bootstrap.

  • Método 2: Utiliza una técnica que ajusta los límites del intervalo de confianza usando la media original, basandose en la fórmula (2X-P_97,5; 2X-P_2,5), donde X es la media de la muestra original.

Los resultados fueron los siguientes:

  • Media de la muestra original: Es la media de los 7 datos originales.
  • Intervalo de confianza con el Método 1 (percentiles): Se obtiene usando los percentiles 2.5% y 97.5% de las medias bootstrap.
  • Intervalo de confianza con el Método 2 (ajuste con media original): Es más conservador y ajusta los límites del intervalo de confianza en función de la media de la muestra original.
## Media de la muestra original: 5.534286
## Intervalo de confianza (Método 1): 4.731429 6.454286
## Intervalo de confianza (Método 2): 4.614286 6.337143

Visualización:

Análisis de los resultados:

El intervalo obtenido es significativo, lo que indica que el 95% de las medias bootstrap están dentro de este rango. Este método es más directo ya que no realiza ajustes adicionales y toma los percentiles de la distribución simulada.

Este enfoque ajusta los límites del intervalo en función de la media original de la muestra, lo que lo hace más conservador y simétrico alrededor de la media. El intervalo resultante es más estrecho que el del Método 1.

Los resultados del método 2, al basarse en la media original, produce un intervalo más ajustado, lo que podría llevar a una mayor confianza en la estimación si se considera que la muestra es representativa. Sin embargo, puede subestimar la variabilidad si la muestra original tiene un sesgo o no es muy representativa.

Conclusiones:

Ambos métodos son adecuados para este tipo de estimación, y la diferencia entre los intervalos de confianza es pequeña. Sin embargo, dado que no se asume una distribución específica para los datos y estamos utilizando una muestra pequeña, el método 1 (percentiles) puede ser el preferido, pues no depende de la media original y es menos susceptible a sesgos.