Ejercicio 4

Cuando se extrae una muestra de una población que no es normal y se requiere estimar un intervalo de confianza se pueden utilizar los métodos de estimación bootstrap. Esta metodología supone que se puede reconstruir la población objeto de estudio mediante un muestreo con reemplazo de la muestra que se tiene. Existen varias versiones del método. Una presentación básica del método se describe a continuación:

El artículo de In-use Emissions from Heavy Duty Dissel Vehicles (J.Yanowitz, 2001) presenta las mediciones de eficiencia de combustible en millas/galón de una muestra de siete camiones. Los datos obtenidos son los siguientes: 7.69, 4.97, 4.56, 6.49, 4.34, 6.24 y 4.45. Se supone que es una muestra aleatoria de camiones y que se desea construir un intervalo de confianza del 95 % para la media de la eficiencia de combustible de esta población. No se tiene información de la distribución de los datos. El método bootstrap permite construir intervalos de confianza del 95 % - Para ilustrar el método suponga que coloca los valores de la muestra en una caja y extrae uno al azar. Este correspondería al primer valor de la muestra bootstrap X∗1 . Después de anotado el valor se regresa X∗1 a la caja y se extrae el valor X∗2 , regresandolo nuevamente. Este procedimiento se repite hasta completar una muestra de tamaño n , X∗1 ,X∗2 ,X∗2 ,X∗n , conformando la muestra bootstrap.

Es necesario extraer un gran número de muestras (suponga k = 1000). Para cada una de las muestra bootstrap obtenidas se calcula la media X∗i¯ , obteniéndose un valor para cada muestra. El intervalo de confianza queda conformado por los percentiles P2.5 y P97.5 . Existen dos métodos para estimarlo:

Solución:

El proceso se realiza a partir de los siguientes pasos:

  1. Se crea la variable n que tiene los 7 valores de las muestras.
  2. Se crea la variable r en donde se identifica cuantas veces se traera la muestra n
  3. Se crea la variable m en donde se identifica la muestra.
  4. Se crea la variable de muestra
  5. Se crea m que sera la matriz de los valores
  6. Se crea la variable mediafila la cual se encarga de generar la media de los valores creados en la matrix.
  7. Se calcula el intervalo de confianza por el metodo 1
  8. Se calcula el intervalo de confianza por el metodo 2
  9. Se genera el histograma con los cuartiles 0.025 y 0.975
set.seed(1)

n=c( 7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45) # datos de la muestra que representan las millas por galon
mean(n)
## [1] 5.534286
r = 7000  #valor aleatorio en los que se traera los valores de n
m= 1000 # numero de filas muestras
muestra=sample(n, r,replace=TRUE) # se extraen de n, valores al azar r veces en total
m=matrix(muestra,nrow=m,ncol=7)    # se construye matriz  el numero de muestra que se desee con 7 columnas que corresponde al tmaño de la muestra 
mediafila=apply(m,1,mean)                 # se calcula la media por fila
m1=quantile(mediafila, probs=c(0.025, 0.975)) # Intervalo de confianza metodo 1
m1
##     2.5%    97.5% 
## 4.747000 6.418964
m2=c(2*mean(mediafila)-m1[2], 2*mean(mediafila)-m1[1]) #Intervalo de confianza metodo 2
m2
##    97.5%     2.5% 
## 4.655576 6.327540
hist(mediafila, las=1, main=" ", ylab = " ", xlab = " ", col="purple")
abline(v=m1, col="pink",lwd=2)
abline(v=m2, col="#0EB0C6",lwd=2)

Conclusiones:

Teniendo en cuenta los resultados obtenidos por ambos métodos y comparando los intervalos de confianza para la media de eficiencia de combustible de los camiones:

Bootstrap Percentil (Percentile Bootstrap):

Límite inferior (2.5%): 4.747 Límite superior (97.5%): 6.419 Intervalo de confianza: [4.747, 6.419]

Bootstrap Normal (Normal Bootstrap): Límite inferior (2.5%): 4.656 Límite superior (97.5%): 6.328 Intervalo de confianza: [4.656, 6.328]

Al comparar los resultados obtenidos por ambos métodos, notamos que los intervalos de confianza son bastante similares en términos de sus límites inferiores y superiores. Ambos métodos sugieren que la media de eficiencia de combustible de los camiones para la población completa podría estar dentro del rango aproximado de 4.7 a 6.4 millas/galón.

En cuanto a la confianza en estas estimaciones, es crucial considerar la calidad y representatividad de la muestra original de camiones. Si la muestra es verdaderamente aleatoria y representa adecuadamente la población de camiones en cuestión, entonces podríamos confiar en cierta medida en estos intervalos de confianza. Sin embargo, si hay sesgos o problemas en la forma en que se seleccionó la muestra, los intervalos de confianza podrían no ser tan confiables para hacer inferencias sobre la población completa de camiones.Pienso que es importante siempre tener en cuenta el contexto y la calidad de los datos al interpretar los resultados de cualquier análisis estadístico, pues en mi opinion 7 datos no son suficinetes para determinar el resultado,en caso de que los 7 datos sean confiables, se determina que la media de los 7 datos sean 5.534286, resultado que es similar a los los intervalos de confianza, en ese caso si confiaria del resultado, sin embargo resalto ¿Siete datos son suficientes para dereminar la eficiencia del combustible