Problema 4

Estimación boostrap

Cuando se extrae una muestra de una población que no es normal y se requiere estimar un intervalo de confianza se pueden utilizar los métodos de estimación bootstrap. Esta metodología supone que se puede reconstruir la población objeto de estudio mediante un muestreo con reemplazo de la muestra que se tiene. Existen varias versiones del método. Una presentación básica del método se describe a continuación:

“Metodos”
“Metodos”

Construya el intervalo de confianza por los dos métodos y compare los resultados obtenidos. Comente los resultados. Confiaría en estas estimaciones?

Solucion del problema planteado

Para llevar a cabo la solución del caso primero crearemos un vector con los calores obtenidos de los siete camiones

#librerias
library("moments")
#inicalizacion de varialbles
Repeticiones=1000
#vector con datos de muestra
Muestra_camiones <- c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45)

Ahora procederemos a crear las muestras por medio del método boostrap

#creacion de muestras con metodo boostrap
Muestras_generadas_BTP = function(Muestra_camiones,Repeticiones){
  #inicializamos variable
   Muestradata = data.frame()
   lista = list()
   vectornombre =c()
  
   
  # creamos un ciclo para que cree una muestra por el nuermo de repeticiones
  for (i in 1:Repeticiones){
    
    #inicializamos variable
    NameVariable =paste("X",i, sep = "")
    
     #creamos lista de muestras
     lista[[i]]=assign(NameVariable,sample(Muestra_camiones,  size = length(Muestra_camiones), replace = TRUE))
     #creamos vector de nombres
     vectornombre[i] = NameVariable
    
  }
   
   #ahora creamos el data frame con las listas
col_names <- vectornombre
Muestradata = do.call(data.frame,lista)
colnames(Muestradata) <- col_names
  
  return(Muestradata)
}
  

Resultado_Muestra_BTP=Muestras_generadas_BTP(Muestra_camiones,Repeticiones)
Muestra=Resultado_Muestra_BTP[,1:30]
Muestra
##     X1   X2   X3   X4   X5   X6   X7   X8   X9  X10  X11  X12  X13  X14  X15
## 1 6.49 6.49 6.49 4.45 4.45 7.69 4.34 4.56 4.97 4.56 4.34 4.45 4.34 7.69 6.24
## 2 4.56 6.49 6.24 4.56 4.45 7.69 6.24 6.24 4.56 6.24 6.49 4.45 6.49 4.97 7.69
## 3 7.69 4.34 4.34 4.97 4.97 4.34 4.34 4.97 4.45 4.97 4.45 4.97 4.45 4.34 7.69
## 4 6.49 7.69 6.24 4.45 4.34 4.97 4.34 4.97 4.34 7.69 4.97 6.24 4.56 4.34 4.97
## 5 6.24 6.24 4.45 6.24 4.34 4.97 4.45 7.69 6.49 4.34 6.49 6.24 7.69 4.97 6.24
## 6 7.69 7.69 6.49 6.24 4.97 6.49 4.56 4.34 4.34 4.34 4.56 4.34 6.24 4.34 6.49
## 7 6.24 4.97 7.69 4.34 6.24 4.56 4.56 6.49 4.45 7.69 4.45 4.97 4.45 6.24 4.56
##    X16  X17  X18  X19  X20  X21  X22  X23  X24  X25  X26  X27  X28  X29  X30
## 1 6.24 4.97 4.97 4.45 6.49 4.34 6.24 4.56 6.24 6.49 6.49 6.49 4.56 6.49 4.45
## 2 6.49 4.56 4.56 4.97 4.34 6.24 7.69 4.97 4.56 4.34 6.49 4.45 4.45 4.34 6.24
## 3 6.24 6.49 4.34 4.97 4.97 7.69 4.56 4.97 4.34 4.45 4.34 4.34 6.49 6.49 6.49
## 4 6.49 7.69 6.24 4.56 7.69 4.56 7.69 4.97 6.49 6.49 4.45 4.97 4.45 4.45 4.34
## 5 4.97 4.97 6.24 6.49 4.34 6.24 4.97 7.69 6.49 4.56 6.24 7.69 4.34 4.97 4.45
## 6 4.45 6.24 6.49 7.69 7.69 7.69 4.34 4.56 6.49 4.45 6.24 4.45 4.34 4.34 7.69
## 7 6.49 7.69 4.34 6.49 7.69 6.49 6.49 4.56 6.24 6.49 4.97 7.69 4.34 4.34 4.97

Ahora procedemos a generar el promedio de las muestras

Promedio = apply(Resultado_Muestra_BTP,2,mean)
PromedioM=Promedio[1:30]
PromedioM
##       X1       X2       X3       X4       X5       X6       X7       X8 
## 6.485714 6.272857 5.991429 5.035714 4.822857 5.815714 4.690000 5.608571 
##       X9      X10      X11      X12      X13      X14      X15      X16 
## 4.800000 5.690000 5.107143 5.094286 5.460000 5.270000 6.268571 5.910000 
##      X17      X18      X19      X20      X21      X22      X23      X24 
## 6.087143 5.311429 5.660000 6.172857 6.178571 5.997143 5.182857 5.835714 
##      X25      X26      X27      X28      X29      X30 
## 5.324286 5.602857 5.725714 4.710000 5.060000 5.518571

Calculo del primer Metodo

Calculamos el percentil 2.5 y el percentil 97.5
Los intervamos de confianza son:

Intervalo_Metodo1_inferior=quantile(Promedio,0.025)
Intervalo_Metodo1_Superior=quantile(Promedio,0.975)

paste("para el percentil 2.5:", Intervalo_Metodo1_inferior, "y para el percentil 97.5 es:",Intervalo_Metodo1_Superior)
## [1] "para el percentil 2.5: 4.73267857142857 y para el percentil 97.5 es: 6.48"

Calculo del segundo Metodo

Calculamos La media muestral original

media_Muestral_Conjunto = mean(Muestra_camiones)
media_Muestral_Conjunto
## [1] 5.534286
metodo2 = c(Limite_Fin_metodo2=(2 * media_Muestral_Conjunto) - quantile(Promedio, 0.975),
                       Limite_ini_metodo2=(2 * media_Muestral_Conjunto) - quantile(Promedio, 0.025))


Los intervamos de confianza son:

paste(metodo2)
## [1] "4.58857142857143" "6.33589285714286"

Resultado

Como resultados finales del proceso se obtuvieron los siguientes puntos:

Se estima que la media de la eficiencia de combustible de los camiones se encuentra en el intervalo comprendido entre

## [1] "para el percentil 2.5: 4.73267857142857 y para el percentil 97.5 es: 6.48"
Lo anterior especificado en millas por galón, esto teniendo en cuenta el metodo1.

Se estima que la media de la eficiencia de combustible de los camiones se encuentra en el intervalo comprendido entre

## [1] "para el percentil 2.5: 4.58857142857143 y para el percentil 97.5 es: 6.33589285714286"
Lo anterior especificado en millas por galón, esto teniendo en cuenta el metodo2.

Conclusion

Teniendo en cuenta todo el proceso llevado a cabo en la solución del problema podemos llegar a las siguientes conclusiones:
Al validar los resultados obtenido por lo dos métodos podemos observar que la diferencias entre los intervalos tanto para el método 1 como para el método 2 no difieren mucho la una de la otra
Además al tener un índice de confianza del 95% se puede entender que esta dentro de los limites especificados como aptos para un nivel de confianza optimo
Teniendo en cuenta las dos anteriores aclaraciones considero que confiaría en los métodos , aunque al ser tan pocos los datos considerarían que sería mejor tomar una mayor muestra de datos iniciales para que no se pueda producir un sesgo muy grande en los resultados obtenidos