En esta parte inicial, configuramos el ambiente necesario para nuestro análisis importando los paquetes requeridos y estableciendo los datos que examinaremos. Hacemos uso del paquete boot, indispensable para implementar métodos de bootstrap, y de ggplot2, que nos permitirá crear gráficos detallados y comprensibles. Los datos con los que trabajamos muestran las millas por galón logradas por una selección de siete camiones; consideramos que estos datos provienen de una selección aleatoria de una población más grande. Guardamos estos valores en la variable eficiencia_combustible, estableciendo así las bases para el analisis.
library(boot)
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.3
library(knitr)
# Datos de eficiencia de combustible en millas/galón
eficiencia_combustible <- c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45)
El análisis exploratorio nos ayuda a comprender nuestras muestras. Usamos histogramas para observar la frecuencia de los datos, boxplots para resaltar estadísticas claves como la mediana y los gráficos de densidad para ver la forma general de la distribución. Esto es importante para entender la variabilidad y estructura de los datos antes de avanzar en el análisis.
# Histograma
ggplot(data.frame(eficiencia = eficiencia_combustible), aes(x = eficiencia)) +
geom_histogram(fill = "skyblue", color = "black", binwidth = 0.5) +
labs(title = "Histograma de Eficiencia de Combustible", x = "Eficiencia (Millas/Galón)", y = "Frecuencia")
Análisis exploratorio de la eficiencia de combustible
# Boxplot
boxplot(eficiencia_combustible, main = "Boxplot de Eficiencia de Combustible", ylab = "Millas/Galón", col = "lightgreen")
Análisis exploratorio de la eficiencia de combustible
# Density Plot
ggplot(data.frame(eficiencia = eficiencia_combustible), aes(x = eficiencia)) +
geom_density(fill = "lightblue", alpha = 0.5) +
labs(title = "Density Plot de Eficiencia de Combustible", x = "Eficiencia (Millas/Galón)")
Análisis exploratorio de la eficiencia de combustible
Histograma de Eficiencia de Combustible: El histograma muestra la distribución de las eficiencias de combustible en millas por galón para una muestra de camiones. La mayoría de los camiones tienen una eficiencia entre 4.5 y 5 millas por galón, lo que indica que esta es la eficiencia más común en nuestra muestra. Hay menos camiones con eficiencias más altas, cerca de las 7 millas por galón, lo que sugiere que valores de eficiencia más elevados son menos frecuentes.
Boxplot de Eficiencia de Combustible: El boxplot brinda una visión clara de la distribución de las eficiencias de combustible, centrando la atención en la mediana , que parece estar justo por debajo de las 5 millas por galón. La caja misma, que representa el rango intercuartílico, muestra que la mitad de los camiones en la muestra tienen eficiencias entre aproximadamente 4.5 y 6.5 millas por galón. Las líneas (bigotes) que se extienden desde la caja indican la variabilidad fuera de los cuartiles superior e inferior, y la ausencia de puntos fuera de estos bigotes sugiere que no hay valores extremadamente altos o bajos que distorsionen nuestra comprensión de la eficiencia típica.
Density Plot de Eficiencia de Combustible: El gráfico de densidad ofrece una visualización suave y continua de la distribución de eficiencias de combustible, enfatizando dónde se concentran los datos. Observamos que la mayor densidad de eficiencias se encuentra alrededor de las 5 millas por galón, lo que indica que esta es la eficiencia más comúnmente observada. La curva muestra una disminución gradual hacia eficiencias más altas, lo que sugiere que menos camiones alcanzan esas eficiencias máximas.
Esta función calcula y retorna la media de cada muestra bootstrap, para después estimar la media poblacional. Al crear esta función, hacemos el proceso de generar nuevas muestras y obtener sus medias, aspectos fundamentales del bootstrap.
generar_muestra_bootstrap <- function(datos) {
muestra_bootstrap <- sample(datos, length(datos), replace = TRUE)
return(mean(muestra_bootstrap))
}
Se crean 1000 muestras bootstrap para calcular la media para cada una. Luego visualizamos la distribución de estas medias bootstrap utilizando un histograma. Cn esto se estima la variabilidad de la media de la eficiencia de combustible.
set.seed(123) # Para reproducibilidad
medias_bootstrap <- replicate(1000, generar_muestra_bootstrap(eficiencia_combustible))
# Visualización de las medias bootstrap
ggplot(data.frame(MediaBootstrap = medias_bootstrap), aes(x = MediaBootstrap)) +
geom_histogram(fill = "lightblue", color = "black", bins = 30) +
labs(title = "Distribución de las Medias Bootstrap", x = "Media Bootstrap", y = "Frecuencia")
Distribución de las Medias Bootstrap
Este histograma es simétrico y muestra una forma que se asemeja a una distribución normal, lo que sugiere que la distribución de las medias de las muestras bootstrap tiende hacia una distribución normal.
Con las medias de las muestras bootstrap calculadas, procedemos a construir intervalos de confianza del 95% para la media poblacional de la eficiencia de combustible.
IC_metodo_1 <- quantile(medias_bootstrap, probs = c(0.025, 0.975))
IC_metodo_2 <- 2 * mean(eficiencia_combustible) - rev(IC_metodo_1)
# Presentación de los resultados
intervalos <- data.frame(
'Método' = c('Método 1', 'Método 2'),
'Límite Inferior' = c(IC_metodo_1[1], IC_metodo_2[1]),
'Límite Superior' = c(IC_metodo_1[2], IC_metodo_2[2])
)
kable(intervalos, caption = "Intervalos de Confianza del 95% para la Media de Eficiencia de Combustible")
| Método | Límite.Inferior | Límite.Superior | |
|---|---|---|---|
| 2.5% | Método 1 | 4.748393 | 6.508643 |
| 97.5% | Método 2 | 4.559929 | 6.320179 |
Método 1 nos da un intervalo de confianza con un límite inferior de 4.748393 y un límite superior de 6.508643. Esto significa que, según este método, podemos estar un 95% seguros de que la media real de la eficiencia de combustible de todos los camiones se encuentra entre estas dos cifras (en millas por galón).
Método 2 proporciona un intervalo un poco más estrecho, con un límite inferior de 4.559929 y un límite superior de 6.320179. Esto indica que, de acuerdo con el segundo método, la media poblacional de la eficiencia de combustible también se estima que cae dentro de este rango, con un 95% de confianza.
comparamos los intervalos de confianza obtenidos por medio de un gráfico de error. Esto nos permite visualizar las diferencias en la estimación de los límites de la media poblacional
ggplot(intervalos, aes(x = Método, y = Límite.Inferior, ymin = Límite.Inferior, ymax = Límite.Superior)) +
geom_errorbar(width = 0.2) +
geom_point() +
labs(title = "Comparación de Intervalos de Confianza", y = "Intervalo de Confianza", x = "")
Comparación de Intervalos de Confianza
Método 1 muestra un intervalo de confianza más amplio en comparación con el Método 2, lo que indica una mayor incertidumbre en la estimación de la media de la eficiencia de combustible. Esto podría ser debido a la metodología específica utilizada que, dependiendo de su enfoque estadístico, puede capturar una variabilidad más amplia en los datos.
Método 2 presenta un intervalo de confianza más estrecho, lo que sugiere una mayor precisión o confianza en la estimación de la media de eficiencia de combustible, bajo el supuesto de este método específico.
La eficiencia de combustible más frecuente entre los camiones estudiados se sitúa alrededor de las 5 millas por galón. Esta observación, derivada del histograma, subraya una eficiencia promedio común dentro de la muestra analizada.
A través del análisis realizado con el boxplot y el gráfico de densidad, se ha identificado que, a pesar de existir una tendencia central en las medidas de eficiencia de combustible, también se presenta una notable dispersión. Esto nos indica que, si bien algunos camiones presentan eficiencias superiores, la mayoría se agrupa en valores intermedios.
La metodología bootstrap, utilizada para calcular la media de eficiencia de combustible, nos permitió comprender mejor la variabilidad de nuestra muestra. Al observar que la distribución de las medias bootstrap se alinea con una forma normal, confirmamos la validez del Teorema del Límite Central incluso en muestras pequeñas y de distribución desconocida.
Los intervalos de confianza generados por dos metodologías distintas nos ofrecen una seguridad del 95% de que la verdadera media de la población de eficiencia de combustible cae dentro de rangos similares, según ambos métodos. Este resultado fortalece la validez de nuestras estimaciones obtenidas a través del análisis bootstrap.