#install.packages("nycflight13")
library(nycflights13)
#install.packages("tidyverse")
library(tidyverse)
## Warning: package 'tidyverse' was built under R version 4.3.3
## Warning: package 'ggplot2' was built under R version 4.3.3
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.0 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.1
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
#install.packages("ggplot2")
library(ggplot2)
#Atrasos de origen, carrier y mes.
atraso_por_origen <- flights %>% group_by(origin) %>% summarise(tiempo_atraso_promedio = mean(dep_delay, na.rm = TRUE))
atraso_por_carrier <- flights %>% group_by(carrier) %>% summarise(tiempo_atraso_promedio = mean(dep_delay, na.rm = TRUE))
atraso_por_mes <- flights %>% group_by(month) %>% summarise(tiempo_atraso_promedio = mean(dep_delay, na.rm = TRUE))
# Resumen por origen
summary_by_origin <- flights %>% group_by(origin) %>% summarize(Media_Dep_Delay = mean(dep_delay, na.rm = TRUE),
Mediana_Dep_Delay = median(dep_delay, na.rm = TRUE), Min_Dep_Delay = min(dep_delay, na.rm = TRUE), Max_Dep_Delay = max(dep_delay, na.rm = TRUE))
# Resumen por aerolínea
summary_by_carrier <- flights %>% group_by(carrier) %>% summarize(Media_Dep_Delay = mean(dep_delay, na.rm = TRUE),
Mediana_Dep_Delay = median(dep_delay, na.rm = TRUE),
Min_Dep_Delay = min(dep_delay, na.rm = TRUE),
Max_Dep_Delay = max(dep_delay, na.rm = TRUE))
# Calcular resumen estadístico por destino
summary_by_dest <- flights %>%
group_by(dest) %>%
summarize(Media_Dep_Delay = mean(dep_delay, na.rm = TRUE),
Mediana_Dep_Delay = median(dep_delay, na.rm = TRUE),
Min_Dep_Delay = min(dep_delay, na.rm = TRUE),
Max_Dep_Delay = max(dep_delay, na.rm = TRUE))
## Warning: There were 2 warnings in `summarize()`.
## The first warning was:
## ℹ In argument: `Min_Dep_Delay = min(dep_delay, na.rm = TRUE)`.
## ℹ In group 52: `dest = "LGA"`.
## Caused by warning in `min()`:
## ! no non-missing arguments to min; returning Inf
## ℹ Run `dplyr::last_dplyr_warnings()` to see the 1 remaining warning.
# Crear un conjunto de datos combinando las variables de interés
modelo_data <- flights %>%
select(dep_delay, carrier, origin, month)
# Ajustar el modelo de regresión lineal
modelo <- lm(dep_delay ~ carrier + origin + month, data = modelo_data)
# Resumen del modelo
summary(modelo)
##
## Call:
## lm(formula = dep_delay ~ carrier + origin + month, data = modelo_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -54.81 -17.38 -12.48 -1.76 1294.85
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 18.80974 0.38810 48.466 < 2e-16 ***
## carrierAA -7.79414 0.38286 -20.358 < 2e-16 ***
## carrierAS -11.48010 1.54124 -7.449 9.46e-14 ***
## carrierB6 -3.77186 0.34822 -10.832 < 2e-16 ***
## carrierDL -7.07511 0.36085 -19.607 < 2e-16 ***
## carrierEV 2.97023 0.39186 7.580 3.47e-14 ***
## carrierF9 4.51664 1.56852 2.880 0.003983 **
## carrierFL 2.89628 0.78763 3.677 0.000236 ***
## carrierHA -12.03652 2.18212 -5.516 3.47e-08 ***
## carrierMQ -5.61979 0.40732 -13.797 < 2e-16 ***
## carrierOO -2.92665 7.42779 -0.394 0.693571
## carrierUA -4.90557 0.38340 -12.795 < 2e-16 ***
## carrierUS -12.43204 0.43216 -28.767 < 2e-16 ***
## carrierVX -4.02855 0.63644 -6.330 2.46e-10 ***
## carrierWN 1.25021 0.49683 2.516 0.011858 *
## carrierYV 3.37925 1.74606 1.935 0.052947 .
## originJFK -0.38387 0.23214 -1.654 0.098213 .
## originLGA -1.54708 0.21363 -7.242 4.44e-13 ***
## month -0.23726 0.02045 -11.604 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 39.96 on 328502 degrees of freedom
## (8255 observations deleted due to missingness)
## Multiple R-squared: 0.01256, Adjusted R-squared: 0.01251
## F-statistic: 232.2 on 18 and 328502 DF, p-value: < 2.2e-16
ggplot(modelo_data, aes(x = as.factor(month), y = dep_delay, group = 1)) +
geom_line(stat = "summary", fun = "mean", linetype = "solid", size = 1) +
labs(title = "Promedio del Retraso de Salida en función del Mes",
x = "Mes",
y = "Promedio de Retraso de Salida")
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning: Removed 8255 rows containing non-finite outside the scale range
## (`stat_summary()`).
En esta actividad de manera grupal, determinamos el por qué se retrasan los vuelos en los aeropuertos de Nueva York. Se obtuvo información muy interesante a través de los diferentes análisis de la base de datos.
En primera instancia se obtuvo el atraso por origen, en donde nos mostró el tiempo de atraso promedio en cada uno de los tres aeropuertos disponibles, dando como resultado que el aeropuerto con mayor atraso en promedio es el EWR. El siguiente análisis fue el atraso por Carrier, en donde se obtuvo el atraso promedio por aerolínea; 9E (Endevoir Air) obtuvo el mayor resultado en atraso promedio.
Despúes nos enfocamos más en el mes en el que había mayores retrasos, dando como resultado temporadas altas para viajar, por ejemplo en primer lugar del mes con mayor retraso se encontraba Julio, aproximadamente solo por un minuto mayor a Junio, y a este le seguía diciembre en el tercer puesto. Si tomamos en cuenta que muchas personas viajan en dichas temporados por el verano y las fiestas decembrinas, lo que ocasiona que haya mayor cantidad de personas en movilidad en aeropuertos, podría ser un importante factor del por qué los vuelos se retrasan más en dichas temporadas.
Por último, realizamos un modelo del promedio del retraso de salida en función del mes, lo que nos muestra con mayor claridad, que las temporadas altas de viajes son un factor que influye en los retrasos generados en los aeropuertos de Nueva York.