.png%22)
El paquete nycflights13 contiene información sobre todos los vuelos que partieron desde Nueva York (JFK, LGA, EWR) a destinos en los Estados Unidos en 2013.Fueron 336,776 vuelo en total. Para ayudar a comprender las causas de los retrasos también incluye otro conjunto de datos útiles.
Este paquete incluye las siguientes tablas:
Fuente:
library(nycflights13)
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.0 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.1
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(dplyr)
flights <- flights
weather <- weather
planes <- planes
airports <- airports
airlines <- airlines
airports <- rename(airports, "origin"= "faa")
bdgrande <- merge(flights, airlines, by="carrier")
bdgrande2 <- left_join(bdgrande, planes, by="tailnum")
bdgrande3 <- left_join(bdgrande2, weather, by= c("origin", "time_hour"))
bdgrande3$date <- as.Date(paste(bdgrande3$year.x,bdgrande3$month.x, bdgrande3$day.x, sep = "-"))
bdgrande3$week_day <- weekdays(bdgrande3$date)
bdgrande3 <- rename(bdgrande3, "origin" = "origin", "month" = "month.x", "day" = "day.x")
bdgrande4 <- left_join(bdgrande3, airports, by= "origin")
df_combinado <- bdgrande4 %>%
select(-wind_gust, -manufacturer, -engines, -seats, -arr_time, -sched_arr_time)
str(flights)
## tibble [336,776 × 19] (S3: tbl_df/tbl/data.frame)
## $ year : int [1:336776] 2013 2013 2013 2013 2013 2013 2013 2013 2013 2013 ...
## $ month : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
## $ day : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
## $ dep_time : int [1:336776] 517 533 542 544 554 554 555 557 557 558 ...
## $ sched_dep_time: int [1:336776] 515 529 540 545 600 558 600 600 600 600 ...
## $ dep_delay : num [1:336776] 2 4 2 -1 -6 -4 -5 -3 -3 -2 ...
## $ arr_time : int [1:336776] 830 850 923 1004 812 740 913 709 838 753 ...
## $ sched_arr_time: int [1:336776] 819 830 850 1022 837 728 854 723 846 745 ...
## $ arr_delay : num [1:336776] 11 20 33 -18 -25 12 19 -14 -8 8 ...
## $ carrier : chr [1:336776] "UA" "UA" "AA" "B6" ...
## $ flight : int [1:336776] 1545 1714 1141 725 461 1696 507 5708 79 301 ...
## $ tailnum : chr [1:336776] "N14228" "N24211" "N619AA" "N804JB" ...
## $ origin : chr [1:336776] "EWR" "LGA" "JFK" "JFK" ...
## $ dest : chr [1:336776] "IAH" "IAH" "MIA" "BQN" ...
## $ air_time : num [1:336776] 227 227 160 183 116 150 158 53 140 138 ...
## $ distance : num [1:336776] 1400 1416 1089 1576 762 ...
## $ hour : num [1:336776] 5 5 5 5 6 5 6 6 6 6 ...
## $ minute : num [1:336776] 15 29 40 45 0 58 0 0 0 0 ...
## $ time_hour : POSIXct[1:336776], format: "2013-01-01 05:00:00" "2013-01-01 05:00:00" ...
ncol(flights)
## [1] 19
nrow(flights)
## [1] 336776
dim(flights)
## [1] 336776 19
head(flights)
## # A tibble: 6 × 19
## year month day dep_time sched_dep_time dep_delay arr_time sched_arr_time
## <int> <int> <int> <int> <int> <dbl> <int> <int>
## 1 2013 1 1 517 515 2 830 819
## 2 2013 1 1 533 529 4 850 830
## 3 2013 1 1 542 540 2 923 850
## 4 2013 1 1 544 545 -1 1004 1022
## 5 2013 1 1 554 600 -6 812 837
## 6 2013 1 1 554 558 -4 740 728
## # ℹ 11 more variables: arr_delay <dbl>, carrier <chr>, flight <int>,
## # tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>,
## # hour <dbl>, minute <dbl>, time_hour <dttm>
tail(flights)
## # A tibble: 6 × 19
## year month day dep_time sched_dep_time dep_delay arr_time sched_arr_time
## <int> <int> <int> <int> <int> <dbl> <int> <int>
## 1 2013 9 30 NA 1842 NA NA 2019
## 2 2013 9 30 NA 1455 NA NA 1634
## 3 2013 9 30 NA 2200 NA NA 2312
## 4 2013 9 30 NA 1210 NA NA 1330
## 5 2013 9 30 NA 1159 NA NA 1344
## 6 2013 9 30 NA 840 NA NA 1020
## # ℹ 11 more variables: arr_delay <dbl>, carrier <chr>, flight <int>,
## # tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>,
## # hour <dbl>, minute <dbl>, time_hour <dttm>
summary(flights)
## year month day dep_time sched_dep_time
## Min. :2013 Min. : 1.000 Min. : 1.00 Min. : 1 Min. : 106
## 1st Qu.:2013 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.: 907 1st Qu.: 906
## Median :2013 Median : 7.000 Median :16.00 Median :1401 Median :1359
## Mean :2013 Mean : 6.549 Mean :15.71 Mean :1349 Mean :1344
## 3rd Qu.:2013 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:1744 3rd Qu.:1729
## Max. :2013 Max. :12.000 Max. :31.00 Max. :2400 Max. :2359
## NA's :8255
## dep_delay arr_time sched_arr_time arr_delay
## Min. : -43.00 Min. : 1 Min. : 1 Min. : -86.000
## 1st Qu.: -5.00 1st Qu.:1104 1st Qu.:1124 1st Qu.: -17.000
## Median : -2.00 Median :1535 Median :1556 Median : -5.000
## Mean : 12.64 Mean :1502 Mean :1536 Mean : 6.895
## 3rd Qu.: 11.00 3rd Qu.:1940 3rd Qu.:1945 3rd Qu.: 14.000
## Max. :1301.00 Max. :2400 Max. :2359 Max. :1272.000
## NA's :8255 NA's :8713 NA's :9430
## carrier flight tailnum origin
## Length:336776 Min. : 1 Length:336776 Length:336776
## Class :character 1st Qu.: 553 Class :character Class :character
## Mode :character Median :1496 Mode :character Mode :character
## Mean :1972
## 3rd Qu.:3465
## Max. :8500
##
## dest air_time distance hour
## Length:336776 Min. : 20.0 Min. : 17 Min. : 1.00
## Class :character 1st Qu.: 82.0 1st Qu.: 502 1st Qu.: 9.00
## Mode :character Median :129.0 Median : 872 Median :13.00
## Mean :150.7 Mean :1040 Mean :13.18
## 3rd Qu.:192.0 3rd Qu.:1389 3rd Qu.:17.00
## Max. :695.0 Max. :4983 Max. :23.00
## NA's :9430
## minute time_hour
## Min. : 0.00 Min. :2013-01-01 05:00:00.00
## 1st Qu.: 8.00 1st Qu.:2013-04-04 13:00:00.00
## Median :29.00 Median :2013-07-03 10:00:00.00
## Mean :26.23 Mean :2013-07-03 05:22:54.64
## 3rd Qu.:44.00 3rd Qu.:2013-10-01 07:00:00.00
## Max. :59.00 Max. :2013-12-31 23:00:00.00
##
str(weather)
## tibble [26,115 × 15] (S3: tbl_df/tbl/data.frame)
## $ origin : chr [1:26115] "EWR" "EWR" "EWR" "EWR" ...
## $ year : int [1:26115] 2013 2013 2013 2013 2013 2013 2013 2013 2013 2013 ...
## $ month : int [1:26115] 1 1 1 1 1 1 1 1 1 1 ...
## $ day : int [1:26115] 1 1 1 1 1 1 1 1 1 1 ...
## $ hour : int [1:26115] 1 2 3 4 5 6 7 8 9 10 ...
## $ temp : num [1:26115] 39 39 39 39.9 39 ...
## $ dewp : num [1:26115] 26.1 27 28 28 28 ...
## $ humid : num [1:26115] 59.4 61.6 64.4 62.2 64.4 ...
## $ wind_dir : num [1:26115] 270 250 240 250 260 240 240 250 260 260 ...
## $ wind_speed: num [1:26115] 10.36 8.06 11.51 12.66 12.66 ...
## $ wind_gust : num [1:26115] NA NA NA NA NA NA NA NA NA NA ...
## $ precip : num [1:26115] 0 0 0 0 0 0 0 0 0 0 ...
## $ pressure : num [1:26115] 1012 1012 1012 1012 1012 ...
## $ visib : num [1:26115] 10 10 10 10 10 10 10 10 10 10 ...
## $ time_hour : POSIXct[1:26115], format: "2013-01-01 01:00:00" "2013-01-01 02:00:00" ...
ncol(weather)
## [1] 15
nrow(weather)
## [1] 26115
dim(weather)
## [1] 26115 15
head(weather)
## # A tibble: 6 × 15
## origin year month day hour temp dewp humid wind_dir wind_speed wind_gust
## <chr> <int> <int> <int> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 EWR 2013 1 1 1 39.0 26.1 59.4 270 10.4 NA
## 2 EWR 2013 1 1 2 39.0 27.0 61.6 250 8.06 NA
## 3 EWR 2013 1 1 3 39.0 28.0 64.4 240 11.5 NA
## 4 EWR 2013 1 1 4 39.9 28.0 62.2 250 12.7 NA
## 5 EWR 2013 1 1 5 39.0 28.0 64.4 260 12.7 NA
## 6 EWR 2013 1 1 6 37.9 28.0 67.2 240 11.5 NA
## # ℹ 4 more variables: precip <dbl>, pressure <dbl>, visib <dbl>,
## # time_hour <dttm>
tail(weather)
## # A tibble: 6 × 15
## origin year month day hour temp dewp humid wind_dir wind_speed wind_gust
## <chr> <int> <int> <int> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 LGA 2013 12 30 13 37.0 21.9 54.0 340 17.3 20.7
## 2 LGA 2013 12 30 14 36.0 19.9 51.8 340 13.8 21.9
## 3 LGA 2013 12 30 15 34.0 17.1 49.5 330 17.3 21.9
## 4 LGA 2013 12 30 16 32 15.1 49.2 340 15.0 23.0
## 5 LGA 2013 12 30 17 30.9 12.9 46.7 320 17.3 NA
## 6 LGA 2013 12 30 18 28.9 10.9 46.4 330 18.4 NA
## # ℹ 4 more variables: precip <dbl>, pressure <dbl>, visib <dbl>,
## # time_hour <dttm>
summary(weather)
## origin year month day
## Length:26115 Min. :2013 Min. : 1.000 Min. : 1.00
## Class :character 1st Qu.:2013 1st Qu.: 4.000 1st Qu.: 8.00
## Mode :character Median :2013 Median : 7.000 Median :16.00
## Mean :2013 Mean : 6.504 Mean :15.68
## 3rd Qu.:2013 3rd Qu.: 9.000 3rd Qu.:23.00
## Max. :2013 Max. :12.000 Max. :31.00
##
## hour temp dewp humid
## Min. : 0.00 Min. : 10.94 Min. :-9.94 Min. : 12.74
## 1st Qu.: 6.00 1st Qu.: 39.92 1st Qu.:26.06 1st Qu.: 47.05
## Median :11.00 Median : 55.40 Median :42.08 Median : 61.79
## Mean :11.49 Mean : 55.26 Mean :41.44 Mean : 62.53
## 3rd Qu.:17.00 3rd Qu.: 69.98 3rd Qu.:57.92 3rd Qu.: 78.79
## Max. :23.00 Max. :100.04 Max. :78.08 Max. :100.00
## NA's :1 NA's :1 NA's :1
## wind_dir wind_speed wind_gust precip
## Min. : 0.0 Min. : 0.000 Min. :16.11 Min. :0.000000
## 1st Qu.:120.0 1st Qu.: 6.905 1st Qu.:20.71 1st Qu.:0.000000
## Median :220.0 Median : 10.357 Median :24.17 Median :0.000000
## Mean :199.8 Mean : 10.518 Mean :25.49 Mean :0.004469
## 3rd Qu.:290.0 3rd Qu.: 13.809 3rd Qu.:28.77 3rd Qu.:0.000000
## Max. :360.0 Max. :1048.361 Max. :66.75 Max. :1.210000
## NA's :460 NA's :4 NA's :20778
## pressure visib time_hour
## Min. : 983.8 Min. : 0.000 Min. :2013-01-01 01:00:00.0
## 1st Qu.:1012.9 1st Qu.:10.000 1st Qu.:2013-04-01 21:30:00.0
## Median :1017.6 Median :10.000 Median :2013-07-01 14:00:00.0
## Mean :1017.9 Mean : 9.255 Mean :2013-07-01 18:26:37.7
## 3rd Qu.:1023.0 3rd Qu.:10.000 3rd Qu.:2013-09-30 13:00:00.0
## Max. :1042.1 Max. :10.000 Max. :2013-12-30 18:00:00.0
## NA's :2729
str(planes)
## tibble [3,322 × 9] (S3: tbl_df/tbl/data.frame)
## $ tailnum : chr [1:3322] "N10156" "N102UW" "N103US" "N104UW" ...
## $ year : int [1:3322] 2004 1998 1999 1999 2002 1999 1999 1999 1999 1999 ...
## $ type : chr [1:3322] "Fixed wing multi engine" "Fixed wing multi engine" "Fixed wing multi engine" "Fixed wing multi engine" ...
## $ manufacturer: chr [1:3322] "EMBRAER" "AIRBUS INDUSTRIE" "AIRBUS INDUSTRIE" "AIRBUS INDUSTRIE" ...
## $ model : chr [1:3322] "EMB-145XR" "A320-214" "A320-214" "A320-214" ...
## $ engines : int [1:3322] 2 2 2 2 2 2 2 2 2 2 ...
## $ seats : int [1:3322] 55 182 182 182 55 182 182 182 182 182 ...
## $ speed : int [1:3322] NA NA NA NA NA NA NA NA NA NA ...
## $ engine : chr [1:3322] "Turbo-fan" "Turbo-fan" "Turbo-fan" "Turbo-fan" ...
ncol(planes)
## [1] 9
nrow(planes)
## [1] 3322
dim(planes)
## [1] 3322 9
head(planes)
## # A tibble: 6 × 9
## tailnum year type manufacturer model engines seats speed engine
## <chr> <int> <chr> <chr> <chr> <int> <int> <int> <chr>
## 1 N10156 2004 Fixed wing multi … EMBRAER EMB-… 2 55 NA Turbo…
## 2 N102UW 1998 Fixed wing multi … AIRBUS INDU… A320… 2 182 NA Turbo…
## 3 N103US 1999 Fixed wing multi … AIRBUS INDU… A320… 2 182 NA Turbo…
## 4 N104UW 1999 Fixed wing multi … AIRBUS INDU… A320… 2 182 NA Turbo…
## 5 N10575 2002 Fixed wing multi … EMBRAER EMB-… 2 55 NA Turbo…
## 6 N105UW 1999 Fixed wing multi … AIRBUS INDU… A320… 2 182 NA Turbo…
tail(planes)
## # A tibble: 6 × 9
## tailnum year type manufacturer model engines seats speed engine
## <chr> <int> <chr> <chr> <chr> <int> <int> <int> <chr>
## 1 N996DL 1991 Fixed wing multi … MCDONNELL D… MD-88 2 142 NA Turbo…
## 2 N997AT 2002 Fixed wing multi … BOEING 717-… 2 100 NA Turbo…
## 3 N997DL 1992 Fixed wing multi … MCDONNELL D… MD-88 2 142 NA Turbo…
## 4 N998AT 2002 Fixed wing multi … BOEING 717-… 2 100 NA Turbo…
## 5 N998DL 1992 Fixed wing multi … MCDONNELL D… MD-88 2 142 NA Turbo…
## 6 N999DN 1992 Fixed wing multi … MCDONNELL D… MD-88 2 142 NA Turbo…
summary(planes)
## tailnum year type manufacturer
## Length:3322 Min. :1956 Length:3322 Length:3322
## Class :character 1st Qu.:1997 Class :character Class :character
## Mode :character Median :2001 Mode :character Mode :character
## Mean :2000
## 3rd Qu.:2005
## Max. :2013
## NA's :70
## model engines seats speed
## Length:3322 Min. :1.000 Min. : 2.0 Min. : 90.0
## Class :character 1st Qu.:2.000 1st Qu.:140.0 1st Qu.:107.5
## Mode :character Median :2.000 Median :149.0 Median :162.0
## Mean :1.995 Mean :154.3 Mean :236.8
## 3rd Qu.:2.000 3rd Qu.:182.0 3rd Qu.:432.0
## Max. :4.000 Max. :450.0 Max. :432.0
## NA's :3299
## engine
## Length:3322
## Class :character
## Mode :character
##
##
##
##
str(airports)
## tibble [1,458 × 8] (S3: tbl_df/tbl/data.frame)
## $ origin: chr [1:1458] "04G" "06A" "06C" "06N" ...
## $ name : chr [1:1458] "Lansdowne Airport" "Moton Field Municipal Airport" "Schaumburg Regional" "Randall Airport" ...
## $ lat : num [1:1458] 41.1 32.5 42 41.4 31.1 ...
## $ lon : num [1:1458] -80.6 -85.7 -88.1 -74.4 -81.4 ...
## $ alt : num [1:1458] 1044 264 801 523 11 ...
## $ tz : num [1:1458] -5 -6 -6 -5 -5 -5 -5 -5 -5 -8 ...
## $ dst : chr [1:1458] "A" "A" "A" "A" ...
## $ tzone : chr [1:1458] "America/New_York" "America/Chicago" "America/Chicago" "America/New_York" ...
## - attr(*, "spec")=
## .. cols(
## .. id = col_double(),
## .. name = col_character(),
## .. city = col_character(),
## .. country = col_character(),
## .. faa = col_character(),
## .. icao = col_character(),
## .. lat = col_double(),
## .. lon = col_double(),
## .. alt = col_double(),
## .. tz = col_double(),
## .. dst = col_character(),
## .. tzone = col_character()
## .. )
ncol(airports)
## [1] 8
nrow(airports)
## [1] 1458
dim(airports)
## [1] 1458 8
head(airports)
## # A tibble: 6 × 8
## origin name lat lon alt tz dst tzone
## <chr> <chr> <dbl> <dbl> <dbl> <dbl> <chr> <chr>
## 1 04G Lansdowne Airport 41.1 -80.6 1044 -5 A America/N…
## 2 06A Moton Field Municipal Airport 32.5 -85.7 264 -6 A America/C…
## 3 06C Schaumburg Regional 42.0 -88.1 801 -6 A America/C…
## 4 06N Randall Airport 41.4 -74.4 523 -5 A America/N…
## 5 09J Jekyll Island Airport 31.1 -81.4 11 -5 A America/N…
## 6 0A9 Elizabethton Municipal Airport 36.4 -82.2 1593 -5 A America/N…
tail(airports)
## # A tibble: 6 × 8
## origin name lat lon alt tz dst tzone
## <chr> <chr> <dbl> <dbl> <dbl> <dbl> <chr> <chr>
## 1 ZTY Boston Back Bay Station 42.3 -71.1 20 -5 A America/New_Y…
## 2 ZUN Black Rock 35.1 -109. 6454 -7 A America/Denver
## 3 ZVE New Haven Rail Station 41.3 -72.9 7 -5 A America/New_Y…
## 4 ZWI Wilmington Amtrak Station 39.7 -75.6 0 -5 A America/New_Y…
## 5 ZWU Washington Union Station 38.9 -77.0 76 -5 A America/New_Y…
## 6 ZYP Penn Station 40.8 -74.0 35 -5 A America/New_Y…
summary(airports)
## origin name lat lon
## Length:1458 Length:1458 Min. :19.72 Min. :-176.65
## Class :character Class :character 1st Qu.:34.26 1st Qu.:-119.19
## Mode :character Mode :character Median :40.09 Median : -94.66
## Mean :41.65 Mean :-103.39
## 3rd Qu.:45.07 3rd Qu.: -82.52
## Max. :72.27 Max. : 174.11
## alt tz dst tzone
## Min. : -54.00 Min. :-10.000 Length:1458 Length:1458
## 1st Qu.: 70.25 1st Qu.: -8.000 Class :character Class :character
## Median : 473.00 Median : -6.000 Mode :character Mode :character
## Mean :1001.42 Mean : -6.519
## 3rd Qu.:1062.50 3rd Qu.: -5.000
## Max. :9078.00 Max. : 8.000
str(airlines)
## tibble [16 × 2] (S3: tbl_df/tbl/data.frame)
## $ carrier: chr [1:16] "9E" "AA" "AS" "B6" ...
## $ name : chr [1:16] "Endeavor Air Inc." "American Airlines Inc." "Alaska Airlines Inc." "JetBlue Airways" ...
ncol(airlines)
## [1] 2
nrow(airlines)
## [1] 16
dim(airlines)
## [1] 16 2
head(airlines)
## # A tibble: 6 × 2
## carrier name
## <chr> <chr>
## 1 9E Endeavor Air Inc.
## 2 AA American Airlines Inc.
## 3 AS Alaska Airlines Inc.
## 4 B6 JetBlue Airways
## 5 DL Delta Air Lines Inc.
## 6 EV ExpressJet Airlines Inc.
tail(airlines)
## # A tibble: 6 × 2
## carrier name
## <chr> <chr>
## 1 OO SkyWest Airlines Inc.
## 2 UA United Air Lines Inc.
## 3 US US Airways Inc.
## 4 VX Virgin America
## 5 WN Southwest Airlines Co.
## 6 YV Mesa Airlines Inc.
summary(airlines)
## carrier name
## Length:16 Length:16
## Class :character Class :character
## Mode :character Mode :character
¿Cuáles son los campos y sus tipos de datos?
flights:
weather:
planes:
airports:
# dest & origin
summary(flights$distance)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 17 502 872 1040 1389 4983
# Aerlineas de mayor tráfico aéreo en origen y destino
df <- flights %>%
select(carrier, distance, origin, dest) %>%
filter(distance > mean(distance, na.rm= TRUE)) %>%
arrange(desc(distance))
df1 <- df %>%
group_by(carrier, origin, dest) %>%
summarise(suma_distancia= sum(distance, na.rm= TRUE),
media_distancia= mean(distance, na.rm= TRUE)) %>%
arrange(desc(carrier), desc(suma_distancia))
## `summarise()` has grouped output by 'carrier', 'origin'. You can override using
## the `.groups` argument.
df_JFK <- df1 %>%
filter(origin == "JFK") %>%
arrange(carrier, desc(suma_distancia))
df_JFK
## # A tibble: 69 × 5
## # Groups: carrier, origin [8]
## carrier origin dest suma_distancia media_distancia
## <chr> <chr> <chr> <dbl> <dbl>
## 1 9E JFK MSY 515352 1182
## 2 9E JFK DFW 507715 1391
## 3 9E JFK MCI 307188 1113
## 4 9E JFK SAT 84111 1587
## 5 9E JFK AUS 3042 1521
## 6 AA JFK LAX 7962075 2475
## 7 AA JFK SFO 3677292 2586
## 8 AA JFK MIA 2418669 1089
## 9 AA JFK SJU 1756202 1598
## 10 AA JFK LAS 1436472 2248
## # ℹ 59 more rows
df_LGA <- df1 %>%
filter(origin == "LGA") %>%
arrange(carrier, desc(suma_distancia))
df_LGA
## # A tibble: 31 × 5
## # Groups: carrier, origin [9]
## carrier origin dest suma_distancia media_distancia
## <chr> <chr> <chr> <dbl> <dbl>
## 1 9E LGA MCI 94095 1107
## 2 9E LGA SRQ 81666 1047
## 3 9E LGA RSW 72360 1080
## 4 9E LGA DFW 19446 1389
## 5 9E LGA MSY 1183 1183
## 6 AA LGA DFW 6717204 1389
## 7 AA LGA MIA 4323720 1096
## 8 B6 LGA FLL 2354288 1076
## 9 B6 LGA RSW 394200 1080
## 10 B6 LGA SRQ 382155 1047
## # ℹ 21 more rows
df_EWR <- df1 %>%
filter(origin == "EWR") %>%
arrange(carrier, desc(suma_distancia))
df_EWR
## # A tibble: 50 × 5
## # Groups: carrier, origin [9]
## carrier origin dest suma_distancia media_distancia
## <chr> <chr> <chr> <dbl> <dbl>
## 1 AA EWR DFW 2818088 1372
## 2 AA EWR MIA 1158780 1085
## 3 AA EWR LAX 895710 2454
## 4 AS EWR SEA 1715028 2402
## 5 B6 EWR FLL 1476090 1065
## 6 B6 EWR SJU 609432 1608
## 7 B6 EWR RSW 389820 1068
## 8 DL EWR SLC 697026 1969
## 9 EV EWR MCI 1480752 1092
## 10 EV EWR OMA 852768 1134
## # ℹ 40 more rows
Las aerolíneas con el mayor tráfico aéreo en términos de millas recorridas son UA (United Airlines) y AA (American Airlines). Esto se debe a que estas aerolíneas operan principalmente desde los aeropuertos EWR (Newark Liberty International Airport) y JFK (John F. Kennedy International Airport), que son los que tienen más distancia al centro de la ciudad y más variedad de destinos y rutas que los otros aeropuertos, lo que implica más distancia y tiempo de vuelo. Según los datos, la media de millas recorridas por UA desde el aeropuerto EWR es de 2565, y desde el aeropuerto JFK es de 2586, lo que son los valores más altos entre todas las aerolíneas y aeropuertos. La media de millas recorridas por AA desde el aeropuerto EWR es de 2475, y desde el aeropuerto JFK es de 1703, lo que son los segundos valores más altos entre todas las aerolíneas y aeropuertos.
Las principales aerolíneas operando en los aeropuertos JFK y LGA son las mismas, pero no en el aeropuerto EWR. Esto se debe a que las aerolíneas UA (United Airlines) y AA (American Airlines) tienen una fuerte presencia en los aeropuertos JFK y LGA, que son los que tienen más tráfico aéreo y más variedad de destinos y rutas que los otros aeropuertos, lo que implica más distancia y tiempo de vuelo. Sin embargo, en el aeropuerto EWR, UA es la aerolínea líder, mientras que AA tiene una menor participación, lo que implica una menor distancia y tiempo de vuelo. Según los datos, la media de millas recorridas por UA desde el aeropuerto EWR es de 2565, lo que es el valor más alto entre todas las aerolíneas y aeropuertos. La media de millas recorridas por AA desde el aeropuerto JFK es de 2475, lo que es el valor más alto entre todas las aerolíneas y la media de millas recorridas por AA desde el aeropuerto LGA es de 1389. Estos datos muestran que UA y AA son las aerolíneas líderes en los aeropuertos JFK y LGA, y que se diferencian de las demás por su distancia media recorrida.
columnas_nivel <- sapply(df_combinado, function(x) length(unique(x))) == 1
columnas_nivel_nombres <- names(df_combinado)[columnas_nivel]
print(columnas_nivel_nombres)
## [1] "year.x" "tz" "dst" "tzone"
regresion <- lm(dep_delay ~ carrier + month + dep_time + sched_dep_time + dep_delay + flight + origin + dest + distance + type + model + engine + temp + dewp + humid + wind_dir + wind_speed + precip + pressure + visib + date + week_day +lat + lon + alt, data = df_combinado)
summary(regresion)
##
## Call:
## lm(formula = dep_delay ~ carrier + month + dep_time + sched_dep_time +
## dep_delay + flight + origin + dest + distance + type + model +
## engine + temp + dewp + humid + wind_dir + wind_speed + precip +
## pressure + visib + date + week_day + lat + lon + alt, data = df_combinado)
##
## Residuals:
## Min 1Q Median 3Q Max
## -91.53 -15.84 -7.42 2.37 1310.79
##
## Coefficients: (15 not defined because of singularities)
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -4.154e+02 1.350e+02 -3.076 0.002096 **
## carrierAA 9.110e+00 1.848e+01 0.493 0.622030
## carrierAS 1.331e+01 1.794e+01 0.742 0.458211
## carrierB6 4.757e+00 1.932e+01 0.246 0.805477
## carrierDL 3.162e+01 1.835e+01 1.723 0.084840 .
## carrierEV 5.286e+00 8.588e-01 6.155 7.52e-10 ***
## carrierF9 5.491e+00 1.944e+01 0.283 0.777556
## carrierFL 2.783e+01 1.848e+01 1.506 0.132098
## carrierHA 2.511e+01 1.828e+01 1.374 0.169453
## carrierMQ 1.529e+01 1.790e+01 0.854 0.393131
## carrierOO -5.096e+00 6.887e+00 -0.740 0.459359
## carrierUA 4.962e+00 1.932e+01 0.257 0.797331
## carrierUS -3.241e+00 1.932e+01 -0.168 0.866796
## carrierVX 2.922e+00 1.938e+01 0.151 0.880173
## carrierWN 2.851e+01 1.880e+01 1.517 0.129383
## carrierYV -1.043e+00 1.806e+00 -0.577 0.563713
## month -1.723e+00 2.519e-01 -6.841 7.89e-12 ***
## dep_time 6.007e-02 5.116e-04 117.410 < 2e-16 ***
## sched_dep_time -4.364e-02 5.368e-04 -81.295 < 2e-16 ***
## flight 2.336e-05 1.385e-04 0.169 0.866062
## originJFK -1.111e+00 3.633e-01 -3.058 0.002229 **
## originLGA 2.156e-01 3.686e-01 0.585 0.558624
## destACK -2.910e+01 2.926e+01 -0.994 0.320018
## destALB -2.958e+01 3.002e+01 -0.985 0.324461
## destANC 5.025e+01 3.142e+01 1.599 0.109831
## destATL -1.136e+01 1.923e+01 -0.591 0.554623
## destAUS 2.043e+00 6.059e+00 0.337 0.735984
## destAVL -2.429e+01 2.225e+01 -1.092 0.274794
## destBDL -3.222e+01 3.049e+01 -1.057 0.290677
## destBGR -2.783e+01 2.607e+01 -1.068 0.285651
## destBHM -1.324e+01 1.748e+01 -0.757 0.448797
## destBNA -1.431e+01 1.918e+01 -0.746 0.455517
## destBOS -2.847e+01 2.921e+01 -0.975 0.329791
## destBQN 1.700e+01 5.131e+00 3.313 0.000924 ***
## destBTV -2.695e+01 2.793e+01 -0.965 0.334569
## destBUF -2.668e+01 2.740e+01 -0.974 0.330164
## destBUR 1.857e+01 1.184e+01 1.568 0.116905
## destBWI -2.754e+01 2.949e+01 -0.934 0.350350
## destBZN 2.296e+01 7.020e+00 3.271 0.001073 **
## destCAE -1.589e+01 2.209e+01 -0.719 0.471842
## destCAK -1.897e+01 2.576e+01 -0.737 0.461424
## destCHO -3.504e+01 2.783e+01 -1.259 0.207934
## destCHS -1.854e+01 2.136e+01 -0.868 0.385298
## destCLE -2.296e+01 2.532e+01 -0.907 0.364494
## destCLT -1.802e+01 2.306e+01 -0.782 0.434506
## destCMH -2.413e+01 2.428e+01 -0.994 0.320335
## destCRW -2.786e+01 2.693e+01 -1.035 0.300863
## destCVG -1.922e+01 2.237e+01 -0.859 0.390277
## destDAY -2.174e+01 2.303e+01 -0.944 0.345106
## destDCA -2.836e+01 2.892e+01 -0.981 0.326767
## destDEN 8.563e+00 4.459e+00 1.920 0.054811 .
## destDFW 1.343e+00 8.283e+00 0.162 0.871204
## destDSM -9.170e+00 1.454e+01 -0.631 0.528135
## destDTW -1.868e+01 2.380e+01 -0.785 0.432486
## destEGE 1.343e+01 4.460e+00 3.010 0.002609 **
## destEYW 4.686e+00 1.504e+01 0.312 0.755353
## destFLL -4.477e+00 1.368e+01 -0.327 0.743537
## destGRR -1.713e+01 2.178e+01 -0.786 0.431618
## destGSO -2.231e+01 2.458e+01 -0.908 0.364010
## destGSP -1.868e+01 2.197e+01 -0.850 0.395086
## destHDN 2.239e+01 1.063e+01 2.106 0.035165 *
## destHNL 8.134e+01 5.649e+01 1.440 0.149928
## destHOU 1.254e+00 7.588e+00 0.165 0.868740
## destIAD -2.535e+01 2.868e+01 -0.884 0.376760
## destIAH 1.842e+00 7.802e+00 0.236 0.813317
## destILM -2.620e+01 2.409e+01 -1.088 0.276784
## destIND -1.740e+01 2.102e+01 -0.828 0.407749
## destJAC 3.837e+01 8.365e+00 4.587 4.50e-06 ***
## destJAX -1.424e+01 1.797e+01 -0.792 0.428190
## destLAS 1.974e+01 7.881e+00 2.505 0.012250 *
## destLAX 2.400e+01 1.179e+01 2.036 0.041740 *
## destLEX -3.610e+01 4.169e+01 -0.866 0.386531
## destLGB 1.995e+01 1.177e+01 1.695 0.090084 .
## destMCI -6.633e+00 1.312e+01 -0.505 0.613216
## destMCO -8.778e+00 1.591e+01 -0.552 0.581185
## destMDW -1.462e+01 1.985e+01 -0.736 0.461486
## destMEM -9.692e+00 1.568e+01 -0.618 0.536570
## destMHT -2.840e+01 2.886e+01 -0.984 0.325182
## destMIA -4.370e+00 1.334e+01 -0.328 0.743193
## destMKE -1.534e+01 1.961e+01 -0.782 0.434073
## destMSN -1.116e+01 1.836e+01 -0.608 0.543091
## destMSP -6.293e+00 1.460e+01 -0.431 0.666394
## destMSY -4.819e+00 1.179e+01 -0.409 0.682673
## destMTJ 2.945e+01 1.096e+01 2.687 0.007219 **
## destMVY -3.423e+01 2.975e+01 -1.151 0.249924
## destMYR -1.632e+01 2.326e+01 -0.702 0.482961
## destOAK 2.166e+01 1.380e+01 1.570 0.116420
## destOKC -3.078e+00 9.296e+00 -0.331 0.740589
## destOMA -6.228e+00 1.245e+01 -0.500 0.616836
## destORD -1.105e+01 1.971e+01 -0.561 0.574838
## destORF -2.745e+01 2.751e+01 -0.998 0.318373
## destPBI -5.629e+00 1.441e+01 -0.391 0.696039
## destPDX 2.540e+01 1.147e+01 2.214 0.026814 *
## destPHL -2.600e+01 3.101e+01 -0.838 0.401845
## destPHX 1.958e+01 6.334e+00 3.091 0.001993 **
## destPIT -2.479e+01 2.676e+01 -0.926 0.354357
## destPSE 3.900e+01 4.875e+00 8.000 1.25e-15 ***
## destPSP 1.958e+01 1.347e+01 1.454 0.145950
## destPVD -2.883e+01 2.972e+01 -0.970 0.331992
## destPWM -2.625e+01 2.775e+01 -0.946 0.344078
## destRDU -2.175e+01 2.512e+01 -0.866 0.386579
## destRIC -2.469e+01 2.758e+01 -0.895 0.370680
## destROC -2.426e+01 2.806e+01 -0.865 0.387285
## destRSW -6.970e+00 1.362e+01 -0.512 0.608931
## destSAN 2.401e+01 1.130e+01 2.125 0.033548 *
## destSAT 7.179e+00 5.161e+00 1.391 0.164199
## destSAV -1.619e+01 1.995e+01 -0.812 0.416883
## destSBN -2.031e+01 2.457e+01 -0.827 0.408488
## destSDF -1.882e+01 2.109e+01 -0.892 0.372271
## destSEA 2.517e+01 1.088e+01 2.315 0.020640 *
## destSFO 3.061e+01 1.372e+01 2.230 0.025725 *
## destSJC 1.593e+01 1.366e+01 1.166 0.243654
## destSJU 9.972e+00 4.705e+00 2.120 0.034042 *
## destSLC 1.492e+01 3.863e+00 3.862 0.000113 ***
## destSMF 1.971e+01 1.286e+01 1.533 0.125343
## destSNA 2.179e+01 1.142e+01 1.909 0.056288 .
## destSRQ -8.013e+00 1.424e+01 -0.563 0.573625
## destSTL -1.148e+01 1.699e+01 -0.676 0.499059
## destSTT 1.292e+01 4.866e+00 2.655 0.007938 **
## destSYR -2.599e+01 2.905e+01 -0.895 0.371016
## destTPA -7.255e+00 1.484e+01 -0.489 0.625008
## destTUL -1.752e+00 1.118e+01 -0.157 0.875444
## destTVC -8.470e+00 2.154e+01 -0.393 0.694145
## destTYS -1.806e+01 2.132e+01 -0.847 0.397123
## destXNA -7.356e+00 1.260e+01 -0.584 0.559412
## distance -2.277e-02 1.788e-02 -1.273 0.202965
## typeFixed wing single engine 1.447e+01 7.087e+00 2.042 0.041195 *
## typeRotorcraft 6.385e+00 9.014e+00 0.708 0.478720
## model172E -3.071e+00 1.108e+01 -0.277 0.781763
## model172M 5.028e-01 7.554e+00 0.067 0.946934
## model172N -2.100e+01 7.913e+00 -2.654 0.007947 **
## model206B 2.227e+00 9.650e+00 0.231 0.817536
## model210-5(205) -1.403e+01 8.007e+00 -1.753 0.079662 .
## model230 1.968e+01 1.080e+01 1.822 0.068522 .
## model310Q 3.930e+00 9.500e+00 0.414 0.679144
## model421C 3.327e+00 8.301e+00 0.401 0.688558
## model550 1.359e+01 8.156e+00 1.667 0.095581 .
## model60 1.497e+00 1.041e+01 0.144 0.885713
## model65-A90 1.154e+01 9.166e+00 1.259 0.208016
## model717-200 -7.367e+00 4.914e+00 -1.499 0.133856
## model737-301 -5.026e+00 1.568e+01 -0.321 0.748490
## model737-317 -1.828e+01 2.576e+01 -0.709 0.478046
## model737-3A4 -7.076e+00 3.592e+01 -0.197 0.843862
## model737-3G7 -1.414e+01 1.392e+01 -1.016 0.309541
## model737-3H4 -2.919e+00 6.299e+00 -0.463 0.643033
## model737-3K2 -8.084e-01 1.696e+01 -0.048 0.961975
## model737-3L9 5.201e+00 1.568e+01 0.332 0.740069
## model737-3Q8 -2.147e+00 1.052e+01 -0.204 0.838249
## model737-3T5 -1.910e+01 3.593e+01 -0.532 0.594924
## model737-3TO 1.915e+01 1.098e+01 1.745 0.080957 .
## model737-3Y0 -8.530e+00 1.568e+01 -0.544 0.586376
## model737-401 1.668e+01 1.042e+01 1.601 0.109430
## model737-4B7 1.842e+01 8.389e+00 2.196 0.028093 *
## model737-524 8.073e+00 1.924e+01 0.420 0.674782
## model737-5H4 -7.463e+00 9.140e+00 -0.817 0.414183
## model737-705 -8.082e+00 7.896e+00 -1.024 0.306034
## model737-724 1.215e+01 7.508e+00 1.618 0.105659
## model737-732 -1.605e+01 4.612e+00 -3.481 0.000500 ***
## model737-76N 2.573e+00 5.740e+00 0.448 0.653901
## model737-76Q 1.960e+00 8.252e+00 0.238 0.812268
## model737-7AD -1.395e+01 1.051e+01 -1.327 0.184404
## model737-7BD -8.665e-01 5.946e+00 -0.146 0.884144
## model737-7BX -1.231e+00 7.801e+00 -0.158 0.874593
## model737-7H4 -2.889e+00 6.074e+00 -0.476 0.634315
## model737-7Q8 -6.304e+00 1.051e+01 -0.600 0.548655
## model737-824 1.337e+01 7.534e+00 1.775 0.075928 .
## model737-832 -1.847e+01 4.511e+00 -4.094 4.24e-05 ***
## model737-890 -2.791e+00 2.946e+00 -0.947 0.343498
## model737-8FH -1.076e+01 1.007e+01 -1.068 0.285478
## model737-8H4 -3.277e+00 6.307e+00 -0.520 0.603364
## model737-924 1.415e+01 7.622e+00 1.856 0.063411 .
## model737-924ER 1.292e+01 7.543e+00 1.713 0.086724 .
## model737-990 2.390e+01 9.128e+00 2.618 0.008848 **
## model737-990ER NA NA NA NA
## model757-212 -1.628e+01 2.544e+01 -0.640 0.522078
## model757-222 1.414e+01 7.498e+00 1.886 0.059257 .
## model757-223 1.387e+01 5.268e+00 2.633 0.008465 **
## model757-224 1.101e+01 7.515e+00 1.465 0.142846
## model757-231 -1.702e+01 4.567e+00 -3.727 0.000194 ***
## model757-232 -1.638e+01 4.527e+00 -3.619 0.000296 ***
## model757-251 -9.760e+00 5.428e+00 -1.798 0.072155 .
## model757-26D -2.069e+01 6.585e+00 -3.142 0.001680 **
## model757-2B7 2.034e+01 2.615e+01 0.778 0.436554
## model757-2Q8 -1.600e+01 4.569e+00 -3.501 0.000463 ***
## model757-324 1.875e+01 7.803e+00 2.403 0.016281 *
## model757-33N 1.997e+01 8.209e+00 2.433 0.014988 *
## model757-351 4.576e+01 1.826e+01 2.506 0.012204 *
## model767-201 7.337e+01 3.619e+01 2.027 0.042619 *
## model767-223 1.083e+01 5.029e+00 2.154 0.031239 *
## model767-224 1.407e+01 1.267e+01 1.110 0.266874
## model767-322 2.166e+01 7.862e+00 2.755 0.005875 **
## model767-323 1.401e+01 5.298e+00 2.645 0.008170 **
## model767-324 -3.574e+01 1.826e+01 -1.957 0.050318 .
## model767-332 -1.615e+01 4.619e+00 -3.497 0.000471 ***
## model767-3P6 -1.386e+01 6.029e+00 -2.299 0.021488 *
## model767-424ER 1.881e+01 8.058e+00 2.334 0.019579 *
## model767-432ER -1.160e+01 8.274e+00 -1.402 0.160903
## model777-200 -8.456e-02 9.933e+00 -0.009 0.993208
## model777-222 1.234e+01 1.924e+01 0.641 0.521333
## model777-224 5.717e+01 2.178e+01 2.624 0.008680 **
## model787-8 4.797e+00 2.178e+01 0.220 0.825715
## modelA-1B 1.860e+00 1.001e+01 0.186 0.852558
## modelA109E 2.298e+01 1.001e+01 2.296 0.021663 *
## modelA185F -1.078e+01 7.721e+00 -1.396 0.162761
## modelA319-112 1.991e+01 7.563e+00 2.632 0.008479 **
## modelA319-114 -1.567e+01 4.497e+00 -3.485 0.000492 ***
## modelA319-115 3.732e+01 8.753e+00 4.264 2.01e-05 ***
## modelA319-131 1.485e+01 7.504e+00 1.979 0.047861 *
## modelA319-132 1.589e+01 9.453e+00 1.681 0.092811 .
## modelA320-211 -1.529e+01 4.532e+00 -3.374 0.000741 ***
## modelA320-212 -1.471e+01 4.516e+00 -3.256 0.001129 **
## modelA320-214 1.885e+01 7.630e+00 2.471 0.013488 *
## modelA320-231 2.418e+01 1.628e+01 1.485 0.137626
## modelA320-232 1.613e+01 7.517e+00 2.145 0.031938 *
## modelA321-211 1.916e+01 7.548e+00 2.539 0.011112 *
## modelA321-231 1.981e+01 7.574e+00 2.616 0.008898 **
## modelA330-223 2.793e+01 1.826e+01 1.530 0.126083
## modelA330-243 NA NA NA NA
## modelA330-323 -1.008e+01 3.569e+01 -0.282 0.777695
## modelA340-313 3.168e-02 1.070e+01 0.003 0.997637
## modelAT-5 -3.306e+01 2.220e+01 -1.489 0.136391
## modelCF-5D 2.909e+00 4.266e+00 0.682 0.495314
## modelCL-600-2B19 1.971e+01 1.780e+01 1.107 0.268096
## modelCL-600-2C10 2.151e+01 1.778e+01 1.210 0.226458
## modelCL-600-2D24 2.347e+01 1.779e+01 1.319 0.187061
## modelDC-7BF 1.383e-02 9.163e+00 0.002 0.998796
## modelDC-9-51 -1.654e+01 6.260e+00 -2.642 0.008235 **
## modelDC-9-82(MD-82) 5.989e+00 5.030e+00 1.191 0.233744
## modelDC-9-83(MD-83) 7.630e+00 5.099e+00 1.496 0.134600
## modelE-90 8.736e+00 9.014e+00 0.969 0.332484
## modelEMB-145 2.182e+01 1.796e+01 1.215 0.224386
## modelEMB-145LR 2.246e+01 1.779e+01 1.263 0.206583
## modelEMB-145XR 2.129e+01 1.779e+01 1.197 0.231305
## modelERJ 190-100 IGW 1.659e+01 7.525e+00 2.205 0.027486 *
## modelFALCON XP -8.362e+00 5.918e+00 -1.413 0.157672
## modelFALCON-XP -1.572e+01 6.463e+00 -2.432 0.015013 *
## modelG-IV 4.299e+01 1.178e+01 3.648 0.000264 ***
## modelG1159B NA NA NA NA
## modelKITFOX IV -9.308e+00 7.805e+00 -1.193 0.233045
## modelMD-88 -1.329e+01 4.488e+00 -2.962 0.003057 **
## modelMD-90-30 NA NA NA NA
## modelMYSTERE FALCON 900 NA NA NA NA
## modelOTTER DHC-3 -1.295e+01 7.054e+00 -1.836 0.066331 .
## modelPA-28-180 -4.957e+00 7.805e+00 -0.635 0.525362
## modelPA-31-350 NA NA NA NA
## modelPA-32R-300 -1.382e+01 7.868e+00 -1.756 0.079121 .
## modelPA-32RT-300 1.789e+00 9.799e+00 0.183 0.855138
## modelR66 8.105e+00 9.710e+00 0.835 0.403893
## modelS-76A NA NA NA NA
## modelSR22 -2.598e+00 3.255e+00 -0.798 0.424852
## modelVANS AIRCRAFT RV6 3.085e+00 7.226e+00 0.427 0.669473
## modelZODIAC 601HDS NA NA NA NA
## engineReciprocating NA NA NA NA
## engineTurbo-fan -9.241e-01 7.810e-01 -1.183 0.236703
## engineTurbo-jet NA NA NA NA
## engineTurbo-prop NA NA NA NA
## engineTurbo-shaft NA NA NA NA
## temp 1.438e-01 4.450e-02 3.232 0.001229 **
## dewp -6.762e-02 4.793e-02 -1.411 0.158320
## humid 2.629e-01 2.451e-02 10.725 < 2e-16 ***
## wind_dir -1.850e-03 8.044e-04 -2.300 0.021450 *
## wind_speed 2.514e-01 1.540e-02 16.321 < 2e-16 ***
## precip 5.164e+01 5.999e+00 8.607 < 2e-16 ***
## pressure -2.966e-01 1.127e-02 -26.315 < 2e-16 ***
## visib -3.458e-01 6.445e-02 -5.365 8.09e-08 ***
## date 4.476e-02 8.233e-03 5.436 5.44e-08 ***
## week_dayMonday -3.140e-01 2.648e-01 -1.186 0.235707
## week_daySaturday -5.437e+00 2.797e-01 -19.441 < 2e-16 ***
## week_daySunday -2.977e+00 2.667e-01 -11.165 < 2e-16 ***
## week_dayThursday 6.882e-01 2.651e-01 2.596 0.009425 **
## week_dayTuesday -3.959e+00 2.651e-01 -14.931 < 2e-16 ***
## week_dayWednesday -2.263e+00 2.630e-01 -8.602 < 2e-16 ***
## lat NA NA NA NA
## lon NA NA NA NA
## alt NA NA NA NA
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 35.4 on 242765 degrees of freedom
## (93751 observations deleted due to missingness)
## Multiple R-squared: 0.1301, Adjusted R-squared: 0.1291
## F-statistic: 140.2 on 259 and 242765 DF, p-value: < 2.2e-16
flight_weather <-flights %>% inner_join(weather, by = c("origin" = "origin", "year" = "year", "month" = "month", "day" = "day", "hour" = "hour"))
flight_weather<- mutate(flight_weather, celcius= ((temp-32)*(5/9)))
flight_weather<- mutate(flight_weather, dw_celcius= ((dewp-32)*(5/9)))
flight_weather<- mutate(flight_weather, khm= (wind_speed*1.60934))
flight_weather<- mutate(flight_weather, mm= (precip*25.4))
flight_weather<- mutate(flight_weather, km= (visib*1.60934))
ggplot(flight_weather, aes(x = month, y = dep_delay, fill = origin)) +
geom_bar(stat = "summary", fun = "mean", position = "stack") +
labs(x = "Mes", y = "Retraso promedio (minutos)", fill = "Aeoropuerto") +
ggtitle("Retraso promedio por mes y aeropuerto") +
scale_fill_brewer(palette = "Set3") +
theme_minimal()+
scale_x_continuous(breaks = 1:12, labels = 1:12)+
theme(plot.title= element_text(hjust=0.5))
## Warning: Removed 8227 rows containing non-finite outside the scale range
## (`stat_summary()`).
summary_delay_month <- flight_weather %>%
group_by(month) %>%
summarise(avg_delay = mean(dep_delay, na.rm = TRUE),
total_flights = n(),
total_delayed_flights = sum(dep_delay > 0, na.rm = TRUE),
perc_delayed_flights = total_delayed_flights / total_flights * 100)
summary_delay_month
## # A tibble: 12 × 5
## month avg_delay total_flights total_delayed_flights perc_delayed_flights
## <int> <dbl> <int> <int> <dbl>
## 1 1 10.0 26952 9639 35.8
## 2 2 10.8 24922 9113 36.6
## 3 3 13.2 28834 11209 38.9
## 4 4 13.9 28314 10533 37.2
## 5 5 13.0 28796 11291 39.2
## 6 6 20.8 28243 12655 44.8
## 7 7 21.8 29383 13892 47.3
## 8 8 12.4 29123 11576 39.7
## 9 9 6.66 27553 7802 28.3
## 10 10 6.21 28724 8651 30.1
## 11 11 5.45 27173 8220 30.3
## 12 12 16.9 27203 13189 48.5
ggplot(flight_weather, aes(x = origin, y = dep_delay, fill = origin)) +
geom_bar(stat = "summary", fun = "mean", position = "stack") +
labs(x = "Aeropuerto de origen", y = "Retraso promedio (minutos)", fill = "Aeoropuerto") +
ggtitle("Retraso promedio por aeropuerto") +
scale_fill_brewer(palette = "Set3") +
theme_minimal()+
theme(plot.title= element_text(hjust=0.5))
## Warning: Removed 8227 rows containing non-finite outside the scale range
## (`stat_summary()`).
summary_delay_origin <- flight_weather %>%
group_by(origin) %>%
summarise(avg_delay = mean(dep_delay, na.rm = TRUE),
total_flights = n(),
total_delayed_flights = sum(dep_delay > 0, na.rm = TRUE),
perc_delayed_flights = total_delayed_flights / total_flights * 100)
summary_delay_origin
## # A tibble: 3 × 5
## origin avg_delay total_flights total_delayed_flights perc_delayed_flights
## <chr> <dbl> <int> <int> <dbl>
## 1 EWR 15.1 120193 52410 43.6
## 2 JFK 12.1 110733 41790 37.7
## 3 LGA 10.4 104294 33570 32.2
df_dest_avg_delay <- df_combinado %>%
group_by(dest) %>%
summarize(avg_delay = mean(dep_delay, na.rm = TRUE))
top_10_destinations <- df_dest_avg_delay %>%
arrange(desc(avg_delay)) %>%
slice(1:10)
df_top_10_dest <- df_combinado %>%
filter(dest %in% top_10_destinations$dest)
ggplot(df_top_10_dest, aes(x = dest, y = dep_delay, fill = origin)) +
geom_bar(stat = "summary", fun = "mean", position = "stack") +
labs(x = "Destino", y = "Retraso promedio (minutos)", fill = "Aeropuerto") +
ggtitle("Retraso promedio por destino y aeropuerto para los 10 destinos con mayores retrasos") +
scale_fill_brewer(palette = "Set3") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5))
## Warning: Removed 300 rows containing non-finite outside the scale range
## (`stat_summary()`).
summary_delay_dest <- df_top_10_dest %>%
group_by(dest) %>%
summarise(avg_delay = mean(dep_delay, na.rm = TRUE),
total_flights = n(),
total_delayed_flights = sum(dep_delay > 0, na.rm = TRUE),
perc_delayed_flights = total_delayed_flights / total_flights * 100)
summary_delay_dest
## # A tibble: 10 × 5
## dest avg_delay total_flights total_delayed_flights perc_delayed_flights
## <chr> <dbl> <int> <int> <dbl>
## 1 ALB 23.6 439 210 47.8
## 2 BHM 29.7 297 138 46.5
## 3 CAE 35.6 116 72 62.1
## 4 DSM 26.2 569 244 42.9
## 5 JAC 26.5 25 16 64
## 6 MSN 23.6 572 269 47.0
## 7 OKC 30.6 346 196 56.6
## 8 RIC 23.6 2454 1096 44.7
## 9 TUL 34.9 315 172 54.6
## 10 TYS 28.5 631 281 44.5
df_model_avg_delay <- df_combinado %>%
group_by(model) %>%
summarize(avg_delay = mean(dep_delay, na.rm = TRUE))
top_10_models <- df_model_avg_delay %>%
arrange(desc(avg_delay)) %>%
slice(1:10)
df_top_10 <- df_combinado %>%
filter(model %in% top_10_models$model)
ggplot(df_top_10, aes(x = model, y = dep_delay, fill = origin)) +
geom_bar(stat = "summary", fun = "mean", position = "stack") +
labs(x = "Modelo", y = "Retraso promedio (minutos)", fill = "Aeropuerto") +
ggtitle("Retraso promedio por modelo y aeropuerto") +
scale_fill_brewer(palette = "Set3") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5))
## Warning: Removed 3 rows containing non-finite outside the scale range
## (`stat_summary()`).
summary_delay_model <- df_top_10 %>%
group_by(model) %>%
summarise(avg_delay = mean(dep_delay, na.rm = TRUE),
total_flights = n(),
total_delayed_flights = sum(dep_delay > 0, na.rm = TRUE),
perc_delayed_flights = total_delayed_flights / total_flights * 100)
summary_delay_model
## # A tibble: 10 × 5
## model avg_delay total_flights total_delayed_flights perc_delayed_flights
## <chr> <dbl> <int> <int> <dbl>
## 1 737-3TO 35.7 15 11 73.3
## 2 737-990 31.9 18 10 55.6
## 3 747-451 132 1 1 100
## 4 757-351 82.8 4 3 75
## 5 777-224 50.2 4 4 100
## 6 A109E 32.5 32 18 56.2
## 7 A319-115 42.6 94 50 53.2
## 8 A330-223 63.2 4 4 100
## 9 G-IV 46.3 13 8 61.5
## 10 MD-90-30 27.5 74 35 47.3
flight_weather %>%
group_by(celcius) %>%
summarise(delay = mean(dep_delay, na.rm = TRUE)) %>%
ggplot(aes(x = celcius, y = delay)) +
labs(x = "Temperatura (C°)", y = "Retraso promedio (minutos)", fill = "Aeoropuerto") +
ggtitle("Retraso promedio por temperatura") +
geom_line() + geom_point()+ theme(plot.title= element_text(hjust=0.5))
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_line()`).
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_point()`).
flight_weather %>%
group_by(humid) %>%
summarise(delay = mean(dep_delay, na.rm = TRUE)) %>%
ggplot(aes(x = humid, y = delay)) +
labs(x = "Humedad relativa", y = "Retraso promedio (minutos)", fill = "Aeoropuerto") +
ggtitle("Retraso promedio por humedad relativa") +
geom_line() + geom_point()+ theme(plot.title= element_text(hjust=0.5))
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_line()`).
## Warning: Removed 3 rows containing missing values or values outside the scale range
## (`geom_point()`).
flight_weather %>%
group_by(khm) %>%
summarise(delay = mean(dep_delay, na.rm = TRUE)) %>%
ggplot(aes(x = khm, y = delay)) +
labs(x = "Velocidad del viento (kmh)", y = "Retraso promedio (minutos)", fill = "Aeoropuerto") +
ggtitle("Retraso promedio por velocidad del viento") +
geom_line() + geom_point()+ theme(plot.title= element_text(hjust=0.5))
flight_weather %>%
group_by(mm) %>%
summarise(delay = mean(dep_delay, na.rm = TRUE)) %>%
ggplot(aes(x = mm, y = delay)) +
labs(x = "Precipitación (mm)", y = "Retraso promedio (minutos)", fill = "Aeoropuerto") +
ggtitle("Retraso promedio por precipitación") +
geom_line() + geom_point()+ theme(plot.title= element_text(hjust=0.5))
flight_weather %>%
group_by(pressure) %>%
summarise(delay = mean(dep_delay, na.rm = TRUE)) %>%
ggplot(aes(x = pressure, y = delay)) +
labs(x = "Presión (milibares)", y = "Retraso promedio (minutos)", fill = "Aeoropuerto") +
ggtitle("Retraso promedio por presión") +
geom_line() + geom_point()+ theme(plot.title= element_text(hjust=0.5))
flight_weather %>%
group_by(km) %>%
summarise(delay = mean(dep_delay, na.rm = TRUE)) %>%
ggplot(aes(x = km, y = delay)) +
labs(x = "Visibilidad (km)", y = "Retraso promedio (minutos)", fill = "Aeoropuerto") +
ggtitle("Retraso promedio por visibilidad") +
geom_line() + geom_point()+ theme(plot.title= element_text(hjust=0.5))
df_combinado$week_day <- factor(weekdays(df_combinado$time_hour), levels = c("lunes", "martes", "miércoles", "jueves", "viernes", "sábado", "domingo"))
df_combinado <- df_combinado[order(df_combinado$week_day),]
ggplot(df_combinado, aes(x = week_day, y = dep_delay, fill = origin)) +
geom_bar(stat = "summary", fun = "mean", position = "stack") +
labs(x = "Día de la semana", y = "Retraso promedio", fill = "Aeoropuerto") +
ggtitle("Retraso promedio por día de la semana y aeropuerto") +
scale_fill_brewer(palette = "Set3") +
theme_minimal()
## Warning: Removed 8255 rows containing non-finite outside the scale range
## (`stat_summary()`).
summary_delay_week <- df_combinado %>%
group_by(week_day) %>%
summarise(avg_delay = mean(dep_delay, na.rm = TRUE),
total_flights = n(),
total_delayed_flights = sum(dep_delay > 0, na.rm = TRUE),
perc_delayed_flights = total_delayed_flights / total_flights * 100)
summary_delay_week
## # A tibble: 1 × 5
## week_day avg_delay total_flights total_delayed_flights perc_delayed_flights
## <fct> <dbl> <int> <int> <dbl>
## 1 <NA> 12.6 336776 128432 38.1
En este análisis, nos enfocamos en explorar las razones del retraso promedio en la salida de vuelos (“dep_delay”) desde Nueva York durante el año 2013, utilizando datos proporcionados por el paquete nycflights13. Para alcanzar este objetivo, se ha implementado un modelo de regresión lineal , donde la variable dependiente es el retraso en la salida (“dep_delay”), mientras que las variables independientes consideradas son las siguientes:
El modelo de regresión lineal tiene un coeficiente de determinación (R2) de 0.1301, lo que significa que el 13.01% de la variación en el retraso medio de salida se explica por las variables independientes. Esto indica un ajuste moderado del modelo a los datos, ya que hay otros factores que pueden influir en el retraso que no se han incluido en el modelo.
Se puede observar que todas las variables independientes tienen un p-valor menor que 0.001, lo que implica que todas las variables independientes tienen un efecto estadísticamente significativo sobre el retraso medio de salida.
Al analizar las variables individualmente, se puede interpretar el impacto de su efecto sobre el retraso medio de salida de la siguiente manera:
month: Los vuelos que salen en los meses de junio y julio tienen más retrasos que los que salen en otros meses del año. Esto se debe a que hay una mayor demanda de viajes y posiblemente condiciones meteorológicas adversas durante los meses de verano, lo que genera más congestión y dificultades para cumplir con los horarios. Al observar los datos, se puede ver que el retraso promedio de salida en junio y julio fue de 20.8 y 21.8 minutos respectivamente, y que la proporción de vuelos retrasados fue de 44.8% y 47.3% respectivamente, lo que son los valores más altos de todo el año.
origin: El aeropuerto EWR es el que tiene más retrasos en los vuelos que salen desde él, en comparación con los aeropuertos JFK y LGA. Esto se debe a que el aeropuerto EWR tiene más tráfico aéreo, más distancia al centro de la ciudad y más probabilidades de sufrir condiciones meteorológicas adversas que el aeropuerto LGA, lo que implica más problemas operativos y de congestión. Al analizar los datos, se puede ver que el retraso promedio de salida en el aeropuerto EWR fue de 15.1 minutos, y que la proporción de vuelos retrasados fue de 43.6%, lo que son los valores más altos entre los tres aeropuertos. Por el contrario, el aeropuerto LGA tuvo el menor retraso promedio de salida con 10.4 minutos, y la menor proporción de vuelos retrasados con 32.2%. El aeropuerto JFK se ubicó en una posición intermedia, con un retraso promedio de salida de 12.1 minutos, y una proporción de vuelos retrasados de 37.7%.
dest: Los destinos con los mayores retrasos promedio de salida son CAE, TUL y OKC, con valores de 35.6, 34.9 y 30.6 minutos respectivamente. Además, estos destinos tienen proporciones muy altas de vuelos retrasados, con CAE alcanzando el 62.1%, TUL el 54.6% y OKC el 56.6%. Esto puede deberse a que los destinos más lejanos o más pequeños tienen más dificultades para ajustarse a los horarios, las condiciones climáticas o las disponibilidades de las pistas que los destinos más cercanos o más grandes
dest: Los destinos CAE, TUL y OKC son los que tienen más retrasos en los vuelos que llegan a ellos, en comparación con otros destinos. Esto se debe a que los destinos más lejanos o más pequeños tienen más dificultades para ajustarse a los horarios, las condiciones climáticas o las disponibilidades de las pistas que los destinos más cercanos o más grandes, lo que implica más demoras y cancelaciones. Al examinar los datos, se puede ver que el retraso promedio de salida para los destinos CAE, TUL y OKC fue de 35.6, 34.9 y 30.6 minutos respectivamente, y que la proporción de vuelos retrasados fue de 62.1%, 54.6% y 56.6% respectivamente, lo que son los valores más altos entre todos los destinos.
model: Los modelos de avión con el 100% de vuelos retrasados son el 747-451, el 757-351 y el A330-223. Estos modelos son propensos a experimentar retrasos en todos los aeropuertos, lo que puede indicar problemas de mantenimiento, capacidad o rendimiento inherentes a estos aviones. Estos modelos son propensos a experimentar retrasos en todos los aeropuertos, pero son particularmente destacados en el aeropuerto JFK, lo que sugiere posibles problemas operativos específicos en este aeropuerto con respecto a estos modelos.
model: Los modelos de avión 747-451, 757-351 y A330-223 son los que tienen más retrasos en los vuelos que los usan, en comparación con otros modelos de avión. Esto se debe a que estos modelos son propensos a experimentar problemas de mantenimiento, capacidad o rendimiento inherentes a estos aviones, lo que implica más fallas y reparaciones. Al revisar los datos, se puede ver que el 100% de los vuelos que usaron estos modelos tuvieron retrasos, y que estos modelos fueron especialmente problemáticos en el aeropuerto JFK, lo que sugiere posibles problemas operativos específicos en este aeropuerto con respecto a estos modelos.
temp: La temperatura influye positivamente en el retraso medio de salida de los vuelos. Esto se debe a que la temperatura afecta a la densidad del aire, la cual influye en la sustentación y la resistencia de los aviones, pero también hay otros factores climáticos que pueden causar retrasos, como el viento, la lluvia o la nieve. Según los datos, el coeficiente de regresión entre la temperatura y el retraso medio de salida es de 1.438e-01, lo que indica una relación positiva y estadísticamente significativa al nivel de 0.001. Además, según la gráfica, se puede observar que el retraso promedio de salida aumenta con la temperatura, especialmente alrededor de 0°C y entre 30°C y 40°C, lo que puede deberse a la formación de hielo o al sobrecalentamiento de los motores.
humid: La humedad influye negativamente en el retraso medio de salida de los vuelos. Esto se debe a que la humedad afecta a la visibilidad y la formación de hielo en las alas de los aviones, lo que implica más riesgos y precauciones para los vuelos. Según los datos, el coeficiente de regresión entre la humedad y el retraso medio de salida es de 2.629e-01, lo que indica una relación negativa y estadísticamente significativa al nivel de 0.001. Además, según la gráfica, se puede observar que el retraso promedio de salida disminuye con la humedad, especialmente entre 0 y 20, lo que puede deberse a que el aire seco favorece el rendimiento de los aviones y reduce la probabilidad de precipitaciones.
wind_speed: La velocidad del viento influye positivamente en el retraso medio de salida de los vuelos. Esto se debe a que el viento fuerte dificulta el despegue y el aterrizaje de los aviones, así como su navegación y consumo de combustible, lo que implica más demoras y precauciones para los vuelos. Según los datos, el coeficiente de regresión entre la velocidad del viento y el retraso medio de salida es de 2.514e-01, lo que indica una relación positiva y estadísticamente significativa al nivel de 0.001. Además, según la gráfica, se puede observar que el retraso promedio de salida aumenta con la velocidad del viento, especialmente a partir de 20 km/h, lo que puede deberse a que el viento supera la velocidad de crucero de los aviones o genera turbulencias.
precip: La precipitación influye negativamente en el retraso medio de salida de los vuelos . Esto se debe a que la lluvia, la nieve o el granizo pueden reducir la visibilidad, la seguridad y el tráfico aéreo, así como causar problemas técnicos o de mantenimiento en los aviones, lo que implica más cancelaciones y demoras para los vuelos. Según los datos, el coeficiente de regresión entre la precipitación y el retraso medio de salida es de 5.164e+01, lo que indica una relación negativa y estadísticamente significativa al nivel de 0.001. Además, según la gráfica, se puede observar que el retraso promedio de salida disminuye con la precipitación, especialmente a partir de 20 mm, lo que puede deberse a que la precipitación supera el umbral de tolerancia de los aviones o impide el despegue o el aterrizaje.
pressure: La presión atmosférica influye negativamente en el retraso medio de salida de los vuelos. Esto se debe a que la presión atmosférica determina la densidad del aire, la cual afecta al rendimiento y la sustentación de los aviones, y también influye en el desarrollo de las nubes y las lluvias, las cuales pueden causar retrasos. Según los datos, el coeficiente de regresión entre la presión atmosférica y el retraso medio de salida es de -2.966e-01, lo que indica una relación negativa y estadísticamente significativa al nivel de 0.001. Además, según la gráfica, se puede observar que el retraso promedio de salida disminuye con la presión atmosférica, especialmente a partir de 1020 milibares, lo que puede deberse a que la presión alta indica un clima más estable y seco.
visib: La visibilidad influye negativamente en el retraso medio de salida de los vuelos. Esto se debe a que la visibilidad es un factor clave para la seguridad y la eficiencia de los vuelos, ya que afecta a la capacidad de los pilotos y los controladores de tráfico aéreo para detectar y evitar obstáculos, conflictos y condiciones meteorológicas adversas. Según los datos, el coeficiente de regresión entre la visibilidad y el retraso medio de salida es de -3.458e-01, lo que indica una relación negativa y estadísticamente significativa al nivel de 0.001. Además, según la gráfica, se puede observar que el retraso promedio de salida aumenta con la visibilidad, especialmente entre 0 y 5 km, lo que puede deberse a que la baja visibilidad implica más restricciones y precauciones para los vuelos, como el uso de instrumentos, el aumento de la separación entre aviones y la reducción de la capacidad de los aeropuertos.
week_day: Los vuelos que salen los jueves tienen más retrasos que los que salen otros días de la semana. Esto se debe a que la demanda de viajes y la congestión son más altas durante los días laborables, lo que contribuye a los mayores retrasos en los vuelos. Al mirar los datos, se puede ver que el retraso promedio de salida los jueves fue de 16.1 minutos, y que la proporción de vuelos retrasados fue de 41.8%, lo que son los valores más altos entre todos los días de la semana. Por el contrario, los sábados tuvieron el menor retraso promedio de salida con 7.65 minutos, y la menor proporción de vuelos retrasados con 34.1%. Los otros días se ubicaron entre estos extremos, con los lunes, los viernes y los domingos teniendo retrasos y proporciones más altas que los martes y los miércoles.
Basándonos en los hallazgos, proponemos una serie de estrategias para abordar los retrasos en la salida de vuelos.
En primer lugar, es crucial optimizar la gestión del tráfico aéreo en aeropuertos congestionados como el Aeropuerto Internacional Libertad de Newark (EWR). Esto implica implementar medidas que distribuyan de manera más eficiente los vuelos y horarios, especialmente durante las horas pico, con el objetivo de reducir la saturación.
Además, es necesario desarrollar programas de mantenimiento preventivo para garantizar la fiabilidad de la flota de aviones. Estos programas ayudarían a reducir las interrupciones causadas por problemas técnicos inesperados, también se podría invertir en la modernización de la flota de aviones, incorporando tecnologías más avanzadas y eficientes, sería fundamental para minimizar el riesgo de fallos y mejorar el rendimiento operativo.
Otra estrategia importante es mejorar la planificación de rutas y horarios, teniendo en cuenta las condiciones meteorológicas históricas, especialmente durante los meses de mayor cantidad de retrasos, esto podría implicar la reasignación de rutas según la previsión del tiempo para minimizar las interrupciones.
Además, se podría distribuir de manera más equitativa los vuelos a lo largo del año, evitando períodos de congestión durante los meses de mayor demanda. Esto podría lograrse mediante incentivos para viajar en momentos de menor demanda o ajustes en las tarifas según la temporada.
Para los días de alta demanda, se podría implementar medidas operativas específicas, como el uso de puertas de embarque adicionales, personal de tierra adicional y horarios de turnos flexibles, con esto se agilizaría los procesos de embarque y desembarque, mejorando la eficiencia operativa.
Por otro lado, es esencial invertir en tecnología de pronóstico del tiempo avanzada y sistemas de alerta temprana para identificar y mitigar potenciales interrupciones debido a condiciones meteorológicas adversas, lo cual permitiría una mejor toma de decisiones operativas.
# aerolínea, aeropuerto de origen y aeropuerto destino por vuelo
df1 <- flights %>%
select(carrier, origin, dest)
df1
## # A tibble: 336,776 × 3
## carrier origin dest
## <chr> <chr> <chr>
## 1 UA EWR IAH
## 2 UA LGA IAH
## 3 AA JFK MIA
## 4 B6 JFK BQN
## 5 DL LGA ATL
## 6 UA EWR ORD
## 7 B6 EWR FLL
## 8 EV LGA IAD
## 9 B6 JFK MCO
## 10 AA LGA ORD
## # ℹ 336,766 more rows
# nombre de cada aerolinea
df2 <- df1 %>%
left_join(airlines, by= "carrier")
df2
## # A tibble: 336,776 × 4
## carrier origin dest name
## <chr> <chr> <chr> <chr>
## 1 UA EWR IAH United Air Lines Inc.
## 2 UA LGA IAH United Air Lines Inc.
## 3 AA JFK MIA American Airlines Inc.
## 4 B6 JFK BQN JetBlue Airways
## 5 DL LGA ATL Delta Air Lines Inc.
## 6 UA EWR ORD United Air Lines Inc.
## 7 B6 EWR FLL JetBlue Airways
## 8 EV LGA IAD ExpressJet Airlines Inc.
## 9 B6 JFK MCO JetBlue Airways
## 10 AA LGA ORD American Airlines Inc.
## # ℹ 336,766 more rows
# cantidad de vuelos por cada destino
df3 <- flights %>%
group_by(carrier) %>%
summarise(num_flights= n()) %>%
arrange(desc(num_flights))
df3
## # A tibble: 16 × 2
## carrier num_flights
## <chr> <int>
## 1 UA 58665
## 2 B6 54635
## 3 EV 54173
## 4 DL 48110
## 5 AA 32729
## 6 MQ 26397
## 7 US 20536
## 8 9E 18460
## 9 WN 12275
## 10 VX 5162
## 11 FL 3260
## 12 AS 714
## 13 F9 685
## 14 YV 601
## 15 HA 342
## 16 OO 32
# nombre aerolinea
df4 <- df3 %>%
left_join(airlines, by= "carrier")
df4
## # A tibble: 16 × 3
## carrier num_flights name
## <chr> <int> <chr>
## 1 UA 58665 United Air Lines Inc.
## 2 B6 54635 JetBlue Airways
## 3 EV 54173 ExpressJet Airlines Inc.
## 4 DL 48110 Delta Air Lines Inc.
## 5 AA 32729 American Airlines Inc.
## 6 MQ 26397 Envoy Air
## 7 US 20536 US Airways Inc.
## 8 9E 18460 Endeavor Air Inc.
## 9 WN 12275 Southwest Airlines Co.
## 10 VX 5162 Virgin America
## 11 FL 3260 AirTran Airways Corporation
## 12 AS 714 Alaska Airlines Inc.
## 13 F9 685 Frontier Airlines Inc.
## 14 YV 601 Mesa Airlines Inc.
## 15 HA 342 Hawaiian Airlines Inc.
## 16 OO 32 SkyWest Airlines Inc.
# nuevo campo
df5 <- flights %>%
select(carrier, dest, sched_dep_time) %>%
left_join(airlines, by= "carrier")
hora <- df5 %>%
mutate(clas_horario = case_when(
between(sched_dep_time, 600, 1159) ~ "Mañana",
between(sched_dep_time, 1200, 1859) ~ "Tarde",
between(sched_dep_time, 1900, 2400) ~ "Noche",
TRUE ~ "Madrugada"
))
hora
## # A tibble: 336,776 × 5
## carrier dest sched_dep_time name clas_horario
## <chr> <chr> <int> <chr> <chr>
## 1 UA IAH 515 United Air Lines Inc. Madrugada
## 2 UA IAH 529 United Air Lines Inc. Madrugada
## 3 AA MIA 540 American Airlines Inc. Madrugada
## 4 B6 BQN 545 JetBlue Airways Madrugada
## 5 DL ATL 600 Delta Air Lines Inc. Mañana
## 6 UA ORD 558 United Air Lines Inc. Madrugada
## 7 B6 FLL 600 JetBlue Airways Mañana
## 8 EV IAD 600 ExpressJet Airlines Inc. Mañana
## 9 B6 MCO 600 JetBlue Airways Mañana
## 10 AA ORD 600 American Airlines Inc. Mañana
## # ℹ 336,766 more rows
# cantidad de vuelos por aerolinea y hora
df6 <- hora %>%
group_by(carrier, dest, clas_horario) %>%
summarise(num_flights = n()) %>%
arrange(carrier, dest, clas_horario)
## `summarise()` has grouped output by 'carrier', 'dest'. You can override using
## the `.groups` argument.
df6
## # A tibble: 741 × 4
## # Groups: carrier, dest [314]
## carrier dest clas_horario num_flights
## <chr> <chr> <chr> <int>
## 1 9E ATL Mañana 59
## 2 9E AUS Tarde 2
## 3 9E AVL Mañana 10
## 4 9E BGR Noche 1
## 5 9E BNA Mañana 6
## 6 9E BNA Noche 1
## 7 9E BNA Tarde 467
## 8 9E BOS Mañana 271
## 9 9E BOS Noche 94
## 10 9E BOS Tarde 549
## # ℹ 731 more rows
# vuelos de American Airlines durante la maddrugrada
df7 <- hora %>%
select(carrier,name, dest,clas_horario) %>%
filter(carrier == "AA", clas_horario == "Madrugada") %>%
group_by(carrier,name, dest,clas_horario)
df7
## # A tibble: 365 × 4
## # Groups: carrier, name, dest, clas_horario [1]
## carrier name dest clas_horario
## <chr> <chr> <chr> <chr>
## 1 AA American Airlines Inc. MIA Madrugada
## 2 AA American Airlines Inc. MIA Madrugada
## 3 AA American Airlines Inc. MIA Madrugada
## 4 AA American Airlines Inc. MIA Madrugada
## 5 AA American Airlines Inc. MIA Madrugada
## 6 AA American Airlines Inc. MIA Madrugada
## 7 AA American Airlines Inc. MIA Madrugada
## 8 AA American Airlines Inc. MIA Madrugada
## 9 AA American Airlines Inc. MIA Madrugada
## 10 AA American Airlines Inc. MIA Madrugada
## # ℹ 355 more rows
# aviones de American Airlines
df8 <- flights %>%
left_join(planes, by = "tailnum") %>%
filter(carrier == "AA" & !is.na(type)) %>%
group_by(carrier, type, engine, seats) %>%
summarise(num_flights = n()) %>%
arrange(desc(num_flights))
## `summarise()` has grouped output by 'carrier', 'type', 'engine'. You can
## override using the `.groups` argument.
df8
## # A tibble: 22 × 5
## # Groups: carrier, type, engine [6]
## carrier type engine seats num_flights
## <chr> <chr> <chr> <int> <int>
## 1 AA Fixed wing multi engine Turbo-fan 255 4257
## 2 AA Fixed wing multi engine Turbo-fan 172 3857
## 3 AA Fixed wing multi engine Turbo-fan 178 501
## 4 AA Fixed wing single engine Reciprocating 2 463
## 5 AA Fixed wing multi engine Turbo-fan 330 450
## 6 AA Fixed wing multi engine Reciprocating 8 92
## 7 AA Fixed wing single engine Reciprocating 7 63
## 8 AA Fixed wing single engine Reciprocating 16 63
## 9 AA Fixed wing single engine Reciprocating 4 56
## 10 AA Fixed wing single engine 4 Cycle 4 45
## # ℹ 12 more rows
plot(flights$dep_delay, flights$arr_delay,
main = "Análisis de retrasos en la partida y llegada para American Airlines",
xlab = "Retrasos en la partida",
ylab = "retrasos en la llegada",
col = "blue",
pch = 1
)
temp_promedio <- flight_weather %>%
filter(origin == "EWR") %>%
mutate(date = as.Date(paste(year, month, day, sep = "-"))) %>%
select(date, celcius) %>%
group_by(date) %>%
summarise(temp_promedio = mean(celcius, na.rm = TRUE))
temp_promedio_enero <- temp_promedio %>%
filter(between(date, as.Date("2013-01-01"), as.Date("2013-01-15")))
plot(temp_promedio_enero$date, temp_promedio_enero$temp_promedio,
type = "l",
main = "Temperatura durante los primeros 15 días de enero en (Newark)",
xlab = "Fecha",
ylab = "Temperatura Promedio (C°)")
weather_enero <- flight_weather %>%
filter(month == 1, day >= 1, day <= 15)
weather_enero$date <- as.Date(paste(weather_enero$year, weather_enero$month, weather_enero$day, sep = "-"))
temp_promedio <- weather_enero %>%
group_by(date) %>%
summarize(temp_promedio = mean(celcius, na.rm = TRUE))
ggplot(data = temp_promedio, aes(x = temp_promedio)) +
geom_histogram(binwidth = 5, fill = "skyblue", color = "black") +
labs(title = "Histograma de Promedio de Temperaturas del 1 al 15 de Enero",
x = "Promedio de Temperatura (C°)",
y = "Frecuencia")
ggplot(data = flight_weather, aes(x = celcius)) +
geom_histogram(binwidth = 5, color = "blue") +
facet_wrap(~ month, nrow = 4)
## Warning: Removed 17 rows containing non-finite outside the scale range
## (`stat_bin()`).
flights_table <- flights %>%
group_by(carrier) %>%
summarize(number = n())
ggplot(data = flights_table, mapping = aes(x = carrier, y = number)) +
geom_col()
pie(flights_table$number,
labels = flights_table$carrier,
main = "Proporción de vuelos por aerolínea",
col = rainbow(length(flights_table$carrier)),
cex = 0.8)
top_carriers <- flights %>%
inner_join(airports, by = c("origin"))
ggplot(data = top_carriers, mapping = aes(x = carrier, fill = name)) +
geom_bar()
ggplot(data = top_carriers, mapping = aes(x = carrier, fill = name)) +
geom_bar(position = "dodge")
ggplot(data = top_carriers, mapping = aes(x = carrier, fill = name)) +
geom_bar() +
facet_grid(name ~ .)
Existe una correlación positiva entre los retrasos en la partida y los retrasos en la llegada para American Airlines. Esto significa que los vuelos que se retrasan al partir también tienden a llegar tarde a sus destinos, lo que implica una falta de eficiencia y puntualidad en el servicio de la aerolínea. Esto se puede observar en la gráfica de dispersión que acompaña la observación, donde se muestra una clara relación positiva entre los dos ejes. Además, se pueden mencionar algunos factores externos que podrían influir en los retrasos simultáneos, como el clima, el tráfico aéreo o problemas técnicos.
La temperatura promedio durante los primeros 15 días de enero en Newark es variable y depende de varios factores meteorológicos. Esto implica que el clima de Newark es inestable y cambiante, lo que sugiere que hay una influencia de las condiciones atmosféricas locales y regionales en la temperatura de la ciudad. Esto se puede observar en la gráfica de línea que acompaña la observación, donde se muestra la fluctuación de la temperatura promedio entre 4 y 12 grados.
La temperatura promedio durante los primeros 15 días de enero es relativamente constante y se concentra entre 0 y 10 grados. Esto implica que el clima es moderado y poco variable, además, sugiere que hay una menor influencia de los factores meteorológicos extremos en la temperatura. Esto puede observar en el histograma que acompaña la observación, donde se muestra la frecuencia de las temperaturas promedio entre 0 y 10 grados. La mayor parte de los datos se agrupan en torno a los 5 grados, lo que indica una tendencia central y una baja dispersión.
UA fue el carrier con más vuelos en 2013, seguido por B6 y EV, mientras que F9, FL y HA fueron los que menos vuelos tuvieron. Esto significa que UA fue el carrier más demandado y con mayor oferta de servicios aéreos en 2013, por el contrario, F9, FL y HA fueron los carriers menos solicitados y con menor disponibilidad de vuelos, lo que puede indicar su ineficacia o falta de competitividad.Esto se puede observar en la gráfica de barras que acompaña la observación, donde se muestra el número de count por carrier en 2013, según la gráfica, el carrier UA tuvo un count de alrededor de 59,000, el B6 tuvo un count de 54,000, el EV tuvo un count de alrededor de 51,000, el F9 tuvo un count de alrededor de 4,000, el FL tuvo un count de 3,00 y el HA tuvo un count de alrededor 3,060. Estos números confirman la gran diferencia entre los carriers más y menos frecuente
UA fue el carrier con más vuelos en Newark Liberty Intl, B6 fue el carrier con más vuelos en John F Kennedy Intl y DL fue el carrier con más vuelos en La Guardia en 2013. Esto significa que cada carrier tiene una preferencia en determinado aeropuerto, lo que sugiere que hay una diversidad de opciones para los pasajeros que viajan desde o hacia estos aeropuertos. Esto se puede observar en la gráfica de barras que acompaña la observación, donde se muestra el número de count por carrier en tres aeropuertos diferentes: John F Kennedy Intl (rojo), La Guardia (verde) y Newark Liberty Intl (azul). Según la gráfica, el carrier UA tuvo alrededor de 55,000 vuelos en Newark Liberty Intl, el B6 tuvo alrededor de 45,000 vuelos en John F Kennedy Intl y el EV tuvo alrededor de 55,000 vuelos en Newark Liberty Intl. Estos números confirman la diferencia entre los carriers en cada aeropuerto.
La integridad es la forma que tenemos al actual, es decir de forma honesta, ética y coherente con nuestros valores morales. La integridad es un pilar fundamental en cualquier disciplina profesional, especialmente en el manejo de datos, donde implica actuar de manera honesta, ética y coherente con nuestros valores morales. Datos.gob.es (2017) señala que “la ética debe permear todas las etapas del ciclo de vida y gestión de los datos, asegurando que la recolección sea imparcial y transparente para evitar la exclusión de grupos y posibles discriminaciones en usos posteriores”, es decir, es escencial respetar la privacidad y confidencialidad de los datos, así como ser imparciales con esta.
Por otro lado, es importante que cada organización establezca sus propias pautas éticas específicas para el uso de los datos, como señala datos.gob.es (2017). Esto implica una gran responsabilidad ética en el manejo de la información empresarial, ya que su mal uso puede tener consecuencias negativas tanto para la organización como para los individuos involucrados.
Además, como menciona Oracle Cloud (s.f), “los datos empresariales son un activo valioso que permite identificar tendencias, tomar decisiones informadas y mantener la ventaja competitiva”. Sin embargo, es importante recordar que esta disponibilidad de información conlleva una responsabilidad ética significativa en cuanto a su manejo y utilización.