Jenaro Martinez Guerra A01721951
#1Consulta los data frame Airlines, airport, y flights
#View(airlines)
#View(airports)
#View(flights)
#2 Muestra por cada vuelo, el carrier, destino y tiempo de vuelo
select (flights,carrier, dest, air_time)
## # A tibble: 336,776 × 3
## carrier dest air_time
## <chr> <chr> <dbl>
## 1 UA IAH 227
## 2 UA IAH 227
## 3 AA MIA 160
## 4 B6 BQN 183
## 5 DL ATL 116
## 6 UA ORD 150
## 7 B6 FLL 158
## 8 EV IAD 53
## 9 B6 MCO 140
## 10 AA ORD 138
## # … with 336,766 more rows
#3 Agrega el nombre del carrier a la consulta 2 y cambia el orden de los campos para que se vean Carrier, nombre del carrier, destino y tiempo de vuelo
consulta3 <- left_join(flights,airlines,by = "carrier") %>% select(carrier,name,dest,air_time)
consulta3
## # A tibble: 336,776 × 4
## carrier name dest air_time
## <chr> <chr> <chr> <dbl>
## 1 UA United Air Lines Inc. IAH 227
## 2 UA United Air Lines Inc. IAH 227
## 3 AA American Airlines Inc. MIA 160
## 4 B6 JetBlue Airways BQN 183
## 5 DL Delta Air Lines Inc. ATL 116
## 6 UA United Air Lines Inc. ORD 150
## 7 B6 JetBlue Airways FLL 158
## 8 EV ExpressJet Airlines Inc. IAD 53
## 9 B6 JetBlue Airways MCO 140
## 10 AA American Airlines Inc. ORD 138
## # … with 336,766 more rows
#4 Agrega el nombre del aeropuerto a cada destino en la consulta 3, observa que los campos en común para hacer la relación se llaman diferente. Observa como se agregan todos los campos del segundo data frame.
consulta4 <- left_join(consulta3,airports,c("dest"="faa"))
consulta4
## # A tibble: 336,776 × 11
## carrier name.x dest air_t…¹ name.y lat lon alt tz dst tzone
## <chr> <chr> <chr> <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <chr> <chr>
## 1 UA United Air … IAH 227 Georg… 30.0 -95.3 97 -6 A Amer…
## 2 UA United Air … IAH 227 Georg… 30.0 -95.3 97 -6 A Amer…
## 3 AA American Ai… MIA 160 Miami… 25.8 -80.3 8 -5 A Amer…
## 4 B6 JetBlue Air… BQN 183 <NA> NA NA NA NA <NA> <NA>
## 5 DL Delta Air L… ATL 116 Harts… 33.6 -84.4 1026 -5 A Amer…
## 6 UA United Air … ORD 150 Chica… 42.0 -87.9 668 -6 A Amer…
## 7 B6 JetBlue Air… FLL 158 Fort … 26.1 -80.2 9 -5 A Amer…
## 8 EV ExpressJet … IAD 53 Washi… 38.9 -77.5 313 -5 A Amer…
## 9 B6 JetBlue Air… MCO 140 Orlan… 28.4 -81.3 96 -5 A Amer…
## 10 AA American Ai… ORD 138 Chica… 42.0 -87.9 668 -6 A Amer…
## # … with 336,766 more rows, and abbreviated variable name ¹air_time
#5. Observa como el nombre del Carrier se llama name.x, renombra por nombre_aerolinea y el nombre del aeropuerto destino se llama name.y, renombra por nombre_aeropuerto, esto sucede porque al relacionar los dos data frames hay dos campos con el mismo nombre, “name”.
consulta5 <- rename(consulta4, nombre_aerolinea = name.x, nombre_aeropuerto =name.y)
consulta5
## # A tibble: 336,776 × 11
## carrier nombre_ae…¹ dest air_t…² nombr…³ lat lon alt tz dst tzone
## <chr> <chr> <chr> <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <chr> <chr>
## 1 UA United Air… IAH 227 George… 30.0 -95.3 97 -6 A Amer…
## 2 UA United Air… IAH 227 George… 30.0 -95.3 97 -6 A Amer…
## 3 AA American A… MIA 160 Miami … 25.8 -80.3 8 -5 A Amer…
## 4 B6 JetBlue Ai… BQN 183 <NA> NA NA NA NA <NA> <NA>
## 5 DL Delta Air … ATL 116 Hartsf… 33.6 -84.4 1026 -5 A Amer…
## 6 UA United Air… ORD 150 Chicag… 42.0 -87.9 668 -6 A Amer…
## 7 B6 JetBlue Ai… FLL 158 Fort L… 26.1 -80.2 9 -5 A Amer…
## 8 EV ExpressJet… IAD 53 Washin… 38.9 -77.5 313 -5 A Amer…
## 9 B6 JetBlue Ai… MCO 140 Orland… 28.4 -81.3 96 -5 A Amer…
## 10 AA American A… ORD 138 Chicag… 42.0 -87.9 668 -6 A Amer…
## # … with 336,766 more rows, and abbreviated variable names ¹nombre_aerolinea,
## # ²air_time, ³nombre_aeropuerto
#6. Recordando que al relacionar 2 data frame con join_left, agrega todos los campos del segundo data frame al primero. Mostrar de la consulta anterior los campos Carrier, nombre_aerolinea, dest, nombre_aeropuerto, air_time, lat, lon y tzone.
consulta6 <- select(consulta5,carrier,nombre_aerolinea,dest,nombre_aeropuerto,air_time,lat,lon, tzone)
consulta6
## # A tibble: 336,776 × 8
## carrier nombre_aerolinea dest nombre_aer…¹ air_t…² lat lon tzone
## <chr> <chr> <chr> <chr> <dbl> <dbl> <dbl> <chr>
## 1 UA United Air Lines Inc. IAH George Bush… 227 30.0 -95.3 Amer…
## 2 UA United Air Lines Inc. IAH George Bush… 227 30.0 -95.3 Amer…
## 3 AA American Airlines Inc. MIA Miami Intl 160 25.8 -80.3 Amer…
## 4 B6 JetBlue Airways BQN <NA> 183 NA NA <NA>
## 5 DL Delta Air Lines Inc. ATL Hartsfield … 116 33.6 -84.4 Amer…
## 6 UA United Air Lines Inc. ORD Chicago Oha… 150 42.0 -87.9 Amer…
## 7 B6 JetBlue Airways FLL Fort Lauder… 158 26.1 -80.2 Amer…
## 8 EV ExpressJet Airlines Inc. IAD Washington … 53 38.9 -77.5 Amer…
## 9 B6 JetBlue Airways MCO Orlando Intl 140 28.4 -81.3 Amer…
## 10 AA American Airlines Inc. ORD Chicago Oha… 138 42.0 -87.9 Amer…
## # … with 336,766 more rows, and abbreviated variable names ¹nombre_aeropuerto,
## # ²air_time
#7. Encuentra los datos descriptivos del data frame anterior. Identifica el mínimo, la media y el máximo de los tiempos de vuelo.
summary(consulta6)
## carrier nombre_aerolinea dest nombre_aeropuerto
## Length:336776 Length:336776 Length:336776 Length:336776
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
##
## air_time lat lon tzone
## Min. : 20.0 Min. :21.32 Min. :-157.92 Length:336776
## 1st Qu.: 82.0 1st Qu.:32.90 1st Qu.: -95.34 Class :character
## Median :129.0 Median :36.10 Median : -83.35 Mode :character
## Mean :150.7 Mean :36.02 Mean : -89.48
## 3rd Qu.:192.0 3rd Qu.:41.41 3rd Qu.: -80.15
## Max. :695.0 Max. :61.17 Max. : -68.83
## NA's :9430 NA's :7602 NA's :7602
#De los tiempos de vuelo el mínimo es 20mins, la media es 129mins, y el máximo es 695mins.
#8. Utilizando el data frame generado en el paso 5, clasifica los vuelos por la distancia recorrida, agrega un nuevo campo con el nombre de clas_vuelo, coloca vuelo_largo, si la distancia recorrida está entre la media y el máximo de la distancia recorrida, y coloca vuelo_corto si la distancia recorrida está entre el mínimo y la media de la distancia recorrida.
consulta7 <- mutate(consulta5, clas_vuelo = ifelse(air_time > 129, 'vuelo_largo', 'vuelo_corto'))
consulta7
## # A tibble: 336,776 × 12
## carrier nombre_ae…¹ dest air_t…² nombr…³ lat lon alt tz dst tzone
## <chr> <chr> <chr> <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <chr> <chr>
## 1 UA United Air… IAH 227 George… 30.0 -95.3 97 -6 A Amer…
## 2 UA United Air… IAH 227 George… 30.0 -95.3 97 -6 A Amer…
## 3 AA American A… MIA 160 Miami … 25.8 -80.3 8 -5 A Amer…
## 4 B6 JetBlue Ai… BQN 183 <NA> NA NA NA NA <NA> <NA>
## 5 DL Delta Air … ATL 116 Hartsf… 33.6 -84.4 1026 -5 A Amer…
## 6 UA United Air… ORD 150 Chicag… 42.0 -87.9 668 -6 A Amer…
## 7 B6 JetBlue Ai… FLL 158 Fort L… 26.1 -80.2 9 -5 A Amer…
## 8 EV ExpressJet… IAD 53 Washin… 38.9 -77.5 313 -5 A Amer…
## 9 B6 JetBlue Ai… MCO 140 Orland… 28.4 -81.3 96 -5 A Amer…
## 10 AA American A… ORD 138 Chicag… 42.0 -87.9 668 -6 A Amer…
## # … with 336,766 more rows, 1 more variable: clas_vuelo <chr>, and abbreviated
## # variable names ¹nombre_aerolinea, ²air_time, ³nombre_aeropuerto