Lisset Hernández Montoya A01284611
Evelyn Díaz A00829373
Santiago Llaguno A01721838
Jenaro Martinez Guerra A01721951
#1Consulta los data frame Airlines, airport, y flights
#View(airlines)
#View(airports)
#View(flights)
#2 Muestra por cada vuelo, el carrier, destino y tiempo de vuelo
select (flights,carrier, dest, air_time)
## # A tibble: 336,776 × 3
##    carrier dest  air_time
##    <chr>   <chr>    <dbl>
##  1 UA      IAH        227
##  2 UA      IAH        227
##  3 AA      MIA        160
##  4 B6      BQN        183
##  5 DL      ATL        116
##  6 UA      ORD        150
##  7 B6      FLL        158
##  8 EV      IAD         53
##  9 B6      MCO        140
## 10 AA      ORD        138
## # … with 336,766 more rows
#3 Agrega el nombre del carrier a la consulta 2 y cambia el orden de los campos para que se vean Carrier, nombre del carrier, destino y tiempo de vuelo
consulta3 <- left_join(flights,airlines,by = "carrier") %>% select(carrier,name,dest,air_time)
consulta3
## # A tibble: 336,776 × 4
##    carrier name                     dest  air_time
##    <chr>   <chr>                    <chr>    <dbl>
##  1 UA      United Air Lines Inc.    IAH        227
##  2 UA      United Air Lines Inc.    IAH        227
##  3 AA      American Airlines Inc.   MIA        160
##  4 B6      JetBlue Airways          BQN        183
##  5 DL      Delta Air Lines Inc.     ATL        116
##  6 UA      United Air Lines Inc.    ORD        150
##  7 B6      JetBlue Airways          FLL        158
##  8 EV      ExpressJet Airlines Inc. IAD         53
##  9 B6      JetBlue Airways          MCO        140
## 10 AA      American Airlines Inc.   ORD        138
## # … with 336,766 more rows
#4 Agrega el nombre del aeropuerto a cada destino en la consulta 3, observa que los campos en común para hacer la relación se llaman diferente. Observa como se agregan todos los campos del segundo data frame.
consulta4 <- left_join(consulta3,airports,c("dest"="faa"))
consulta4
## # A tibble: 336,776 × 11
##    carrier name.x       dest  air_t…¹ name.y   lat   lon   alt    tz dst   tzone
##    <chr>   <chr>        <chr>   <dbl> <chr>  <dbl> <dbl> <dbl> <dbl> <chr> <chr>
##  1 UA      United Air … IAH       227 Georg…  30.0 -95.3    97    -6 A     Amer…
##  2 UA      United Air … IAH       227 Georg…  30.0 -95.3    97    -6 A     Amer…
##  3 AA      American Ai… MIA       160 Miami…  25.8 -80.3     8    -5 A     Amer…
##  4 B6      JetBlue Air… BQN       183 <NA>    NA    NA      NA    NA <NA>  <NA> 
##  5 DL      Delta Air L… ATL       116 Harts…  33.6 -84.4  1026    -5 A     Amer…
##  6 UA      United Air … ORD       150 Chica…  42.0 -87.9   668    -6 A     Amer…
##  7 B6      JetBlue Air… FLL       158 Fort …  26.1 -80.2     9    -5 A     Amer…
##  8 EV      ExpressJet … IAD        53 Washi…  38.9 -77.5   313    -5 A     Amer…
##  9 B6      JetBlue Air… MCO       140 Orlan…  28.4 -81.3    96    -5 A     Amer…
## 10 AA      American Ai… ORD       138 Chica…  42.0 -87.9   668    -6 A     Amer…
## # … with 336,766 more rows, and abbreviated variable name ¹​air_time
#5. Observa como el nombre del Carrier se llama name.x, renombra por nombre_aerolinea y el nombre del aeropuerto destino se llama name.y, renombra por nombre_aeropuerto, esto sucede porque al relacionar los dos data frames hay dos campos con el mismo nombre, “name”.
consulta5 <- rename(consulta4, nombre_aerolinea = name.x, nombre_aeropuerto =name.y)   
consulta5
## # A tibble: 336,776 × 11
##    carrier nombre_ae…¹ dest  air_t…² nombr…³   lat   lon   alt    tz dst   tzone
##    <chr>   <chr>       <chr>   <dbl> <chr>   <dbl> <dbl> <dbl> <dbl> <chr> <chr>
##  1 UA      United Air… IAH       227 George…  30.0 -95.3    97    -6 A     Amer…
##  2 UA      United Air… IAH       227 George…  30.0 -95.3    97    -6 A     Amer…
##  3 AA      American A… MIA       160 Miami …  25.8 -80.3     8    -5 A     Amer…
##  4 B6      JetBlue Ai… BQN       183 <NA>     NA    NA      NA    NA <NA>  <NA> 
##  5 DL      Delta Air … ATL       116 Hartsf…  33.6 -84.4  1026    -5 A     Amer…
##  6 UA      United Air… ORD       150 Chicag…  42.0 -87.9   668    -6 A     Amer…
##  7 B6      JetBlue Ai… FLL       158 Fort L…  26.1 -80.2     9    -5 A     Amer…
##  8 EV      ExpressJet… IAD        53 Washin…  38.9 -77.5   313    -5 A     Amer…
##  9 B6      JetBlue Ai… MCO       140 Orland…  28.4 -81.3    96    -5 A     Amer…
## 10 AA      American A… ORD       138 Chicag…  42.0 -87.9   668    -6 A     Amer…
## # … with 336,766 more rows, and abbreviated variable names ¹​nombre_aerolinea,
## #   ²​air_time, ³​nombre_aeropuerto
#6. Recordando que al relacionar 2 data frame con join_left, agrega todos los campos del segundo data frame al primero. Mostrar de la consulta anterior los campos Carrier, nombre_aerolinea, dest, nombre_aeropuerto, air_time, lat, lon y tzone.
consulta6 <- select(consulta5,carrier,nombre_aerolinea,dest,nombre_aeropuerto,air_time,lat,lon, tzone)
consulta6
## # A tibble: 336,776 × 8
##    carrier nombre_aerolinea         dest  nombre_aer…¹ air_t…²   lat   lon tzone
##    <chr>   <chr>                    <chr> <chr>          <dbl> <dbl> <dbl> <chr>
##  1 UA      United Air Lines Inc.    IAH   George Bush…     227  30.0 -95.3 Amer…
##  2 UA      United Air Lines Inc.    IAH   George Bush…     227  30.0 -95.3 Amer…
##  3 AA      American Airlines Inc.   MIA   Miami Intl       160  25.8 -80.3 Amer…
##  4 B6      JetBlue Airways          BQN   <NA>             183  NA    NA   <NA> 
##  5 DL      Delta Air Lines Inc.     ATL   Hartsfield …     116  33.6 -84.4 Amer…
##  6 UA      United Air Lines Inc.    ORD   Chicago Oha…     150  42.0 -87.9 Amer…
##  7 B6      JetBlue Airways          FLL   Fort Lauder…     158  26.1 -80.2 Amer…
##  8 EV      ExpressJet Airlines Inc. IAD   Washington …      53  38.9 -77.5 Amer…
##  9 B6      JetBlue Airways          MCO   Orlando Intl     140  28.4 -81.3 Amer…
## 10 AA      American Airlines Inc.   ORD   Chicago Oha…     138  42.0 -87.9 Amer…
## # … with 336,766 more rows, and abbreviated variable names ¹​nombre_aeropuerto,
## #   ²​air_time
#7. Encuentra los datos descriptivos del data frame anterior. Identifica el mínimo, la media y el máximo de los tiempos de vuelo.
summary(consulta6)
##    carrier          nombre_aerolinea       dest           nombre_aeropuerto 
##  Length:336776      Length:336776      Length:336776      Length:336776     
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##                                                                             
##     air_time          lat             lon             tzone          
##  Min.   : 20.0   Min.   :21.32   Min.   :-157.92   Length:336776     
##  1st Qu.: 82.0   1st Qu.:32.90   1st Qu.: -95.34   Class :character  
##  Median :129.0   Median :36.10   Median : -83.35   Mode  :character  
##  Mean   :150.7   Mean   :36.02   Mean   : -89.48                     
##  3rd Qu.:192.0   3rd Qu.:41.41   3rd Qu.: -80.15                     
##  Max.   :695.0   Max.   :61.17   Max.   : -68.83                     
##  NA's   :9430    NA's   :7602    NA's   :7602
#De los tiempos de vuelo el mínimo es 20mins, la media es 129mins, y el máximo es 695mins.
#8. Utilizando el data frame generado en el paso 5, clasifica los vuelos por la distancia recorrida, agrega un nuevo campo con el nombre de clas_vuelo,  coloca vuelo_largo,  si la distancia recorrida está entre la media y el máximo de la distancia recorrida, y coloca vuelo_corto si la distancia recorrida está entre el mínimo y la media de la distancia recorrida.
consulta7 <- mutate(consulta5, clas_vuelo = ifelse(air_time > 129, 'vuelo_largo', 'vuelo_corto'))
consulta7
## # A tibble: 336,776 × 12
##    carrier nombre_ae…¹ dest  air_t…² nombr…³   lat   lon   alt    tz dst   tzone
##    <chr>   <chr>       <chr>   <dbl> <chr>   <dbl> <dbl> <dbl> <dbl> <chr> <chr>
##  1 UA      United Air… IAH       227 George…  30.0 -95.3    97    -6 A     Amer…
##  2 UA      United Air… IAH       227 George…  30.0 -95.3    97    -6 A     Amer…
##  3 AA      American A… MIA       160 Miami …  25.8 -80.3     8    -5 A     Amer…
##  4 B6      JetBlue Ai… BQN       183 <NA>     NA    NA      NA    NA <NA>  <NA> 
##  5 DL      Delta Air … ATL       116 Hartsf…  33.6 -84.4  1026    -5 A     Amer…
##  6 UA      United Air… ORD       150 Chicag…  42.0 -87.9   668    -6 A     Amer…
##  7 B6      JetBlue Ai… FLL       158 Fort L…  26.1 -80.2     9    -5 A     Amer…
##  8 EV      ExpressJet… IAD        53 Washin…  38.9 -77.5   313    -5 A     Amer…
##  9 B6      JetBlue Ai… MCO       140 Orland…  28.4 -81.3    96    -5 A     Amer…
## 10 AA      American A… ORD       138 Chicag…  42.0 -87.9   668    -6 A     Amer…
## # … with 336,766 more rows, 1 more variable: clas_vuelo <chr>, and abbreviated
## #   variable names ¹​nombre_aerolinea, ²​air_time, ³​nombre_aeropuerto