Descarga de la base de datos

Data descargada de:
https://cran.r-project.org/web/packages/hflights/README.html

Ejecutar el siguiente comando:
install.packages("hflights")

Ello instalará el datasets.

1. Descripción de la data

Este conjunto de datos contiene todos los vuelos que salen de los aeropuertos de Houston IAH (George Bush Intercontinental) y HOU (Houston Hobby) en 2011. Los datos provienen de la Administración de Tecnología de Investigación e Innovación de la Oficina de Estadísticas de Transporte. Tasa de criminalidad canadiense (1931-1968)

# Abrir la base de datos
suppressMessages(library(dplyr))
library(hflights)

# load packages
suppressMessages(library(dplyr))
library(hflights)

# explore data
data(hflights)
head(hflights)
##      Year Month DayofMonth DayOfWeek DepTime ArrTime UniqueCarrier
## 5424 2011     1          1         6    1400    1500            AA
## 5425 2011     1          2         7    1401    1501            AA
## 5426 2011     1          3         1    1352    1502            AA
## 5427 2011     1          4         2    1403    1513            AA
## 5428 2011     1          5         3    1405    1507            AA
## 5429 2011     1          6         4    1359    1503            AA
##      FlightNum TailNum ActualElapsedTime AirTime ArrDelay DepDelay Origin
## 5424       428  N576AA                60      40      -10        0    IAH
## 5425       428  N557AA                60      45       -9        1    IAH
## 5426       428  N541AA                70      48       -8       -8    IAH
## 5427       428  N403AA                70      39        3        3    IAH
## 5428       428  N492AA                62      44       -3        5    IAH
## 5429       428  N262AA                64      45       -7       -1    IAH
##      Dest Distance TaxiIn TaxiOut Cancelled CancellationCode Diverted
## 5424  DFW      224      7      13         0                         0
## 5425  DFW      224      6       9         0                         0
## 5426  DFW      224      5      17         0                         0
## 5427  DFW      224      9      22         0                         0
## 5428  DFW      224      9       9         0                         0
## 5429  DFW      224      6      13         0                         0

Para identificar el nombre de nuestras variables

names(hflights)
##  [1] "Year"              "Month"             "DayofMonth"       
##  [4] "DayOfWeek"         "DepTime"           "ArrTime"          
##  [7] "UniqueCarrier"     "FlightNum"         "TailNum"          
## [10] "ActualElapsedTime" "AirTime"           "ArrDelay"         
## [13] "DepDelay"          "Origin"            "Dest"             
## [16] "Distance"          "TaxiIn"            "TaxiOut"          
## [19] "Cancelled"         "CancellationCode"  "Diverted"

Year, Month, DayofMonth: fecha de salida

DayOfWeek: día de la semana de salida (útil para eliminar los efectos del fin de semana)

DepTime, ArrTime: horarios de salida y llegada (en hora local, hhmm)

UniqueCarrier: abreviatura única para un transportista

FlightNum: número de vuelo

TailNum: número de cola del avión

ActualElapsedTime: tiempo transcurrido de vuelo, en minutos

AirTime: tiempo de vuelo, en minutos.

ArrDelay, DepDelay: retrasos de llegada y salida, en minutos

Origin, Dest: Código de origen, destino, origen y destino.

Distancia: distancia de vuelo, en millas

TaxiIn, TaxiOut: taxi dentro y fuera en minutos

Cancelled: indicador cancelado: 1 = Sí, 0 = No

Cancellation code: motivo de la cancelación: A = operador, B = clima, C = sistema aéreo nacional, D = seguridad

Diverted: indicador desviado: 1 = Sí, 0 = No

#convertir la data a data frame para poder analizar ciertas características
flights<-tbl_df(hflights)
flights
## # A tibble: 227,496 x 21
##     Year Month DayofMonth DayOfWeek DepTime ArrTime UniqueCarrier FlightNum
##    <int> <int>      <int>     <int>   <int>   <int> <chr>             <int>
##  1  2011     1          1         6    1400    1500 AA                  428
##  2  2011     1          2         7    1401    1501 AA                  428
##  3  2011     1          3         1    1352    1502 AA                  428
##  4  2011     1          4         2    1403    1513 AA                  428
##  5  2011     1          5         3    1405    1507 AA                  428
##  6  2011     1          6         4    1359    1503 AA                  428
##  7  2011     1          7         5    1359    1509 AA                  428
##  8  2011     1          8         6    1355    1454 AA                  428
##  9  2011     1          9         7    1443    1554 AA                  428
## 10  2011     1         10         1    1443    1553 AA                  428
## # ... with 227,486 more rows, and 13 more variables: TailNum <chr>,
## #   ActualElapsedTime <int>, AirTime <int>, ArrDelay <int>,
## #   DepDelay <int>, Origin <chr>, Dest <chr>, Distance <int>,
## #   TaxiIn <int>, TaxiOut <int>, Cancelled <int>, CancellationCode <chr>,
## #   Diverted <int>
dim(flights)
## [1] 227496     21
#la data tiene 21 variables con 227496 observaciones
summary(flights)
##       Year          Month          DayofMonth      DayOfWeek    
##  Min.   :2011   Min.   : 1.000   Min.   : 1.00   Min.   :1.000  
##  1st Qu.:2011   1st Qu.: 4.000   1st Qu.: 8.00   1st Qu.:2.000  
##  Median :2011   Median : 7.000   Median :16.00   Median :4.000  
##  Mean   :2011   Mean   : 6.514   Mean   :15.74   Mean   :3.948  
##  3rd Qu.:2011   3rd Qu.: 9.000   3rd Qu.:23.00   3rd Qu.:6.000  
##  Max.   :2011   Max.   :12.000   Max.   :31.00   Max.   :7.000  
##                                                                 
##     DepTime        ArrTime     UniqueCarrier        FlightNum   
##  Min.   :   1   Min.   :   1   Length:227496      Min.   :   1  
##  1st Qu.:1021   1st Qu.:1215   Class :character   1st Qu.: 855  
##  Median :1416   Median :1617   Mode  :character   Median :1696  
##  Mean   :1396   Mean   :1578                      Mean   :1962  
##  3rd Qu.:1801   3rd Qu.:1953                      3rd Qu.:2755  
##  Max.   :2400   Max.   :2400                      Max.   :7290  
##  NA's   :2905   NA's   :3066                                    
##    TailNum          ActualElapsedTime    AirTime         ArrDelay      
##  Length:227496      Min.   : 34.0     Min.   : 11.0   Min.   :-70.000  
##  Class :character   1st Qu.: 77.0     1st Qu.: 58.0   1st Qu.: -8.000  
##  Mode  :character   Median :128.0     Median :107.0   Median :  0.000  
##                     Mean   :129.3     Mean   :108.1   Mean   :  7.094  
##                     3rd Qu.:165.0     3rd Qu.:141.0   3rd Qu.: 11.000  
##                     Max.   :575.0     Max.   :549.0   Max.   :978.000  
##                     NA's   :3622      NA's   :3622    NA's   :3622     
##     DepDelay          Origin              Dest              Distance     
##  Min.   :-33.000   Length:227496      Length:227496      Min.   :  79.0  
##  1st Qu.: -3.000   Class :character   Class :character   1st Qu.: 376.0  
##  Median :  0.000   Mode  :character   Mode  :character   Median : 809.0  
##  Mean   :  9.445                                         Mean   : 787.8  
##  3rd Qu.:  9.000                                         3rd Qu.:1042.0  
##  Max.   :981.000                                         Max.   :3904.0  
##  NA's   :2905                                                            
##      TaxiIn           TaxiOut         Cancelled       CancellationCode  
##  Min.   :  1.000   Min.   :  1.00   Min.   :0.00000   Length:227496     
##  1st Qu.:  4.000   1st Qu.: 10.00   1st Qu.:0.00000   Class :character  
##  Median :  5.000   Median : 14.00   Median :0.00000   Mode  :character  
##  Mean   :  6.099   Mean   : 15.09   Mean   :0.01307                     
##  3rd Qu.:  7.000   3rd Qu.: 18.00   3rd Qu.:0.00000                     
##  Max.   :165.000   Max.   :163.00   Max.   :1.00000                     
##  NA's   :3066      NA's   :2947                                         
##     Diverted       
##  Min.   :0.000000  
##  1st Qu.:0.000000  
##  Median :0.000000  
##  Mean   :0.002853  
##  3rd Qu.:0.000000  
##  Max.   :1.000000  
## 

2. Descripción de la data en R

Aerolíneas con mayores delays

data(flights)
## Warning in data(flights): data set 'flights' not found
flights %>%
    group_by(UniqueCarrier) %>% #agrupado por aerolínea
    summarise(media_DepDelay=mean(DepDelay,na.rm=T)) %>% #crea la media de tiempo de retraso por aerolínea
    arrange(desc(media_DepDelay)) #Ordena de forma descendente
## # A tibble: 15 x 2
##    UniqueCarrier media_DepDelay
##    <chr>                  <dbl>
##  1 WN                     13.5 
##  2 B6                     13.3 
##  3 UA                     12.9 
##  4 EV                     12.5 
##  5 MQ                     11.1 
##  6 DL                      9.37
##  7 CO                      9.26
##  8 OO                      8.89
##  9 XE                      7.71
## 10 AA                      6.39
## 11 F9                      5.09
## 12 FL                      4.72
## 13 AS                      3.71
## 14 US                      1.62
## 15 YV                      1.54

la aerolínea un promedio menor de minutos retrazados es YV (1.54), mientras que la que tiene mayor minutos de retraso es WN (13.5)

Destinos con mayor número de vuelos cancelados

1= Cancelado 0=No

flights %>%
    group_by(Dest) %>%
    select(Cancelled) %>%
    table() %>%
    head()
## Adding missing grouping variables: `Dest`
##      Cancelled
## Dest     0    1
##   ABQ 2787   25
##   AEX  712   12
##   AGS    1    0
##   AMA 1265   32
##   ANC  125    0
##   ASE  120    5

Se aprecia que los destinos con mayor número de vuelos cancelados son AMA (32 vuelos) y ABQ (25 vuelos)

for each carrier, calculate the minimum and maximum arrival and departure delays

flights %>%
    group_by(UniqueCarrier) %>%
    summarise_each(funs(min(., na.rm=TRUE), max(., na.rm=TRUE)), matches("Delay"))
## Warning: funs() is soft deprecated as of dplyr 0.8.0
## please use list() instead
## 
## # Before:
## funs(name = f(.)
## 
## # After: 
## list(name = ~f(.))
## This warning is displayed once per session.
## # A tibble: 15 x 5
##    UniqueCarrier ArrDelay_min DepDelay_min ArrDelay_max DepDelay_max
##    <chr>                <dbl>        <dbl>        <dbl>        <dbl>
##  1 AA                     -39          -15          978          970
##  2 AS                     -43          -15          183          172
##  3 B6                     -44          -14          335          310
##  4 CO                     -55          -18          957          981
##  5 DL                     -32          -17          701          730
##  6 EV                     -40          -18          469          479
##  7 F9                     -24          -15          277          275
##  8 FL                     -30          -14          500          507
##  9 MQ                     -38          -23          918          931
## 10 OO                     -57          -33          380          360
## 11 UA                     -47          -11          861          869
## 12 US                     -42          -17          433          425
## 13 WN                     -44          -10          499          548
## 14 XE                     -70          -19          634          628
## 15 YV                     -32          -11           72           54

Los resultados muestran que la aerolínea que ha tenido el mayor ArrDelay(minutos de espera en llegada) y DepDelay(minutos de tiempo de espera en tiempo de partida) ha sido AA (American Airlines). Por el contrario la aerolínea que presenta los menores valores para éstas estadísticas son YV con 72 (ArrDelay) y 74(DepDelay) minutos respectivamente