Data descargada de:
https://cran.r-project.org/web/packages/hflights/README.html
Ejecutar el siguiente comando:
install.packages("hflights")
Ello instalará el datasets.
Este conjunto de datos contiene todos los vuelos que salen de los aeropuertos de Houston IAH (George Bush Intercontinental) y HOU (Houston Hobby) en 2011. Los datos provienen de la Administración de Tecnología de Investigación e Innovación de la Oficina de Estadísticas de Transporte. Tasa de criminalidad canadiense (1931-1968)
# Abrir la base de datos
suppressMessages(library(dplyr))
library(hflights)
# load packages
suppressMessages(library(dplyr))
library(hflights)
# explore data
data(hflights)
head(hflights)
## Year Month DayofMonth DayOfWeek DepTime ArrTime UniqueCarrier
## 5424 2011 1 1 6 1400 1500 AA
## 5425 2011 1 2 7 1401 1501 AA
## 5426 2011 1 3 1 1352 1502 AA
## 5427 2011 1 4 2 1403 1513 AA
## 5428 2011 1 5 3 1405 1507 AA
## 5429 2011 1 6 4 1359 1503 AA
## FlightNum TailNum ActualElapsedTime AirTime ArrDelay DepDelay Origin
## 5424 428 N576AA 60 40 -10 0 IAH
## 5425 428 N557AA 60 45 -9 1 IAH
## 5426 428 N541AA 70 48 -8 -8 IAH
## 5427 428 N403AA 70 39 3 3 IAH
## 5428 428 N492AA 62 44 -3 5 IAH
## 5429 428 N262AA 64 45 -7 -1 IAH
## Dest Distance TaxiIn TaxiOut Cancelled CancellationCode Diverted
## 5424 DFW 224 7 13 0 0
## 5425 DFW 224 6 9 0 0
## 5426 DFW 224 5 17 0 0
## 5427 DFW 224 9 22 0 0
## 5428 DFW 224 9 9 0 0
## 5429 DFW 224 6 13 0 0
Para identificar el nombre de nuestras variables
names(hflights)
## [1] "Year" "Month" "DayofMonth"
## [4] "DayOfWeek" "DepTime" "ArrTime"
## [7] "UniqueCarrier" "FlightNum" "TailNum"
## [10] "ActualElapsedTime" "AirTime" "ArrDelay"
## [13] "DepDelay" "Origin" "Dest"
## [16] "Distance" "TaxiIn" "TaxiOut"
## [19] "Cancelled" "CancellationCode" "Diverted"
• Year, Month, DayofMonth: fecha de salida
• DayOfWeek: día de la semana de salida (útil para eliminar los efectos del fin de semana)
• DepTime, ArrTime: horarios de salida y llegada (en hora local, hhmm)
• UniqueCarrier: abreviatura única para un transportista
• FlightNum: número de vuelo
• TailNum: número de cola del avión
• ActualElapsedTime: tiempo transcurrido de vuelo, en minutos
• AirTime: tiempo de vuelo, en minutos.
• ArrDelay, DepDelay: retrasos de llegada y salida, en minutos
• Origin, Dest: Código de origen, destino, origen y destino.
• Distancia: distancia de vuelo, en millas
• TaxiIn, TaxiOut: taxi dentro y fuera en minutos
• Cancelled: indicador cancelado: 1 = Sí, 0 = No
• Cancellation code: motivo de la cancelación: A = operador, B = clima, C = sistema aéreo nacional, D = seguridad
• Diverted: indicador desviado: 1 = Sí, 0 = No
#convertir la data a data frame para poder analizar ciertas características
flights<-tbl_df(hflights)
flights
## # A tibble: 227,496 x 21
## Year Month DayofMonth DayOfWeek DepTime ArrTime UniqueCarrier FlightNum
## <int> <int> <int> <int> <int> <int> <chr> <int>
## 1 2011 1 1 6 1400 1500 AA 428
## 2 2011 1 2 7 1401 1501 AA 428
## 3 2011 1 3 1 1352 1502 AA 428
## 4 2011 1 4 2 1403 1513 AA 428
## 5 2011 1 5 3 1405 1507 AA 428
## 6 2011 1 6 4 1359 1503 AA 428
## 7 2011 1 7 5 1359 1509 AA 428
## 8 2011 1 8 6 1355 1454 AA 428
## 9 2011 1 9 7 1443 1554 AA 428
## 10 2011 1 10 1 1443 1553 AA 428
## # ... with 227,486 more rows, and 13 more variables: TailNum <chr>,
## # ActualElapsedTime <int>, AirTime <int>, ArrDelay <int>,
## # DepDelay <int>, Origin <chr>, Dest <chr>, Distance <int>,
## # TaxiIn <int>, TaxiOut <int>, Cancelled <int>, CancellationCode <chr>,
## # Diverted <int>
dim(flights)
## [1] 227496 21
#la data tiene 21 variables con 227496 observaciones
summary(flights)
## Year Month DayofMonth DayOfWeek
## Min. :2011 Min. : 1.000 Min. : 1.00 Min. :1.000
## 1st Qu.:2011 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.:2.000
## Median :2011 Median : 7.000 Median :16.00 Median :4.000
## Mean :2011 Mean : 6.514 Mean :15.74 Mean :3.948
## 3rd Qu.:2011 3rd Qu.: 9.000 3rd Qu.:23.00 3rd Qu.:6.000
## Max. :2011 Max. :12.000 Max. :31.00 Max. :7.000
##
## DepTime ArrTime UniqueCarrier FlightNum
## Min. : 1 Min. : 1 Length:227496 Min. : 1
## 1st Qu.:1021 1st Qu.:1215 Class :character 1st Qu.: 855
## Median :1416 Median :1617 Mode :character Median :1696
## Mean :1396 Mean :1578 Mean :1962
## 3rd Qu.:1801 3rd Qu.:1953 3rd Qu.:2755
## Max. :2400 Max. :2400 Max. :7290
## NA's :2905 NA's :3066
## TailNum ActualElapsedTime AirTime ArrDelay
## Length:227496 Min. : 34.0 Min. : 11.0 Min. :-70.000
## Class :character 1st Qu.: 77.0 1st Qu.: 58.0 1st Qu.: -8.000
## Mode :character Median :128.0 Median :107.0 Median : 0.000
## Mean :129.3 Mean :108.1 Mean : 7.094
## 3rd Qu.:165.0 3rd Qu.:141.0 3rd Qu.: 11.000
## Max. :575.0 Max. :549.0 Max. :978.000
## NA's :3622 NA's :3622 NA's :3622
## DepDelay Origin Dest Distance
## Min. :-33.000 Length:227496 Length:227496 Min. : 79.0
## 1st Qu.: -3.000 Class :character Class :character 1st Qu.: 376.0
## Median : 0.000 Mode :character Mode :character Median : 809.0
## Mean : 9.445 Mean : 787.8
## 3rd Qu.: 9.000 3rd Qu.:1042.0
## Max. :981.000 Max. :3904.0
## NA's :2905
## TaxiIn TaxiOut Cancelled CancellationCode
## Min. : 1.000 Min. : 1.00 Min. :0.00000 Length:227496
## 1st Qu.: 4.000 1st Qu.: 10.00 1st Qu.:0.00000 Class :character
## Median : 5.000 Median : 14.00 Median :0.00000 Mode :character
## Mean : 6.099 Mean : 15.09 Mean :0.01307
## 3rd Qu.: 7.000 3rd Qu.: 18.00 3rd Qu.:0.00000
## Max. :165.000 Max. :163.00 Max. :1.00000
## NA's :3066 NA's :2947
## Diverted
## Min. :0.000000
## 1st Qu.:0.000000
## Median :0.000000
## Mean :0.002853
## 3rd Qu.:0.000000
## Max. :1.000000
##
data(flights)
## Warning in data(flights): data set 'flights' not found
flights %>%
group_by(UniqueCarrier) %>% #agrupado por aerolínea
summarise(media_DepDelay=mean(DepDelay,na.rm=T)) %>% #crea la media de tiempo de retraso por aerolínea
arrange(desc(media_DepDelay)) #Ordena de forma descendente
## # A tibble: 15 x 2
## UniqueCarrier media_DepDelay
## <chr> <dbl>
## 1 WN 13.5
## 2 B6 13.3
## 3 UA 12.9
## 4 EV 12.5
## 5 MQ 11.1
## 6 DL 9.37
## 7 CO 9.26
## 8 OO 8.89
## 9 XE 7.71
## 10 AA 6.39
## 11 F9 5.09
## 12 FL 4.72
## 13 AS 3.71
## 14 US 1.62
## 15 YV 1.54
la aerolínea un promedio menor de minutos retrazados es YV (1.54), mientras que la que tiene mayor minutos de retraso es WN (13.5)
flights %>%
group_by(Dest) %>%
select(Cancelled) %>%
table() %>%
head()
## Adding missing grouping variables: `Dest`
## Cancelled
## Dest 0 1
## ABQ 2787 25
## AEX 712 12
## AGS 1 0
## AMA 1265 32
## ANC 125 0
## ASE 120 5
Se aprecia que los destinos con mayor número de vuelos cancelados son AMA (32 vuelos) y ABQ (25 vuelos)
flights %>%
group_by(UniqueCarrier) %>%
summarise_each(funs(min(., na.rm=TRUE), max(., na.rm=TRUE)), matches("Delay"))
## Warning: funs() is soft deprecated as of dplyr 0.8.0
## please use list() instead
##
## # Before:
## funs(name = f(.)
##
## # After:
## list(name = ~f(.))
## This warning is displayed once per session.
## # A tibble: 15 x 5
## UniqueCarrier ArrDelay_min DepDelay_min ArrDelay_max DepDelay_max
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 AA -39 -15 978 970
## 2 AS -43 -15 183 172
## 3 B6 -44 -14 335 310
## 4 CO -55 -18 957 981
## 5 DL -32 -17 701 730
## 6 EV -40 -18 469 479
## 7 F9 -24 -15 277 275
## 8 FL -30 -14 500 507
## 9 MQ -38 -23 918 931
## 10 OO -57 -33 380 360
## 11 UA -47 -11 861 869
## 12 US -42 -17 433 425
## 13 WN -44 -10 499 548
## 14 XE -70 -19 634 628
## 15 YV -32 -11 72 54
Los resultados muestran que la aerolínea que ha tenido el mayor ArrDelay(minutos de espera en llegada) y DepDelay(minutos de tiempo de espera en tiempo de partida) ha sido AA (American Airlines). Por el contrario la aerolínea que presenta los menores valores para éstas estadísticas son YV con 72 (ArrDelay) y 74(DepDelay) minutos respectivamente