El paquete nycflights13 contiene información sobre todos los vuelos que partieron desde New York (EWR, JFK y LGA) a destinos en los Estados Unidos en 2013. Fueron 336,776 vuelos en total. Para ayudar a comprender las causas de los retrasos, también incluye otros conjuntos de datos útiles.
Fuente:
Origen
de los datos
Este paquete incluye las siguientes tablas:
# install.packages("nycflights13")
library(nycflights13)
# install.packages("tidyverse")
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.0 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.1
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
# library(dplyr)
library(dplyr)
#3 Guardar base de datos
flights <- flights
weather <- weather
planes <- planes
airports <- airports
airlines <- airlines
# La carga a memoria se hizo en el paso anterior.
flights
## # A tibble: 336,776 × 19
## year month day dep_time sched_dep_time dep_delay arr_time sched_arr_time
## <int> <int> <int> <int> <int> <dbl> <int> <int>
## 1 2013 1 1 517 515 2 830 819
## 2 2013 1 1 533 529 4 850 830
## 3 2013 1 1 542 540 2 923 850
## 4 2013 1 1 544 545 -1 1004 1022
## 5 2013 1 1 554 600 -6 812 837
## 6 2013 1 1 554 558 -4 740 728
## 7 2013 1 1 555 600 -5 913 854
## 8 2013 1 1 557 600 -3 709 723
## 9 2013 1 1 557 600 -3 838 846
## 10 2013 1 1 558 600 -2 753 745
## # ℹ 336,766 more rows
## # ℹ 11 more variables: arr_delay <dbl>, carrier <chr>, flight <int>,
## # tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>,
## # hour <dbl>, minute <dbl>, time_hour <dttm>
str(flights)
## tibble [336,776 × 19] (S3: tbl_df/tbl/data.frame)
## $ year : int [1:336776] 2013 2013 2013 2013 2013 2013 2013 2013 2013 2013 ...
## $ month : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
## $ day : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
## $ dep_time : int [1:336776] 517 533 542 544 554 554 555 557 557 558 ...
## $ sched_dep_time: int [1:336776] 515 529 540 545 600 558 600 600 600 600 ...
## $ dep_delay : num [1:336776] 2 4 2 -1 -6 -4 -5 -3 -3 -2 ...
## $ arr_time : int [1:336776] 830 850 923 1004 812 740 913 709 838 753 ...
## $ sched_arr_time: int [1:336776] 819 830 850 1022 837 728 854 723 846 745 ...
## $ arr_delay : num [1:336776] 11 20 33 -18 -25 12 19 -14 -8 8 ...
## $ carrier : chr [1:336776] "UA" "UA" "AA" "B6" ...
## $ flight : int [1:336776] 1545 1714 1141 725 461 1696 507 5708 79 301 ...
## $ tailnum : chr [1:336776] "N14228" "N24211" "N619AA" "N804JB" ...
## $ origin : chr [1:336776] "EWR" "LGA" "JFK" "JFK" ...
## $ dest : chr [1:336776] "IAH" "IAH" "MIA" "BQN" ...
## $ air_time : num [1:336776] 227 227 160 183 116 150 158 53 140 138 ...
## $ distance : num [1:336776] 1400 1416 1089 1576 762 ...
## $ hour : num [1:336776] 5 5 5 5 6 5 6 6 6 6 ...
## $ minute : num [1:336776] 15 29 40 45 0 58 0 0 0 0 ...
## $ time_hour : POSIXct[1:336776], format: "2013-01-01 05:00:00" "2013-01-01 05:00:00" ...
#int: entero (sin decimales)
#num: numérico (con decimales)
#cgr: caractér (letras)
#date: fecha (en R va año-mes-día)
#POSIXct: formato fecha y hora
class(flights)
## [1] "tbl_df" "tbl" "data.frame"
#Las 5 clases de objetos son:
# 1. numeric: número real o decimales.
# 2. integer: número entero.
# 3. complex: número complejo.
# 4. character: caracteres, texto.
# 5. logical: TRUE o FALSE.
# Las 4 clases de objetos compuestos son:
# 1. list: lista
# 2. matrix: matriz
# 3. array: colección de objetos
# 4. data.frame: base de datos
#Número de columnas
ncol(flights)
## [1] 19
#Número de renglones
nrow(flights)
## [1] 336776
#Número de dimensión
dim(flights)
## [1] 336776 19
head(flights)
## # A tibble: 6 × 19
## year month day dep_time sched_dep_time dep_delay arr_time sched_arr_time
## <int> <int> <int> <int> <int> <dbl> <int> <int>
## 1 2013 1 1 517 515 2 830 819
## 2 2013 1 1 533 529 4 850 830
## 3 2013 1 1 542 540 2 923 850
## 4 2013 1 1 544 545 -1 1004 1022
## 5 2013 1 1 554 600 -6 812 837
## 6 2013 1 1 554 558 -4 740 728
## # ℹ 11 more variables: arr_delay <dbl>, carrier <chr>, flight <int>,
## # tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>,
## # hour <dbl>, minute <dbl>, time_hour <dttm>
tail(flights)
## # A tibble: 6 × 19
## year month day dep_time sched_dep_time dep_delay arr_time sched_arr_time
## <int> <int> <int> <int> <int> <dbl> <int> <int>
## 1 2013 9 30 NA 1842 NA NA 2019
## 2 2013 9 30 NA 1455 NA NA 1634
## 3 2013 9 30 NA 2200 NA NA 2312
## 4 2013 9 30 NA 1210 NA NA 1330
## 5 2013 9 30 NA 1159 NA NA 1344
## 6 2013 9 30 NA 840 NA NA 1020
## # ℹ 11 more variables: arr_delay <dbl>, carrier <chr>, flight <int>,
## # tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>,
## # hour <dbl>, minute <dbl>, time_hour <dttm>
#Si quisieramos 7 renglones: head(flights, 7)
summary(flights)
## year month day dep_time sched_dep_time
## Min. :2013 Min. : 1.000 Min. : 1.00 Min. : 1 Min. : 106
## 1st Qu.:2013 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.: 907 1st Qu.: 906
## Median :2013 Median : 7.000 Median :16.00 Median :1401 Median :1359
## Mean :2013 Mean : 6.549 Mean :15.71 Mean :1349 Mean :1344
## 3rd Qu.:2013 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:1744 3rd Qu.:1729
## Max. :2013 Max. :12.000 Max. :31.00 Max. :2400 Max. :2359
## NA's :8255
## dep_delay arr_time sched_arr_time arr_delay
## Min. : -43.00 Min. : 1 Min. : 1 Min. : -86.000
## 1st Qu.: -5.00 1st Qu.:1104 1st Qu.:1124 1st Qu.: -17.000
## Median : -2.00 Median :1535 Median :1556 Median : -5.000
## Mean : 12.64 Mean :1502 Mean :1536 Mean : 6.895
## 3rd Qu.: 11.00 3rd Qu.:1940 3rd Qu.:1945 3rd Qu.: 14.000
## Max. :1301.00 Max. :2400 Max. :2359 Max. :1272.000
## NA's :8255 NA's :8713 NA's :9430
## carrier flight tailnum origin
## Length:336776 Min. : 1 Length:336776 Length:336776
## Class :character 1st Qu.: 553 Class :character Class :character
## Mode :character Median :1496 Mode :character Mode :character
## Mean :1972
## 3rd Qu.:3465
## Max. :8500
##
## dest air_time distance hour
## Length:336776 Min. : 20.0 Min. : 17 Min. : 1.00
## Class :character 1st Qu.: 82.0 1st Qu.: 502 1st Qu.: 9.00
## Mode :character Median :129.0 Median : 872 Median :13.00
## Mean :150.7 Mean :1040 Mean :13.18
## 3rd Qu.:192.0 3rd Qu.:1389 3rd Qu.:17.00
## Max. :695.0 Max. :4983 Max. :23.00
## NA's :9430
## minute time_hour
## Min. : 0.00 Min. :2013-01-01 05:00:00.00
## 1st Qu.: 8.00 1st Qu.:2013-04-04 13:00:00.00
## Median :29.00 Median :2013-07-03 10:00:00.00
## Mean :26.23 Mean :2013-07-03 05:22:54.64
## 3rd Qu.:44.00 3rd Qu.:2013-10-01 07:00:00.00
## Max. :59.00 Max. :2013-12-31 23:00:00.00
##
En este trabajo pudimos utilizar las funciones más comunes del análisis exploratorio, el cual es el primer paso para cualquier trabajo de manipulación de datos.
view(flights)
summary(flights)
## year month day dep_time sched_dep_time
## Min. :2013 Min. : 1.000 Min. : 1.00 Min. : 1 Min. : 106
## 1st Qu.:2013 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.: 907 1st Qu.: 906
## Median :2013 Median : 7.000 Median :16.00 Median :1401 Median :1359
## Mean :2013 Mean : 6.549 Mean :15.71 Mean :1349 Mean :1344
## 3rd Qu.:2013 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:1744 3rd Qu.:1729
## Max. :2013 Max. :12.000 Max. :31.00 Max. :2400 Max. :2359
## NA's :8255
## dep_delay arr_time sched_arr_time arr_delay
## Min. : -43.00 Min. : 1 Min. : 1 Min. : -86.000
## 1st Qu.: -5.00 1st Qu.:1104 1st Qu.:1124 1st Qu.: -17.000
## Median : -2.00 Median :1535 Median :1556 Median : -5.000
## Mean : 12.64 Mean :1502 Mean :1536 Mean : 6.895
## 3rd Qu.: 11.00 3rd Qu.:1940 3rd Qu.:1945 3rd Qu.: 14.000
## Max. :1301.00 Max. :2400 Max. :2359 Max. :1272.000
## NA's :8255 NA's :8713 NA's :9430
## carrier flight tailnum origin
## Length:336776 Min. : 1 Length:336776 Length:336776
## Class :character 1st Qu.: 553 Class :character Class :character
## Mode :character Median :1496 Mode :character Mode :character
## Mean :1972
## 3rd Qu.:3465
## Max. :8500
##
## dest air_time distance hour
## Length:336776 Min. : 20.0 Min. : 17 Min. : 1.00
## Class :character 1st Qu.: 82.0 1st Qu.: 502 1st Qu.: 9.00
## Mode :character Median :129.0 Median : 872 Median :13.00
## Mean :150.7 Mean :1040 Mean :13.18
## 3rd Qu.:192.0 3rd Qu.:1389 3rd Qu.:17.00
## Max. :695.0 Max. :4983 Max. :23.00
## NA's :9430
## minute time_hour
## Min. : 0.00 Min. :2013-01-01 05:00:00.00
## 1st Qu.: 8.00 1st Qu.:2013-04-04 13:00:00.00
## Median :29.00 Median :2013-07-03 10:00:00.00
## Mean :26.23 Mean :2013-07-03 05:22:54.64
## 3rd Qu.:44.00 3rd Qu.:2013-10-01 07:00:00.00
## Max. :59.00 Max. :2013-12-31 23:00:00.00
##
La media de la distancia recorrida es de 1040 millas.
aerolineas_distancia = select(flights, carrier, distance, origin, dest)
aerolineas_mayor_mean = filter(aerolineas_distancia, distance > 1040)
aerolineas_mayor_desc = arrange(aerolineas_mayor_mean, desc(distance))
distancias <- flights %>% group_by(carrier) %>%
summarize(suma = sum(distance, na.rm = TRUE), media = mean(distance, na.rm = TRUE))
distancias_orden <- arrange(distancias, desc(distancias))
print(distancias)
## # A tibble: 16 × 3
## carrier suma media
## <chr> <dbl> <dbl>
## 1 9E 9788152 530.
## 2 AA 43864584 1340.
## 3 AS 1715028 2402
## 4 B6 58384137 1069.
## 5 DL 59507317 1237.
## 6 EV 30498951 563.
## 7 F9 1109700 1620
## 8 FL 2167344 665.
## 9 HA 1704186 4983
## 10 MQ 15033955 570.
## 11 OO 16026 501.
## 12 UA 89705524 1529.
## 13 US 11365778 553.
## 14 VX 12902327 2499.
## 15 WN 12229203 996.
## 16 YV 225395 375.
JFK
JFK <- aerolineas_mayor_desc %>% filter (origin == "JFK") %>% group_by(carrier) %>% count() %>% arrange(desc(n)) %>% rename(n.flights = n) %>%head()
JFK
## # A tibble: 6 × 2
## # Groups: carrier [6]
## carrier n.flights
## <chr> <int>
## 1 B6 19378
## 2 DL 15247
## 3 AA 10922
## 4 UA 4534
## 5 VX 3596
## 6 9E 1132
En el aeropuerto de JFK, B6 JetBlue Airways es la aerolínea con mayor número de vuelos con un total de 19378.
LGA
LGA <- aerolineas_mayor_desc %>% filter (origin == "LGA") %>% group_by(carrier) %>% count() %>% arrange(desc(n)) %>% rename(n.flights = n) %>%head()
LGA
## # A tibble: 6 × 2
## # Groups: carrier [6]
## carrier n.flights
## <chr> <int>
## 1 AA 8781
## 2 DL 6036
## 3 UA 4577
## 4 B6 2918
## 5 WN 1140
## 6 MQ 744
En la Guardia, American Airlines tiene la primera posicón con un total de 8781 en número de vuelos.
EWR
EWR <- aerolineas_mayor_desc %>% filter (origin == "EWR") %>% group_by(carrier) %>% count() %>% arrange(desc(n)) %>% rename(n.flights = n) %>%head()
EWR
## # A tibble: 6 × 2
## # Groups: carrier [6]
## carrier n.flights
## <chr> <int>
## 1 UA 30183
## 2 EV 3648
## 3 AA 3487
## 4 WN 2692
## 5 B6 2130
## 6 VX 1566
En Newark Liberty International, United Airlines tiene el mayor número de vuelos con un total de 30183.
Resultados: Observando esta última tabla pudimos observar los datos que nos permiten ver cuales son las aerolineas más popluares en cada uno de los aeropuertos de Nueva York. También con el promedio obtenido podemos identificar cual es la distancia media recorrida por vuelo de cada compañía aérea. Este df nos permite ver que United Airlines es una de las aerolíneas con los viajes con mayor distancia. Tienen una suma total de 89705524. Sobre American Airlines, podemos observar que tienen una suma de 43864584 millas y un promedio de 1340.2360 millas.
library(nycflights13)
library(dplyr)
view(planes)
view(weather)
summary(flights)
## year month day dep_time sched_dep_time
## Min. :2013 Min. : 1.000 Min. : 1.00 Min. : 1 Min. : 106
## 1st Qu.:2013 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.: 907 1st Qu.: 906
## Median :2013 Median : 7.000 Median :16.00 Median :1401 Median :1359
## Mean :2013 Mean : 6.549 Mean :15.71 Mean :1349 Mean :1344
## 3rd Qu.:2013 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:1744 3rd Qu.:1729
## Max. :2013 Max. :12.000 Max. :31.00 Max. :2400 Max. :2359
## NA's :8255
## dep_delay arr_time sched_arr_time arr_delay
## Min. : -43.00 Min. : 1 Min. : 1 Min. : -86.000
## 1st Qu.: -5.00 1st Qu.:1104 1st Qu.:1124 1st Qu.: -17.000
## Median : -2.00 Median :1535 Median :1556 Median : -5.000
## Mean : 12.64 Mean :1502 Mean :1536 Mean : 6.895
## 3rd Qu.: 11.00 3rd Qu.:1940 3rd Qu.:1945 3rd Qu.: 14.000
## Max. :1301.00 Max. :2400 Max. :2359 Max. :1272.000
## NA's :8255 NA's :8713 NA's :9430
## carrier flight tailnum origin
## Length:336776 Min. : 1 Length:336776 Length:336776
## Class :character 1st Qu.: 553 Class :character Class :character
## Mode :character Median :1496 Mode :character Mode :character
## Mean :1972
## 3rd Qu.:3465
## Max. :8500
##
## dest air_time distance hour
## Length:336776 Min. : 20.0 Min. : 17 Min. : 1.00
## Class :character 1st Qu.: 82.0 1st Qu.: 502 1st Qu.: 9.00
## Mode :character Median :129.0 Median : 872 Median :13.00
## Mean :150.7 Mean :1040 Mean :13.18
## 3rd Qu.:192.0 3rd Qu.:1389 3rd Qu.:17.00
## Max. :695.0 Max. :4983 Max. :23.00
## NA's :9430
## minute time_hour
## Min. : 0.00 Min. :2013-01-01 05:00:00.00
## 1st Qu.: 8.00 1st Qu.:2013-04-04 13:00:00.00
## Median :29.00 Median :2013-07-03 10:00:00.00
## Mean :26.23 Mean :2013-07-03 05:22:54.64
## 3rd Qu.:44.00 3rd Qu.:2013-10-01 07:00:00.00
## Max. :59.00 Max. :2013-12-31 23:00:00.00
##
vuelos <- select(flights, flight, carrier, origin, dest)
head(vuelos)
## # A tibble: 6 × 4
## flight carrier origin dest
## <int> <chr> <chr> <chr>
## 1 1545 UA EWR IAH
## 2 1714 UA LGA IAH
## 3 1141 AA JFK MIA
## 4 725 B6 JFK BQN
## 5 461 DL LGA ATL
## 6 1696 UA EWR ORD
aerolinea <- vuelos %>% left_join(airlines, by = "carrier")
count(vuelos, dest, sort=TRUE)
## # A tibble: 105 × 2
## dest n
## <chr> <int>
## 1 ORD 17283
## 2 ATL 17215
## 3 LAX 16174
## 4 BOS 15508
## 5 MCO 14082
## 6 CLT 14064
## 7 SFO 13331
## 8 FLL 12055
## 9 MIA 11728
## 10 DCA 9705
## # ℹ 95 more rows
nombre_aerolinea <- vuelos %>% left_join(airlines, by ="carrier")
horarios <- select(flights, carrier, dest, hour)
head(horarios)
## # A tibble: 6 × 3
## carrier dest hour
## <chr> <chr> <dbl>
## 1 UA IAH 5
## 2 UA IAH 5
## 3 AA MIA 5
## 4 B6 BQN 5
## 5 DL ATL 6
## 6 UA ORD 5
#horarios$categoria <- if(flights$hour>=6 && hour<12)
#head(horarios)
# horas <- filter(hour >= "1" & hour <= "9")
horas <- flights %>% group_by(carrier, dest, hour) %>% summarise(Vuelos_totales = n())
## `summarise()` has grouped output by 'carrier', 'dest'. You can override using
## the `.groups` argument.
horas
## # A tibble: 2,359 × 4
## # Groups: carrier, dest [314]
## carrier dest hour Vuelos_totales
## <chr> <chr> <dbl> <int>
## 1 9E ATL 6 55
## 2 9E ATL 7 1
## 3 9E ATL 9 2
## 4 9E ATL 11 1
## 5 9E AUS 16 2
## 6 9E AVL 9 8
## 7 9E AVL 11 2
## 8 9E BGR 21 1
## 9 9E BNA 8 4
## 10 9E BNA 11 2
## # ℹ 2,349 more rows
CantidadVuelos <- horarios %>% count(carrier, dest, hour, name ="Cantidad de vuelos")
CantidadVuelos <- CantidadVuelos %>% arrange(desc("Cantidad de vuelos"))
head(CantidadVuelos)
## # A tibble: 6 × 4
## carrier dest hour `Cantidad de vuelos`
## <chr> <chr> <dbl> <int>
## 1 9E ATL 6 55
## 2 9E ATL 7 1
## 3 9E ATL 9 2
## 4 9E ATL 11 1
## 5 9E AUS 16 2
## 6 9E AVL 9 8
AAmadrugada <- CantidadVuelos %>% filter(carrier == "American Airlines Inc.", hour >= 0, hour < 6)
AAmadrugada
## # A tibble: 0 × 4
## # ℹ 4 variables: carrier <chr>, dest <chr>, hour <dbl>,
## # Cantidad de vuelos <int>
aviones_AA <- select(planes, type, engine, seats)
aviones_AA <- merge(aviones_AA, planes)
vuelos_por_avion <- aviones_AA %>% filter(!is.na(type)) %>% count(type, name="Cantidad de vuelos")
head(aviones_AA)
## type engine seats tailnum year manufacturer
## 1 Fixed wing multi engine Reciprocating 102 N381AA 1956 DOUGLAS
## 2 Fixed wing multi engine Reciprocating 6 N364AA 1973 CESSNA
## 3 Fixed wing multi engine Reciprocating 8 N525AA 1980 PIPER
## 4 Fixed wing multi engine Reciprocating 8 N350AA 1980 PIPER
## 5 Fixed wing multi engine Reciprocating 8 N202AA 1980 CESSNA
## 6 Fixed wing multi engine Reciprocating 8 N525AA 1980 PIPER
## model engines speed
## 1 DC-7BF 4 232
## 2 310Q 2 167
## 3 PA-31-350 2 162
## 4 PA-31-350 2 162
## 5 421C 2 90
## 6 PA-31-350 2 162
df13 <- flights %>% select(dep_delay, arr_delay)
summary(df13)
## dep_delay arr_delay
## Min. : -43.00 Min. : -86.000
## 1st Qu.: -5.00 1st Qu.: -17.000
## Median : -2.00 Median : -5.000
## Mean : 12.64 Mean : 6.895
## 3rd Qu.: 11.00 3rd Qu.: 14.000
## Max. :1301.00 Max. :1272.000
## NA's :8255 NA's :9430
ggplot() +
geom_point(mapping = aes(x = dep_delay, y = arr_delay), data = df13) +
geom_point(
mapping = aes(x = dep_delay, y = arr_delay), data = df13,
colour = 'pink', size = 1)
## Warning: Removed 9430 rows containing missing values or values outside the scale range
## (`geom_point()`).
## Removed 9430 rows containing missing values or values outside the scale range
## (`geom_point()`).
temp <- filter(weather, origin=="EWR")
tendencia_temp <- filter(temp, day <= 15)
plot(tendencia_temp$day, tendencia_temp$temp, type="p")
ggplot(weather, aes(x = temp)) +
geom_histogram(bins = 30, fill = "pink", color = "deeppink") +
labs(title = "Histograma de la temperatura en Enero", x = "Temperatura (°F)", y = "Frecuencia")
## Warning: Removed 1 row containing non-finite outside the scale range
## (`stat_bin()`).
weather %>%
ggplot(aes(x = temp)) +
geom_histogram(bins = 30) +
facet_wrap(~month) +
labs(title = "Temperatura por mes", x = "Temperatura (°F)", y = "Frecuencia")
## Warning: Removed 1 row containing non-finite outside the scale range
## (`stat_bin()`).
flights %>%
filter(origin %in% c("JFK", "LGA", "EWR")) %>%
group_by(carrier) %>%
summarise(count = n()) %>%
ggplot(aes(x = reorder(carrier, -count), y = count)) +
geom_bar(stat = "identity", fill = "lightblue") +
labs(title = "Número de vuelos por aerolínea en 2013", x = "Aerolínea", y = "Cantidad de vuelos") +
theme(axis.text.x = element_text(angle = 90, hjust = 1))
flights %>%
filter(origin %in% c("JFK", "LGA", "EWR")) %>%
group_by(carrier) %>%
summarise(count = n()) %>%
ggplot(aes(x = "", y = count, fill = carrier)) +
geom_bar(stat = "identity", width = 1) +
coord_polar("y") +
labs(title = "Vuelos por aerolínea en 2013", fill = "Aerolínea") +
theme_minimal()
relacion <- merge(flights,airlines, by="carrier")
relacion <- left_join(relacion,planes, by="tailnum")
relacion <- left_join(relacion,weather, by=c("origin","time_hour"))
cinco_carriers <- flights %>%
group_by(carrier) %>%
summarise(count = n()) %>%
arrange(desc(count)) %>%
slice(1:5) %>%
ungroup() %>%
select(carrier)
vuelos_cinco_carriers <- relacion %>%
filter(carrier %in% cinco_carriers$carrier)
1.-
ggplot(vuelos_cinco_carriers, aes(x = carrier, fill = carrier)) +
geom_bar() +
labs(title = "Cantidad de vuelos por aerolínea", x = "Aerolínea", y = "Cantidad de vuelos") +
theme_minimal()
2.-
ggplot(vuelos_cinco_carriers, aes(x = dest, fill = carrier)) +
geom_bar() +
labs(title = "Cantidad de vuelos por destino", x = "Destino", y = "Cantidad de vuelos") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 90, hjust = 1))
3.-
vuelos_cinco_carriers %>%
group_by(day.x) %>%
summarise(count = n()) %>%
ggplot(aes(x = day.x, y = count)) +
geom_bar(stat = "identity", fill = "lightblue") +
labs(title = "Cantidad de vuelos por día del mes", x = "Día del mes", y = "Cantidad de vuelos") +
theme_minimal()
ggplot(vuelos_cinco_carriers, aes(x = factor(day.x), fill = carrier)) +
geom_bar() +
labs(title = "Cantidad de vuelos por día del mes", x = "Día del mes", y = "Cantidad de vuelos") +
theme_minimal()
Conclusión
En este trabajo que realizamos análisis sobre los retrasos en los vuelos que despegan de los aeropuertos EWR, JFK y LGA en Nueva York hacia otros destinos en los Estados Unidos están influenciados por una gran variedad de factores, entre los cuales se encuentran: congestión del tráfico aéreo, problemas técnicos y condiciones meteorológicas adversas. Además, gracias a los analisis que hicimos, se puede notar una clara diferencia en los tiempos y porcentajes de retraso entre los vuelos de la mañana y losvuelos de la tarde. Los datos y el análisis de estos revelan que tanto el tiempo de retraso en la salida (dep_delay) como en la llegada (arr_delay) varían de una forma muy visible, siendo que los vuelos de la mañana están entre -43 minutos para la salida del avión y -86 minutos para su llegada, mientras que en la tarde hay un promedio de 1301 minutos para la salida, y entre 1272 minutos para la llegada. Estos retrasos pueden ser atribuidos a una serie de causas, desde problemas técnicos y logísticos hasta factores externos como el clima y la congestión del tráfico aéreo. Sin embargo, es irrefutable que los vuelos que se efectúan en la tarde tienden a experimentar retrasos más grandes y ocurrentes, con un tiempo promedio de 22 minutos y un porcentaje de retraso del 49%, a gran diferencia de los vuelos de las mañanas que tienen tiempos de retraso de entre 1:16 y 1:48 minutos junto con un porcentaje de retraso del 21.7%. Estos patrones encontrados dentro de los datos y la analización de estos nos dicen que la hora del día puede desempeñar un papel crucial en la probabilidad de los retrasos en los vuelos junto con la duración de estos. Todo este razonamiento se evidencia del análisis detallado de los datos de vuelo, los cuales proporcionan información sobre los tiempos de retraso, las causas potenciales y la distribución de los retrasos a lo largo del día.
La integridad nos permite actuar de manera honesta en toda situación y de esta manera mantener la coherencia entre lo que se piensa, dice y hace. En un contexto empresarial, integridad significa transparencia y decencia a principios morales y legales en todas las acciones y decisiones.
Bibliografía: Jones, T. M. (1991). Ethical decision making by individuals in organizations: An issue-contingent model. Academy of Management Review, 16(2), 366-395. Treviño, L. K., & Nelson, K. A. (2016). Managing business ethics: Straight talk about how to do it right. John Wiley & Sons. Duska, R., Duska, B., & Ragatz, J. A. (2011). Accounting ethics (Vol. 2). John Wiley & Sons.