# Evidencia. Etapa 1 ## Contexto El paquete nycflights13 contiene información sobre todos los vuelos que partieron desde New York (EWR, JFK y LGA) a destinos en los Estados Unidos en 2013. Fueron 336,776 vuelos en total. Para ayudar a comprender las causas de los retrasos, también incluye otros conjuntos de datos útiles.

Fuente:
Origen de los datos

Este paquete incluye las siguientes tablas:

  • flights = todos los vuelos que salieron de NY en 2013.
  • weather = datos meteorológicos por hora de cada aeropuerto.
  • planes = información de contrucción de cada avión.
  • airports = nombres y ubicaciones de aeropuertos.
  • airlines = relación entre nombres y códigos de las aerolineas.

Instalar paquetes y llamar librerías

# install.packages("nycflights13")
library(nycflights13)
# install.packages("tidyverse")
library(tidyverse)
## Warning: package 'tidyverse' was built under R version 4.3.3
## Warning: package 'ggplot2' was built under R version 4.3.3
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.0     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.1
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
# library(dplyr)
library(dplyr)

Guardar base de datos

flights <- flights
weather <- weather
planes <- planes
airports <- airports
airlines <- airlines

Relación entre las bases de datos

1. Cargar en memoria la tabla “flights” y mostrar su contenido

# La carga a memoria se hizo en el paso anterior. 
flights 
## # A tibble: 336,776 × 19
##     year month   day dep_time sched_dep_time dep_delay arr_time sched_arr_time
##    <int> <int> <int>    <int>          <int>     <dbl>    <int>          <int>
##  1  2013     1     1      517            515         2      830            819
##  2  2013     1     1      533            529         4      850            830
##  3  2013     1     1      542            540         2      923            850
##  4  2013     1     1      544            545        -1     1004           1022
##  5  2013     1     1      554            600        -6      812            837
##  6  2013     1     1      554            558        -4      740            728
##  7  2013     1     1      555            600        -5      913            854
##  8  2013     1     1      557            600        -3      709            723
##  9  2013     1     1      557            600        -3      838            846
## 10  2013     1     1      558            600        -2      753            745
## # ℹ 336,766 more rows
## # ℹ 11 more variables: arr_delay <dbl>, carrier <chr>, flight <int>,
## #   tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>,
## #   hour <dbl>, minute <dbl>, time_hour <dttm>

2. Consulta la estructura de “flights”

str(flights)
## tibble [336,776 × 19] (S3: tbl_df/tbl/data.frame)
##  $ year          : int [1:336776] 2013 2013 2013 2013 2013 2013 2013 2013 2013 2013 ...
##  $ month         : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
##  $ day           : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
##  $ dep_time      : int [1:336776] 517 533 542 544 554 554 555 557 557 558 ...
##  $ sched_dep_time: int [1:336776] 515 529 540 545 600 558 600 600 600 600 ...
##  $ dep_delay     : num [1:336776] 2 4 2 -1 -6 -4 -5 -3 -3 -2 ...
##  $ arr_time      : int [1:336776] 830 850 923 1004 812 740 913 709 838 753 ...
##  $ sched_arr_time: int [1:336776] 819 830 850 1022 837 728 854 723 846 745 ...
##  $ arr_delay     : num [1:336776] 11 20 33 -18 -25 12 19 -14 -8 8 ...
##  $ carrier       : chr [1:336776] "UA" "UA" "AA" "B6" ...
##  $ flight        : int [1:336776] 1545 1714 1141 725 461 1696 507 5708 79 301 ...
##  $ tailnum       : chr [1:336776] "N14228" "N24211" "N619AA" "N804JB" ...
##  $ origin        : chr [1:336776] "EWR" "LGA" "JFK" "JFK" ...
##  $ dest          : chr [1:336776] "IAH" "IAH" "MIA" "BQN" ...
##  $ air_time      : num [1:336776] 227 227 160 183 116 150 158 53 140 138 ...
##  $ distance      : num [1:336776] 1400 1416 1089 1576 762 ...
##  $ hour          : num [1:336776] 5 5 5 5 6 5 6 6 6 6 ...
##  $ minute        : num [1:336776] 15 29 40 45 0 58 0 0 0 0 ...
##  $ time_hour     : POSIXct[1:336776], format: "2013-01-01 05:00:00" "2013-01-01 05:00:00" ...
#int: entero (sin decimales)
#num: numérico (con decimales)
#cgr: caractér (letras)
#date: fecha (en R va año-mes-día)
#POSIXct: formato fecha y hora

3. ¿Cuál es la clase de “flights” y qué significa?

class(flights)
## [1] "tbl_df"     "tbl"        "data.frame"
#Las 5 clases de objetos son:
  # 1. numeric: número real o decimales.  
  # 2. integer: número entero.  
  # 3. complex: número complejo.
  # 4. character: caracteres, texto.
  # 5. logical: TRUE o FALSE.

# Las 4 clases de objetos compuestos son:  
  # 1. list: lista
  # 2. matrix: matriz
  # 3. array: colección de objetos
  # 4. data.frame: base de datos

4. ¿Cuántas columnas y renglones tiene “flights”? ¿Cuál es su dimensión?

#Número de columnas
ncol(flights)
## [1] 19
#Número de renglones
nrow(flights)
## [1] 336776
#Número de dimensión
dim(flights)
## [1] 336776     19

5. Muestra los primeros 6 renglones de “flights”, También los últimos 6

head(flights)
## # A tibble: 6 × 19
##    year month   day dep_time sched_dep_time dep_delay arr_time sched_arr_time
##   <int> <int> <int>    <int>          <int>     <dbl>    <int>          <int>
## 1  2013     1     1      517            515         2      830            819
## 2  2013     1     1      533            529         4      850            830
## 3  2013     1     1      542            540         2      923            850
## 4  2013     1     1      544            545        -1     1004           1022
## 5  2013     1     1      554            600        -6      812            837
## 6  2013     1     1      554            558        -4      740            728
## # ℹ 11 more variables: arr_delay <dbl>, carrier <chr>, flight <int>,
## #   tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>,
## #   hour <dbl>, minute <dbl>, time_hour <dttm>
tail(flights)
## # A tibble: 6 × 19
##    year month   day dep_time sched_dep_time dep_delay arr_time sched_arr_time
##   <int> <int> <int>    <int>          <int>     <dbl>    <int>          <int>
## 1  2013     9    30       NA           1842        NA       NA           2019
## 2  2013     9    30       NA           1455        NA       NA           1634
## 3  2013     9    30       NA           2200        NA       NA           2312
## 4  2013     9    30       NA           1210        NA       NA           1330
## 5  2013     9    30       NA           1159        NA       NA           1344
## 6  2013     9    30       NA            840        NA       NA           1020
## # ℹ 11 more variables: arr_delay <dbl>, carrier <chr>, flight <int>,
## #   tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>,
## #   hour <dbl>, minute <dbl>, time_hour <dttm>
#Si quisieramos 7 renglones: head(flights, 7)

6. Muestra los estadísticos descriptivos de “flights”

summary(flights)
##       year          month             day           dep_time    sched_dep_time
##  Min.   :2013   Min.   : 1.000   Min.   : 1.00   Min.   :   1   Min.   : 106  
##  1st Qu.:2013   1st Qu.: 4.000   1st Qu.: 8.00   1st Qu.: 907   1st Qu.: 906  
##  Median :2013   Median : 7.000   Median :16.00   Median :1401   Median :1359  
##  Mean   :2013   Mean   : 6.549   Mean   :15.71   Mean   :1349   Mean   :1344  
##  3rd Qu.:2013   3rd Qu.:10.000   3rd Qu.:23.00   3rd Qu.:1744   3rd Qu.:1729  
##  Max.   :2013   Max.   :12.000   Max.   :31.00   Max.   :2400   Max.   :2359  
##                                                  NA's   :8255                 
##    dep_delay          arr_time    sched_arr_time   arr_delay       
##  Min.   : -43.00   Min.   :   1   Min.   :   1   Min.   : -86.000  
##  1st Qu.:  -5.00   1st Qu.:1104   1st Qu.:1124   1st Qu.: -17.000  
##  Median :  -2.00   Median :1535   Median :1556   Median :  -5.000  
##  Mean   :  12.64   Mean   :1502   Mean   :1536   Mean   :   6.895  
##  3rd Qu.:  11.00   3rd Qu.:1940   3rd Qu.:1945   3rd Qu.:  14.000  
##  Max.   :1301.00   Max.   :2400   Max.   :2359   Max.   :1272.000  
##  NA's   :8255      NA's   :8713                  NA's   :9430      
##    carrier              flight       tailnum             origin         
##  Length:336776      Min.   :   1   Length:336776      Length:336776     
##  Class :character   1st Qu.: 553   Class :character   Class :character  
##  Mode  :character   Median :1496   Mode  :character   Mode  :character  
##                     Mean   :1972                                        
##                     3rd Qu.:3465                                        
##                     Max.   :8500                                        
##                                                                         
##      dest              air_time        distance         hour      
##  Length:336776      Min.   : 20.0   Min.   :  17   Min.   : 1.00  
##  Class :character   1st Qu.: 82.0   1st Qu.: 502   1st Qu.: 9.00  
##  Mode  :character   Median :129.0   Median : 872   Median :13.00  
##                     Mean   :150.7   Mean   :1040   Mean   :13.18  
##                     3rd Qu.:192.0   3rd Qu.:1389   3rd Qu.:17.00  
##                     Max.   :695.0   Max.   :4983   Max.   :23.00  
##                     NA's   :9430                                  
##      minute        time_hour                     
##  Min.   : 0.00   Min.   :2013-01-01 05:00:00.00  
##  1st Qu.: 8.00   1st Qu.:2013-04-04 13:00:00.00  
##  Median :29.00   Median :2013-07-03 10:00:00.00  
##  Mean   :26.23   Mean   :2013-07-03 05:22:54.64  
##  3rd Qu.:44.00   3rd Qu.:2013-10-01 07:00:00.00  
##  Max.   :59.00   Max.   :2013-12-31 23:00:00.00  
## 

Conclusión

En este código podemos ver lo que es un conjunto de datos, el cual tiene información acerca de los vuelos que salen desde Nueva York en el año 2013. A través de la carga de paquetes y datos relevantes, iniciamos un proceso de comprensión y análisis. El resumen estadístico que se hizo revela cosas importantes sobre variables clave, como los tiempos de salida y llegada, así como los posibles retrasos de los aviones tanto de salida como de aterrizaje. Aquí es donde podemos ver los principales patrones de comportamiento, factores de influencia y áreas de interés sobre todos estos datos. Esto es sumamente fundamental para entender la naturaleza y el alcance de los datos que tenemos, ver qué podemos hacer con ellos y qué nos dicen hasta ahora.

Etapa2. Manipulación de Datos

1. Consulta el data frame flights para recordar su contenido.

view(flights)

2. Encuentra los datos descriptivos del data frame flights. Identifica la media de las distancias recorridas en millas.

summary(flights)
##       year          month             day           dep_time    sched_dep_time
##  Min.   :2013   Min.   : 1.000   Min.   : 1.00   Min.   :   1   Min.   : 106  
##  1st Qu.:2013   1st Qu.: 4.000   1st Qu.: 8.00   1st Qu.: 907   1st Qu.: 906  
##  Median :2013   Median : 7.000   Median :16.00   Median :1401   Median :1359  
##  Mean   :2013   Mean   : 6.549   Mean   :15.71   Mean   :1349   Mean   :1344  
##  3rd Qu.:2013   3rd Qu.:10.000   3rd Qu.:23.00   3rd Qu.:1744   3rd Qu.:1729  
##  Max.   :2013   Max.   :12.000   Max.   :31.00   Max.   :2400   Max.   :2359  
##                                                  NA's   :8255                 
##    dep_delay          arr_time    sched_arr_time   arr_delay       
##  Min.   : -43.00   Min.   :   1   Min.   :   1   Min.   : -86.000  
##  1st Qu.:  -5.00   1st Qu.:1104   1st Qu.:1124   1st Qu.: -17.000  
##  Median :  -2.00   Median :1535   Median :1556   Median :  -5.000  
##  Mean   :  12.64   Mean   :1502   Mean   :1536   Mean   :   6.895  
##  3rd Qu.:  11.00   3rd Qu.:1940   3rd Qu.:1945   3rd Qu.:  14.000  
##  Max.   :1301.00   Max.   :2400   Max.   :2359   Max.   :1272.000  
##  NA's   :8255      NA's   :8713                  NA's   :9430      
##    carrier              flight       tailnum             origin         
##  Length:336776      Min.   :   1   Length:336776      Length:336776     
##  Class :character   1st Qu.: 553   Class :character   Class :character  
##  Mode  :character   Median :1496   Mode  :character   Mode  :character  
##                     Mean   :1972                                        
##                     3rd Qu.:3465                                        
##                     Max.   :8500                                        
##                                                                         
##      dest              air_time        distance         hour      
##  Length:336776      Min.   : 20.0   Min.   :  17   Min.   : 1.00  
##  Class :character   1st Qu.: 82.0   1st Qu.: 502   1st Qu.: 9.00  
##  Mode  :character   Median :129.0   Median : 872   Median :13.00  
##                     Mean   :150.7   Mean   :1040   Mean   :13.18  
##                     3rd Qu.:192.0   3rd Qu.:1389   3rd Qu.:17.00  
##                     Max.   :695.0   Max.   :4983   Max.   :23.00  
##                     NA's   :9430                                  
##      minute        time_hour                     
##  Min.   : 0.00   Min.   :2013-01-01 05:00:00.00  
##  1st Qu.: 8.00   1st Qu.:2013-04-04 13:00:00.00  
##  Median :29.00   Median :2013-07-03 10:00:00.00  
##  Mean   :26.23   Mean   :2013-07-03 05:22:54.64  
##  3rd Qu.:44.00   3rd Qu.:2013-10-01 07:00:00.00  
##  Max.   :59.00   Max.   :2013-12-31 23:00:00.00  
## 

La media de la distancia recorrida es de 1040 millas.

Data frame que filtre solamente a las aeorlíneas que han recorrido una distancia superior a la media, se desean ver los campos carrier, distance, origin, dest en forma descendente por distance.

aerolineas_distancia = select(flights, carrier, distance, origin, dest)
aerolineas_mayor_mean = filter(aerolineas_distancia, distance > 1040)
aerolineas_mayor_desc = arrange(aerolineas_mayor_mean, desc(distance))

Encuentra la suma y la media de las distancias recorridas por carrier, elimina los NA’S e interpreta que significa la suma y la media de las distancias recorridas.

distancias <- flights %>% group_by(carrier) %>%
summarize(suma = sum(distance, na.rm = TRUE), media = mean(distance, na.rm = TRUE))
distancias_orden <- arrange(distancias, desc(distancias))
print(distancias)
## # A tibble: 16 × 3
##    carrier     suma media
##    <chr>      <dbl> <dbl>
##  1 9E       9788152  530.
##  2 AA      43864584 1340.
##  3 AS       1715028 2402 
##  4 B6      58384137 1069.
##  5 DL      59507317 1237.
##  6 EV      30498951  563.
##  7 F9       1109700 1620 
##  8 FL       2167344  665.
##  9 HA       1704186 4983 
## 10 MQ      15033955  570.
## 11 OO         16026  501.
## 12 UA      89705524 1529.
## 13 US      11365778  553.
## 14 VX      12902327 2499.
## 15 WN      12229203  996.
## 16 YV        225395  375.

Resultados: Observando esta última tabla pudimos observar los datos que nos permiten ver cuales son las aerolineas más popluares en cada uno de los aeropuertos de Nueva York. También con el promedio obtenido podemos identificar cual es la distancia media recorrida por vuelo de cada compañía aérea. Este df nos permite ver que United Airlines es una de las aerolíneas con los viajes con mayor distancia. Tienen una suma total de 89705524. Sobre American Airlines, podemos observar que tienen una suma de 43864584 millas y un promedio de 1340.2360 millas.

Identifica si las aerolíneas líderes son las mismas en los tres aeropuertos cuyo origen es Nueva York ( John F. Kennedy (JFK), LaGuardia (LGA) and Newark Liberty (EWR) ).

JFK

JFK_flights <- flights %>%
  filter(origin == "JFK") %>%
  group_by(carrier) %>%
  summarise(total_flights = n())

# Identificar la aerolínea líder en JFK
JFK_leader <- JFK_flights %>%
  arrange(desc(total_flights)) %>%
  slice(1) %>%
  pull(carrier)

# Contar el número de vuelos por aerolínea para LGA
LGA_flights <- flights %>%
  filter(origin == "LGA") %>%
  group_by(carrier) %>%
  summarise(total_flights = n())

# Identificar la aerolínea líder en LGA
LGA_leader <- LGA_flights %>%
  arrange(desc(total_flights)) %>%
  slice(1) %>%
  pull(carrier)

# Contar el número de vuelos por aerolínea para EWR
EWR_flights <- flights %>%
  filter(origin == "EWR") %>%
  group_by(carrier) %>%
  summarise(total_flights = n())

# Identificar la aerolínea líder en EWR
EWR_leader <- EWR_flights %>%
  arrange(desc(total_flights)) %>%
  slice(1) %>%
  pull(carrier)

# Comparar las aerolíneas líderes en los tres aeropuertos
if (JFK_leader == LGA_leader && JFK_leader == EWR_leader) {
  cat("Las aerolíneas líderes son las mismas en los tres aeropuertos.")
} else {
  cat("Las aerolíneas líderes no son las mismas en los tres aeropuertos.")
}
## Las aerolíneas líderes no son las mismas en los tres aeropuertos.

En el aeropuerto de JFK, B6 JetBlue Airways es la aerolínea con mayor número de vuelos con un total de 19378.

LGA

LGA_flights <- flights %>%
  filter(origin == "LGA") %>%
  group_by(carrier) %>%
  summarise(total_flights = n())

# Identificar la aerolínea líder en LGA
LGA_leader <- LGA_flights %>%
  arrange(desc(total_flights)) %>%
  slice(1) %>%
  pull(carrier)

LGA_leader
## [1] "DL"

En la Guardia, American Airlines tiene la primera posicón con un total de 8781 en número de vuelos.

EWR

# Contar el número de vuelos por aerolínea para EWR
EWR_flights <- flights %>%
  filter(origin == "EWR") %>%
  group_by(carrier) %>%
  summarise(total_flights = n())

# Identificar la aerolínea líder en EWR
EWR_leader <- EWR_flights %>%
  arrange(desc(total_flights)) %>%
  slice(1) %>%
  pull(carrier)

EWR_leader
## [1] "UA"

En Newark Liberty International, United Airlines tiene el mayor número de vuelos con un total de 30183.

Conclusión

Evidencia 2 - Analítica descriptiva

Modelo Entidad-Relación

Consulta y explora el data frame planes y weather para que conozcas su contenido.

library(nycflights13)
library(dplyr)

view(planes)
view(weather)

Se necesita saber de cada vuelo, la aerolínea, el aeropuerto de origen y el aeropuerto destino.

summary(flights)
##       year          month             day           dep_time    sched_dep_time
##  Min.   :2013   Min.   : 1.000   Min.   : 1.00   Min.   :   1   Min.   : 106  
##  1st Qu.:2013   1st Qu.: 4.000   1st Qu.: 8.00   1st Qu.: 907   1st Qu.: 906  
##  Median :2013   Median : 7.000   Median :16.00   Median :1401   Median :1359  
##  Mean   :2013   Mean   : 6.549   Mean   :15.71   Mean   :1349   Mean   :1344  
##  3rd Qu.:2013   3rd Qu.:10.000   3rd Qu.:23.00   3rd Qu.:1744   3rd Qu.:1729  
##  Max.   :2013   Max.   :12.000   Max.   :31.00   Max.   :2400   Max.   :2359  
##                                                  NA's   :8255                 
##    dep_delay          arr_time    sched_arr_time   arr_delay       
##  Min.   : -43.00   Min.   :   1   Min.   :   1   Min.   : -86.000  
##  1st Qu.:  -5.00   1st Qu.:1104   1st Qu.:1124   1st Qu.: -17.000  
##  Median :  -2.00   Median :1535   Median :1556   Median :  -5.000  
##  Mean   :  12.64   Mean   :1502   Mean   :1536   Mean   :   6.895  
##  3rd Qu.:  11.00   3rd Qu.:1940   3rd Qu.:1945   3rd Qu.:  14.000  
##  Max.   :1301.00   Max.   :2400   Max.   :2359   Max.   :1272.000  
##  NA's   :8255      NA's   :8713                  NA's   :9430      
##    carrier              flight       tailnum             origin         
##  Length:336776      Min.   :   1   Length:336776      Length:336776     
##  Class :character   1st Qu.: 553   Class :character   Class :character  
##  Mode  :character   Median :1496   Mode  :character   Mode  :character  
##                     Mean   :1972                                        
##                     3rd Qu.:3465                                        
##                     Max.   :8500                                        
##                                                                         
##      dest              air_time        distance         hour      
##  Length:336776      Min.   : 20.0   Min.   :  17   Min.   : 1.00  
##  Class :character   1st Qu.: 82.0   1st Qu.: 502   1st Qu.: 9.00  
##  Mode  :character   Median :129.0   Median : 872   Median :13.00  
##                     Mean   :150.7   Mean   :1040   Mean   :13.18  
##                     3rd Qu.:192.0   3rd Qu.:1389   3rd Qu.:17.00  
##                     Max.   :695.0   Max.   :4983   Max.   :23.00  
##                     NA's   :9430                                  
##      minute        time_hour                     
##  Min.   : 0.00   Min.   :2013-01-01 05:00:00.00  
##  1st Qu.: 8.00   1st Qu.:2013-04-04 13:00:00.00  
##  Median :29.00   Median :2013-07-03 10:00:00.00  
##  Mean   :26.23   Mean   :2013-07-03 05:22:54.64  
##  3rd Qu.:44.00   3rd Qu.:2013-10-01 07:00:00.00  
##  Max.   :59.00   Max.   :2013-12-31 23:00:00.00  
## 
vuelos <- select(flights, flight, carrier, origin, dest)
head(vuelos)
## # A tibble: 6 × 4
##   flight carrier origin dest 
##    <int> <chr>   <chr>  <chr>
## 1   1545 UA      EWR    IAH  
## 2   1714 UA      LGA    IAH  
## 3   1141 AA      JFK    MIA  
## 4    725 B6      JFK    BQN  
## 5    461 DL      LGA    ATL  
## 6   1696 UA      EWR    ORD

En la consulta anterior se necesita conocer el nombre de la aerolínea.

aerolinea <- vuelos %>% left_join(airlines, by = "carrier")

Se necesita saber la cantidad de vuelos por cada destino para identificar cuáles son los destinos más buscados.

# Contar el número de vuelos por cada destino
vuelos_por_destino <- flights %>%
  group_by(dest) %>%
  summarise(num_vuelos = n()) %>%
  arrange(desc(num_vuelos))

# Mostrar los destinos más buscados
head(vuelos_por_destino)
## # A tibble: 6 × 2
##   dest  num_vuelos
##   <chr>      <int>
## 1 ORD        17283
## 2 ATL        17215
## 3 LAX        16174
## 4 BOS        15508
## 5 MCO        14082
## 6 CLT        14064

Agregar el nombre de la aerolínea al data frame anterior.

nombre_aerolinea <- vuelos %>% left_join(airlines, by ="carrier")

Se necesita conocer las aerolíneas (clave y nombre) y destinos que vuelan por la Mañana: de 6 a 12, Tarde: de 12 a 19 , Noche: de 19 a 24 y Madrugada de 24 a 6.

horarios <- select(flights, carrier, dest, hour)
head(horarios)
## # A tibble: 6 × 3
##   carrier dest   hour
##   <chr>   <chr> <dbl>
## 1 UA      IAH       5
## 2 UA      IAH       5
## 3 AA      MIA       5
## 4 B6      BQN       5
## 5 DL      ATL       6
## 6 UA      ORD       5
#horarios$categoria <- if(flights$hour>=6 && hour<12)
#head(horarios)

Se necesita saber la cantidad de vuelos por aerolínea y destino que hay por la Mañana, Tarde, Noche y Madrugada.

# Definir función para clasificar los momentos del día
clasificar_momento_dia <- function(hora) {
  momento <- rep(NA, length(hora))
  momento[hora >= 5 & hora < 12] <- "Mañana"
  momento[hora >= 12 & hora < 18] <- "Tarde"
  momento[hora >= 18 & hora < 24] <- "Noche"
  momento[hora >= 0 & hora < 5] <- "Madrugada"
  return(momento)
}

Se necesita saber a qué destinos vuela la aerolínea American Airlines Inc.-AA durante la madrugada.

# Filtrar los vuelos de American Airlines Inc.-AA durante la madrugada
destinos_madrugada_AA <- flights %>%
  filter(carrier == "AA", hour >= 0 & hour < 5) %>%
  group_by(dest) %>%
  summarise(num_vuelos = n()) %>%
  arrange(desc(num_vuelos))

# Mostrar los destinos más comunes durante la madrugada para American Airlines Inc.-AA
destinos_madrugada_AA
## # A tibble: 0 × 2
## # ℹ 2 variables: dest <chr>, num_vuelos <int>

¿Qué aviones utiliza la aerolínea AA? aerolínea, tipo, motor y número de asientos y ¿Cuántos vuelos se han realizado con cada uno? elimina los NA’s

aviones_AA <- flights %>%
  filter(carrier == "AA") %>%
  left_join(planes, by = "tailnum") %>%
  select(carrier, type, engine, seats, tailnum) %>%
  na.omit() %>%
  group_by(type, engine, seats, tailnum) %>%
  summarise(num_vuelos = n()) %>%
  arrange(desc(num_vuelos))
## `summarise()` has grouped output by 'type', 'engine', 'seats'. You can override
## using the `.groups` argument.
# Mostrar la información sobre los aviones utilizados por la aerolínea AA
aviones_AA
## # A tibble: 171 × 5
## # Groups:   type, engine, seats [22]
##    type                    engine    seats tailnum num_vuelos
##    <chr>                   <chr>     <int> <chr>        <int>
##  1 Fixed wing multi engine Turbo-fan   255 N328AA         393
##  2 Fixed wing multi engine Turbo-fan   255 N338AA         388
##  3 Fixed wing multi engine Turbo-fan   255 N327AA         387
##  4 Fixed wing multi engine Turbo-fan   255 N335AA         385
##  5 Fixed wing multi engine Turbo-fan   255 N323AA         357
##  6 Fixed wing multi engine Turbo-fan   255 N319AA         354
##  7 Fixed wing multi engine Turbo-fan   255 N336AA         353
##  8 Fixed wing multi engine Turbo-fan   255 N329AA         344
##  9 Fixed wing multi engine Turbo-fan   255 N324AA         328
## 10 Fixed wing multi engine Turbo-fan   255 N332AA         328
## # ℹ 161 more rows

Visualización de datos

Se solicita analizar para la aerolínea American Airlines si los vuelos que tienen retraso en la partida también tienen retraso en la hora de llegada.

df13 <- flights %>% select(dep_delay, arr_delay)
summary(df13)
##    dep_delay         arr_delay       
##  Min.   : -43.00   Min.   : -86.000  
##  1st Qu.:  -5.00   1st Qu.: -17.000  
##  Median :  -2.00   Median :  -5.000  
##  Mean   :  12.64   Mean   :   6.895  
##  3rd Qu.:  11.00   3rd Qu.:  14.000  
##  Max.   :1301.00   Max.   :1272.000  
##  NA's   :8255      NA's   :9430
ggplot() +
  geom_point(mapping = aes(x = dep_delay, y = arr_delay), data = df13) +
  geom_point(
    mapping = aes(x = dep_delay, y = arr_delay), data = df13,
    colour = 'pink', size = 1)
## Warning: Removed 9430 rows containing missing values or values outside the scale range
## (`geom_point()`).
## Removed 9430 rows containing missing values or values outside the scale range
## (`geom_point()`).

Visualiza la tendencia de la temperatura durante los primeros 15 días del mes de Enero en los vuelos que parten del aeropuerto “Newark, EWR”, utilizar una gráfica de línea.

temp <- filter(weather, origin=="EWR")
tendencia_temp <- filter(temp, day <= 15)

plot(tendencia_temp$day, tendencia_temp$temp, type="p")

Visualiza la temperatura más frecuente en los primeros 15 días del mes de Enero, utilizar un histrograma.

ggplot(weather, aes(x = temp)) +
  geom_histogram(bins = 30, fill = "pink", color = "deeppink") +
  labs(title = "Histograma de la temperatura en Enero", x = "Temperatura (°F)", y = "Frecuencia")
## Warning: Removed 1 row containing non-finite outside the scale range
## (`stat_bin()`).

Utiliza Facets para observar cómo varía la temperatura en cada mes en él histograma del punto anterior

weather %>% 
  ggplot(aes(x = temp)) +
  geom_histogram(bins = 30) +
  facet_wrap(~month) +
  labs(title = "Temperatura por mes", x = "Temperatura (°F)", y = "Frecuencia")
## Warning: Removed 1 row containing non-finite outside the scale range
## (`stat_bin()`).

Número de vuelos que salieron de Nueva York en 2013 por aerolínea (mostrar solamente las 10 aerolíneas con más vuelos), utilizar gráfica de barras.

flights %>% 
  filter(origin %in% c("JFK", "LGA", "EWR")) %>%
  group_by(carrier) %>%
  summarise(count = n()) %>%
  ggplot(aes(x = reorder(carrier, -count), y = count)) +
  geom_bar(stat = "identity", fill = "lightblue") +
  labs(title = "Número de vuelos por aerolínea en 2013", x = "Aerolínea", y = "Cantidad de vuelos") +
  theme(axis.text.x = element_text(angle = 90, hjust = 1))

Visualiza el punto anterior en una gráfica de pie.

flights %>% 
  filter(origin %in% c("JFK", "LGA", "EWR")) %>%
  group_by(carrier) %>%
  summarise(count = n()) %>%
  ggplot(aes(x = "", y = count, fill = carrier)) +
  geom_bar(stat = "identity", width = 1) +
  coord_polar("y") +
  labs(title = "Vuelos por aerolínea en 2013", fill = "Aerolínea") +
  theme_minimal()

Relaciona el data frame fligths con el data frame airports a través del campo destino ¿cómo lograr estas relación?

relacion <- merge(flights,airlines, by="carrier")
relacion <- left_join(relacion,planes, by="tailnum")
relacion <- left_join(relacion,weather, by=c("origin","time_hour"))

Crea un nuevo data frame con el punto anterior únicamente con los 5 carriers con más vuelos por destino.

cinco_carriers <- flights %>%
  group_by(carrier) %>%
  summarise(count = n()) %>%
  arrange(desc(count)) %>%
  slice(1:5) %>%
  ungroup() %>%
  select(carrier)

vuelos_cinco_carriers <- relacion %>%
  filter(carrier %in% cinco_carriers$carrier)

Visualización del punto anterior de tres formas.

1.-

ggplot(vuelos_cinco_carriers, aes(x = carrier, fill = carrier)) +
  geom_bar() +
  labs(title = "Cantidad de vuelos por aerolínea", x = "Aerolínea", y = "Cantidad de vuelos") +
  theme_minimal()

2.-

ggplot(vuelos_cinco_carriers, aes(x = dest, fill = carrier)) +
  geom_bar() +
  labs(title = "Cantidad de vuelos por destino", x = "Destino", y = "Cantidad de vuelos") +
  theme_minimal() +
theme(axis.text.x = element_text(angle = 90, hjust = 1))

3.-

vuelos_cinco_carriers %>%
  group_by(day.x) %>%
  summarise(count = n()) %>%
  ggplot(aes(x = day.x, y = count)) +
  geom_bar(stat = "identity", fill = "lightblue") +
  labs(title = "Cantidad de vuelos por día del mes", x = "Día del mes", y = "Cantidad de vuelos") +
  theme_minimal()

ggplot(vuelos_cinco_carriers, aes(x = factor(day.x), fill = carrier)) +
  geom_bar() +
  labs(title = "Cantidad de vuelos por día del mes", x = "Día del mes", y = "Cantidad de vuelos") +
  theme_minimal()

Conclusión

En este trabajo que realizamos análisis sobre los retrasos en los vuelos que despegan de los aeropuertos EWR, JFK y LGA en Nueva York hacia otros destinos en los Estados Unidos están influenciados por una gran variedad de factores, entre los cuales se encuentran: congestión del tráfico aéreo, problemas técnicos y condiciones meteorológicas adversas. Además, gracias a los analisis que hicimos, se puede notar una clara diferencia en los tiempos y porcentajes de retraso entre los vuelos de la mañana y losvuelos de la tarde. Los datos y el análisis de estos revelan que tanto el tiempo de retraso en la salida (dep_delay) como en la llegada (arr_delay) varían de una forma muy visible, siendo que los vuelos de la mañana están entre -43 minutos para la salida del avión y -86 minutos para su llegada, mientras que en la tarde hay un promedio de 1301 minutos para la salida, y entre 1272 minutos para la llegada. Estos retrasos pueden ser atribuidos a una serie de causas, desde problemas técnicos y logísticos hasta factores externos como el clima y la congestión del tráfico aéreo. Sin embargo, es irrefutable que los vuelos que se efectúan en la tarde tienden a experimentar retrasos más grandes y ocurrentes, con un tiempo promedio de 22 minutos y un porcentaje de retraso del 49%, a gran diferencia de los vuelos de las mañanas que tienen tiempos de retraso de entre 1:16 y 1:48 minutos junto con un porcentaje de retraso del 21.7%. Estos patrones encontrados dentro de los datos y la analización de estos nos dicen que la hora del día puede desempeñar un papel crucial en la probabilidad de los retrasos en los vuelos junto con la duración de estos. Todo este razonamiento se evidencia del análisis detallado de los datos de vuelo, los cuales proporcionan información sobre los tiempos de retraso, las causas potenciales y la distribución de los retrasos a lo largo del día. # Compromiso ético y ciudadano Definición de integridad académica:

Para mí, la integridad significa no comprometer mis principios éticos incluso cuando enfrento desafíos difíciles o presiones externas. Significa ser honesto en todas mis interacciones, mantener la confidencialidad de la información confiada a mí y tomar decisiones justas y equitativas. La integridad es la forma que tengo de pensar y de qué hago si estoy al frente de una decisión. Qué haré si me veo tentado a quebrantar mis ideales y/o principios de honestidad frente a algo o alguien más. “es hacer lo correcto aun cuando nadie te está observando.” (Human Verification, s. f.) es una frase que dijo el autor Clive Staples Lewis y significa para mí que a partir de mi integridad, aún y cuando nadie me esté viendo o monitoreando de alguna forma, haré lo que sea correcto y lo que yo sé que tengo permitido hacer sin ir más allá de lo que tengo permitido aunque tenga el poder para eso.

Nuestra integridad es algo que nos define totalmente como personas y no solo eso, es algo que define cómo seremos en nuestra vida profesional ya que está presente en cada ámbito y momento de nuestro día a día, a la hora de levantarnos y ser íntegros con nosotros mismos, a la hora de ir a comprar la leche a la tienda y pagar la cantidad correcta o no robar nada, a la hora de ir manejando al trabajo y no pasar ningun algo o algun semaforo y a la hora de estar en mi trabajo o en mi estudio y decidir hacer las cosas correctas para mi y para los demás, hacer las aquellas cosas que no son fáciles o que podría no hacer y tal vez nadie se daría cuenta, aquellas cosas que tienen un atajo o alguna forma de evitarlas, pero sé que no es la forma correcta y sé que debo dar un mejor rol no solo frente a la sociedad sino también a los demás y a mi mismo.

Tener a disposición la información de una empresa conlleva una serie de implicaciones importantes, tanto éticas como legales y profesionales. Algunas de estas implicaciones incluyen: Responsabilidad de confidencialidad: La información de la empresa puede contener datos sensibles y confidenciales, como estrategias comerciales, datos financieros, información de clientes y detalles de productos. Es fundamental respetar la confidencialidad de esta información y no divulgar a terceros sin autorización adecuada. Integridad y ética profesional: Manejar la información de la empresa de manera ética y con integridad es crucial. Esto implica evitar el uso indebido de la información para beneficio personal o para perjudicar a la empresa o a otros individuos. Cumplimiento de normativas y leyes: Es importante cumplir con todas las normativas y leyes relacionadas con la privacidad de datos y la protección de la información confidencial. Esto incluye leyes como el Reglamento General de Protección de Datos (GDPR) en la Unión Europea o la Ley de Portabilidad y Responsabilidad de Seguros Médicos (HIPAA) en Estados Unidos, entre otras. Protección contra el acceso no autorizado: La información de la empresa debe ser protegida contra el acceso no autorizado. Esto implica tomar medidas de seguridad adecuadas, como el uso de contraseñas seguras, la encriptación de datos y el acceso restringido a la información solo a aquellos empleados que la necesiten para realizar sus funciones. Uso responsable de la información: Utilizar la información de la empresa de manera responsable y ética, en línea con los objetivos y valores de la organización. Esto implica no distorsionar la información ni utilizarla de manera engañosa o fraudulenta.

Bibliografía: Jones, T. M. (1991). Ethical decision making by individuals in organizations: An issue-contingent model. Academy of Management Review, 16(2), 366-395. Treviño, L. K., & Nelson, K. A. (2016). Managing business ethics: Straight talk about how to do it right. John Wiley & Sons. Duska, R., Duska, B., & Ragatz, J. A. (2011). Accounting ethics (Vol. 2). John Wiley & Sons.

