# Evidencia.
Etapa 1 ## Contexto El paquete
nycflights13 contiene información sobre todos los
vuelos que partieron desde New York (EWR, JFK y LGA) a destinos en los
Estados Unidos en 2013. Fueron 336,776 vuelos en total. Para ayudar a
comprender las causas de los retrasos, también incluye otros conjuntos
de datos útiles.
Fuente:
Origen de los
datos
Este paquete incluye las siguientes tablas:
# install.packages("nycflights13")
library(nycflights13)
# install.packages("tidyverse")
library(tidyverse)
## Warning: package 'tidyverse' was built under R version 4.3.3
## Warning: package 'ggplot2' was built under R version 4.3.3
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.0 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.1
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
# library(dplyr)
library(dplyr)
flights <- flights
weather <- weather
planes <- planes
airports <- airports
airlines <- airlines
# La carga a memoria se hizo en el paso anterior.
flights
## # A tibble: 336,776 × 19
## year month day dep_time sched_dep_time dep_delay arr_time sched_arr_time
## <int> <int> <int> <int> <int> <dbl> <int> <int>
## 1 2013 1 1 517 515 2 830 819
## 2 2013 1 1 533 529 4 850 830
## 3 2013 1 1 542 540 2 923 850
## 4 2013 1 1 544 545 -1 1004 1022
## 5 2013 1 1 554 600 -6 812 837
## 6 2013 1 1 554 558 -4 740 728
## 7 2013 1 1 555 600 -5 913 854
## 8 2013 1 1 557 600 -3 709 723
## 9 2013 1 1 557 600 -3 838 846
## 10 2013 1 1 558 600 -2 753 745
## # ℹ 336,766 more rows
## # ℹ 11 more variables: arr_delay <dbl>, carrier <chr>, flight <int>,
## # tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>,
## # hour <dbl>, minute <dbl>, time_hour <dttm>
str(flights)
## tibble [336,776 × 19] (S3: tbl_df/tbl/data.frame)
## $ year : int [1:336776] 2013 2013 2013 2013 2013 2013 2013 2013 2013 2013 ...
## $ month : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
## $ day : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
## $ dep_time : int [1:336776] 517 533 542 544 554 554 555 557 557 558 ...
## $ sched_dep_time: int [1:336776] 515 529 540 545 600 558 600 600 600 600 ...
## $ dep_delay : num [1:336776] 2 4 2 -1 -6 -4 -5 -3 -3 -2 ...
## $ arr_time : int [1:336776] 830 850 923 1004 812 740 913 709 838 753 ...
## $ sched_arr_time: int [1:336776] 819 830 850 1022 837 728 854 723 846 745 ...
## $ arr_delay : num [1:336776] 11 20 33 -18 -25 12 19 -14 -8 8 ...
## $ carrier : chr [1:336776] "UA" "UA" "AA" "B6" ...
## $ flight : int [1:336776] 1545 1714 1141 725 461 1696 507 5708 79 301 ...
## $ tailnum : chr [1:336776] "N14228" "N24211" "N619AA" "N804JB" ...
## $ origin : chr [1:336776] "EWR" "LGA" "JFK" "JFK" ...
## $ dest : chr [1:336776] "IAH" "IAH" "MIA" "BQN" ...
## $ air_time : num [1:336776] 227 227 160 183 116 150 158 53 140 138 ...
## $ distance : num [1:336776] 1400 1416 1089 1576 762 ...
## $ hour : num [1:336776] 5 5 5 5 6 5 6 6 6 6 ...
## $ minute : num [1:336776] 15 29 40 45 0 58 0 0 0 0 ...
## $ time_hour : POSIXct[1:336776], format: "2013-01-01 05:00:00" "2013-01-01 05:00:00" ...
#int: entero (sin decimales)
#num: numérico (con decimales)
#cgr: caractér (letras)
#date: fecha (en R va año-mes-día)
#POSIXct: formato fecha y hora
class(flights)
## [1] "tbl_df" "tbl" "data.frame"
#Las 5 clases de objetos son:
# 1. numeric: número real o decimales.
# 2. integer: número entero.
# 3. complex: número complejo.
# 4. character: caracteres, texto.
# 5. logical: TRUE o FALSE.
# Las 4 clases de objetos compuestos son:
# 1. list: lista
# 2. matrix: matriz
# 3. array: colección de objetos
# 4. data.frame: base de datos
#Número de columnas
ncol(flights)
## [1] 19
#Número de renglones
nrow(flights)
## [1] 336776
#Número de dimensión
dim(flights)
## [1] 336776 19
head(flights)
## # A tibble: 6 × 19
## year month day dep_time sched_dep_time dep_delay arr_time sched_arr_time
## <int> <int> <int> <int> <int> <dbl> <int> <int>
## 1 2013 1 1 517 515 2 830 819
## 2 2013 1 1 533 529 4 850 830
## 3 2013 1 1 542 540 2 923 850
## 4 2013 1 1 544 545 -1 1004 1022
## 5 2013 1 1 554 600 -6 812 837
## 6 2013 1 1 554 558 -4 740 728
## # ℹ 11 more variables: arr_delay <dbl>, carrier <chr>, flight <int>,
## # tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>,
## # hour <dbl>, minute <dbl>, time_hour <dttm>
tail(flights)
## # A tibble: 6 × 19
## year month day dep_time sched_dep_time dep_delay arr_time sched_arr_time
## <int> <int> <int> <int> <int> <dbl> <int> <int>
## 1 2013 9 30 NA 1842 NA NA 2019
## 2 2013 9 30 NA 1455 NA NA 1634
## 3 2013 9 30 NA 2200 NA NA 2312
## 4 2013 9 30 NA 1210 NA NA 1330
## 5 2013 9 30 NA 1159 NA NA 1344
## 6 2013 9 30 NA 840 NA NA 1020
## # ℹ 11 more variables: arr_delay <dbl>, carrier <chr>, flight <int>,
## # tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>,
## # hour <dbl>, minute <dbl>, time_hour <dttm>
#Si quisieramos 7 renglones: head(flights, 7)
summary(flights)
## year month day dep_time sched_dep_time
## Min. :2013 Min. : 1.000 Min. : 1.00 Min. : 1 Min. : 106
## 1st Qu.:2013 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.: 907 1st Qu.: 906
## Median :2013 Median : 7.000 Median :16.00 Median :1401 Median :1359
## Mean :2013 Mean : 6.549 Mean :15.71 Mean :1349 Mean :1344
## 3rd Qu.:2013 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:1744 3rd Qu.:1729
## Max. :2013 Max. :12.000 Max. :31.00 Max. :2400 Max. :2359
## NA's :8255
## dep_delay arr_time sched_arr_time arr_delay
## Min. : -43.00 Min. : 1 Min. : 1 Min. : -86.000
## 1st Qu.: -5.00 1st Qu.:1104 1st Qu.:1124 1st Qu.: -17.000
## Median : -2.00 Median :1535 Median :1556 Median : -5.000
## Mean : 12.64 Mean :1502 Mean :1536 Mean : 6.895
## 3rd Qu.: 11.00 3rd Qu.:1940 3rd Qu.:1945 3rd Qu.: 14.000
## Max. :1301.00 Max. :2400 Max. :2359 Max. :1272.000
## NA's :8255 NA's :8713 NA's :9430
## carrier flight tailnum origin
## Length:336776 Min. : 1 Length:336776 Length:336776
## Class :character 1st Qu.: 553 Class :character Class :character
## Mode :character Median :1496 Mode :character Mode :character
## Mean :1972
## 3rd Qu.:3465
## Max. :8500
##
## dest air_time distance hour
## Length:336776 Min. : 20.0 Min. : 17 Min. : 1.00
## Class :character 1st Qu.: 82.0 1st Qu.: 502 1st Qu.: 9.00
## Mode :character Median :129.0 Median : 872 Median :13.00
## Mean :150.7 Mean :1040 Mean :13.18
## 3rd Qu.:192.0 3rd Qu.:1389 3rd Qu.:17.00
## Max. :695.0 Max. :4983 Max. :23.00
## NA's :9430
## minute time_hour
## Min. : 0.00 Min. :2013-01-01 05:00:00.00
## 1st Qu.: 8.00 1st Qu.:2013-04-04 13:00:00.00
## Median :29.00 Median :2013-07-03 10:00:00.00
## Mean :26.23 Mean :2013-07-03 05:22:54.64
## 3rd Qu.:44.00 3rd Qu.:2013-10-01 07:00:00.00
## Max. :59.00 Max. :2013-12-31 23:00:00.00
##
En este código podemos ver lo que es un conjunto de datos, el cual tiene información acerca de los vuelos que salen desde Nueva York en el año 2013. A través de la carga de paquetes y datos relevantes, iniciamos un proceso de comprensión y análisis. El resumen estadístico que se hizo revela cosas importantes sobre variables clave, como los tiempos de salida y llegada, así como los posibles retrasos de los aviones tanto de salida como de aterrizaje. Aquí es donde podemos ver los principales patrones de comportamiento, factores de influencia y áreas de interés sobre todos estos datos. Esto es sumamente fundamental para entender la naturaleza y el alcance de los datos que tenemos, ver qué podemos hacer con ellos y qué nos dicen hasta ahora.
view(flights)
summary(flights)
## year month day dep_time sched_dep_time
## Min. :2013 Min. : 1.000 Min. : 1.00 Min. : 1 Min. : 106
## 1st Qu.:2013 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.: 907 1st Qu.: 906
## Median :2013 Median : 7.000 Median :16.00 Median :1401 Median :1359
## Mean :2013 Mean : 6.549 Mean :15.71 Mean :1349 Mean :1344
## 3rd Qu.:2013 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:1744 3rd Qu.:1729
## Max. :2013 Max. :12.000 Max. :31.00 Max. :2400 Max. :2359
## NA's :8255
## dep_delay arr_time sched_arr_time arr_delay
## Min. : -43.00 Min. : 1 Min. : 1 Min. : -86.000
## 1st Qu.: -5.00 1st Qu.:1104 1st Qu.:1124 1st Qu.: -17.000
## Median : -2.00 Median :1535 Median :1556 Median : -5.000
## Mean : 12.64 Mean :1502 Mean :1536 Mean : 6.895
## 3rd Qu.: 11.00 3rd Qu.:1940 3rd Qu.:1945 3rd Qu.: 14.000
## Max. :1301.00 Max. :2400 Max. :2359 Max. :1272.000
## NA's :8255 NA's :8713 NA's :9430
## carrier flight tailnum origin
## Length:336776 Min. : 1 Length:336776 Length:336776
## Class :character 1st Qu.: 553 Class :character Class :character
## Mode :character Median :1496 Mode :character Mode :character
## Mean :1972
## 3rd Qu.:3465
## Max. :8500
##
## dest air_time distance hour
## Length:336776 Min. : 20.0 Min. : 17 Min. : 1.00
## Class :character 1st Qu.: 82.0 1st Qu.: 502 1st Qu.: 9.00
## Mode :character Median :129.0 Median : 872 Median :13.00
## Mean :150.7 Mean :1040 Mean :13.18
## 3rd Qu.:192.0 3rd Qu.:1389 3rd Qu.:17.00
## Max. :695.0 Max. :4983 Max. :23.00
## NA's :9430
## minute time_hour
## Min. : 0.00 Min. :2013-01-01 05:00:00.00
## 1st Qu.: 8.00 1st Qu.:2013-04-04 13:00:00.00
## Median :29.00 Median :2013-07-03 10:00:00.00
## Mean :26.23 Mean :2013-07-03 05:22:54.64
## 3rd Qu.:44.00 3rd Qu.:2013-10-01 07:00:00.00
## Max. :59.00 Max. :2013-12-31 23:00:00.00
##
La media de la distancia recorrida es de 1040 millas.
aerolineas_distancia = select(flights, carrier, distance, origin, dest)
aerolineas_mayor_mean = filter(aerolineas_distancia, distance > 1040)
aerolineas_mayor_desc = arrange(aerolineas_mayor_mean, desc(distance))
distancias <- flights %>% group_by(carrier) %>%
summarize(suma = sum(distance, na.rm = TRUE), media = mean(distance, na.rm = TRUE))
distancias_orden <- arrange(distancias, desc(distancias))
print(distancias)
## # A tibble: 16 × 3
## carrier suma media
## <chr> <dbl> <dbl>
## 1 9E 9788152 530.
## 2 AA 43864584 1340.
## 3 AS 1715028 2402
## 4 B6 58384137 1069.
## 5 DL 59507317 1237.
## 6 EV 30498951 563.
## 7 F9 1109700 1620
## 8 FL 2167344 665.
## 9 HA 1704186 4983
## 10 MQ 15033955 570.
## 11 OO 16026 501.
## 12 UA 89705524 1529.
## 13 US 11365778 553.
## 14 VX 12902327 2499.
## 15 WN 12229203 996.
## 16 YV 225395 375.
Resultados: Observando esta última tabla pudimos observar los datos que nos permiten ver cuales son las aerolineas más popluares en cada uno de los aeropuertos de Nueva York. También con el promedio obtenido podemos identificar cual es la distancia media recorrida por vuelo de cada compañía aérea. Este df nos permite ver que United Airlines es una de las aerolíneas con los viajes con mayor distancia. Tienen una suma total de 89705524. Sobre American Airlines, podemos observar que tienen una suma de 43864584 millas y un promedio de 1340.2360 millas.
JFK
JFK_flights <- flights %>%
filter(origin == "JFK") %>%
group_by(carrier) %>%
summarise(total_flights = n())
# Identificar la aerolínea líder en JFK
JFK_leader <- JFK_flights %>%
arrange(desc(total_flights)) %>%
slice(1) %>%
pull(carrier)
# Contar el número de vuelos por aerolínea para LGA
LGA_flights <- flights %>%
filter(origin == "LGA") %>%
group_by(carrier) %>%
summarise(total_flights = n())
# Identificar la aerolínea líder en LGA
LGA_leader <- LGA_flights %>%
arrange(desc(total_flights)) %>%
slice(1) %>%
pull(carrier)
# Contar el número de vuelos por aerolínea para EWR
EWR_flights <- flights %>%
filter(origin == "EWR") %>%
group_by(carrier) %>%
summarise(total_flights = n())
# Identificar la aerolínea líder en EWR
EWR_leader <- EWR_flights %>%
arrange(desc(total_flights)) %>%
slice(1) %>%
pull(carrier)
# Comparar las aerolíneas líderes en los tres aeropuertos
if (JFK_leader == LGA_leader && JFK_leader == EWR_leader) {
cat("Las aerolíneas líderes son las mismas en los tres aeropuertos.")
} else {
cat("Las aerolíneas líderes no son las mismas en los tres aeropuertos.")
}
## Las aerolíneas líderes no son las mismas en los tres aeropuertos.
En el aeropuerto de JFK, B6 JetBlue Airways es la aerolínea con mayor número de vuelos con un total de 19378.
LGA
LGA_flights <- flights %>%
filter(origin == "LGA") %>%
group_by(carrier) %>%
summarise(total_flights = n())
# Identificar la aerolínea líder en LGA
LGA_leader <- LGA_flights %>%
arrange(desc(total_flights)) %>%
slice(1) %>%
pull(carrier)
LGA_leader
## [1] "DL"
En la Guardia, American Airlines tiene la primera posicón con un total de 8781 en número de vuelos.
EWR
# Contar el número de vuelos por aerolínea para EWR
EWR_flights <- flights %>%
filter(origin == "EWR") %>%
group_by(carrier) %>%
summarise(total_flights = n())
# Identificar la aerolínea líder en EWR
EWR_leader <- EWR_flights %>%
arrange(desc(total_flights)) %>%
slice(1) %>%
pull(carrier)
EWR_leader
## [1] "UA"
En Newark Liberty International, United Airlines tiene el mayor número de vuelos con un total de 30183.
…
library(nycflights13)
library(dplyr)
view(planes)
view(weather)
summary(flights)
## year month day dep_time sched_dep_time
## Min. :2013 Min. : 1.000 Min. : 1.00 Min. : 1 Min. : 106
## 1st Qu.:2013 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.: 907 1st Qu.: 906
## Median :2013 Median : 7.000 Median :16.00 Median :1401 Median :1359
## Mean :2013 Mean : 6.549 Mean :15.71 Mean :1349 Mean :1344
## 3rd Qu.:2013 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:1744 3rd Qu.:1729
## Max. :2013 Max. :12.000 Max. :31.00 Max. :2400 Max. :2359
## NA's :8255
## dep_delay arr_time sched_arr_time arr_delay
## Min. : -43.00 Min. : 1 Min. : 1 Min. : -86.000
## 1st Qu.: -5.00 1st Qu.:1104 1st Qu.:1124 1st Qu.: -17.000
## Median : -2.00 Median :1535 Median :1556 Median : -5.000
## Mean : 12.64 Mean :1502 Mean :1536 Mean : 6.895
## 3rd Qu.: 11.00 3rd Qu.:1940 3rd Qu.:1945 3rd Qu.: 14.000
## Max. :1301.00 Max. :2400 Max. :2359 Max. :1272.000
## NA's :8255 NA's :8713 NA's :9430
## carrier flight tailnum origin
## Length:336776 Min. : 1 Length:336776 Length:336776
## Class :character 1st Qu.: 553 Class :character Class :character
## Mode :character Median :1496 Mode :character Mode :character
## Mean :1972
## 3rd Qu.:3465
## Max. :8500
##
## dest air_time distance hour
## Length:336776 Min. : 20.0 Min. : 17 Min. : 1.00
## Class :character 1st Qu.: 82.0 1st Qu.: 502 1st Qu.: 9.00
## Mode :character Median :129.0 Median : 872 Median :13.00
## Mean :150.7 Mean :1040 Mean :13.18
## 3rd Qu.:192.0 3rd Qu.:1389 3rd Qu.:17.00
## Max. :695.0 Max. :4983 Max. :23.00
## NA's :9430
## minute time_hour
## Min. : 0.00 Min. :2013-01-01 05:00:00.00
## 1st Qu.: 8.00 1st Qu.:2013-04-04 13:00:00.00
## Median :29.00 Median :2013-07-03 10:00:00.00
## Mean :26.23 Mean :2013-07-03 05:22:54.64
## 3rd Qu.:44.00 3rd Qu.:2013-10-01 07:00:00.00
## Max. :59.00 Max. :2013-12-31 23:00:00.00
##
vuelos <- select(flights, flight, carrier, origin, dest)
head(vuelos)
## # A tibble: 6 × 4
## flight carrier origin dest
## <int> <chr> <chr> <chr>
## 1 1545 UA EWR IAH
## 2 1714 UA LGA IAH
## 3 1141 AA JFK MIA
## 4 725 B6 JFK BQN
## 5 461 DL LGA ATL
## 6 1696 UA EWR ORD
aerolinea <- vuelos %>% left_join(airlines, by = "carrier")
# Contar el número de vuelos por cada destino
vuelos_por_destino <- flights %>%
group_by(dest) %>%
summarise(num_vuelos = n()) %>%
arrange(desc(num_vuelos))
# Mostrar los destinos más buscados
head(vuelos_por_destino)
## # A tibble: 6 × 2
## dest num_vuelos
## <chr> <int>
## 1 ORD 17283
## 2 ATL 17215
## 3 LAX 16174
## 4 BOS 15508
## 5 MCO 14082
## 6 CLT 14064
nombre_aerolinea <- vuelos %>% left_join(airlines, by ="carrier")
horarios <- select(flights, carrier, dest, hour)
head(horarios)
## # A tibble: 6 × 3
## carrier dest hour
## <chr> <chr> <dbl>
## 1 UA IAH 5
## 2 UA IAH 5
## 3 AA MIA 5
## 4 B6 BQN 5
## 5 DL ATL 6
## 6 UA ORD 5
#horarios$categoria <- if(flights$hour>=6 && hour<12)
#head(horarios)
# Definir función para clasificar los momentos del día
clasificar_momento_dia <- function(hora) {
momento <- rep(NA, length(hora))
momento[hora >= 5 & hora < 12] <- "Mañana"
momento[hora >= 12 & hora < 18] <- "Tarde"
momento[hora >= 18 & hora < 24] <- "Noche"
momento[hora >= 0 & hora < 5] <- "Madrugada"
return(momento)
}
# Filtrar los vuelos de American Airlines Inc.-AA durante la madrugada
destinos_madrugada_AA <- flights %>%
filter(carrier == "AA", hour >= 0 & hour < 5) %>%
group_by(dest) %>%
summarise(num_vuelos = n()) %>%
arrange(desc(num_vuelos))
# Mostrar los destinos más comunes durante la madrugada para American Airlines Inc.-AA
destinos_madrugada_AA
## # A tibble: 0 × 2
## # ℹ 2 variables: dest <chr>, num_vuelos <int>
aviones_AA <- flights %>%
filter(carrier == "AA") %>%
left_join(planes, by = "tailnum") %>%
select(carrier, type, engine, seats, tailnum) %>%
na.omit() %>%
group_by(type, engine, seats, tailnum) %>%
summarise(num_vuelos = n()) %>%
arrange(desc(num_vuelos))
## `summarise()` has grouped output by 'type', 'engine', 'seats'. You can override
## using the `.groups` argument.
# Mostrar la información sobre los aviones utilizados por la aerolínea AA
aviones_AA
## # A tibble: 171 × 5
## # Groups: type, engine, seats [22]
## type engine seats tailnum num_vuelos
## <chr> <chr> <int> <chr> <int>
## 1 Fixed wing multi engine Turbo-fan 255 N328AA 393
## 2 Fixed wing multi engine Turbo-fan 255 N338AA 388
## 3 Fixed wing multi engine Turbo-fan 255 N327AA 387
## 4 Fixed wing multi engine Turbo-fan 255 N335AA 385
## 5 Fixed wing multi engine Turbo-fan 255 N323AA 357
## 6 Fixed wing multi engine Turbo-fan 255 N319AA 354
## 7 Fixed wing multi engine Turbo-fan 255 N336AA 353
## 8 Fixed wing multi engine Turbo-fan 255 N329AA 344
## 9 Fixed wing multi engine Turbo-fan 255 N324AA 328
## 10 Fixed wing multi engine Turbo-fan 255 N332AA 328
## # ℹ 161 more rows
df13 <- flights %>% select(dep_delay, arr_delay)
summary(df13)
## dep_delay arr_delay
## Min. : -43.00 Min. : -86.000
## 1st Qu.: -5.00 1st Qu.: -17.000
## Median : -2.00 Median : -5.000
## Mean : 12.64 Mean : 6.895
## 3rd Qu.: 11.00 3rd Qu.: 14.000
## Max. :1301.00 Max. :1272.000
## NA's :8255 NA's :9430
ggplot() +
geom_point(mapping = aes(x = dep_delay, y = arr_delay), data = df13) +
geom_point(
mapping = aes(x = dep_delay, y = arr_delay), data = df13,
colour = 'pink', size = 1)
## Warning: Removed 9430 rows containing missing values or values outside the scale range
## (`geom_point()`).
## Removed 9430 rows containing missing values or values outside the scale range
## (`geom_point()`).
temp <- filter(weather, origin=="EWR")
tendencia_temp <- filter(temp, day <= 15)
plot(tendencia_temp$day, tendencia_temp$temp, type="p")
ggplot(weather, aes(x = temp)) +
geom_histogram(bins = 30, fill = "pink", color = "deeppink") +
labs(title = "Histograma de la temperatura en Enero", x = "Temperatura (°F)", y = "Frecuencia")
## Warning: Removed 1 row containing non-finite outside the scale range
## (`stat_bin()`).
weather %>%
ggplot(aes(x = temp)) +
geom_histogram(bins = 30) +
facet_wrap(~month) +
labs(title = "Temperatura por mes", x = "Temperatura (°F)", y = "Frecuencia")
## Warning: Removed 1 row containing non-finite outside the scale range
## (`stat_bin()`).
flights %>%
filter(origin %in% c("JFK", "LGA", "EWR")) %>%
group_by(carrier) %>%
summarise(count = n()) %>%
ggplot(aes(x = reorder(carrier, -count), y = count)) +
geom_bar(stat = "identity", fill = "lightblue") +
labs(title = "Número de vuelos por aerolínea en 2013", x = "Aerolínea", y = "Cantidad de vuelos") +
theme(axis.text.x = element_text(angle = 90, hjust = 1))
flights %>%
filter(origin %in% c("JFK", "LGA", "EWR")) %>%
group_by(carrier) %>%
summarise(count = n()) %>%
ggplot(aes(x = "", y = count, fill = carrier)) +
geom_bar(stat = "identity", width = 1) +
coord_polar("y") +
labs(title = "Vuelos por aerolínea en 2013", fill = "Aerolínea") +
theme_minimal()
relacion <- merge(flights,airlines, by="carrier")
relacion <- left_join(relacion,planes, by="tailnum")
relacion <- left_join(relacion,weather, by=c("origin","time_hour"))
cinco_carriers <- flights %>%
group_by(carrier) %>%
summarise(count = n()) %>%
arrange(desc(count)) %>%
slice(1:5) %>%
ungroup() %>%
select(carrier)
vuelos_cinco_carriers <- relacion %>%
filter(carrier %in% cinco_carriers$carrier)
1.-
ggplot(vuelos_cinco_carriers, aes(x = carrier, fill = carrier)) +
geom_bar() +
labs(title = "Cantidad de vuelos por aerolínea", x = "Aerolínea", y = "Cantidad de vuelos") +
theme_minimal()
2.-
ggplot(vuelos_cinco_carriers, aes(x = dest, fill = carrier)) +
geom_bar() +
labs(title = "Cantidad de vuelos por destino", x = "Destino", y = "Cantidad de vuelos") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 90, hjust = 1))
3.-
vuelos_cinco_carriers %>%
group_by(day.x) %>%
summarise(count = n()) %>%
ggplot(aes(x = day.x, y = count)) +
geom_bar(stat = "identity", fill = "lightblue") +
labs(title = "Cantidad de vuelos por día del mes", x = "Día del mes", y = "Cantidad de vuelos") +
theme_minimal()
ggplot(vuelos_cinco_carriers, aes(x = factor(day.x), fill = carrier)) +
geom_bar() +
labs(title = "Cantidad de vuelos por día del mes", x = "Día del mes", y = "Cantidad de vuelos") +
theme_minimal()
En este trabajo que realizamos análisis sobre los retrasos en los vuelos que despegan de los aeropuertos EWR, JFK y LGA en Nueva York hacia otros destinos en los Estados Unidos están influenciados por una gran variedad de factores, entre los cuales se encuentran: congestión del tráfico aéreo, problemas técnicos y condiciones meteorológicas adversas. Además, gracias a los analisis que hicimos, se puede notar una clara diferencia en los tiempos y porcentajes de retraso entre los vuelos de la mañana y losvuelos de la tarde. Los datos y el análisis de estos revelan que tanto el tiempo de retraso en la salida (dep_delay) como en la llegada (arr_delay) varían de una forma muy visible, siendo que los vuelos de la mañana están entre -43 minutos para la salida del avión y -86 minutos para su llegada, mientras que en la tarde hay un promedio de 1301 minutos para la salida, y entre 1272 minutos para la llegada. Estos retrasos pueden ser atribuidos a una serie de causas, desde problemas técnicos y logísticos hasta factores externos como el clima y la congestión del tráfico aéreo. Sin embargo, es irrefutable que los vuelos que se efectúan en la tarde tienden a experimentar retrasos más grandes y ocurrentes, con un tiempo promedio de 22 minutos y un porcentaje de retraso del 49%, a gran diferencia de los vuelos de las mañanas que tienen tiempos de retraso de entre 1:16 y 1:48 minutos junto con un porcentaje de retraso del 21.7%. Estos patrones encontrados dentro de los datos y la analización de estos nos dicen que la hora del día puede desempeñar un papel crucial en la probabilidad de los retrasos en los vuelos junto con la duración de estos. Todo este razonamiento se evidencia del análisis detallado de los datos de vuelo, los cuales proporcionan información sobre los tiempos de retraso, las causas potenciales y la distribución de los retrasos a lo largo del día. # Compromiso ético y ciudadano Definición de integridad académica:
Para mí, la integridad significa no comprometer mis principios éticos incluso cuando enfrento desafíos difíciles o presiones externas. Significa ser honesto en todas mis interacciones, mantener la confidencialidad de la información confiada a mí y tomar decisiones justas y equitativas. La integridad es la forma que tengo de pensar y de qué hago si estoy al frente de una decisión. Qué haré si me veo tentado a quebrantar mis ideales y/o principios de honestidad frente a algo o alguien más. “es hacer lo correcto aun cuando nadie te está observando.” (Human Verification, s. f.) es una frase que dijo el autor Clive Staples Lewis y significa para mí que a partir de mi integridad, aún y cuando nadie me esté viendo o monitoreando de alguna forma, haré lo que sea correcto y lo que yo sé que tengo permitido hacer sin ir más allá de lo que tengo permitido aunque tenga el poder para eso.
Nuestra integridad es algo que nos define totalmente como personas y no solo eso, es algo que define cómo seremos en nuestra vida profesional ya que está presente en cada ámbito y momento de nuestro día a día, a la hora de levantarnos y ser íntegros con nosotros mismos, a la hora de ir a comprar la leche a la tienda y pagar la cantidad correcta o no robar nada, a la hora de ir manejando al trabajo y no pasar ningun algo o algun semaforo y a la hora de estar en mi trabajo o en mi estudio y decidir hacer las cosas correctas para mi y para los demás, hacer las aquellas cosas que no son fáciles o que podría no hacer y tal vez nadie se daría cuenta, aquellas cosas que tienen un atajo o alguna forma de evitarlas, pero sé que no es la forma correcta y sé que debo dar un mejor rol no solo frente a la sociedad sino también a los demás y a mi mismo.
Tener a disposición la información de una empresa conlleva una serie de implicaciones importantes, tanto éticas como legales y profesionales. Algunas de estas implicaciones incluyen: Responsabilidad de confidencialidad: La información de la empresa puede contener datos sensibles y confidenciales, como estrategias comerciales, datos financieros, información de clientes y detalles de productos. Es fundamental respetar la confidencialidad de esta información y no divulgar a terceros sin autorización adecuada. Integridad y ética profesional: Manejar la información de la empresa de manera ética y con integridad es crucial. Esto implica evitar el uso indebido de la información para beneficio personal o para perjudicar a la empresa o a otros individuos. Cumplimiento de normativas y leyes: Es importante cumplir con todas las normativas y leyes relacionadas con la privacidad de datos y la protección de la información confidencial. Esto incluye leyes como el Reglamento General de Protección de Datos (GDPR) en la Unión Europea o la Ley de Portabilidad y Responsabilidad de Seguros Médicos (HIPAA) en Estados Unidos, entre otras. Protección contra el acceso no autorizado: La información de la empresa debe ser protegida contra el acceso no autorizado. Esto implica tomar medidas de seguridad adecuadas, como el uso de contraseñas seguras, la encriptación de datos y el acceso restringido a la información solo a aquellos empleados que la necesiten para realizar sus funciones. Uso responsable de la información: Utilizar la información de la empresa de manera responsable y ética, en línea con los objetivos y valores de la organización. Esto implica no distorsionar la información ni utilizarla de manera engañosa o fraudulenta.
Bibliografía: Jones, T. M. (1991). Ethical decision making by individuals in organizations: An issue-contingent model. Academy of Management Review, 16(2), 366-395. Treviño, L. K., & Nelson, K. A. (2016). Managing business ethics: Straight talk about how to do it right. John Wiley & Sons. Duska, R., Duska, B., & Ragatz, J. A. (2011). Accounting ethics (Vol. 2). John Wiley & Sons.