
Contexto
El paquete nycflights13 contiene información sore
todos los vuelos que partieron desde Nueva York(EWR, JFL, LGA) en
destinos a los Estados Unidos en 2013. Fueron 336,776 vuelos en total.
Para ayudar a comprender las causas de los retrasos, también incluye
otros conjuntos de datos útiles.
Este paquete incluye las siguientes tablas:
- flights = todos los vuelos que salieron de NUeva York en el
2013
- weather = datos metereológicos por hora de cada aeropuerto
- planes = información de construcción de cada avión
- airports = nombres y ublicaciones de aeropuertos
- airlines = relación entre nombres y códigos de las aerolíneas
Fuente: Origen
de los datos
Reporte Ejecutivo
En esta evidencia se trabajó con el paquete
nycflights, el cual nos permitió analizar información
acerca de los vuelos, destinos, aerolíneas, retrasos, entre otros;
registrados en los aeropuertos de Nueva York en el 2013. Se utilizaron
las funciones más comunes del análisis exploratorio, el cual es el
primer paso para cualquier trabajo de manipulación de datos.
La situación problema que se buscaba resolver es saber el por qué los
vuelos se retrasan, ya sea en la partida o en la llegada, en los
aeropuertos en Nueva York. Con la información brindada en las bases de
datos, se pudo realizar un análisis tomando en cuenta diferentes
variables, ya sea el clima, el tipo de avión que se utilizaba, la
aerolínea, el día de la semana, las temporadas vacacionales e incluso
hasta el horario del día. Al analizar esta información se obtuvieron
datos que nos permitirían evaluar cuál es el verdadero motivo por el que
los vuelos se retrasan.
Para este proyecto diferentes metodologías fueron puestas a prueba,
las cuales ayudaron a generar conclusiones del análisis general de
retrasos en partidas y llegadas. El uso de visualizaciones de gráficas
de barras, histogramas, diagramas de dispersión, entre otros, fueron
herramientas importantes para el análisis visual.
A medida con la que se avanzaba en el análisis, podíamos ir
descartando que variables no servían de mucho y cuales sí tenían un
mayor impacto para resolver la situación problema. Esto nos permitía
generar un mayor enfoque en aquellos aspectos más relevantes y
posteriormente, con creatividad, generar propuestas para la disminución
de retrasos en salidas y llegadas.
A continuación se presenta la evidencia final, con análisis,
interpretaciones, elementos visuales y recomendaciones para las
aerolíneas, aeropuertos y pasajeros, todo esto con el propósito de
brindar solución a los retrasos generados.
Instalar paquetes y llamar
librerías
#install.packages("nycflight13")
library(nycflights13)
#install.packages("tidyverse")
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.0 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.1
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
#install.packages("dplyr")
library(dplyr)
#install.packages("ggplot2")
library(ggplot2)
data("flights")
Guardar base de datos
flights <- flights
weather <- weather
planes <- planes
airports <- airports
airlines <- airlines
Relación entre las bases de
datos

Relación existente
df <- merge(flights,airlines, by="carrier")
df <- left_join(df,planes, by="tailnum")
df <- left_join(df,weather, by=c("origin","time_hour"))
Data Wrangling
1. Funciones básicas de manejo de
datos
Select
La función select sirve para seleccionar columnos de un
table (data frame).
df1 <- flights %>% select(carrier, flight) # Selección de columnas específicas
df2 <- flights %>% select(carrier:distance) # Selección de rango de columnas
df3 <- flights %>% select(-carrier, -flight) # Eliminar columnas específicas
df4 <- flights %>% select(-carrier: -flight) # Eliminar rango de columnas
df5 <- flights %>% select(aerolinea = carrier) # Selecciona una columna y le cambia el nombre
df6 <- flights %>% rename(aerolinea = carrier) # Cambia el nombre de una columna
Filter
La función Filter sirve para seleccionar renglones de un
tabla(data frame).
df7 <- flights %>% filter(dep_delay >=500) # Extrae renglones que cumplan condición
# Condicionales: Igual ==, Desigual =!=, Mayor que >, Mayor o igual que >=, Menor o igual que <=
# Operadores lógicos: AND &, OR |, NOT !
df8 <- flights %>% filter(dep_delay >=500, dep_delay <=600) # Extrae renglones que cumplan con dos condiciones
df9 <- flights %>% slice(1000: 1099) # Extrae los números de los renglones indicados, sin importar sus valores
Distinct
La función distinct sirve para eliminar renglones
duplicados.
df10 <- distinct(flights) # Dejar solo los renglones diferentes, borra todos los repetidos.
Merge
La función merge sirve para juntar bases de datos.
bdgrande <- merge(flights, airlines, by="carrier")
bdgrande2 <- merge(bdgrande,planes, by="tailnum")
Mutate
bdgrande3 <- mutate(bdgrande2, dist_mts = distance*1.609)
#Agrega variables nuevas caluladas a partir de variables existentes en la base de datos.
Ejercicios
- Encuentra todos los vuelos que tuvieron un atraso en llegada de 2
horas o más.
ejercicio1 <- bdgrande2 %>% filter(arr_delay>=120)
- Encuentra todos los vuelos que llegaron a Houston (IAN O HOU)
ejercicio2 <- bdgrande2 %>% filter(dest== "IAH" | dest == "HOU")
- Encuentra todos los vuelos operados por United, American o
Delta.
ejercicio3 <- bdgrande2 %>% filter(carrier %in% c("UA", "AA", "DL"))
- Encuentra todos los vuelos que despegaron en Julio, Agosto o
Septiembre
ejercicio4 <- bdgrande2 %>% filter(month %in% c(7, 8, 9))
ejercicio4a <- bdgrande2 %>% filter(month == 7 | month == 8 | month == 9)
- Encuentra todos los vuelos que arrivaron más de 2 horas tarde, pero
no despegaron tarde.
ejercicio5 <- bdgrande2 %>% filter(arr_delay>120 & dep_time == sched_dep_time)
ejercicio5a <- bdgrande2 %>% filter(arr_delay>120 & dep_delay<=0)
- Encuentra todos los vuelos que se retrasaron al menos 1 hora, pero
que llegaron antes 30 minutos o más.
ejercicio6 <- bdgrande2 %>% filter(dep_delay>=60 & arr_delay<=-30)
- Encuentra todos los vuelos que salieron entre la medianoche y las 6
a.m.
ejercicio7 <- bdgrande2 %>% filter(dep_time %in% c("2400", "100", "200", "300", "400", "500", "600"))
ejercicio7a <- bdgrande2 %>% filter(dep_time==2400 | dep_time<=600) #CORRECTA
ejercicio7b <- bdgrande2 %>% filter(hour %in% c("0", "1", "2", "3", "4", "5", "6"))
Arrange
Similar a filter () pero en lugar de seleccionar renglones, los
ordena de menor a mayor.
df11 <- arrange(bdgrande2, year.x, month, day)
Para acomodar de mayor a menor.
df12 <- arrange(bdgrande2, year.x, desc(month), day)
Summarize
Colapsa una tabla a un sólo renglón
# Obtén el retraso promedio de salida de despegue de todos los vuelos
summarize(bdgrande2, mean(dep_delay, na.rm=TRUE))
## mean(dep_delay, na.rm = TRUE)
## 1 13.17979
Group by
Agrupa tabla basado en algunas columnas.
# Obtener el retraso promedio de despegue por día
por_dia <- group_by(bdgrande2, year.x, month, day)
summarize(por_dia, mean(dep_delay, na.rm=TRUE))
## `summarise()` has grouped output by 'year.x', 'month'. You can override using
## the `.groups` argument.
## # A tibble: 365 × 4
## # Groups: year.x, month [12]
## year.x month day `mean(dep_delay, na.rm = TRUE)`
## <int> <int> <int> <dbl>
## 1 2013 1 1 10.7
## 2 2013 1 2 14.4
## 3 2013 1 3 11.1
## 4 2013 1 4 10.0
## 5 2013 1 5 5.70
## 6 2013 1 6 7.98
## 7 2013 1 7 6.49
## 8 2013 1 8 3.10
## 9 2013 1 9 3.17
## 10 2013 1 10 1.89
## # ℹ 355 more rows
Evidencia: Parte 1
1. Cargar en memoria la tabla “flights”
y mostrar su contenido
# La carga a memoria se hizo en el paso anterior, consulta de dataframe para recordar su contenido.
view(flights)
2. Datos descriptivos de
“flights”
# Identifica la media de las distancias recorridas en millas.
summary(flights)
## year month day dep_time sched_dep_time
## Min. :2013 Min. : 1.000 Min. : 1.00 Min. : 1 Min. : 106
## 1st Qu.:2013 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.: 907 1st Qu.: 906
## Median :2013 Median : 7.000 Median :16.00 Median :1401 Median :1359
## Mean :2013 Mean : 6.549 Mean :15.71 Mean :1349 Mean :1344
## 3rd Qu.:2013 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:1744 3rd Qu.:1729
## Max. :2013 Max. :12.000 Max. :31.00 Max. :2400 Max. :2359
## NA's :8255
## dep_delay arr_time sched_arr_time arr_delay
## Min. : -43.00 Min. : 1 Min. : 1 Min. : -86.000
## 1st Qu.: -5.00 1st Qu.:1104 1st Qu.:1124 1st Qu.: -17.000
## Median : -2.00 Median :1535 Median :1556 Median : -5.000
## Mean : 12.64 Mean :1502 Mean :1536 Mean : 6.895
## 3rd Qu.: 11.00 3rd Qu.:1940 3rd Qu.:1945 3rd Qu.: 14.000
## Max. :1301.00 Max. :2400 Max. :2359 Max. :1272.000
## NA's :8255 NA's :8713 NA's :9430
## carrier flight tailnum origin
## Length:336776 Min. : 1 Length:336776 Length:336776
## Class :character 1st Qu.: 553 Class :character Class :character
## Mode :character Median :1496 Mode :character Mode :character
## Mean :1972
## 3rd Qu.:3465
## Max. :8500
##
## dest air_time distance hour
## Length:336776 Min. : 20.0 Min. : 17 Min. : 1.00
## Class :character 1st Qu.: 82.0 1st Qu.: 502 1st Qu.: 9.00
## Mode :character Median :129.0 Median : 872 Median :13.00
## Mean :150.7 Mean :1040 Mean :13.18
## 3rd Qu.:192.0 3rd Qu.:1389 3rd Qu.:17.00
## Max. :695.0 Max. :4983 Max. :23.00
## NA's :9430
## minute time_hour
## Min. : 0.00 Min. :2013-01-01 05:00:00.00
## 1st Qu.: 8.00 1st Qu.:2013-04-04 13:00:00.00
## Median :29.00 Median :2013-07-03 10:00:00.00
## Mean :26.23 Mean :2013-07-03 05:22:54.64
## 3rd Qu.:44.00 3rd Qu.:2013-10-01 07:00:00.00
## Max. :59.00 Max. :2013-12-31 23:00:00.00
##
3. Criterios para encontrar
aerolíneas
#Crea un nuevo data frame que filtre solamente a las aeorlíneas que han recorrido una distancia superior a la media, se desean ver los campos carrier, distance, origin, dest en forma descendente por distance.
#Criterio 1: se selecciona las variables.
Criterio1 <- flights %>% select(carrier, distance, origin, dest)
#Criterio 2: se filtran a las aerolineas que tengan una media superior a 1040 en millas recorridas.
Criterio2 <- Criterio1 %>% filter(distance >1040)
#Criterio 3: se ordena en descendente por la distancia recorrida
Criterio3 <- Criterio2 %>% arrange(desc(distance))
5. Interpretaciones: Parte
1
En esta primera parte se realizan los pasos básicos para comenzar a
analizar una base de datos. Es un analisis inicial donde se visualiza el
contenido de los datos disponibles y se obtienen los datos descriptivos
básicos para comprender mejor la información de vuelos. En los datos
descriptivos podemos encontrar la media, el mínimo, máximo, entre otros,
de las diferentes variables con las que cuenta la base de datos. En la
problemática se nos pide encontrar la media de las millas recorridas,
utilizando summary nos arroja un resultado de 1040 millas
recorridas como media.
En el siguiente punto se utilizaron diferentes criterios para filtrar
las aerolíneas que han recorrido una distancia mayor a la media. Para
esto, primero seleccionamos las variables con la función select
en donde se obtenía la aerolínea, la distancia, el origen y el destino.
Posteriormente con la función filter, se filtraron las
aerolíneas con una media superior a las 1040 millas recorridas, para
después ordenarlas en formato descendente.
Por último, se nos pide obtener la suma y la media de las distancias
recorridas, así como eliminar los NA’S, utilizando las
funciones group_by y summarize, se obtuvo la distancia
en suma y en promedio; como paso final ordenamos esto, nuevamente, en
formato descendente.
6. Identificar aerolíneas líderes en
los aeropuertos
#En esta parte se identifica si las aerolíneas líderes son las mismas en los tres aeropuertos cuyo origen es Nueva York ya sea el John F. Kennedy (JFK), el de LaGuardia (LGA) o el de Newark Liberty (EWR). Se genera un dataframe para cada aeropuerto.
Aeropuerto_JFK = Descendente %>% filter(origin == "JFK") %>% arrange(carrier, desc(distancesuma))
Aeropuerto_LGA = Descendente %>% filter(origin == "LGA") %>% arrange(carrier, desc(distancesuma))
Aeropuerto_EWR = Descendente %>% filter(origin == "EWR") %>% arrange(carrier, desc(distancesuma))
7. Conclusión: Parte 1
Dando cierre a la parte 1 de la evidencia, se identificó cuales eran
las aerolíneas líderes en los tres aeropuertos de Nueva York creando un
dataframe por cada aeropuerto. En el caso del aeropuerto Newark
Liberty (EWR), la aerolínea con mayor distancia recorrida es
United Airlines (UA), con un total del 1,811,495 millas
recorridas. Para el aeropuerto de LaGuardia (LGA) sería
American Airlines (AA) con una suma de 6,717,204 millas
recorridas. Por último, en el aeropuerto de John F.
Kennedy (JFK), de igual manera el primer puesto lo obtiene
American Airlines con un total de 7,962,075 millas
recorridas.
En conclusión, se realizó una exploración inicial, obteniendo datos
descriptivos como la media de millas recorridas, revelando un promedio
de 1040 millas. Luego, se aplicaron criterios para identificar
aerolíneas que operan vuelos de larga distancia, resultando en la suma y
media de las distancias recorridas, proporcionando una visión clara de
los patrones de vuelo y distancias. Además, se examina si las aerolíneas
líderes son consistentes en los aeropuertos de Nueva York (JFK, LGA y
EWR), en donde se destaca que American Airlines obtiene el
primer puesto en dos de los tres aeropuertos existentes.
Evidencia: Parte 2
1. Consulta del dataframe
#Al consultar/llamar el DataFrame nos permite visualizar la base de datos *flights*.
view(flights)
3. Cantidad de vuelos por
destino
#De la consulta anterior se requiere saber el nombre de la aerolínea
summary_delay <- df %>%
group_by(dest, name) %>%
summarise(avg_delay = mean(dep_delay, na.rm = TRUE),
total_flights = n(),
total_delayed_flights = sum(dep_delay > 0, na.rm = TRUE),
perc_delayed_flights = total_delayed_flights / total_flights * 100)
## `summarise()` has grouped output by 'dest'. You can override using the
## `.groups` argument.
4. Aerolíneas y Destinos: Mañana,
Tarde, Noche y Madrugada
#Se necesita conocer las aerolíneas (clave y nombre) y destinos que vuelan por la Mañana: de 6 a 12, Tarde: de 12 a 19 , Noche: de 19 a 24 y Madrugada de 24 a 6.
turno_carrier <- flights %>% select (carrier, dest, sched_dep_time) %>% left_join (airlines, by = "carrier")
turno_MTNM<- mutate(turno_carrier, clas_horario = ifelse(sched_dep_time %in% 600:1159,"Mañana",ifelse(sched_dep_time %in% 1200:1859,"Tarde",ifelse(sched_dep_time %in% 1900:2400,"Noche", "Madrugada"))))
5. Cantidad de vuelos: Mañana, Tarde y
Noche
#Se presenta la cantidad de vuelos por aerolínea y destino que hay en cada turno, ya sea en la mañana, tarde, noche o madrugada.
cantidad_turno_MTNM <- turno_MTNM %>% group_by(carrier, dest, clas_horario) %>% count()
6. Destinos a los que vuela American
Airlines en Madrugada
AA_destinos_mad <- turno_MTNM %>% select(carrier,name, dest,clas_horario) %>% filter(carrier == "AA" & clas_horario == "Madrugada") %>% group_by(carrier,name, dest,clas_horario)
7. Aviones que utiliza American
Airlines
#Se presenta la aerolínea, tipo, motor, número de asientos y la cantidad de vuelos que se han realizado con cada uno de los aviones.
AA_aviones <- flights %>% left_join(planes, by = "tailnum") %>% select(carrier, type, engine, seats) %>% filter(carrier == "AA", !is.na(type)) %>% group_by(carrier,type,engine,seats) %>% count()
8. Interpretaciones: Parte
2
En esta segunda parte se comienza visualizando la base de datos
flights y la obtención de información de cada vuelo, en este
caso, la aerolínea, el aeropuerto de origen y el de destino. Con esto se
pudo obtener la cantidad de vuelos por destino y el promedio de retraso
que tiene cada uno de ellos, además de mencionar que aerolínea maneja
cada destino. Por ejemplo, el destino con mayor cantidad de vuelos es
Atlanta (ATL) con un total de 10,571 vuelos, con la aerolínea Delta
Air Lines Inc. Por otra parte, hay un total de 17 destinos con la
menor cantidad de vuelos, o sea 1 vuelo solamente hacia cada uno de esos
17 destinos, es por eso que en este caso las aerolíneas correspondientes
varían.
Continuando con el análisis, se obtiene la clave y el nombre de la
aerolínea y los diferentes destinos que se operan en los turnos de
mañana, tarde, noche y madrugada. Con esto se obtuvo un total de 336,776
vuelos con las 5 variables a analizar: carrier, dest,
sched_dep_time, name y clas_horario. Después
se presenta la cantidad de vuelos por aerolínea y destino que hay en
cada turno, se destaca que la aerolínea Delta (DL) con destino
a Atlanta (ATL) tiene la mayor cantidad de vuelos en un horario de tarde
con un total de 4967 vuelos. De nuevo, los de menor cantidad varían, ya
que existen varias aerolíneas con un solo vuelo, a un solo destino y en
un solo horario.
Por último, para especificar más el caso, nos enfocamos completamente
en American Airlines y se encontró que dicha aerolínea tuvo un
total de 365 vuelos de madrugada a un único destino, en este caso al
aeropuerto de Miami (MIA). Después se logró presentar los aviones que
utiliza American Airlines, por ejemplo el avión con mayor
cantidad de asientos, con un total de 330, es un Fixed wing multi
engine con un motor de Turbo-fan, por otra parte el avión
con menor cantidad de asientos, con un total de 2, es un Fixed wing
single engine con un motor de Reciprocating.
9. Visualización de Datos
Visualizaciones de la aerolínea American Airlines para los ejecutivos
con las siguientes características. Dentro de las aerolíneas el retraso
tanto en la hora de partida como en la hora de llegada a su destino van
generando indicadores negativos.
Vuelos con retraso en ida y
regreso
#Vuelos de American Airlines que si tienen retraso en la partida también tienen retraso en la hora de llegada.
vuelos_aa <- flights %>% filter(carrier == "AA")
retrasopartida <- mutate(vuelos_aa, dep_delay = dep_time - sched_dep_time)
retrasollegada <- mutate(vuelos_aa, arr_delay = arr_time - sched_arr_time)
partidaAAretrasos <- filter(retrasollegada, dep_delay > 0)
llegadaAAretrasos <- filter(retrasollegada, arr_delay > 0)
AAretrasos_lp <- intersect(partidaAAretrasos, llegadaAAretrasos)
ggplot(AAretrasos_lp, aes(x = dep_delay, y = arr_delay)) +
geom_point() +
labs(x = "Retraso en la partida)", y = "Retraso en la llegada") +
theme_void()

Tendencia de la temperatura
#Tendencia de la temperatura durante los primeros 15 días del mes de Enero en los vuelos que parten del aeropuerto “Newark, EWR”, se utiliza una gráfica de línea.
EWRenero15 <- weather %>% filter(origin == "EWR", month == 1, day <= 15)
EWRenero15Temp <- select(EWRenero15, day, temp)
EWRenero15TempProm <- EWRenero15Temp %>% group_by(day) %>% summarise(promediotemp = mean(temp, na.rm=TRUE))
ggplot(EWRenero15TempProm, aes(x = day, y = promediotemp)) +
geom_line() +
labs(x = "Dia", y = "Temperatura (°C)") +
theme_void()

Temperatura más frecuente
#Visualiza la temperatura más frecuente en los primeros 15 días del mes de Enero, utilizar un histrograma.
datos_enero <- df %>%
filter(month.x == 1, day.x <= 15)
# Convertir a celsius
datos_enero_celsius <- mutate(datos_enero, celsius=(temp-32)*(5/9))
# Crear el histograma de temperatura
ggplot(datos_enero, aes(x = temp)) +
geom_histogram(binwidth = 5, color = "white", fill = "purple") +
labs(title = "Histograma de Temperatura en los Primeros 15 Dias de Enero",
x = "Temperatura", y = "Frecuencia") +
theme_minimal()
## Warning: Removed 52 rows containing non-finite outside the scale range
## (`stat_bin()`).

Facets
#Utiliza Facets para observar cómo varía la temperatura en cada mes en él histograma del punto anterior
datos <- df %>%
select(month.x, temp)
datos$temp <- (datos$temp - 32) * 5/9
ggplot(datos, aes(x = temp)) +
geom_histogram(binwidth = 3, color = "white", fill = "skyblue") +
facet_wrap(~month.x, nrow = 3) + # Facetar por mes, con 3 paneles por fila
labs(title = "Histograma de Temperatura por Mes",
x = "Temperatura", y = "Frecuencia") +
theme_minimal()
## Warning: Removed 1573 rows containing non-finite outside the scale range
## (`stat_bin()`).

Vuelos que salieron de Nueva York en el
2013
#Se presentan el número de vuelos que salieron de Nueva York en 2013 por aerolínea y con las 10 aerolínes con más vuelos se realiza una gráfica de barras.
vuelos_cantidad2 <- flights %>% select (carrier, dest) %>% count(carrier)
vuelos_orden <- arrange(vuelos_cantidad2, desc(n))
head(vuelos_orden, 10)
## # A tibble: 10 × 2
## carrier n
## <chr> <int>
## 1 UA 58665
## 2 B6 54635
## 3 EV 54173
## 4 DL 48110
## 5 AA 32729
## 6 MQ 26397
## 7 US 20536
## 8 9E 18460
## 9 WN 12275
## 10 VX 5162
grafico_barras <- ggplot(head(vuelos_orden, 10), aes(x = carrier, y = n)) +
geom_bar(stat = "identity") +
labs(x = "Aerolinea", y = "Cantidad de Vuelos")
grafico_barras

Grafica de pie
grafico_pastel <- grafico_barras +
coord_polar("y", start = 0)
grafico_pastel
#### Interpretaciones: Visualización de
Datos Para la visualización de datos, primero se obtuvieron los
vuelos de American Airlines que si tienen retraso en la
partida, también tienen retraso en la hora de llegada, para esto se
implementó un diagrama de dispersión, el cual nos muestra la relación
entre el retraso de partida y el retraso en la llegada. Después se
obtuvo la tendencia en temperatura durante los primeros 15 días del mes
de Enero en los vuelos que parten del aeropuerto “Newark, EWR”, para
esto se utiliza una gráfica de línea.
En la siguiente visualización se obtiene la temperatura más frecuente
en los primeros 15 días del mes de Enero, pero ahora utilizando un
histograma, en esta parte utilizamos la conversión de farenheit
a celsius y a simple vista se podría destacar que la
temperatura que más se repite se encuentra entre los 40 y 50 grados
centígrados, nuestra estimación personal son 45°C con una repetición
cerca de 4000 vuelos.
En el siguiente análisis se utiliza facets para observar
cómo varía la temperatura en cada mes en él histograma del punto
anterior, de igual manera, en esta parte utilizamos la conversión de
farenheit a celsius, como resultado se obtuvo un
histograma de temperatura por mes.
Continuando, se presentan el número de vuelos que salieron de Nueva
York en 2013 por aerolínea, después se obtiene las 10 aerolíneas con más
vuelos y se realiza una gráfica de barras con ellas. Se destaca que
United Airlines (UA) se encuentra en el primer puesto con un
total de 58,665 vuelos, a esta le sigue JetBlue Airways (B6)
con un total de 54,635 vuelos. En el tercer puesto se encuentra
ExpressJet Airlines Inc. con un total de 54,173 vuelos. En el
cuarto puesto Delta Air Lines Inc. con un total de 48,110
vuelos. En el quinto puesto se encuentra presente American
Airlines con un total de 32,729 vuelos. En el puesto número seis,
se encuentra Envoy Air (MQ) con un total de 26,397 vuelos. En
séptimo lugar, US Airways Inc. con un total de 20,536 vuelos.
Para el octavo puesto se encuentra Endeavor Air Inc. (9E) con
un total de 18,460 vuelos. En el penúltimo puesto, se integra
Southwest Airlines Co. con un total de 12,275 vuelos. Por
último lugar se encuentra Virgin America con un total de 5162
vuelos. Para poder representar todos estos números de vuelos por
aerolíneas, se implementó una gráfica de barras, haciendo que sea más
atractivo la manera de visualizar el resultado. De igual manera, se
realiza un grafico de pie, con los mismos datos del Top 10 de aerolíneas
con más vuelos.
Relación Flights and
Airports
#Relaciona el data frame flights con el data frame airports a través del campo destino ¿cómo lograr estas relaciones?
df <- merge(flights,airlines, by="carrier")
df <- left_join(df,planes, by="tailnum")
df <- left_join(df,weather, by=c("origin","time_hour"))
#Estas relaciones se logran a través del uso de funciones como merge y left_join,que permiten encontra las relaciones entre los diferentes data frames. Este paso se realizó al inico del programa para el desarrollo de los otros puntos de análisis.
Visualizaciones Flights and
Airports
Visualizaciones Flights 1: Gráfico de
Barras
Cantidad de Vuelos por Aerolínea
ggplot(data = vuelos_cantidad2, aes(x = carrier, y = n)) +
geom_bar(stat = "identity") +
labs(title = "Cantidad de Vuelos por Aerolinea",
x = "Aerolinea",
y = "Cantidad de Vuelos") +
theme_minimal()
#### Visualizaciones Flights 2: Gráfico de
Pastel Proporción de vuelos por aerolínea
ggplot(data = vuelos_cantidad2, aes(x = "", y = n, fill = carrier)) +
geom_bar(stat = "identity", width = 1) +
coord_polar("y") +
labs(title = "Proporcion de Vuelos por Aerolinea",
x = NULL,
y = NULL) +
theme_void()
#### Visualizaciones Flights 3: Gráfico de
Barras Número de vuelos por mes con y sin retraso
# Calcular la cantidad total de vuelos por mes
total_flights_per_month <- flights %>%
group_by(month) %>%
summarize(total_flights = n())
# Calcular la cantidad de vuelos con y sin retraso por mes
flights_filtered <- flights %>%
mutate(flights = ifelse(dep_delay > 0, "Delayed", "Not Delayed")) %>%
group_by(month, flights) %>%
summarise(count = n()) %>%
mutate(percent = count / sum(count) * 100)
## `summarise()` has grouped output by 'month'. You can override using the
## `.groups` argument.
# Unir los datos para incluir el total de vuelos por mes
flights_filtered <- left_join(flights_filtered, total_flights_per_month, by = "month")
# Calcular el porcentaje de vuelos para cada categoría por mes
flights_filtered <- flights_filtered %>%
mutate(percent_of_total = count / total_flights * 100)
# Gráfico de barras para el porcentaje de vuelos con y sin retraso por mes
ggplot(flights_filtered, aes(x = factor(month), y = percent_of_total, fill = flights)) +
geom_bar(stat = "identity", position = "stack") +
scale_fill_manual(values = c("seashell2", "rosybrown2")) +
labs(title = "Porcentaje de vuelos por mes con y sin retraso",
x = "Mes",
y = "Porcentaje de vuelos",
fill = "Retraso") +
theme_minimal()

Visualizaciones Flights 4: Gráfico de
Barras
Retrasos en la partida
# Calcular la cantidad total de vuelos
total_flights <- nrow(flights)
# Calcular la cantidad de vuelos con diferentes niveles de retraso en la partida
delayed_flights <- flights %>%
filter(dep_delay > 0) %>%
group_by(dep_delay) %>%
summarize(count = n())
# Calcular el porcentaje de vuelos para cada nivel de retraso
delayed_flights <- delayed_flights %>%
mutate(percentage = (count / total_flights) * 100)
# Gráfico de barras para el porcentaje de vuelos con diferentes niveles de retraso en la partida
ggplot(delayed_flights, aes(x = as.factor(dep_delay), y = percentage)) +
geom_bar(stat = "identity") +
labs(title = "Porcentaje de Vuelos con Retrasos en la Partida",
x = "Retraso en la Partida (minutos)",
y = "Porcentaje de Vuelos") +
scale_x_discrete(labels = function(x) ifelse(as.numeric(x) %% 100 == 0, x, ""))
#### Interpretaciones: Visualizaciones
Flights En esta parte se realiza un mayor enfoque en las
visualizaciones de la base de datos flights, para esto optamos
por gráficos de barras y de pastel. La primera visualización que se
presenta es la cantidad de vuelos por Aerolínea, muy similar a la del
Top 10 de aerolíneas con más vuelos, sin embargo en esta gráfica de
barras si se presentan las 16 aerolíneas participantes en los
aeropuertos de Nueva York.
Continuamos con un gráfico de pastel, el cuál en un formato atractivo
muestra la proporción de vuelos por aerolínea, que a simple vista se
destacan 5 principales: American Airlines Inc. (AA), United
Air Lines Inc. (UA), Delta Air Lines Inc. (DL),
ExpressJet Airlines Inc (EV) y JetBlue Airways
(B6).
En el tercer gráfico se presenta el número de vuelos por mes con y
sin retraso, esto por medio de una gráfica de barras, se destaca que la
mayoría de los vuelos, en todos los meses, no se retrasan. Pero por
ejemplo, en el mes número 7, o sea Julio, es de los más bajos con vuelos
no retrasados y de los más altos con vuelos con retraso, esto sin duda
nos ayuda a confirmar una de nuestras conclusiones de por qué los vuelos
se retrasan, aquí hay un claro ejemplo, que la temporada alta de
vacaciones de verano, es un factor para los retrasos en los vuelos. Por
último agregamos una cuarta visualización, en ella se presenta los
retrasos en la partida.
Visualizaciones Airports 1: Gráfico de
Dispersión
Relación entre coordenadas de aeropuertos
ggplot(airports, aes(x = lon, y = lat)) + geom_point() + labs(title = "Relacion entre Coordenadas de Aeropuertos")
#### Visualizaciones Airports 2: Gráfico de
Barras Aquí falta el tercer visualización
top_10_airports <- head(airports[order(-airports$alt), ], 10)
ggplot(top_10_airports, aes(x = reorder(name, -alt), y = alt, fill = name)) +
geom_bar(stat = "identity", size = 2) +
labs(title = "Top 10 Aeropuertos Más Altos",
x = "Aeropuerto",
y = "Altura") +
theme(axis.text.x = element_text(angle = 45, hjust = 1, size = 3))
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Interpretaciones: Visualizaciones
Airports
En las visualizaciones de Airports se utilizaron un gráfico
de dispersión y un gráfico de barras. En el primero se presenta la
relación existente entre las coordenadas de los aeropuertos, si se
mantemos un ataención, se puede destacar que en las coordenadas se
presenta una parte de Estados Unidos y la otra parte sería de Alaska. En
la segunda visualización, con una gráfica de barras, se obtiene el Top
10 de aeropuertos más altos, en el primer puesto se encuentra
Telluride, en el top 5 se encuentra el Bryce Canyon y
en el top 10 Mammoth Yosemit Airport.
10. Conclusión: Parte 2
En esta segunda parte se pudieron poner en práctica diferentes
habilidades de programación, principalmente al momento de realizar
gráficos y analizarlos. Se logró obtener la información de cada vuelo,
de los destinos más concurridos y hasta la divisón de vuelos en los
diferentes turnos de oferta de vuelos. Se generó un enfoque en
American Airlines y con las visualizaciones de la última parte
de la evidencia, se logró realizar un análisis más profundo en los
retrasos, encontrar las relaciones entre la base de datos
flights y la de airports y cómo es que cada una de
ellas nos sirve para encontrar diferentes variables para el desarrollo
de análisis de retrasos. En las interpretaciones anteriores, se explica
de manera más detallada, los resultados obtenidos, pero sin duda, el uso
de visualizaciones fue clave para poder entender mejor como funcionan el
tema de los vuelos, aerolíneas, destinos, entre otros.
¿Por qué se retrasan los vuelos en Nueva
York?
#Atrasos de origen, carrier y mes.
atraso_por_origen <- flights %>% group_by(origin) %>% summarise(tiempo_atraso_promedio = mean(dep_delay, na.rm = TRUE))
atraso_por_carrier <- flights %>% group_by(carrier) %>% summarise(tiempo_atraso_promedio = mean(dep_delay, na.rm = TRUE))
atraso_por_mes <- flights %>% group_by(month) %>% summarise(tiempo_atraso_promedio = mean(dep_delay, na.rm = TRUE))
# Resumen por origen
summary_by_origin <- flights %>% group_by(origin) %>% summarize(Media_Dep_Delay = mean(dep_delay, na.rm = TRUE),
Mediana_Dep_Delay = median(dep_delay, na.rm = TRUE), Min_Dep_Delay = min(dep_delay, na.rm = TRUE), Max_Dep_Delay = max(dep_delay, na.rm = TRUE))
# Resumen por aerolínea
summary_by_carrier <- flights %>% group_by(carrier) %>% summarize(Media_Dep_Delay = mean(dep_delay, na.rm = TRUE),
Mediana_Dep_Delay = median(dep_delay, na.rm = TRUE),
Min_Dep_Delay = min(dep_delay, na.rm = TRUE),
Max_Dep_Delay = max(dep_delay, na.rm = TRUE))
# Calcular resumen estadístico por destino
summary_by_dest <- flights %>%
group_by(dest) %>%
summarize(Media_Dep_Delay = mean(dep_delay, na.rm = TRUE),
Mediana_Dep_Delay = median(dep_delay, na.rm = TRUE),
Min_Dep_Delay = min(dep_delay, na.rm = TRUE),
Max_Dep_Delay = max(dep_delay, na.rm = TRUE))
## Warning: There were 2 warnings in `summarize()`.
## The first warning was:
## ℹ In argument: `Min_Dep_Delay = min(dep_delay, na.rm = TRUE)`.
## ℹ In group 52: `dest = "LGA"`.
## Caused by warning in `min()`:
## ! no non-missing arguments to min; returning Inf
## ℹ Run `dplyr::last_dplyr_warnings()` to see the 1 remaining warning.
# Crear un conjunto de datos combinando las variables de interés
modelo_data <- flights %>%
select(dep_delay, carrier, origin, month)
# Ajustar el modelo de regresión lineal
modelo <- lm(dep_delay ~ carrier + origin + month, data = modelo_data)
# Resumen del modelo
summary(modelo)
##
## Call:
## lm(formula = dep_delay ~ carrier + origin + month, data = modelo_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -54.81 -17.38 -12.48 -1.76 1294.85
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 18.80974 0.38810 48.466 < 2e-16 ***
## carrierAA -7.79414 0.38286 -20.358 < 2e-16 ***
## carrierAS -11.48010 1.54124 -7.449 9.46e-14 ***
## carrierB6 -3.77186 0.34822 -10.832 < 2e-16 ***
## carrierDL -7.07511 0.36085 -19.607 < 2e-16 ***
## carrierEV 2.97023 0.39186 7.580 3.47e-14 ***
## carrierF9 4.51664 1.56852 2.880 0.003983 **
## carrierFL 2.89628 0.78763 3.677 0.000236 ***
## carrierHA -12.03652 2.18212 -5.516 3.47e-08 ***
## carrierMQ -5.61979 0.40732 -13.797 < 2e-16 ***
## carrierOO -2.92665 7.42779 -0.394 0.693571
## carrierUA -4.90557 0.38340 -12.795 < 2e-16 ***
## carrierUS -12.43204 0.43216 -28.767 < 2e-16 ***
## carrierVX -4.02855 0.63644 -6.330 2.46e-10 ***
## carrierWN 1.25021 0.49683 2.516 0.011858 *
## carrierYV 3.37925 1.74606 1.935 0.052947 .
## originJFK -0.38387 0.23214 -1.654 0.098213 .
## originLGA -1.54708 0.21363 -7.242 4.44e-13 ***
## month -0.23726 0.02045 -11.604 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 39.96 on 328502 degrees of freedom
## (8255 observations deleted due to missingness)
## Multiple R-squared: 0.01256, Adjusted R-squared: 0.01251
## F-statistic: 232.2 on 18 and 328502 DF, p-value: < 2.2e-16
ggplot(modelo_data, aes(x = as.factor(month), y = dep_delay, group = 1)) +
geom_line(stat = "summary", fun = "mean", linetype = "solid", size = 1) +
labs(title = "Promedio del Retraso de Salida en función del Mes",
x = "Mes",
y = "Promedio de Retraso de Salida")
## Warning: Removed 8255 rows containing non-finite outside the scale range
## (`stat_summary()`).

df_combinado <- bdgrande2 %>%
merge(weather)
df_combinado <- as.data.frame(df_combinado)
regresion <- lm(dep_delay ~ tailnum + carrier + year.x + month + day + dep_time + arr_delay + flight + origin + dest + air_time + distance + minute + name + year.y + type + model + speed + engine + temp + dewp + humid + wind_dir + wind_speed + precip + pressure + visib, data=df_combinado)
summary(regresion)
##
## Call:
## lm(formula = dep_delay ~ tailnum + carrier + year.x + month +
## day + dep_time + arr_delay + flight + origin + dest + air_time +
## distance + minute + name + year.y + type + model + speed +
## engine + temp + dewp + humid + wind_dir + wind_speed + precip +
## pressure + visib, data = df_combinado)
##
## Residuals:
## Min 1Q Median 3Q Max
## -92.604 -6.806 0.925 7.482 48.286
##
## Coefficients: (28 not defined because of singularities)
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.222e+03 4.863e+02 2.513 0.012181 *
## tailnumN202AA 3.793e-01 3.278e+00 0.116 0.907900
## tailnumN350AA 1.254e+03 5.471e+02 2.292 0.022183 *
## tailnumN364AA 1.264e+03 5.471e+02 2.310 0.021168 *
## tailnumN378AA 1.262e+03 5.471e+02 2.307 0.021315 *
## tailnumN381AA 1.258e+03 5.471e+02 2.300 0.021736 *
## tailnumN425AA 1.790e+00 3.046e+00 0.588 0.556961
## tailnumN508AA 9.769e-01 3.091e+00 0.316 0.752098
## tailnumN519MQ -8.513e+00 5.698e+00 -1.494 0.135593
## tailnumN525AA -2.005e+00 3.008e+00 -0.666 0.505336
## tailnumN545AA 1.375e+00 3.076e+00 0.447 0.654995
## tailnumN567AA 5.660e-01 2.741e+00 0.206 0.836484
## tailnumN600TR 8.454e-01 1.231e+01 0.069 0.945266
## tailnumN615AA 1.251e+03 5.478e+02 2.284 0.022644 *
## tailnumN621AA 1.256e+03 5.477e+02 2.294 0.022073 *
## tailnumN675MC -6.093e+00 1.095e+01 -0.556 0.578180
## tailnumN737MQ -1.334e+01 6.480e+00 -2.058 0.039892 *
## tailnumN762NC 6.355e-01 8.416e+00 0.076 0.939825
## tailnumN767NC 3.382e+00 8.085e+00 0.418 0.675860
## tailnumN774NC 2.663e+00 9.732e+00 0.274 0.784437
## tailnumN777NC -2.218e+00 9.227e+00 -0.240 0.810081
## tailnumN779NC 2.675e-01 8.636e+00 0.031 0.975299
## tailnumN782NC -4.396e+00 8.239e+00 -0.534 0.593792
## carrierDL NA NA NA NA
## carrierMQ NA NA NA NA
## year.x NA NA NA NA
## month -7.767e-01 2.052e-01 -3.786 0.000166 ***
## day -1.052e-01 5.701e-02 -1.845 0.065398 .
## dep_time 4.866e-03 1.266e-03 3.844 0.000132 ***
## arr_delay 8.416e-01 1.313e-02 64.095 < 2e-16 ***
## flight 1.752e-04 1.306e-03 0.134 0.893279
## originJFK 1.702e+01 8.600e+00 1.979 0.048133 *
## originLGA 2.462e+01 1.066e+01 2.309 0.021212 *
## destBNA 4.149e+00 3.468e+00 1.197 0.231869
## destCLE -5.136e+02 2.223e+02 -2.310 0.021161 *
## destCLT -3.256e+02 1.414e+02 -2.302 0.021591 *
## destCMH -4.251e+02 1.829e+02 -2.324 0.020381 *
## destCRW -4.811e+02 2.060e+02 -2.336 0.019766 *
## destDCA -8.213e+02 3.530e+02 -2.327 0.020250 *
## destDFW 9.620e+02 4.078e+02 2.359 0.018595 *
## destDTW -3.854e+02 1.682e+02 -2.291 0.022233 *
## destEGE 2.635e+02 9.702e+01 2.716 0.006755 **
## destLAS 1.028e+03 4.222e+02 2.435 0.015139 *
## destMCO -9.695e+02 4.246e+02 -2.284 0.022678 *
## destMIA -7.483e+02 3.298e+02 -2.269 0.023563 *
## destMSP 3.958e+02 1.678e+02 2.359 0.018601 *
## destORD -3.511e+01 1.823e+01 -1.926 0.054447 .
## destRDU -5.011e+02 2.145e+02 -2.336 0.019756 *
## destSAN 1.320e+03 5.514e+02 2.395 0.016877 *
## destSFO 1.522e+03 6.424e+02 2.369 0.018083 *
## destSJU NA NA NA NA
## destSTL 1.884e+02 8.334e+01 2.260 0.024090 *
## destXNA 5.998e+02 2.508e+02 2.392 0.017016 *
## air_time -8.760e-01 5.292e-02 -16.553 < 2e-16 ***
## distance -1.410e+00 6.492e-01 -2.171 0.030229 *
## minute -3.598e-02 2.902e-02 -1.240 0.215533
## nameDelta Air Lines Inc. NA NA NA NA
## nameEnvoy Air NA NA NA NA
## year.y NA NA NA NA
## typeFixed wing single engine NA NA NA NA
## typeRotorcraft NA NA NA NA
## model172E NA NA NA NA
## model172M NA NA NA NA
## model172N NA NA NA NA
## model206B NA NA NA NA
## model310Q NA NA NA NA
## model421C NA NA NA NA
## model65-A90 NA NA NA NA
## modelA185F NA NA NA NA
## modelDC-7BF NA NA NA NA
## modelDC-9-51 NA NA NA NA
## modelOTTER DHC-3 NA NA NA NA
## modelPA-28-180 NA NA NA NA
## modelPA-31-350 NA NA NA NA
## modelPA-32R-300 NA NA NA NA
## speed NA NA NA NA
## engineReciprocating NA NA NA NA
## engineTurbo-jet NA NA NA NA
## engineTurbo-prop NA NA NA NA
## engineTurbo-shaft NA NA NA NA
## temp 6.254e-02 3.224e-01 0.194 0.846215
## dewp -2.769e-01 3.474e-01 -0.797 0.425728
## humid 7.996e-02 1.819e-01 0.440 0.660343
## wind_dir 1.795e-03 5.273e-03 0.340 0.733660
## wind_speed -2.425e-01 1.043e-01 -2.324 0.020386 *
## precip -1.372e+01 5.567e+01 -0.246 0.805410
## pressure -6.109e-02 7.786e-02 -0.785 0.432973
## visib 1.186e-01 4.541e-01 0.261 0.793995
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 13.58 on 742 degrees of freedom
## (282028 observations deleted due to missingness)
## Multiple R-squared: 0.8754, Adjusted R-squared: 0.8655
## F-statistic: 88.33 on 59 and 742 DF, p-value: < 2.2e-16
Análisis Retrasos
Gráfico - Atraso promedio por
origen
Gráfico - Atraso promedio por origen
# Calcular el número total de vuelos por origen
total_flights_per_origin <- flights %>%
group_by(origin) %>%
summarize(total_flights = n())
# Calcular el número de vuelos retrasados por origen
delayed_flights_per_origin <- flights %>%
filter(dep_delay > 0) %>%
group_by(origin) %>%
summarize(delayed_flights = n())
# Unir los datos y calcular el porcentaje de vuelos retrasados
delay_percentage_per_origin <- total_flights_per_origin %>%
left_join(delayed_flights_per_origin, by = "origin") %>%
mutate(delay_percentage = (delayed_flights / total_flights) * 100)
# Gráfico de barras para el porcentaje de vuelos retrasados por origen
ggplot(delay_percentage_per_origin, aes(x = origin, y = delay_percentage)) +
geom_bar(stat = "identity", fill = "lightblue1") +
theme_minimal() +
labs(title = "Porcentaje de Vuelos Retrasados por Origen",
x = "Origen",
y = "Porcentaje de Vuelos Retrasados")

Gráfico - Atraso promedio por
carrier
Gráfico - Atraso promedio por carrier
ggplot(atraso_por_carrier, aes(x=carrier, y=tiempo_atraso_promedio)) +
geom_bar(stat="identity", fill="cadetblue3") +
theme_minimal() +
labs(title="Atraso promedio por carrier", x="Carrier", y="Tiempo de atraso promedio")

# Calcular el número total de vuelos por transportista
total_flights_per_carrier <- flights %>%
group_by(carrier) %>%
summarize(total_flights = n())
# Calcular el número de vuelos retrasados por transportista
delayed_flights_per_carrier <- flights %>%
filter(dep_delay > 0) %>%
group_by(carrier) %>%
summarize(delayed_flights = n())
# Unir los datos y calcular el porcentaje de vuelos retrasados
delay_percentage_per_carrier <- total_flights_per_carrier %>%
left_join(delayed_flights_per_carrier, by = "carrier") %>%
mutate(delay_percentage = (delayed_flights / total_flights) * 100)
# Gráfico de barras para el porcentaje de vuelos retrasados por transportista
ggplot(delay_percentage_per_carrier, aes(x = carrier, y = delay_percentage)) +
geom_bar(stat = "identity", fill = "cadetblue3") +
theme_minimal() +
labs(title = "Porcentaje de Vuelos Retrasados por Carrier",
x = "Carrier",
y = "Porcentaje de Vuelos Retrasados")

Gráfico - Atraso promedio por
mes
Gráfico - Atraso promedio por mes
ggplot(atraso_por_mes, aes(x=month, y=tiempo_atraso_promedio)) +
geom_line(group=1, colour="darkslategray3") +
theme_minimal() +
labs(title="Atraso promedio por mes", x="Mes", y="Tiempo de atraso promedio")

# Calcular el número total de vuelos por mes
total_flights_per_month <- flights %>%
group_by(month) %>%
summarize(total_flights = n())
# Calcular el número de vuelos retrasados por mes
delayed_flights_per_month <- flights %>%
filter(dep_delay > 0) %>%
group_by(month) %>%
summarize(delayed_flights = n())
# Unir los datos y calcular el porcentaje de vuelos retrasados
delay_percentage_per_month <- total_flights_per_month %>%
left_join(delayed_flights_per_month, by = "month") %>%
mutate(delay_percentage = (delayed_flights / total_flights) * 100)
# Gráfico de línea para el porcentaje de vuelos retrasados por mes
ggplot(delay_percentage_per_month, aes(x = month, y = delay_percentage)) +
geom_line(colour = "darkslategray3") +
theme_minimal() +
labs(title = "Porcentaje de Vuelos Retrasados por Mes",
x = "Mes",
y = "Porcentaje de Vuelos Retrasados")

Interpretaciones: Retrasos
Acercándonos más hacia el análisis final del por qué los vuelos se
retrasan en los aeropuertos de Nueva York, se obtuvo el atraso en tiepo
promedio por aerolínea, origen y mes. En la gráfica de barras se muestra
el primer análisis de atraso promedio por origen, dando como resultado
que el aeropuerto EWR es el que cuenta con un mayor
atraso promedio, con un total del 15.11 minutos de atraso, a este le
sigue JK con un total de 12.11 minutos de atraso, y con
el menor promedio se encuentra LGA con un total de
10.35 mintos de atraso.
En la segunda gráfica de barras se presenta el atraso promedio por
carrier, dando como resultados principales que Frontier Airlines
Inc. (F9) es la aerolínea que cuenta con un mayor atraso promedio
de de 20.22 minutos, en cambio la aerolínea con el menor atraso promedio
es US Airways Inc. con un total de 3.78 minutos de atraso.
Para la tercera gráfica de línea, se presenta el atraso promedio por
mes, en donde se destaca que el mes de Julio es el que cuenta con un
mayor tiempo de atraso en promedio, con un total de 21.73 minutos. En
segundo lugar se encuentra Junio, con un tiempo de atraso en promedio de
20.85 minutos, y en tercer lugar se encuentra diciembre, con un total de
atraso promedio de 16.57 minutos. El atraso promedio en el mes, se puede
deber al principal factor de temporadas altas vacacionales.
Retraso por tipo de avión
Retraso por tipo de avión
# Retraso por tipo de avión
retraso_por_avion <- flights %>%
left_join(planes, by = "tailnum") %>%
group_by(type) %>%
summarize(avg_delay = mean(dep_delay, na.rm = TRUE))
# Gráfico de barras para retraso por tipo de avión
ggplot(retraso_por_avion, aes(x = type, y = avg_delay)) +
geom_bar(stat = "identity", fill = "skyblue") +
labs(title = "Retraso Promedio por Tipo de Avión",
x = "Tipo de Avión",
y = "Retraso Promedio") +
theme_minimal()

# Calcular el número total de vuelos por tipo de avión
total_flights_per_type <- flights %>%
left_join(planes, by = "tailnum") %>%
group_by(type) %>%
summarize(total_flights = n())
# Calcular el número de vuelos retrasados por tipo de avión
delayed_flights_per_type <- flights %>%
filter(dep_delay > 0) %>%
left_join(planes, by = "tailnum") %>%
group_by(type) %>%
summarize(delayed_flights = n())
# Unir los datos y calcular el porcentaje de vuelos retrasados
retraso_por_avion <- total_flights_per_type %>%
left_join(delayed_flights_per_type, by = "type") %>%
mutate(delay_percentage = (delayed_flights / total_flights) * 100)
# Gráfico de barras para retraso por tipo de avión
ggplot(retraso_por_avion, aes(x = type, y = delay_percentage)) +
geom_bar(stat = "identity", fill = "skyblue") +
labs(title = "Porcentaje de Vuelos Retrasados por Tipo de Avión",
x = "Tipo de Avión",
y = "Porcentaje de Vuelos Retrasados") +
theme_minimal()

Retraso por día de la semana
Retraso por día de la semana
# Retraso por día de la semana
retraso_por_dia_semana <- flights %>%
mutate(weekday = weekdays(as.Date(paste(year, month, day, sep = "-")))) %>%
group_by(weekday) %>%
summarize(avg_delay = mean(dep_delay, na.rm = TRUE))
# Ordenar días de la semana
retraso_por_dia_semana$weekday <- factor(retraso_por_dia_semana$weekday, levels = c("Monday", "Tuesday", "Wednesday", "Thursday", "Friday", "Saturday", "Sunday"))
# Gráfico de barras para retraso por día de la semana
ggplot(retraso_por_dia_semana, aes(x = weekday, y = avg_delay)) +
geom_bar(stat = "identity", fill = "blue") +
labs(title = "Retraso Promedio por Dia de la Semana",
x = "Dia de la Semana",
y = "Retraso Promedio") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))

Retraso por hora del día
Retraso por hora del día
# Retraso por hora del día
flights$hour <- as.integer(flights$hour)
mean_delay_per_hour <- aggregate(dep_delay ~ hour, flights, mean)
ggplot(data = mean_delay_per_hour, aes(x = hour, y = dep_delay)) +
geom_bar(stat = "identity", fill = "skyblue") +
labs(x = "Hora del día", y = "Retraso promedio (minutos)",
title = "Retraso promedio por hora del día") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5))

Interpretaciones: Retrasos
En el análisis anterior, ahora se toma en cuenta el retraso promedio
por tipo de avión, el retraso por día de la semana, y retraso por hora
del día.
El primer retraso analizado fue por el tipo de avión, el cual nos
presenta que los tipos de aviones Rotorcraft son los que
cuentan con un mayor atraso promedio, dando como resultado un total de
14.17 minutos de retraso. A este le sigue los tipos de aviones de
Fixed wing multi engine con un total de 13.19 minutos de
retraso. Por último el tipo de avión con menor cantidad de retraso
promedio es el Fixed wing single engine con un total de 10.50
minutos. A pesar de que existen esos tres tipos de aviones, la gráfica
también nos muestra los NA con un total de 9.5 minutos de atraso
promedio.
En la segunda gráfica se presenta el atraso promedio por día de la
semana, donde se destaca que los jueves son los días con mayor atraso
promedio, con un total de 16.15 minutos. Por otra parte, el día con
menor atraso promedio son los sábados, con un total de 7.65 minutos.
En la tercer gráfica se muestra el atraso promedio por hora del día,
en la cuál es visible un crecimiento en retrasos entre los horarios de
las 15:00 y 20:00 horas, después de esto disminuye para los vuelos de
las 5:00 a 10:00 horas.
Análisis del Clima
Retraso promedio por humedad
relativa
flights_weather<- merge(weather, flights)
flights_weather %>%
group_by(humid) %>%
summarise(delay = mean(dep_delay, na.rm = TRUE)) %>%
ggplot(aes(x = humid, y = delay)) +
labs(x = "Humedad relativa", y = "Retraso promedio (minutos)", fill = "Aeoropuerto") +
ggtitle("Retraso promedio por humedad relativa") +
geom_line() + geom_point()+ theme(plot.title= element_text(hjust=0.5))
### Retraso promedio por
temperatura
flights_weather %>%
group_by(temp) %>%
summarise(delay = mean(dep_delay, na.rm = TRUE)) %>%
ggplot(aes(x = temp, y = delay)) +
labs(x = "Temperatura", y = "Retraso promedio (minutos)", fill = "Aeoropuerto") +
ggtitle("Retraso promedio por Temperatura") +
geom_point() +
geom_smooth()+ theme(plot.title= element_text(hjust=0.5))
## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'
### Retraso promedio por velocidad del
viento
flights_weather %>%
group_by(wind_speed) %>%
summarise(delay = mean(dep_delay, na.rm = TRUE)) %>%
ggplot(aes(x = wind_speed, y = delay)) +
labs(x = "Velocidad del Viento", y = "Retraso promedio (minutos)") +
ggtitle("Retraso promedio por Velocidad del Viento") +
geom_smooth()+ theme(plot.title= element_text(hjust=0.5))
## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'
### Retraso promedio por dirección del
viento
flights_weather %>%
group_by(wind_dir) %>%
summarise(delay = mean(dep_delay, na.rm = TRUE)) %>%
ggplot(aes(x = wind_dir, y = delay)) +
labs(x = "Dirección del Viento", y = "Retraso promedio (minutos)") +
ggtitle("Retraso promedio por Dirección del Viento") +
geom_bar(stat = "identity") +
theme(plot.title=element_text(hjust=0.5))

Retraso promedio por visibilidad en el
aire
flights_weather %>%
group_by(visib) %>%
summarise(delay = mean(dep_delay, na.rm = TRUE)) %>%
ggplot(aes(x = visib, y = delay)) +
labs(x = "Visibilidad", y = "Retraso promedio (minutos)") +
ggtitle("Retraso promedio por Visibilidad en el aire") +
geom_line() +
theme(plot.title=element_text(hjust=0.5))

Interpretaciones: Análisis del
Clima
En el análisis del clima, primero se obtuvo el retraso promedio por
humedad relativa, en donde muestra que hay atrasos de una mayor cantidad
de tiempo entre el 75% y 100% de la humedad relativa. Después, se obtuvo
el atraso promedio por la temperatura, en este gráfico se destaca que
puede variar mucho la temperatura y el tiempo que se retrasa los
vuelos.
El tercer análisis utiliza el retraso promedio por velocidad del
viento, en donde si la velocidad se encuentra entre el 30 y 40, existe
la probabilidad de que los atrasos sean mayores a los 20 minutos.
Después se obtuvo el atraso promedio por dirección del viento, que
gracias a la visualización de la gráfica de barras, si la dirección del
viento se encuentra en un estimado entre 80 y 150, existe un atraso
promedio mayor. Por último se obtuvo el atraso promedio por la
visibilidad en el aire, en el que haciendo un estimado, si la
visibilidad se encunetra entre 0.0 y 2.5, los vuelos tienden a tener un
mayor atraso promedio, de alrededor de 30 a 50 minutos.
Conclusiones de retrasos
En esta actividad de manera grupal, determinamos el por qué se
retrasan los vuelos en los aeropuertos de Nueva York. Se obtuvo
información muy interesante a través de los diferentes análisis de las
bases de datos.
En primera instancia se obtuvo el atraso por origen, en donde nos
mostró el tiempo de atraso promedio en cada uno de los tres aeropuertos
disponibles, dando como resultado que el aeropuerto con mayor atraso en
promedio es el EWR. El siguiente análisis fue el atraso
por Carrier, en donde se obtuvo el atraso promedio por aerolínea; 9E
(Endevoir Air) obtuvo el mayor resultado en atraso
promedio.
Despúes nos enfocamos más en el mes en el que había mayores retrasos,
dando como resultado temporadas altas para viajar, por ejemplo en primer
lugar del mes con mayor retraso se encontraba Julio, aproximadamente
solo por un minuto mayor a Junio, y a este le seguía diciembre en el
tercer puesto. Si tomamos en cuenta que muchas personas viajan en dichas
temporados por el verano y las fiestas decembrinas, lo que ocasiona que
haya mayor cantidad de personas en movilidad en aeropuertos, podría ser
un importante factor del por qué los vuelos se retrasan más en dichas
temporadas.
Realizamos un modelo del promedio del retraso de salida en función
del mes, lo que nos muestra con mayor claridad, que las temporadas altas
de viajes son un factor que influye en los retrasos generados en los
aeropuertos de Nueva York.
Por último se realizaron los análisis del clima, considerando
diferentes variables, ya sea la dirección de viento, su visibilidad, la
humedad relativa y la temperatura, en los cuáles se nos muestra que sin
duda son un factor importante a considerar dentro del por qué los vuelos
se retrasan, este punto es explicado con mayor detenimiento en las
interpretaciones anteriores.
Ejercicios de evidencia en
clase
Extra 3. ¿Cuántas columnas y renglones
tiene “flights”? ¿Cuál es su dimensión?
# Número de columnas
ncol(flights)
## [1] 19
# Número de renglones
nrow(flights)
## [1] 336776
# Dimensión
dim(flights)
## [1] 336776 19
Compromiso ético y ciudadano
El valor de la integridad, según las Naciones Unidas, viene de la
práctica de ser una persona honesta, que se adhiere a sus valores y que
la toma de decisiones es sistemáticamente positiva. La integridad es la
forma de actuar de acuerdo a los principios, a diferencia de la
honestidad que es el acto de ser veraz. (Naciones Unidas)
Por la parte del compromiso ético, según miembros de la Universitat de
Barcelona, es la capacidad de actuar con las virtudes personales y
profesionales que requiere el correcto ejerccio de una profesión, el
desarrollo personal y la ciudadanía democrática, todo esto dentro de un
contexto universitario. (Mauri-Álvarez, Margarita, et al)
Por último, el compromiso ciudadano lo podemos diferenciar de la
participación ciudadana. El compromiso busca un diálogo activo entre la
toma de decisiones y los ciudadanos.(Lodewijckx, Ilona) Tener un
compromiso ético y ciudadano fue un punto clave para la elaboración de
esta evidencia.
Reflexión Personal: Nancy
Marroquín
- Reflexión personal: El respeto y la honestidad forman parte de los
valores que trato de representar en mi día a día. En cualquie tipo de
proyecto en el que participo, busco que este se lleve a cabo de manera
más tranparente, fomentando la comunicación y la escucha activa. En el
mundo de los negocios fomentar estos valores tan importantes, son clave
para el éxito de las empresas. El actua de manera honesta y con respeto
hacia los demás, te permite tener un mejor desarrollo personal y
profesional. Si nos enfocamos más, hacia la parte de análisis de datos y
el uso de datos de las empresas, el repeto y la honestidad, no son los
únicos valores que se promueven, sino que también la confianza, el
compromiso y la integridad. Al trabajar con información de la empresas
es necesario tener mucho cuidado cómo es que se utiliza y cuál es su
propósito. De esta manera es posible generar una mejor toma de
decisiones repecto al uso y desarrollo de dichos datos.
Reflexión Personal: Kevin
Meza
- Reflexión personal: La responsabilidad, es un valor el cual va de la
mano con transparencia e integridad. El serlo al llevar a cabo en el uso
de datos, es asumir las consecuencias de las acciones tomadas y
garantizar que se cumplan los principio éticos y legales del momento.
Otro punto relevante a considerar es la ética en la toma de decisiones
basadas en datos. Es fundamental que las decisiones empresariales se
tomen considerando no solo la información disponible, sino también los
valores éticos que guían el comportamiento de quienes gestionan dichos
datos.
Asimismo, se puede destacar la importancia de la confianza como
resultado de la combinación de estos valores éticos. La confianza tanto
interna como externa se construye a partir de la coherencia entre lo que
se dice y lo que se hace en relación con los datos empresariales.
Reflexión Personal: Adrián
Morales
- Reflexión personal: Desde mi punto de vista, considero que la
integridad es fundamental para la honestidad y la coherencia en todos
los aspectos de la vida. En el campo de la inteligencia de negocios,
donde me desempeño como estudiante, el código ético de nuestra
disciplina actúa como el guía que orienta mi comportamiento profesional.
Este código no solamente establece la obligación de manejar la
información de forma precisa y confidencial, sino que también resalta la
importancia de utilizar el conocimiento adquirido de manera equitativa y
clara. Tener acceso a la información de una empresa conlleva una gran
responsabilidad de manejarla con cuidado, garantizando la
confidencialidad y evitando conflictos de interés, aplicando análisis
éticos que beneficie a la organización y a la sociedad en general. Al
final del día, mantener la integridad en la gestión de datos de la
empresa no solo muestra mi dedicación a la ética laboral, sino que
también aumenta la confianza y credibilidad en el campo de la
inteligencia empresarial
Reflexión Personal: Karla
López
- Reflexión personal: La integridad se puede definir como la calidad
de ser honesto, ético y moral en todas las acciones y decisiones. En el
contexto de mi disciplina académica, la integridad es fundamental para
mis trabajos individuales y grupales, ya que representa la relación de
mis acciones, valores, principios y resultados. Asimismo, en mi
disciplina personal, me impulsa a ser honesta, transparente y
responsable en mis actividades, asegurando que mis acciones siempre
reflejen mis valores morales y éticos. Por otro lado, en el ámbito
profesional, en una empresa no solo se busca contar con un compromiso
con la información proporcionada sino también con el equipo y las
herramientas, ya que es fundamental mantener una conducta ética tanto en
las relaciones con los compañeros como en el uso de los recursos
disponibles para el desarrollo y el éxito de la empresa.
Conclusión General
Tras examinar el modelo de regresión lineal, se pudo observar que el
88.68% de la variabilidad en la variable dependiente (retraso en los
vuelos) se puede explicar utilizando las variables independientes. Las
cuales se identificaron ciertas variables que muestran una significancia
estadística, con valores de p menores a 0.001, lo que demuestra que
tienen un impacto significativo, lo que significa que tienen una
relación directa y lógica con el retraso de los vuelos, las cuales
fueron:
dep_time: Razones por las cuales el tiempo de salida puede afectar a
los vuelos pueden ser problemas de gestión por parte de las aerolíneas,
como dificultades operativas relacionadas con el equipo o el personal, o
problemas en el aeropuerto.(***)
arr_delay: Relación significativa en la conexión de las llegadas
tardías con las salidas. (***)
air_time: Al estar más expuestos en el aire, los vuelos pueden sufrir
problemas climáticos, escalas, procesos de seguridad, entre otros.
(***)
dest: Los vuelos pueden verse afectados por algunos destinos donde
hay tráfico aéreo, condiciones meteorológicas locales o congestión del
aeropuerto de destino, que sucede frecuentemente en ciudades
grandes.(***)
wind_speed: Relación entre la velocidad del viento y los retrasos en
la salida de los vuelos. Puede ser ocasionado por operación en el vuelo
o de seguridad, procedimientos de seguridad, entre otros. (**)
wind_dir: Relación entre la dirección del viento y los retrasos, que
pueden ser debidos por las condiciones de vuelo, procedimientos de
despegue, entre otros. (**)
Por lo cual, sugiere que una variedad de variables, tanto
relacionadas con la operación de las aerolíneas como con las condiciones
meteorológicas, pueden contribuir a los retrasos en la salida de los
vuelos.
Bibliografías
*Berrendero, J. R. (n.d.). Una breve introducción a ggplot2. http://verso.mat.uam.es/~joser.berrendero/R/introggplot2.html
El valor de valores: La integridad | LinkedIn. (n.d.). https://www.linkedin.com/pulse/el-valor-de-valores-la-integridad-marleth-morales/?originalSubdomain=es
“La Ciencia de La Integridad.” Naciones Unidas : Oficina de Las
Naciones Unidas Contra La Droga Y El Delito,
www.unodc.org/unodc/es/listen-first/super-skills/integrity.html.
Lodewijckx, Ilona. “¿Cuál Es La Diferencia Entre El Compromiso
Ciudadano Y La Participación?” CitizenLab’s Blog, 29 June 2020,
www.citizenlab.co/blog/participacion-ciudadana/cual-es-la-diferencia-entre-el-compromiso-ciudadano-y-la-participacion/?lang=es.
Accessed 12 Mar. 2024.
Mauri-Álvarez, Margarita, et al. “Compromiso Ético Y
Responsabilidad En El Contexto Universitario.” REIRE Revista d’Innovació
I Recerca En Educació, vol. 15, no. 1, 2 Dec. 2021,
diposit.ub.edu/dspace/bitstream/2445/194341/1/721517.pdf, https://doi.org/10.1344/reire.36970. Accessed 29
Aug. 2023
RPubs - Función ggplot() de ggplot2. (n.d.). https://rpubs.com/daniballari/ggplot
Rlt. (n.d.).Gráficos de barras con geom_bar. https://raymondltremblay.github.io/ANALITICA/G7_geom_bar.html
