Contexto

El paquete nycflights13 contiene información sore todos los vuelos que partieron desde Nueva York(EWR, JFL, LGA) en destinos a los Estados Unidos en 2013. Fueron 336,776 vuelos en total. Para ayudar a comprender las causas de los retrasos, también incluye otros conjuntos de datos útiles.

Este paquete incluye las siguientes tablas:

  • flights = todos los vuelos que salieron de NUeva York en el 2013
  • weather = datos metereológicos por hora de cada aeropuerto
  • planes = información de construcción de cada avión
  • airports = nombres y ublicaciones de aeropuertos
  • airlines = relación entre nombres y códigos de las aerolíneas

Fuente: Origen de los datos

Reporte Ejecutivo

En esta evidencia se trabajó con el paquete nycflights, el cual nos permitió analizar información acerca de los vuelos, destinos, aerolíneas, retrasos, entre otros; registrados en los aeropuertos de Nueva York en el 2013. Se utilizaron las funciones más comunes del análisis exploratorio, el cual es el primer paso para cualquier trabajo de manipulación de datos.

La situación problema que se buscaba resolver es saber el por qué los vuelos se retrasan, ya sea en la partida o en la llegada, en los aeropuertos en Nueva York. Con la información brindada en las bases de datos, se pudo realizar un análisis tomando en cuenta diferentes variables, ya sea el clima, el tipo de avión que se utilizaba, la aerolínea, el día de la semana, las temporadas vacacionales e incluso hasta el horario del día. Al analizar esta información se obtuvieron datos que nos permitirían evaluar cuál es el verdadero motivo por el que los vuelos se retrasan.

Para este proyecto diferentes metodologías fueron puestas a prueba, las cuales ayudaron a generar conclusiones del análisis general de retrasos en partidas y llegadas. El uso de visualizaciones de gráficas de barras, histogramas, diagramas de dispersión, entre otros, fueron herramientas importantes para el análisis visual.

A medida con la que se avanzaba en el análisis, podíamos ir descartando que variables no servían de mucho y cuales sí tenían un mayor impacto para resolver la situación problema. Esto nos permitía generar un mayor enfoque en aquellos aspectos más relevantes y posteriormente, con creatividad, generar propuestas para la disminución de retrasos en salidas y llegadas.

A continuación se presenta la evidencia final, con análisis, interpretaciones, elementos visuales y recomendaciones para las aerolíneas, aeropuertos y pasajeros, todo esto con el propósito de brindar solución a los retrasos generados.

Instalar paquetes y llamar librerías

#install.packages("nycflight13")
library(nycflights13)
#install.packages("tidyverse")
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.0     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.1
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
#install.packages("dplyr")
library(dplyr)
#install.packages("ggplot2")
library(ggplot2)
data("flights")

Guardar base de datos

flights <- flights
weather <- weather
planes <- planes
airports <- airports
airlines <- airlines

Relación entre las bases de datos

Relación existente

df <- merge(flights,airlines, by="carrier")
df <- left_join(df,planes, by="tailnum")
df <- left_join(df,weather, by=c("origin","time_hour"))

Data Wrangling

1. Funciones básicas de manejo de datos

Select

La función select sirve para seleccionar columnos de un table (data frame).

df1 <- flights %>% select(carrier, flight) # Selección de columnas específicas
df2 <- flights %>% select(carrier:distance) # Selección de rango de columnas
df3 <- flights %>% select(-carrier, -flight) # Eliminar columnas específicas
df4 <- flights %>% select(-carrier: -flight) # Eliminar rango de columnas
df5 <- flights %>% select(aerolinea = carrier) # Selecciona una columna y le cambia el nombre
df6 <- flights %>% rename(aerolinea = carrier) # Cambia el nombre de una columna

Filter

La función Filter sirve para seleccionar renglones de un tabla(data frame).

df7 <- flights %>% filter(dep_delay >=500) # Extrae renglones que cumplan condición
# Condicionales: Igual ==, Desigual =!=, Mayor que >, Mayor o igual que >=, Menor o igual que <=
# Operadores lógicos: AND &, OR |, NOT !
df8 <- flights %>% filter(dep_delay >=500, dep_delay <=600) # Extrae renglones que cumplan con dos condiciones
df9 <- flights %>% slice(1000: 1099) # Extrae los números de los renglones indicados, sin importar sus valores

Distinct

La función distinct sirve para eliminar renglones duplicados.

df10 <- distinct(flights) # Dejar solo los renglones diferentes, borra todos los repetidos.

Merge

La función merge sirve para juntar bases de datos.

bdgrande <- merge(flights, airlines, by="carrier")
bdgrande2 <- merge(bdgrande,planes, by="tailnum")

Mutate

bdgrande3 <- mutate(bdgrande2, dist_mts = distance*1.609)
#Agrega variables nuevas caluladas a partir de variables existentes en la base de datos.

Ejercicios

  1. Encuentra todos los vuelos que tuvieron un atraso en llegada de 2 horas o más.
ejercicio1 <- bdgrande2 %>% filter(arr_delay>=120)
  1. Encuentra todos los vuelos que llegaron a Houston (IAN O HOU)
ejercicio2 <- bdgrande2 %>% filter(dest== "IAH" | dest == "HOU")
  1. Encuentra todos los vuelos operados por United, American o Delta.
ejercicio3 <- bdgrande2 %>% filter(carrier %in% c("UA", "AA", "DL"))
  1. Encuentra todos los vuelos que despegaron en Julio, Agosto o Septiembre
ejercicio4 <- bdgrande2 %>% filter(month %in% c(7, 8, 9))
ejercicio4a <- bdgrande2 %>% filter(month == 7 | month == 8 | month == 9) 
  1. Encuentra todos los vuelos que arrivaron más de 2 horas tarde, pero no despegaron tarde.
ejercicio5 <- bdgrande2 %>% filter(arr_delay>120 & dep_time == sched_dep_time)
ejercicio5a <- bdgrande2 %>% filter(arr_delay>120 & dep_delay<=0)
  1. Encuentra todos los vuelos que se retrasaron al menos 1 hora, pero que llegaron antes 30 minutos o más.
ejercicio6 <- bdgrande2 %>% filter(dep_delay>=60 & arr_delay<=-30)
  1. Encuentra todos los vuelos que salieron entre la medianoche y las 6 a.m.
ejercicio7 <- bdgrande2 %>% filter(dep_time %in% c("2400", "100", "200", "300", "400", "500", "600"))
ejercicio7a <- bdgrande2 %>% filter(dep_time==2400 | dep_time<=600) #CORRECTA
ejercicio7b <- bdgrande2 %>% filter(hour %in% c("0", "1", "2", "3", "4", "5", "6"))

Arrange

Similar a filter () pero en lugar de seleccionar renglones, los ordena de menor a mayor.

df11 <- arrange(bdgrande2, year.x, month, day)

Para acomodar de mayor a menor.

df12 <- arrange(bdgrande2, year.x, desc(month), day)

Summarize

Colapsa una tabla a un sólo renglón

# Obtén el retraso promedio de salida de despegue de todos los vuelos
summarize(bdgrande2, mean(dep_delay, na.rm=TRUE))
##   mean(dep_delay, na.rm = TRUE)
## 1                      13.17979

Group by

Agrupa tabla basado en algunas columnas.

# Obtener el retraso promedio de despegue por día
por_dia <- group_by(bdgrande2, year.x, month, day)
summarize(por_dia, mean(dep_delay, na.rm=TRUE))
## `summarise()` has grouped output by 'year.x', 'month'. You can override using
## the `.groups` argument.
## # A tibble: 365 × 4
## # Groups:   year.x, month [12]
##    year.x month   day `mean(dep_delay, na.rm = TRUE)`
##     <int> <int> <int>                           <dbl>
##  1   2013     1     1                           10.7 
##  2   2013     1     2                           14.4 
##  3   2013     1     3                           11.1 
##  4   2013     1     4                           10.0 
##  5   2013     1     5                            5.70
##  6   2013     1     6                            7.98
##  7   2013     1     7                            6.49
##  8   2013     1     8                            3.10
##  9   2013     1     9                            3.17
## 10   2013     1    10                            1.89
## # ℹ 355 more rows

Evidencia: Parte 1

1. Cargar en memoria la tabla “flights” y mostrar su contenido

# La carga a memoria se hizo en el paso anterior, consulta de dataframe para recordar su contenido.
view(flights)

2. Datos descriptivos de “flights”

# Identifica la media de las distancias recorridas en millas.
summary(flights)
##       year          month             day           dep_time    sched_dep_time
##  Min.   :2013   Min.   : 1.000   Min.   : 1.00   Min.   :   1   Min.   : 106  
##  1st Qu.:2013   1st Qu.: 4.000   1st Qu.: 8.00   1st Qu.: 907   1st Qu.: 906  
##  Median :2013   Median : 7.000   Median :16.00   Median :1401   Median :1359  
##  Mean   :2013   Mean   : 6.549   Mean   :15.71   Mean   :1349   Mean   :1344  
##  3rd Qu.:2013   3rd Qu.:10.000   3rd Qu.:23.00   3rd Qu.:1744   3rd Qu.:1729  
##  Max.   :2013   Max.   :12.000   Max.   :31.00   Max.   :2400   Max.   :2359  
##                                                  NA's   :8255                 
##    dep_delay          arr_time    sched_arr_time   arr_delay       
##  Min.   : -43.00   Min.   :   1   Min.   :   1   Min.   : -86.000  
##  1st Qu.:  -5.00   1st Qu.:1104   1st Qu.:1124   1st Qu.: -17.000  
##  Median :  -2.00   Median :1535   Median :1556   Median :  -5.000  
##  Mean   :  12.64   Mean   :1502   Mean   :1536   Mean   :   6.895  
##  3rd Qu.:  11.00   3rd Qu.:1940   3rd Qu.:1945   3rd Qu.:  14.000  
##  Max.   :1301.00   Max.   :2400   Max.   :2359   Max.   :1272.000  
##  NA's   :8255      NA's   :8713                  NA's   :9430      
##    carrier              flight       tailnum             origin         
##  Length:336776      Min.   :   1   Length:336776      Length:336776     
##  Class :character   1st Qu.: 553   Class :character   Class :character  
##  Mode  :character   Median :1496   Mode  :character   Mode  :character  
##                     Mean   :1972                                        
##                     3rd Qu.:3465                                        
##                     Max.   :8500                                        
##                                                                         
##      dest              air_time        distance         hour      
##  Length:336776      Min.   : 20.0   Min.   :  17   Min.   : 1.00  
##  Class :character   1st Qu.: 82.0   1st Qu.: 502   1st Qu.: 9.00  
##  Mode  :character   Median :129.0   Median : 872   Median :13.00  
##                     Mean   :150.7   Mean   :1040   Mean   :13.18  
##                     3rd Qu.:192.0   3rd Qu.:1389   3rd Qu.:17.00  
##                     Max.   :695.0   Max.   :4983   Max.   :23.00  
##                     NA's   :9430                                  
##      minute        time_hour                     
##  Min.   : 0.00   Min.   :2013-01-01 05:00:00.00  
##  1st Qu.: 8.00   1st Qu.:2013-04-04 13:00:00.00  
##  Median :29.00   Median :2013-07-03 10:00:00.00  
##  Mean   :26.23   Mean   :2013-07-03 05:22:54.64  
##  3rd Qu.:44.00   3rd Qu.:2013-10-01 07:00:00.00  
##  Max.   :59.00   Max.   :2013-12-31 23:00:00.00  
## 

3. Criterios para encontrar aerolíneas

#Crea un nuevo data frame que filtre solamente a las aeorlíneas que han recorrido una distancia superior a la media, se desean ver los campos carrier, distance, origin, dest en forma descendente por distance.

#Criterio 1: se selecciona las variables.
Criterio1 <- flights %>% select(carrier, distance, origin, dest)

#Criterio 2: se filtran a las aerolineas que tengan una media superior a 1040 en millas recorridas. 
Criterio2 <- Criterio1 %>% filter(distance >1040)

#Criterio 3: se ordena en descendente por la distancia recorrida 
Criterio3 <- Criterio2 %>% arrange(desc(distance))

4. Suma y Media de las distancias recorridas

# Se encuentra la suma y la media de las distancias recorridas por carrier, elimina los NA’S e interpreta que significa la suma y la media de las distancias recorridas.

Criterio4 <- Criterio3 %>% group_by(carrier,origin,dest) %>%  
  summarize(distancesuma=sum(distance, na.rm=TRUE), distancepromedio=mean(distance, na.rm=TRUE))
## `summarise()` has grouped output by 'carrier', 'origin'. You can override using
## the `.groups` argument.
# Posteriormente, se ordena de forma descendente en base a la distancia recorrida.
Descendente <- Criterio4 %>% arrange(carrier,distancesuma)

5. Interpretaciones: Parte 1

En esta primera parte se realizan los pasos básicos para comenzar a analizar una base de datos. Es un analisis inicial donde se visualiza el contenido de los datos disponibles y se obtienen los datos descriptivos básicos para comprender mejor la información de vuelos. En los datos descriptivos podemos encontrar la media, el mínimo, máximo, entre otros, de las diferentes variables con las que cuenta la base de datos. En la problemática se nos pide encontrar la media de las millas recorridas, utilizando summary nos arroja un resultado de 1040 millas recorridas como media.

En el siguiente punto se utilizaron diferentes criterios para filtrar las aerolíneas que han recorrido una distancia mayor a la media. Para esto, primero seleccionamos las variables con la función select en donde se obtenía la aerolínea, la distancia, el origen y el destino. Posteriormente con la función filter, se filtraron las aerolíneas con una media superior a las 1040 millas recorridas, para después ordenarlas en formato descendente.

Por último, se nos pide obtener la suma y la media de las distancias recorridas, así como eliminar los NA’S, utilizando las funciones group_by y summarize, se obtuvo la distancia en suma y en promedio; como paso final ordenamos esto, nuevamente, en formato descendente.

6. Identificar aerolíneas líderes en los aeropuertos

#En esta parte se identifica si las aerolíneas líderes son las mismas en los tres aeropuertos cuyo origen es Nueva York ya sea el John F. Kennedy (JFK), el de LaGuardia (LGA) o el de Newark Liberty (EWR). Se genera un dataframe para cada aeropuerto.

Aeropuerto_JFK = Descendente %>% filter(origin == "JFK")  %>% arrange(carrier, desc(distancesuma))
Aeropuerto_LGA = Descendente %>% filter(origin == "LGA")  %>% arrange(carrier, desc(distancesuma))
Aeropuerto_EWR = Descendente %>% filter(origin == "EWR")  %>% arrange(carrier, desc(distancesuma))

7. Conclusión: Parte 1

Dando cierre a la parte 1 de la evidencia, se identificó cuales eran las aerolíneas líderes en los tres aeropuertos de Nueva York creando un dataframe por cada aeropuerto. En el caso del aeropuerto Newark Liberty (EWR), la aerolínea con mayor distancia recorrida es United Airlines (UA), con un total del 1,811,495 millas recorridas. Para el aeropuerto de LaGuardia (LGA) sería American Airlines (AA) con una suma de 6,717,204 millas recorridas. Por último, en el aeropuerto de John F. Kennedy (JFK), de igual manera el primer puesto lo obtiene American Airlines con un total de 7,962,075 millas recorridas.

En conclusión, se realizó una exploración inicial, obteniendo datos descriptivos como la media de millas recorridas, revelando un promedio de 1040 millas. Luego, se aplicaron criterios para identificar aerolíneas que operan vuelos de larga distancia, resultando en la suma y media de las distancias recorridas, proporcionando una visión clara de los patrones de vuelo y distancias. Además, se examina si las aerolíneas líderes son consistentes en los aeropuertos de Nueva York (JFK, LGA y EWR), en donde se destaca que American Airlines obtiene el primer puesto en dos de los tres aeropuertos existentes.

Evidencia: Parte 2

1. Consulta del dataframe

#Al consultar/llamar el DataFrame nos permite visualizar la base de datos *flights*.
view(flights)

2. Información de cada vuelo

#Se necesita saber de cada vuelo, la aerolínea, el aeropuerto de origen y el aeropuerto destino
vuelos <- flights %>% select(carrier, origin, dest)

#De la consulta anterior se requiere saber el nombre de la aerolínea
aerolínea <- vuelos %>% left_join (airlines, by = "carrier")

3. Cantidad de vuelos por destino

#De la consulta anterior se requiere saber el nombre de la aerolínea 

summary_delay <- df %>%
  group_by(dest, name) %>%
  summarise(avg_delay = mean(dep_delay, na.rm = TRUE),
            total_flights = n(),
            total_delayed_flights = sum(dep_delay > 0, na.rm = TRUE),
            perc_delayed_flights = total_delayed_flights / total_flights * 100)
## `summarise()` has grouped output by 'dest'. You can override using the
## `.groups` argument.

4. Aerolíneas y Destinos: Mañana, Tarde, Noche y Madrugada

#Se necesita conocer las aerolíneas (clave y nombre) y destinos que vuelan por la Mañana: de 6 a 12, Tarde: de 12 a 19 , Noche: de 19 a 24 y Madrugada de 24 a 6.

turno_carrier <- flights %>% select (carrier, dest, sched_dep_time) %>% left_join (airlines, by = "carrier")

turno_MTNM<- mutate(turno_carrier, clas_horario = ifelse(sched_dep_time %in% 600:1159,"Mañana",ifelse(sched_dep_time %in% 1200:1859,"Tarde",ifelse(sched_dep_time %in% 1900:2400,"Noche", "Madrugada"))))

5. Cantidad de vuelos: Mañana, Tarde y Noche

#Se presenta la cantidad de vuelos por aerolínea y destino que hay en cada turno, ya sea en la mañana, tarde, noche o madrugada.

cantidad_turno_MTNM <- turno_MTNM %>% group_by(carrier, dest, clas_horario) %>% count()

6. Destinos a los que vuela American Airlines en Madrugada

AA_destinos_mad <- turno_MTNM %>% select(carrier,name, dest,clas_horario) %>% filter(carrier == "AA" & clas_horario == "Madrugada") %>% group_by(carrier,name, dest,clas_horario)

7. Aviones que utiliza American Airlines

#Se presenta la aerolínea, tipo, motor, número de asientos y la cantidad de vuelos que se han realizado con cada uno de los aviones.
AA_aviones <- flights %>% left_join(planes, by = "tailnum") %>% select(carrier, type, engine, seats) %>% filter(carrier == "AA", !is.na(type)) %>% group_by(carrier,type,engine,seats) %>% count()

8. Interpretaciones: Parte 2

En esta segunda parte se comienza visualizando la base de datos flights y la obtención de información de cada vuelo, en este caso, la aerolínea, el aeropuerto de origen y el de destino. Con esto se pudo obtener la cantidad de vuelos por destino y el promedio de retraso que tiene cada uno de ellos, además de mencionar que aerolínea maneja cada destino. Por ejemplo, el destino con mayor cantidad de vuelos es Atlanta (ATL) con un total de 10,571 vuelos, con la aerolínea Delta Air Lines Inc. Por otra parte, hay un total de 17 destinos con la menor cantidad de vuelos, o sea 1 vuelo solamente hacia cada uno de esos 17 destinos, es por eso que en este caso las aerolíneas correspondientes varían.

Continuando con el análisis, se obtiene la clave y el nombre de la aerolínea y los diferentes destinos que se operan en los turnos de mañana, tarde, noche y madrugada. Con esto se obtuvo un total de 336,776 vuelos con las 5 variables a analizar: carrier, dest, sched_dep_time, name y clas_horario. Después se presenta la cantidad de vuelos por aerolínea y destino que hay en cada turno, se destaca que la aerolínea Delta (DL) con destino a Atlanta (ATL) tiene la mayor cantidad de vuelos en un horario de tarde con un total de 4967 vuelos. De nuevo, los de menor cantidad varían, ya que existen varias aerolíneas con un solo vuelo, a un solo destino y en un solo horario.

Por último, para especificar más el caso, nos enfocamos completamente en American Airlines y se encontró que dicha aerolínea tuvo un total de 365 vuelos de madrugada a un único destino, en este caso al aeropuerto de Miami (MIA). Después se logró presentar los aviones que utiliza American Airlines, por ejemplo el avión con mayor cantidad de asientos, con un total de 330, es un Fixed wing multi engine con un motor de Turbo-fan, por otra parte el avión con menor cantidad de asientos, con un total de 2, es un Fixed wing single engine con un motor de Reciprocating.

9. Visualización de Datos

Visualizaciones de la aerolínea American Airlines para los ejecutivos con las siguientes características. Dentro de las aerolíneas el retraso tanto en la hora de partida como en la hora de llegada a su destino van generando indicadores negativos.

Vuelos con retraso en ida y regreso

#Vuelos de American Airlines que si tienen retraso en la partida también tienen retraso en la hora de llegada.

vuelos_aa <- flights %>% filter(carrier == "AA")
retrasopartida <- mutate(vuelos_aa, dep_delay = dep_time - sched_dep_time)
retrasollegada <- mutate(vuelos_aa, arr_delay = arr_time - sched_arr_time)
partidaAAretrasos <- filter(retrasollegada, dep_delay > 0)
llegadaAAretrasos <- filter(retrasollegada, arr_delay > 0)
AAretrasos_lp <- intersect(partidaAAretrasos, llegadaAAretrasos)
ggplot(AAretrasos_lp, aes(x = dep_delay, y = arr_delay)) +
  geom_point() +
  labs(x = "Retraso en la partida)", y = "Retraso en la llegada") +
  theme_void()

Tendencia de la temperatura

#Tendencia de la temperatura durante los primeros 15 días del mes de Enero en los vuelos que parten del aeropuerto “Newark, EWR”, se utiliza una gráfica de línea.

EWRenero15 <- weather %>% filter(origin == "EWR", month == 1, day <= 15)
EWRenero15Temp <- select(EWRenero15, day, temp)

EWRenero15TempProm <- EWRenero15Temp %>% group_by(day) %>% summarise(promediotemp = mean(temp, na.rm=TRUE))

ggplot(EWRenero15TempProm, aes(x = day, y = promediotemp)) +
  geom_line() +
  labs(x = "Dia", y = "Temperatura (°C)") +
  theme_void()

Temperatura más frecuente

#Visualiza la temperatura más frecuente en los primeros 15 días del mes de Enero, utilizar un histrograma.
datos_enero <- df %>%
  filter(month.x == 1, day.x <= 15)

# Convertir a celsius
datos_enero_celsius <- mutate(datos_enero, celsius=(temp-32)*(5/9))


# Crear el histograma de temperatura
ggplot(datos_enero, aes(x = temp)) +
  geom_histogram(binwidth = 5, color = "white", fill = "purple") +
  labs(title = "Histograma de Temperatura en los Primeros 15 Dias de Enero",
       x = "Temperatura", y = "Frecuencia") +
  theme_minimal()
## Warning: Removed 52 rows containing non-finite outside the scale range
## (`stat_bin()`).

Facets

#Utiliza Facets para observar cómo varía la temperatura en cada mes en él histograma del punto anterior

datos <- df %>%
  select(month.x, temp)

datos$temp <- (datos$temp - 32) * 5/9

ggplot(datos, aes(x = temp)) +
  geom_histogram(binwidth = 3, color = "white", fill = "skyblue") +
  facet_wrap(~month.x, nrow = 3) + # Facetar por mes, con 3 paneles por fila
  labs(title = "Histograma de Temperatura por Mes",
       x = "Temperatura", y = "Frecuencia") +
  theme_minimal()
## Warning: Removed 1573 rows containing non-finite outside the scale range
## (`stat_bin()`).

Vuelos que salieron de Nueva York en el 2013

#Se presentan el número de vuelos que salieron de Nueva York en 2013 por aerolínea y con las 10 aerolínes con más vuelos se realiza una gráfica de barras.
vuelos_cantidad2 <- flights %>% select (carrier, dest) %>% count(carrier)
vuelos_orden <- arrange(vuelos_cantidad2, desc(n))
head(vuelos_orden, 10)
## # A tibble: 10 × 2
##    carrier     n
##    <chr>   <int>
##  1 UA      58665
##  2 B6      54635
##  3 EV      54173
##  4 DL      48110
##  5 AA      32729
##  6 MQ      26397
##  7 US      20536
##  8 9E      18460
##  9 WN      12275
## 10 VX       5162
grafico_barras <- ggplot(head(vuelos_orden, 10), aes(x = carrier, y = n)) +
  geom_bar(stat = "identity") +
  labs(x = "Aerolinea", y = "Cantidad de Vuelos")
grafico_barras

Grafica de pie

grafico_pastel <- grafico_barras +
  coord_polar("y", start = 0)
grafico_pastel

#### Interpretaciones: Visualización de Datos Para la visualización de datos, primero se obtuvieron los vuelos de American Airlines que si tienen retraso en la partida, también tienen retraso en la hora de llegada, para esto se implementó un diagrama de dispersión, el cual nos muestra la relación entre el retraso de partida y el retraso en la llegada. Después se obtuvo la tendencia en temperatura durante los primeros 15 días del mes de Enero en los vuelos que parten del aeropuerto “Newark, EWR”, para esto se utiliza una gráfica de línea.

En la siguiente visualización se obtiene la temperatura más frecuente en los primeros 15 días del mes de Enero, pero ahora utilizando un histograma, en esta parte utilizamos la conversión de farenheit a celsius y a simple vista se podría destacar que la temperatura que más se repite se encuentra entre los 40 y 50 grados centígrados, nuestra estimación personal son 45°C con una repetición cerca de 4000 vuelos.

En el siguiente análisis se utiliza facets para observar cómo varía la temperatura en cada mes en él histograma del punto anterior, de igual manera, en esta parte utilizamos la conversión de farenheit a celsius, como resultado se obtuvo un histograma de temperatura por mes.

Continuando, se presentan el número de vuelos que salieron de Nueva York en 2013 por aerolínea, después se obtiene las 10 aerolíneas con más vuelos y se realiza una gráfica de barras con ellas. Se destaca que United Airlines (UA) se encuentra en el primer puesto con un total de 58,665 vuelos, a esta le sigue JetBlue Airways (B6) con un total de 54,635 vuelos. En el tercer puesto se encuentra ExpressJet Airlines Inc. con un total de 54,173 vuelos. En el cuarto puesto Delta Air Lines Inc. con un total de 48,110 vuelos. En el quinto puesto se encuentra presente American Airlines con un total de 32,729 vuelos. En el puesto número seis, se encuentra Envoy Air (MQ) con un total de 26,397 vuelos. En séptimo lugar, US Airways Inc. con un total de 20,536 vuelos. Para el octavo puesto se encuentra Endeavor Air Inc. (9E) con un total de 18,460 vuelos. En el penúltimo puesto, se integra Southwest Airlines Co. con un total de 12,275 vuelos. Por último lugar se encuentra Virgin America con un total de 5162 vuelos. Para poder representar todos estos números de vuelos por aerolíneas, se implementó una gráfica de barras, haciendo que sea más atractivo la manera de visualizar el resultado. De igual manera, se realiza un grafico de pie, con los mismos datos del Top 10 de aerolíneas con más vuelos.

Relación Flights and Airports

#Relaciona el data frame flights con el data frame airports a través del campo destino ¿cómo lograr estas relaciones?
df <- merge(flights,airlines, by="carrier")
df <- left_join(df,planes, by="tailnum")
df <- left_join(df,weather, by=c("origin","time_hour"))

#Estas relaciones se logran a través del uso de funciones como merge y left_join,que permiten encontra las relaciones entre los diferentes data frames. Este paso se realizó al inico del programa para el desarrollo de los otros puntos de análisis.

Visualizaciones Flights and Airports

Visualizaciones Flights 1: Gráfico de Barras

Cantidad de Vuelos por Aerolínea

ggplot(data = vuelos_cantidad2, aes(x = carrier, y = n)) +
  geom_bar(stat = "identity") +
  labs(title = "Cantidad de Vuelos por Aerolinea",
       x = "Aerolinea",
       y = "Cantidad de Vuelos") +
  theme_minimal()

#### Visualizaciones Flights 2: Gráfico de Pastel Proporción de vuelos por aerolínea

ggplot(data = vuelos_cantidad2, aes(x = "", y = n, fill = carrier)) +
  geom_bar(stat = "identity", width = 1) +
  coord_polar("y") +
  labs(title = "Proporcion de Vuelos por Aerolinea",
       x = NULL,
       y = NULL) +
  theme_void()

#### Visualizaciones Flights 3: Gráfico de Barras Número de vuelos por mes con y sin retraso

flights_filtered <- flights %>%
  mutate(flights = ifelse(dep_delay > 0, "Delayed", "Not Delayed")) %>% 
  group_by(month, flights) %>%
  summarise(count = n()) %>%
  mutate(percent = count / sum(count) * 100)
## `summarise()` has grouped output by 'month'. You can override using the
## `.groups` argument.
ggplot(flights_filtered, aes(x = factor(month), y = count, fill = flights)) +
  geom_bar(stat = "identity", position = "stack") + 
  scale_fill_manual(values = c("seashell2", "rosybrown2")) +
  labs(title = "Número de vuelos por mes con y sin retraso",
       x = "Mes",
       y = "Número de vuelos",
       fill = "Retraso") +
  theme_minimal()

Visualizaciones Flights 4: Gráfico de Barras

Retrasos en la partida

ggplot(flights, aes(x = dep_delay)) + geom_bar() + labs(title = "Retrasos en la Partida")
## Warning: Removed 8255 rows containing non-finite outside the scale range
## (`stat_count()`).

#### Interpretaciones: Visualizaciones Flights En esta parte se realiza un mayor enfoque en las visualizaciones de la base de datos flights, para esto optamos por gráficos de barras y de pastel. La primera visualización que se presenta es la cantidad de vuelos por Aerolínea, muy similar a la del Top 10 de aerolíneas con más vuelos, sin embargo en esta gráfica de barras si se presentan las 16 aerolíneas participantes en los aeropuertos de Nueva York.

Continuamos con un gráfico de pastel, el cuál en un formato atractivo muestra la proporción de vuelos por aerolínea, que a simple vista se destacan 5 principales: American Airlines Inc. (AA), United Air Lines Inc. (UA), Delta Air Lines Inc. (DL), ExpressJet Airlines Inc (EV) y JetBlue Airways (B6).

En el tercer gráfico se presenta el número de vuelos por mes con y sin retraso, esto por medio de una gráfica de barras, se destaca que la mayoría de los vuelos, en todos los meses, no se retrasan. Pero por ejemplo, en el mes número 7, o sea Julio, es de los más bajos con vuelos no retrasados y de los más altos con vuelos con retraso, esto sin duda nos ayuda a confirmar una de nuestras conclusiones de por qué los vuelos se retrasan, aquí hay un claro ejemplo, que la temporada alta de vacaciones de verano, es un factor para los retrasos en los vuelos. Por último agregamos una cuarta visualización, en ella se presenta los retrasos en la partida.

Visualizaciones Airports 1: Gráfico de Dispersión

Relación entre coordenadas de aeropuertos

ggplot(airports, aes(x = lon, y = lat)) + geom_point() + labs(title = "Relacion entre Coordenadas de Aeropuertos")

#### Visualizaciones Airports 2: Gráfico de Barras Aquí falta el tercer visualización

top_10_airports <- head(airports[order(-airports$alt), ], 10)

ggplot(top_10_airports, aes(x = reorder(name, -alt), y = alt, fill = name)) +
  geom_bar(stat = "identity", size = 2) +
  labs(title = "Top 10 Aeropuertos Más Altos",
       x = "Aeropuerto",
       y = "Altura") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1, size = 3))
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Interpretaciones: Visualizaciones Airports

En las visualizaciones de Airports se utilizaron un gráfico de dispersión y un gráfico de barras. En el primero se presenta la relación existente entre las coordenadas de los aeropuertos, si se mantemos un ataención, se puede destacar que en las coordenadas se presenta una parte de Estados Unidos y la otra parte sería de Alaska. En la segunda visualización, con una gráfica de barras, se obtiene el Top 10 de aeropuertos más altos, en el primer puesto se encuentra Telluride, en el top 5 se encuentra el Bryce Canyon y en el top 10 Mammoth Yosemit Airport.

10. Conclusión: Parte 2

En esta segunda parte se pudieron poner en práctica diferentes habilidades de programación, principalmente al momento de realizar gráficos y analizarlos. Se logró obtener la información de cada vuelo, de los destinos más concurridos y hasta la divisón de vuelos en los diferentes turnos de oferta de vuelos. Se generó un enfoque en American Airlines y con las visualizaciones de la última parte de la evidencia, se logró realizar un análisis más profundo en los retrasos, encontrar las relaciones entre la base de datos flights y la de airports y cómo es que cada una de ellas nos sirve para encontrar diferentes variables para el desarrollo de análisis de retrasos. En las interpretaciones anteriores, se explica de manera más detallada, los resultados obtenidos, pero sin duda, el uso de visualizaciones fue clave para poder entender mejor como funcionan el tema de los vuelos, aerolíneas, destinos, entre otros.

¿Por qué se retrasan los vuelos en Nueva York?

#Atrasos de origen, carrier y mes.
atraso_por_origen <- flights %>% group_by(origin) %>% summarise(tiempo_atraso_promedio = mean(dep_delay, na.rm = TRUE))

atraso_por_carrier <- flights %>% group_by(carrier) %>% summarise(tiempo_atraso_promedio = mean(dep_delay, na.rm = TRUE))

atraso_por_mes <- flights %>% group_by(month) %>% summarise(tiempo_atraso_promedio = mean(dep_delay, na.rm = TRUE))

# Resumen por origen
summary_by_origin <- flights %>% group_by(origin) %>% summarize(Media_Dep_Delay = mean(dep_delay, na.rm = TRUE),
Mediana_Dep_Delay = median(dep_delay, na.rm = TRUE), Min_Dep_Delay = min(dep_delay, na.rm = TRUE), Max_Dep_Delay = max(dep_delay, na.rm = TRUE))

# Resumen por aerolínea
summary_by_carrier <- flights %>% group_by(carrier) %>% summarize(Media_Dep_Delay = mean(dep_delay, na.rm = TRUE),
    Mediana_Dep_Delay = median(dep_delay, na.rm = TRUE),
    Min_Dep_Delay = min(dep_delay, na.rm = TRUE),
    Max_Dep_Delay = max(dep_delay, na.rm = TRUE))

# Calcular resumen estadístico por destino
summary_by_dest <- flights %>%
  group_by(dest) %>%
  summarize(Media_Dep_Delay = mean(dep_delay, na.rm = TRUE),
    Mediana_Dep_Delay = median(dep_delay, na.rm = TRUE),
    Min_Dep_Delay = min(dep_delay, na.rm = TRUE),
    Max_Dep_Delay = max(dep_delay, na.rm = TRUE))
## Warning: There were 2 warnings in `summarize()`.
## The first warning was:
## ℹ In argument: `Min_Dep_Delay = min(dep_delay, na.rm = TRUE)`.
## ℹ In group 52: `dest = "LGA"`.
## Caused by warning in `min()`:
## ! no non-missing arguments to min; returning Inf
## ℹ Run `dplyr::last_dplyr_warnings()` to see the 1 remaining warning.
# Crear un conjunto de datos combinando las variables de interés
modelo_data <- flights %>%
  select(dep_delay, carrier, origin, month)

# Ajustar el modelo de regresión lineal
modelo <- lm(dep_delay ~ carrier + origin + month, data = modelo_data)

# Resumen del modelo
summary(modelo)
## 
## Call:
## lm(formula = dep_delay ~ carrier + origin + month, data = modelo_data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
##  -54.81  -17.38  -12.48   -1.76 1294.85 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  18.80974    0.38810  48.466  < 2e-16 ***
## carrierAA    -7.79414    0.38286 -20.358  < 2e-16 ***
## carrierAS   -11.48010    1.54124  -7.449 9.46e-14 ***
## carrierB6    -3.77186    0.34822 -10.832  < 2e-16 ***
## carrierDL    -7.07511    0.36085 -19.607  < 2e-16 ***
## carrierEV     2.97023    0.39186   7.580 3.47e-14 ***
## carrierF9     4.51664    1.56852   2.880 0.003983 ** 
## carrierFL     2.89628    0.78763   3.677 0.000236 ***
## carrierHA   -12.03652    2.18212  -5.516 3.47e-08 ***
## carrierMQ    -5.61979    0.40732 -13.797  < 2e-16 ***
## carrierOO    -2.92665    7.42779  -0.394 0.693571    
## carrierUA    -4.90557    0.38340 -12.795  < 2e-16 ***
## carrierUS   -12.43204    0.43216 -28.767  < 2e-16 ***
## carrierVX    -4.02855    0.63644  -6.330 2.46e-10 ***
## carrierWN     1.25021    0.49683   2.516 0.011858 *  
## carrierYV     3.37925    1.74606   1.935 0.052947 .  
## originJFK    -0.38387    0.23214  -1.654 0.098213 .  
## originLGA    -1.54708    0.21363  -7.242 4.44e-13 ***
## month        -0.23726    0.02045 -11.604  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 39.96 on 328502 degrees of freedom
##   (8255 observations deleted due to missingness)
## Multiple R-squared:  0.01256,    Adjusted R-squared:  0.01251 
## F-statistic: 232.2 on 18 and 328502 DF,  p-value: < 2.2e-16
ggplot(modelo_data, aes(x = as.factor(month), y = dep_delay, group = 1)) +
  geom_line(stat = "summary", fun = "mean", linetype = "solid", size = 1) +
  labs(title = "Promedio del Retraso de Salida en función del Mes",
       x = "Mes",
       y = "Promedio de Retraso de Salida")
## Warning: Removed 8255 rows containing non-finite outside the scale range
## (`stat_summary()`).

df_combinado <- bdgrande2 %>%
  merge(weather) 

df_combinado <- as.data.frame(df_combinado)
regresion <- lm(dep_delay ~ tailnum + carrier + year.x + month + day + dep_time + arr_delay + flight + origin + dest + air_time + distance  + minute  + name + year.y + type + model + speed + engine   + temp + dewp + humid + wind_dir + wind_speed + precip + pressure + visib, data=df_combinado)
summary(regresion)
## 
## Call:
## lm(formula = dep_delay ~ tailnum + carrier + year.x + month + 
##     day + dep_time + arr_delay + flight + origin + dest + air_time + 
##     distance + minute + name + year.y + type + model + speed + 
##     engine + temp + dewp + humid + wind_dir + wind_speed + precip + 
##     pressure + visib, data = df_combinado)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -92.604  -6.806   0.925   7.482  48.286 
## 
## Coefficients: (28 not defined because of singularities)
##                                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                   1.222e+03  4.863e+02   2.513 0.012181 *  
## tailnumN202AA                 3.793e-01  3.278e+00   0.116 0.907900    
## tailnumN350AA                 1.254e+03  5.471e+02   2.292 0.022183 *  
## tailnumN364AA                 1.264e+03  5.471e+02   2.310 0.021168 *  
## tailnumN378AA                 1.262e+03  5.471e+02   2.307 0.021315 *  
## tailnumN381AA                 1.258e+03  5.471e+02   2.300 0.021736 *  
## tailnumN425AA                 1.790e+00  3.046e+00   0.588 0.556961    
## tailnumN508AA                 9.769e-01  3.091e+00   0.316 0.752098    
## tailnumN519MQ                -8.513e+00  5.698e+00  -1.494 0.135593    
## tailnumN525AA                -2.005e+00  3.008e+00  -0.666 0.505336    
## tailnumN545AA                 1.375e+00  3.076e+00   0.447 0.654995    
## tailnumN567AA                 5.660e-01  2.741e+00   0.206 0.836484    
## tailnumN600TR                 8.454e-01  1.231e+01   0.069 0.945266    
## tailnumN615AA                 1.251e+03  5.478e+02   2.284 0.022644 *  
## tailnumN621AA                 1.256e+03  5.477e+02   2.294 0.022073 *  
## tailnumN675MC                -6.093e+00  1.095e+01  -0.556 0.578180    
## tailnumN737MQ                -1.334e+01  6.480e+00  -2.058 0.039892 *  
## tailnumN762NC                 6.355e-01  8.416e+00   0.076 0.939825    
## tailnumN767NC                 3.382e+00  8.085e+00   0.418 0.675860    
## tailnumN774NC                 2.663e+00  9.732e+00   0.274 0.784437    
## tailnumN777NC                -2.218e+00  9.227e+00  -0.240 0.810081    
## tailnumN779NC                 2.675e-01  8.636e+00   0.031 0.975299    
## tailnumN782NC                -4.396e+00  8.239e+00  -0.534 0.593792    
## carrierDL                            NA         NA      NA       NA    
## carrierMQ                            NA         NA      NA       NA    
## year.x                               NA         NA      NA       NA    
## month                        -7.767e-01  2.052e-01  -3.786 0.000166 ***
## day                          -1.052e-01  5.701e-02  -1.845 0.065398 .  
## dep_time                      4.866e-03  1.266e-03   3.844 0.000132 ***
## arr_delay                     8.416e-01  1.313e-02  64.095  < 2e-16 ***
## flight                        1.752e-04  1.306e-03   0.134 0.893279    
## originJFK                     1.702e+01  8.600e+00   1.979 0.048133 *  
## originLGA                     2.462e+01  1.066e+01   2.309 0.021212 *  
## destBNA                       4.149e+00  3.468e+00   1.197 0.231869    
## destCLE                      -5.136e+02  2.223e+02  -2.310 0.021161 *  
## destCLT                      -3.256e+02  1.414e+02  -2.302 0.021591 *  
## destCMH                      -4.251e+02  1.829e+02  -2.324 0.020381 *  
## destCRW                      -4.811e+02  2.060e+02  -2.336 0.019766 *  
## destDCA                      -8.213e+02  3.530e+02  -2.327 0.020250 *  
## destDFW                       9.620e+02  4.078e+02   2.359 0.018595 *  
## destDTW                      -3.854e+02  1.682e+02  -2.291 0.022233 *  
## destEGE                       2.635e+02  9.702e+01   2.716 0.006755 ** 
## destLAS                       1.028e+03  4.222e+02   2.435 0.015139 *  
## destMCO                      -9.695e+02  4.246e+02  -2.284 0.022678 *  
## destMIA                      -7.483e+02  3.298e+02  -2.269 0.023563 *  
## destMSP                       3.958e+02  1.678e+02   2.359 0.018601 *  
## destORD                      -3.511e+01  1.823e+01  -1.926 0.054447 .  
## destRDU                      -5.011e+02  2.145e+02  -2.336 0.019756 *  
## destSAN                       1.320e+03  5.514e+02   2.395 0.016877 *  
## destSFO                       1.522e+03  6.424e+02   2.369 0.018083 *  
## destSJU                              NA         NA      NA       NA    
## destSTL                       1.884e+02  8.334e+01   2.260 0.024090 *  
## destXNA                       5.998e+02  2.508e+02   2.392 0.017016 *  
## air_time                     -8.760e-01  5.292e-02 -16.553  < 2e-16 ***
## distance                     -1.410e+00  6.492e-01  -2.171 0.030229 *  
## minute                       -3.598e-02  2.902e-02  -1.240 0.215533    
## nameDelta Air Lines Inc.             NA         NA      NA       NA    
## nameEnvoy Air                        NA         NA      NA       NA    
## year.y                               NA         NA      NA       NA    
## typeFixed wing single engine         NA         NA      NA       NA    
## typeRotorcraft                       NA         NA      NA       NA    
## model172E                            NA         NA      NA       NA    
## model172M                            NA         NA      NA       NA    
## model172N                            NA         NA      NA       NA    
## model206B                            NA         NA      NA       NA    
## model310Q                            NA         NA      NA       NA    
## model421C                            NA         NA      NA       NA    
## model65-A90                          NA         NA      NA       NA    
## modelA185F                           NA         NA      NA       NA    
## modelDC-7BF                          NA         NA      NA       NA    
## modelDC-9-51                         NA         NA      NA       NA    
## modelOTTER DHC-3                     NA         NA      NA       NA    
## modelPA-28-180                       NA         NA      NA       NA    
## modelPA-31-350                       NA         NA      NA       NA    
## modelPA-32R-300                      NA         NA      NA       NA    
## speed                                NA         NA      NA       NA    
## engineReciprocating                  NA         NA      NA       NA    
## engineTurbo-jet                      NA         NA      NA       NA    
## engineTurbo-prop                     NA         NA      NA       NA    
## engineTurbo-shaft                    NA         NA      NA       NA    
## temp                          6.254e-02  3.224e-01   0.194 0.846215    
## dewp                         -2.769e-01  3.474e-01  -0.797 0.425728    
## humid                         7.996e-02  1.819e-01   0.440 0.660343    
## wind_dir                      1.795e-03  5.273e-03   0.340 0.733660    
## wind_speed                   -2.425e-01  1.043e-01  -2.324 0.020386 *  
## precip                       -1.372e+01  5.567e+01  -0.246 0.805410    
## pressure                     -6.109e-02  7.786e-02  -0.785 0.432973    
## visib                         1.186e-01  4.541e-01   0.261 0.793995    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 13.58 on 742 degrees of freedom
##   (282028 observations deleted due to missingness)
## Multiple R-squared:  0.8754, Adjusted R-squared:  0.8655 
## F-statistic: 88.33 on 59 and 742 DF,  p-value: < 2.2e-16

Análisis Retrasos

Gráfico - Atraso promedio por origen

Gráfico - Atraso promedio por origen

ggplot(atraso_por_origen, aes(x=origin, y=tiempo_atraso_promedio)) +
  geom_bar(stat="identity", fill="lightblue1") +
  theme_minimal() +
  labs(title="Atraso promedio por origen", x="Origen", y="Tiempo de atraso promedio")

Gráfico - Atraso promedio por carrier

Gráfico - Atraso promedio por carrier

ggplot(atraso_por_carrier, aes(x=carrier, y=tiempo_atraso_promedio)) +
  geom_bar(stat="identity", fill="cadetblue3") +
  theme_minimal() +
  labs(title="Atraso promedio por carrier", x="Carrier", y="Tiempo de atraso promedio")

Gráfico - Atraso promedio por mes

Gráfico - Atraso promedio por mes

ggplot(atraso_por_mes, aes(x=month, y=tiempo_atraso_promedio)) +
  geom_line(group=1, colour="darkslategray3") +
  theme_minimal() +
  labs(title="Atraso promedio por mes", x="Mes", y="Tiempo de atraso promedio")

Interpretaciones: Retrasos

Acercándonos más hacia el análisis final del por qué los vuelos se retrasan en los aeropuertos de Nueva York, se obtuvo el atraso en tiepo promedio por aerolínea, origen y mes. En la gráfica de barras se muestra el primer análisis de atraso promedio por origen, dando como resultado que el aeropuerto EWR es el que cuenta con un mayor atraso promedio, con un total del 15.11 minutos de atraso, a este le sigue JK con un total de 12.11 minutos de atraso, y con el menor promedio se encuentra LGA con un total de 10.35 mintos de atraso.

En la segunda gráfica de barras se presenta el atraso promedio por carrier, dando como resultados principales que Frontier Airlines Inc. (F9) es la aerolínea que cuenta con un mayor atraso promedio de de 20.22 minutos, en cambio la aerolínea con el menor atraso promedio es US Airways Inc. con un total de 3.78 minutos de atraso.

Para la tercera gráfica de línea, se presenta el atraso promedio por mes, en donde se destaca que el mes de Julio es el que cuenta con un mayor tiempo de atraso en promedio, con un total de 21.73 minutos. En segundo lugar se encuentra Junio, con un tiempo de atraso en promedio de 20.85 minutos, y en tercer lugar se encuentra diciembre, con un total de atraso promedio de 16.57 minutos. El atraso promedio en el mes, se puede deber al principal factor de temporadas altas vacacionales.

Retraso por tipo de avión

Retraso por tipo de avión

# Retraso por tipo de avión
retraso_por_avion <- flights %>%
  left_join(planes, by = "tailnum") %>%
  group_by(type) %>%
  summarize(avg_delay = mean(dep_delay, na.rm = TRUE))

# Gráfico de barras para retraso por tipo de avión
ggplot(retraso_por_avion, aes(x = type, y = avg_delay)) +
  geom_bar(stat = "identity", fill = "skyblue") +
  labs(title = "Retraso Promedio por Tipo de Avión",
       x = "Tipo de Avión",
       y = "Retraso Promedio") +
  theme_minimal()

Retraso por día de la semana

Retraso por día de la semana

# Retraso por día de la semana
retraso_por_dia_semana <- flights %>%
  mutate(weekday = weekdays(as.Date(paste(year, month, day, sep = "-")))) %>%
  group_by(weekday) %>%
  summarize(avg_delay = mean(dep_delay, na.rm = TRUE))

# Ordenar días de la semana
retraso_por_dia_semana$weekday <- factor(retraso_por_dia_semana$weekday, levels = c("Monday", "Tuesday", "Wednesday", "Thursday", "Friday", "Saturday", "Sunday"))

# Gráfico de barras para retraso por día de la semana
ggplot(retraso_por_dia_semana, aes(x = weekday, y = avg_delay)) +
  geom_bar(stat = "identity", fill = "blue") +
  labs(title = "Retraso Promedio por Dia de la Semana",
       x = "Dia de la Semana",
       y = "Retraso Promedio") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Retraso por hora del día

Retraso por hora del día

# Retraso por hora del día
flights$hour <- as.integer(flights$hour) 
mean_delay_per_hour <- aggregate(dep_delay ~ hour, flights, mean)
ggplot(data = mean_delay_per_hour, aes(x = hour, y = dep_delay)) +
  geom_bar(stat = "identity", fill = "skyblue") +
  labs(x = "Hora del día", y = "Retraso promedio (minutos)", 
       title = "Retraso promedio por hora del día") +
  theme_minimal() +
  theme(plot.title = element_text(hjust = 0.5))

Interpretaciones: Retrasos

En el análisis anterior, ahora se toma en cuenta el retraso promedio por tipo de avión, el retraso por día de la semana, y retraso por hora del día.

El primer retraso analizado fue por el tipo de avión, el cual nos presenta que los tipos de aviones Rotorcraft son los que cuentan con un mayor atraso promedio, dando como resultado un total de 14.17 minutos de retraso. A este le sigue los tipos de aviones de Fixed wing multi engine con un total de 13.19 minutos de retraso. Por último el tipo de avión con menor cantidad de retraso promedio es el Fixed wing single engine con un total de 10.50 minutos. A pesar de que existen esos tres tipos de aviones, la gráfica también nos muestra los NA con un total de 9.5 minutos de atraso promedio.

En la segunda gráfica se presenta el atraso promedio por día de la semana, donde se destaca que los jueves son los días con mayor atraso promedio, con un total de 16.15 minutos. Por otra parte, el día con menor atraso promedio son los sábados, con un total de 7.65 minutos.

En la tercer gráfica se muestra el atraso promedio por hora del día, en la cuál es visible un crecimiento en retrasos entre los horarios de las 15:00 y 20:00 horas, después de esto disminuye para los vuelos de las 5:00 a 10:00 horas.

Análisis del Clima

Retraso promedio por humedad relativa

flights_weather<- merge(weather, flights)
flights_weather %>%
  group_by(humid) %>%
  summarise(delay = mean(dep_delay, na.rm = TRUE)) %>%
  ggplot(aes(x = humid, y = delay)) +
  labs(x = "Humedad relativa", y = "Retraso promedio (minutos)", fill = "Aeoropuerto") +
  ggtitle("Retraso promedio por humedad relativa") +
  geom_line() + geom_point()+ theme(plot.title= element_text(hjust=0.5))

### Retraso promedio por temperatura

flights_weather %>%
  group_by(temp) %>%
  summarise(delay = mean(dep_delay, na.rm = TRUE)) %>%
  ggplot(aes(x = temp, y = delay)) +
  labs(x = "Temperatura", y = "Retraso promedio (minutos)", fill = "Aeoropuerto") +
  ggtitle("Retraso promedio por Temperatura") +
  geom_point() +
  geom_smooth()+ theme(plot.title= element_text(hjust=0.5))
## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'

### Retraso promedio por velocidad del viento

flights_weather %>%
  group_by(wind_speed) %>%
  summarise(delay = mean(dep_delay, na.rm = TRUE)) %>%
  ggplot(aes(x = wind_speed, y = delay)) +
  labs(x = "Velocidad del Viento", y = "Retraso promedio (minutos)") +
  ggtitle("Retraso promedio por Velocidad del Viento") +
  geom_smooth()+ theme(plot.title= element_text(hjust=0.5))
## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'

### Retraso promedio por dirección del viento

flights_weather %>%
  group_by(wind_dir) %>%
  summarise(delay = mean(dep_delay, na.rm = TRUE)) %>%
  ggplot(aes(x = wind_dir, y = delay)) +
  labs(x = "Dirección del Viento", y = "Retraso promedio (minutos)") +
  ggtitle("Retraso promedio por Dirección del Viento") +
  geom_bar(stat = "identity") + 
  theme(plot.title=element_text(hjust=0.5))

Retraso promedio por visibilidad en el aire

flights_weather %>%
  group_by(visib) %>%
  summarise(delay = mean(dep_delay, na.rm = TRUE)) %>%
  ggplot(aes(x = visib, y = delay)) +
  labs(x = "Visibilidad", y = "Retraso promedio (minutos)") +
  ggtitle("Retraso promedio por Visibilidad en el aire") +
  geom_line() + 
  theme(plot.title=element_text(hjust=0.5))

Interpretaciones: Análisis del Clima

En el análisis del clima, primero se obtuvo el retraso promedio por humedad relativa, en donde muestra que hay atrasos de una mayor cantidad de tiempo entre el 75% y 100% de la humedad relativa. Después, se obtuvo el atraso promedio por la temperatura, en este gráfico se destaca que puede variar mucho la temperatura y el tiempo que se retrasa los vuelos.

El tercer análisis utiliza el retraso promedio por velocidad del viento, en donde si la velocidad se encuentra entre el 30 y 40, existe la probabilidad de que los atrasos sean mayores a los 20 minutos. Después se obtuvo el atraso promedio por dirección del viento, que gracias a la visualización de la gráfica de barras, si la dirección del viento se encuentra en un estimado entre 80 y 150, existe un atraso promedio mayor. Por último se obtuvo el atraso promedio por la visibilidad en el aire, en el que haciendo un estimado, si la visibilidad se encunetra entre 0.0 y 2.5, los vuelos tienden a tener un mayor atraso promedio, de alrededor de 30 a 50 minutos.

Conclusiones de retrasos

En esta actividad de manera grupal, determinamos el por qué se retrasan los vuelos en los aeropuertos de Nueva York. Se obtuvo información muy interesante a través de los diferentes análisis de las bases de datos.

En primera instancia se obtuvo el atraso por origen, en donde nos mostró el tiempo de atraso promedio en cada uno de los tres aeropuertos disponibles, dando como resultado que el aeropuerto con mayor atraso en promedio es el EWR. El siguiente análisis fue el atraso por Carrier, en donde se obtuvo el atraso promedio por aerolínea; 9E (Endevoir Air) obtuvo el mayor resultado en atraso promedio.

Despúes nos enfocamos más en el mes en el que había mayores retrasos, dando como resultado temporadas altas para viajar, por ejemplo en primer lugar del mes con mayor retraso se encontraba Julio, aproximadamente solo por un minuto mayor a Junio, y a este le seguía diciembre en el tercer puesto. Si tomamos en cuenta que muchas personas viajan en dichas temporados por el verano y las fiestas decembrinas, lo que ocasiona que haya mayor cantidad de personas en movilidad en aeropuertos, podría ser un importante factor del por qué los vuelos se retrasan más en dichas temporadas.

Realizamos un modelo del promedio del retraso de salida en función del mes, lo que nos muestra con mayor claridad, que las temporadas altas de viajes son un factor que influye en los retrasos generados en los aeropuertos de Nueva York.

Por último se realizaron los análisis del clima, considerando diferentes variables, ya sea la dirección de viento, su visibilidad, la humedad relativa y la temperatura, en los cuáles se nos muestra que sin duda son un factor importante a considerar dentro del por qué los vuelos se retrasan, este punto es explicado con mayor detenimiento en las interpretaciones anteriores.

Ejercicios de evidencia en clase

Extra 1. Consulta la estructura de “flights”

str(flights)
## tibble [336,776 × 19] (S3: tbl_df/tbl/data.frame)
##  $ year          : int [1:336776] 2013 2013 2013 2013 2013 2013 2013 2013 2013 2013 ...
##  $ month         : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
##  $ day           : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
##  $ dep_time      : int [1:336776] 517 533 542 544 554 554 555 557 557 558 ...
##  $ sched_dep_time: int [1:336776] 515 529 540 545 600 558 600 600 600 600 ...
##  $ dep_delay     : num [1:336776] 2 4 2 -1 -6 -4 -5 -3 -3 -2 ...
##  $ arr_time      : int [1:336776] 830 850 923 1004 812 740 913 709 838 753 ...
##  $ sched_arr_time: int [1:336776] 819 830 850 1022 837 728 854 723 846 745 ...
##  $ arr_delay     : num [1:336776] 11 20 33 -18 -25 12 19 -14 -8 8 ...
##  $ carrier       : chr [1:336776] "UA" "UA" "AA" "B6" ...
##  $ flight        : int [1:336776] 1545 1714 1141 725 461 1696 507 5708 79 301 ...
##  $ tailnum       : chr [1:336776] "N14228" "N24211" "N619AA" "N804JB" ...
##  $ origin        : chr [1:336776] "EWR" "LGA" "JFK" "JFK" ...
##  $ dest          : chr [1:336776] "IAH" "IAH" "MIA" "BQN" ...
##  $ air_time      : num [1:336776] 227 227 160 183 116 150 158 53 140 138 ...
##  $ distance      : num [1:336776] 1400 1416 1089 1576 762 ...
##  $ hour          : int [1:336776] 5 5 5 5 6 5 6 6 6 6 ...
##  $ minute        : num [1:336776] 15 29 40 45 0 58 0 0 0 0 ...
##  $ time_hour     : POSIXct[1:336776], format: "2013-01-01 05:00:00" "2013-01-01 05:00:00" ...
# int: entero (sin decimales)
# num: numérico (con decimales)
# chr: caractér (letras)
# Date: fecha (en R va año-mes-día)
# POSIXct: formato fecha y hora

Extra 2. ¿Cuál es la clase de “flights” y que significa?

class(flights)
## [1] "tbl_df"     "tbl"        "data.frame"
# Las 5 clases de objetos son:
# 1. numeric: Número real o decimales.
# 2. integer: Númweos enteros
# 3. complex: Números complejos
# 4. character: carácteres
# 5. logical: TRUE O FALSE

# Las 4 clases de objetos compuestos son:
# 1. list: lista
# 2. matrix: matriz
# 3. array: colección de objetos
# 4. data.frame: base de datos

Extra 3. ¿Cuántas columnas y renglones tiene “flights”? ¿Cuál es su dimensión?

# Número de columnas
ncol(flights)
## [1] 19
# Número de renglones
nrow(flights)
## [1] 336776
# Dimensión
dim(flights)
## [1] 336776     19

Extra 4. Muestra los primeros 6 renglones de “flights”. También los últimos 6.

head(flights)
## # A tibble: 6 × 19
##    year month   day dep_time sched_dep_time dep_delay arr_time sched_arr_time
##   <int> <int> <int>    <int>          <int>     <dbl>    <int>          <int>
## 1  2013     1     1      517            515         2      830            819
## 2  2013     1     1      533            529         4      850            830
## 3  2013     1     1      542            540         2      923            850
## 4  2013     1     1      544            545        -1     1004           1022
## 5  2013     1     1      554            600        -6      812            837
## 6  2013     1     1      554            558        -4      740            728
## # ℹ 11 more variables: arr_delay <dbl>, carrier <chr>, flight <int>,
## #   tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>,
## #   hour <int>, minute <dbl>, time_hour <dttm>
tail(flights)
## # A tibble: 6 × 19
##    year month   day dep_time sched_dep_time dep_delay arr_time sched_arr_time
##   <int> <int> <int>    <int>          <int>     <dbl>    <int>          <int>
## 1  2013     9    30       NA           1842        NA       NA           2019
## 2  2013     9    30       NA           1455        NA       NA           1634
## 3  2013     9    30       NA           2200        NA       NA           2312
## 4  2013     9    30       NA           1210        NA       NA           1330
## 5  2013     9    30       NA           1159        NA       NA           1344
## 6  2013     9    30       NA            840        NA       NA           1020
## # ℹ 11 more variables: arr_delay <dbl>, carrier <chr>, flight <int>,
## #   tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>,
## #   hour <int>, minute <dbl>, time_hour <dttm>
# Si quisieramos 7 renglones: head(flights,7)

Compromiso ético y ciudadano

El valor de la integridad, según las Naciones Unidas, viene de la práctica de ser una persona honesta, que se adhiere a sus valores y que la toma de decisiones es sistemáticamente positiva. La integridad es la forma de actuar de acuerdo a los principios, a diferencia de la honestidad que es el acto de ser veraz. (Naciones Unidas)
Por la parte del compromiso ético, según miembros de la Universitat de Barcelona, es la capacidad de actuar con las virtudes personales y profesionales que requiere el correcto ejerccio de una profesión, el desarrollo personal y la ciudadanía democrática, todo esto dentro de un contexto universitario. (Mauri-Álvarez, Margarita, et al)

Por último, el compromiso ciudadano lo podemos diferenciar de la participación ciudadana. El compromiso busca un diálogo activo entre la toma de decisiones y los ciudadanos.(Lodewijckx, Ilona) Tener un compromiso ético y ciudadano fue un punto clave para la elaboración de esta evidencia.

Reflexión Personal: Nancy Marroquín

  • Reflexión personal: El respeto y la honestidad forman parte de los valores que trato de representar en mi día a día. En cualquie tipo de proyecto en el que participo, busco que este se lleve a cabo de manera más tranparente, fomentando la comunicación y la escucha activa. En el mundo de los negocios fomentar estos valores tan importantes, son clave para el éxito de las empresas. El actua de manera honesta y con respeto hacia los demás, te permite tener un mejor desarrollo personal y profesional. Si nos enfocamos más, hacia la parte de análisis de datos y el uso de datos de las empresas, el repeto y la honestidad, no son los únicos valores que se promueven, sino que también la confianza, el compromiso y la integridad. Al trabajar con información de la empresas es necesario tener mucho cuidado cómo es que se utiliza y cuál es su propósito. De esta manera es posible generar una mejor toma de decisiones repecto al uso y desarrollo de dichos datos.

Reflexión Personal: Kevin Meza

  • Reflexión personal: La responsabilidad, es un valor el cual va de la mano con transparencia e integridad. El serlo al llevar a cabo en el uso de datos, es asumir las consecuencias de las acciones tomadas y garantizar que se cumplan los principio éticos y legales del momento. Otro punto relevante a considerar es la ética en la toma de decisiones basadas en datos. Es fundamental que las decisiones empresariales se tomen considerando no solo la información disponible, sino también los valores éticos que guían el comportamiento de quienes gestionan dichos datos.
    Asimismo, se puede destacar la importancia de la confianza como resultado de la combinación de estos valores éticos. La confianza tanto interna como externa se construye a partir de la coherencia entre lo que se dice y lo que se hace en relación con los datos empresariales.

Reflexión Personal: Adrián Morales

  • Reflexión personal: Desde mi punto de vista, considero que la integridad es fundamental para la honestidad y la coherencia en todos los aspectos de la vida. En el campo de la inteligencia de negocios, donde me desempeño como estudiante, el código ético de nuestra disciplina actúa como el guía que orienta mi comportamiento profesional. Este código no solamente establece la obligación de manejar la información de forma precisa y confidencial, sino que también resalta la importancia de utilizar el conocimiento adquirido de manera equitativa y clara. Tener acceso a la información de una empresa conlleva una gran responsabilidad de manejarla con cuidado, garantizando la confidencialidad y evitando conflictos de interés, aplicando análisis éticos que beneficie a la organización y a la sociedad en general. Al final del día, mantener la integridad en la gestión de datos de la empresa no solo muestra mi dedicación a la ética laboral, sino que también aumenta la confianza y credibilidad en el campo de la inteligencia empresarial

Reflexión Personal: Karla López

  • Reflexión personal: La integridad se puede definir como la calidad de ser honesto, ético y moral en todas las acciones y decisiones. En el contexto de mi disciplina académica, la integridad es fundamental para mis trabajos individuales y grupales, ya que representa la relación de mis acciones, valores, principios y resultados. Asimismo, en mi disciplina personal, me impulsa a ser honesta, transparente y responsable en mis actividades, asegurando que mis acciones siempre reflejen mis valores morales y éticos. Por otro lado, en el ámbito profesional, en una empresa no solo se busca contar con un compromiso con la información proporcionada sino también con el equipo y las herramientas, ya que es fundamental mantener una conducta ética tanto en las relaciones con los compañeros como en el uso de los recursos disponibles para el desarrollo y el éxito de la empresa.

Conclusión General

Tras examinar el modelo de regresión lineal, se pudo observar que el 88.68% de la variabilidad en la variable dependiente (retraso en los vuelos) se puede explicar utilizando las variables independientes. Las cuales se identificaron ciertas variables que muestran una significancia estadística, con valores de p menores a 0.001, lo que demuestra que tienen un impacto significativo, lo que significa que tienen una relación directa y lógica con el retraso de los vuelos, las cuales fueron:

dep_time: Razones por las cuales el tiempo de salida puede afectar a los vuelos pueden ser problemas de gestión por parte de las aerolíneas, como dificultades operativas relacionadas con el equipo o el personal, o problemas en el aeropuerto.(***)

arr_delay: Relación significativa en la conexión de las llegadas tardías con las salidas. (***)

air_time: Al estar más expuestos en el aire, los vuelos pueden sufrir problemas climáticos, escalas, procesos de seguridad, entre otros. (***)

dest: Los vuelos pueden verse afectados por algunos destinos donde hay tráfico aéreo, condiciones meteorológicas locales o congestión del aeropuerto de destino, que sucede frecuentemente en ciudades grandes.(***)

wind_speed: Relación entre la velocidad del viento y los retrasos en la salida de los vuelos. Puede ser ocasionado por operación en el vuelo o de seguridad, procedimientos de seguridad, entre otros. (**)

wind_dir: Relación entre la dirección del viento y los retrasos, que pueden ser debidos por las condiciones de vuelo, procedimientos de despegue, entre otros. (**)

Por lo cual, sugiere que una variedad de variables, tanto relacionadas con la operación de las aerolíneas como con las condiciones meteorológicas, pueden contribuir a los retrasos en la salida de los vuelos.

Bibliografías

*Berrendero, J. R. (n.d.). Una breve introducción a ggplot2. http://verso.mat.uam.es/~joser.berrendero/R/introggplot2.html

---
title: 'Evidencia Final: Analítica Descriptiva | Extracción, Manipulación e Integración de Datos'
author: "Nancy Marroquín - A01198553, Adrián Morales - A01722532, Kevin Meza - A00836113, Karla López - A00227411"
date: "2024-03-04"
output: 
  html_document:
    toc: TRUE
    toc_float: TRUE
    code_download: TRUE
    theme: cosmo
---
![](C:\\Users\\lenovo\\Downloads\\llegar-aeropuerto-nueva-york-4.jpg)

# <span style="color: blue;">Contexto</span> 
El paquete **nycflights13** contiene información sore todos los vuelos que partieron desde Nueva York(EWR, JFL, LGA) en destinos a los Estados Unidos en 2013. Fueron 336,776 vuelos en total. Para ayudar a comprender las causas de los retrasos, también incluye otros conjuntos de datos útiles.  

Este paquete incluye las siguientes tablas:

+ flights = todos los vuelos que salieron de NUeva York en el 2013  
+ weather = datos metereológicos por hora de cada aeropuerto  
+ planes = información de construcción de cada avión  
+ airports = nombres y ublicaciones de aeropuertos  
+ airlines = relación entre nombres y códigos de las aerolíneas  

Fuente:
[Origen de los datos](https://cran.r-project.org/web/packages/nycflights13/nycflights13.pdf)

# <span style="color: blue;">Reporte Ejecutivo</span> 
En esta evidencia se trabajó con el paquete **nycflights**, el cual nos permitió analizar información acerca de los vuelos, destinos, aerolíneas, retrasos, entre otros; registrados en los aeropuertos de Nueva York en el 2013. Se utilizaron las funciones más comunes del análisis exploratorio, el cual es el primer paso para cualquier trabajo de manipulación de datos.  

La situación problema que se buscaba resolver es saber el por qué los vuelos se retrasan, ya sea en la partida o en la llegada, en los aeropuertos en Nueva York. Con la información brindada en las bases de datos, se pudo realizar un análisis tomando en cuenta diferentes variables, ya sea el clima, el tipo de avión que se utilizaba, la aerolínea, el día de la semana, las temporadas vacacionales e incluso hasta el horario del día. Al analizar esta información se obtuvieron datos que nos permitirían evaluar cuál es el verdadero motivo por el que los vuelos se retrasan. 

Para este proyecto diferentes metodologías fueron puestas a prueba, las cuales ayudaron a generar conclusiones del análisis general de retrasos en partidas y llegadas. El uso de visualizaciones de gráficas de barras, histogramas, diagramas de dispersión, entre otros, fueron herramientas importantes para el análisis visual.

A medida con la que se avanzaba en el análisis, podíamos ir descartando que variables no servían de mucho y cuales sí tenían un mayor impacto para resolver la situación problema. Esto nos permitía generar un mayor enfoque en aquellos aspectos más relevantes y posteriormente, con creatividad, generar propuestas para la disminución de retrasos en salidas y llegadas.

A continuación se presenta la evidencia final, con análisis, interpretaciones, elementos visuales y recomendaciones para las aerolíneas, aeropuertos y pasajeros, todo esto con el propósito de brindar solución a los retrasos generados.

# <span style="color: blue;">Instalar paquetes y llamar librerías</span>
```{r warning=FALSE}
#install.packages("nycflight13")
library(nycflights13)
#install.packages("tidyverse")
library(tidyverse)
#install.packages("dplyr")
library(dplyr)
#install.packages("ggplot2")
library(ggplot2)
data("flights")
```

# <span style="color: blue;">Guardar base de datos</span> 
```{r}
flights <- flights
weather <- weather
planes <- planes
airports <- airports
airlines <- airlines
```

# <span style="color: blue;">Relación entre las bases de datos</span> 
![](C:\\Users\\lenovo\\Downloads\\relational-nycflights.png)

## <span style="color: blue;">Relación existente</span> 
```{r}
df <- merge(flights,airlines, by="carrier")
df <- left_join(df,planes, by="tailnum")
df <- left_join(df,weather, by=c("origin","time_hour"))
```

# <span style="color: blue;">Data Wrangling</span> 
## <span style="color: purple;">1. Funciones básicas de manejo de datos</span> 
### <span style="color: green;">Select</span> 
La función *select* sirve para seleccionar columnos de un table (*data frame*).
```{r}
df1 <- flights %>% select(carrier, flight) # Selección de columnas específicas
df2 <- flights %>% select(carrier:distance) # Selección de rango de columnas
df3 <- flights %>% select(-carrier, -flight) # Eliminar columnas específicas
df4 <- flights %>% select(-carrier: -flight) # Eliminar rango de columnas
df5 <- flights %>% select(aerolinea = carrier) # Selecciona una columna y le cambia el nombre
df6 <- flights %>% rename(aerolinea = carrier) # Cambia el nombre de una columna
```

### <span style="color: green;">Filter</span> 
La función *Filter* sirve para seleccionar renglones de un tabla(*data frame*).
```{r}
df7 <- flights %>% filter(dep_delay >=500) # Extrae renglones que cumplan condición
# Condicionales: Igual ==, Desigual =!=, Mayor que >, Mayor o igual que >=, Menor o igual que <=
# Operadores lógicos: AND &, OR |, NOT !
df8 <- flights %>% filter(dep_delay >=500, dep_delay <=600) # Extrae renglones que cumplan con dos condiciones
df9 <- flights %>% slice(1000: 1099) # Extrae los números de los renglones indicados, sin importar sus valores
```

### <span style="color: green;">Distinct</span> 
La función *distinct* sirve para eliminar renglones duplicados.
```{r}
df10 <- distinct(flights) # Dejar solo los renglones diferentes, borra todos los repetidos.
```

### <span style="color: green;">Merge</span> 
La función *merge* sirve para juntar bases de datos.
```{r}
bdgrande <- merge(flights, airlines, by="carrier")
bdgrande2 <- merge(bdgrande,planes, by="tailnum")
```

### <span style="color: green;">Mutate</span> 
```{r}
bdgrande3 <- mutate(bdgrande2, dist_mts = distance*1.609)
#Agrega variables nuevas caluladas a partir de variables existentes en la base de datos.
```

### <span style="color: green;">Ejercicios</span> 
1. Encuentra todos los vuelos que tuvieron un atraso en llegada de 2 horas o más.
```{r}
ejercicio1 <- bdgrande2 %>% filter(arr_delay>=120)
```

2. Encuentra todos los vuelos que llegaron a Houston (IAN O HOU)
```{r}
ejercicio2 <- bdgrande2 %>% filter(dest== "IAH" | dest == "HOU")
```

3. Encuentra todos los vuelos operados por United, American o Delta.
```{r}
ejercicio3 <- bdgrande2 %>% filter(carrier %in% c("UA", "AA", "DL"))
```

4. Encuentra todos los vuelos que despegaron en Julio, Agosto o Septiembre
```{r}
ejercicio4 <- bdgrande2 %>% filter(month %in% c(7, 8, 9))
ejercicio4a <- bdgrande2 %>% filter(month == 7 | month == 8 | month == 9) 
```

5. Encuentra todos los vuelos que arrivaron más de 2 horas tarde, pero no despegaron tarde.
```{r}
ejercicio5 <- bdgrande2 %>% filter(arr_delay>120 & dep_time == sched_dep_time)
ejercicio5a <- bdgrande2 %>% filter(arr_delay>120 & dep_delay<=0)
```

6. Encuentra todos los vuelos que se retrasaron al menos 1 hora, pero que llegaron antes 30 minutos o más.
```{r}
ejercicio6 <- bdgrande2 %>% filter(dep_delay>=60 & arr_delay<=-30)
```

7. Encuentra todos los vuelos que salieron entre la medianoche y las 6 a.m.
```{r}
ejercicio7 <- bdgrande2 %>% filter(dep_time %in% c("2400", "100", "200", "300", "400", "500", "600"))
ejercicio7a <- bdgrande2 %>% filter(dep_time==2400 | dep_time<=600) #CORRECTA
ejercicio7b <- bdgrande2 %>% filter(hour %in% c("0", "1", "2", "3", "4", "5", "6"))
```

### <span style="color: green;">Arrange</span> 
Similar a filter () pero en lugar de seleccionar renglones, los ordena de menor a mayor.
```{r}
df11 <- arrange(bdgrande2, year.x, month, day)
```

Para acomodar de mayor a menor.
```{r}
df12 <- arrange(bdgrande2, year.x, desc(month), day)
```

### <span style="color: green;">Summarize</span> 
Colapsa una tabla a un sólo renglón
```{r}
# Obtén el retraso promedio de salida de despegue de todos los vuelos
summarize(bdgrande2, mean(dep_delay, na.rm=TRUE))
```

### <span style="color: green;">Group by</span> 
Agrupa tabla basado en algunas columnas.
```{r}
# Obtener el retraso promedio de despegue por día
por_dia <- group_by(bdgrande2, year.x, month, day)
summarize(por_dia, mean(dep_delay, na.rm=TRUE))
```

# <span style="color: blue;">Evidencia: Parte 1</span> 
## <span style="color: purple;">1. Cargar en memoria la tabla "flights" y mostrar su contenido</span> 
```{r}
# La carga a memoria se hizo en el paso anterior, consulta de dataframe para recordar su contenido.
view(flights)
```

## <span style="color: purple;">2. Datos descriptivos de "flights"</span> 
```{r}
# Identifica la media de las distancias recorridas en millas.
summary(flights)
```

## <span style="color: purple;">3. Criterios para encontrar aerolíneas</span> 
```{r}
#Crea un nuevo data frame que filtre solamente a las aeorlíneas que han recorrido una distancia superior a la media, se desean ver los campos carrier, distance, origin, dest en forma descendente por distance.

#Criterio 1: se selecciona las variables.
Criterio1 <- flights %>% select(carrier, distance, origin, dest)

#Criterio 2: se filtran a las aerolineas que tengan una media superior a 1040 en millas recorridas. 
Criterio2 <- Criterio1 %>% filter(distance >1040)

#Criterio 3: se ordena en descendente por la distancia recorrida 
Criterio3 <- Criterio2 %>% arrange(desc(distance))
```

## <span style="color: purple;">4. Suma y Media de las distancias recorridas</span> 
```{r}
# Se encuentra la suma y la media de las distancias recorridas por carrier, elimina los NA’S e interpreta que significa la suma y la media de las distancias recorridas.

Criterio4 <- Criterio3 %>% group_by(carrier,origin,dest) %>%  
  summarize(distancesuma=sum(distance, na.rm=TRUE), distancepromedio=mean(distance, na.rm=TRUE))

# Posteriormente, se ordena de forma descendente en base a la distancia recorrida.
Descendente <- Criterio4 %>% arrange(carrier,distancesuma)
```

## <span style="color: purple;">5. Interpretaciones: Parte 1</span> 
En esta primera parte se realizan los pasos básicos para comenzar a analizar una base de datos. Es un analisis inicial donde se visualiza el contenido de los datos disponibles y se obtienen los datos descriptivos básicos para comprender mejor la información de vuelos. En los datos descriptivos podemos encontrar la media, el mínimo, máximo, entre otros, de las diferentes variables con las que cuenta la base de datos. En la problemática se nos pide encontrar la media de las millas recorridas, utilizando *summary* nos arroja un resultado de 1040 millas recorridas como media.  

En el siguiente punto se utilizaron diferentes criterios para filtrar las aerolíneas que han recorrido una distancia mayor a la media. Para esto, primero seleccionamos las variables con la función *select* en donde se obtenía la aerolínea, la distancia, el origen y el destino. Posteriormente con la función *filter*, se filtraron las aerolíneas con una media superior a las 1040 millas recorridas, para después ordenarlas en formato descendente.

Por último, se nos pide obtener la suma y la media de las distancias recorridas, así como eliminar los *NA'S*, utilizando las funciones *group_by* y *summarize*, se obtuvo la distancia en suma y en promedio; como paso final ordenamos esto, nuevamente, en formato descendente.

## <span style="color: purple;">6. Identificar aerolíneas líderes en los aeropuertos</span>
```{r}
#En esta parte se identifica si las aerolíneas líderes son las mismas en los tres aeropuertos cuyo origen es Nueva York ya sea el John F. Kennedy (JFK), el de LaGuardia (LGA) o el de Newark Liberty (EWR). Se genera un dataframe para cada aeropuerto.

Aeropuerto_JFK = Descendente %>% filter(origin == "JFK")  %>% arrange(carrier, desc(distancesuma))
Aeropuerto_LGA = Descendente %>% filter(origin == "LGA")  %>% arrange(carrier, desc(distancesuma))
Aeropuerto_EWR = Descendente %>% filter(origin == "EWR")  %>% arrange(carrier, desc(distancesuma))
```

## <span style="color: purple;">7. Conclusión: Parte 1</span>
Dando cierre a la parte 1 de la evidencia, se identificó cuales eran las aerolíneas líderes en los tres aeropuertos de Nueva York creando un dataframe por cada aeropuerto. En el caso del aeropuerto **Newark Liberty** (EWR), la aerolínea con mayor distancia recorrida es *United Airlines* (UA), con un total del 1,811,495 millas recorridas. Para el aeropuerto de **LaGuardia** (LGA) sería *American Airlines* (AA) con una suma de 6,717,204 millas recorridas. Por último, en el aeropuerto de **John F. Kennedy** (JFK), de igual manera el primer puesto lo obtiene *American Airlines* con un total de 7,962,075 millas recorridas.

En conclusión, se realizó una exploración inicial, obteniendo datos descriptivos como la media de millas recorridas, revelando un promedio de 1040 millas. Luego, se aplicaron criterios para identificar aerolíneas que operan vuelos de larga distancia, resultando en la suma y media de las distancias recorridas, proporcionando una visión clara de los patrones de vuelo y distancias. Además, se examina si las aerolíneas líderes son consistentes en los aeropuertos de Nueva York (JFK, LGA y EWR), en donde se destaca que *American Airlines* obtiene el primer puesto en dos de los tres aeropuertos existentes.

# <span style="color: blue;">Evidencia: Parte 2</span> 

## <span style="color: purple;">1. Consulta del dataframe</span>
```{r}
#Al consultar/llamar el DataFrame nos permite visualizar la base de datos *flights*.
view(flights)
```

## <span style="color: purple;">2. Información de cada vuelo</span>
```{r}
#Se necesita saber de cada vuelo, la aerolínea, el aeropuerto de origen y el aeropuerto destino
vuelos <- flights %>% select(carrier, origin, dest)

#De la consulta anterior se requiere saber el nombre de la aerolínea
aerolínea <- vuelos %>% left_join (airlines, by = "carrier")
```

## <span style="color: purple;">3. Cantidad de vuelos por destino</span>
```{r} 
#De la consulta anterior se requiere saber el nombre de la aerolínea 

summary_delay <- df %>%
  group_by(dest, name) %>%
  summarise(avg_delay = mean(dep_delay, na.rm = TRUE),
            total_flights = n(),
            total_delayed_flights = sum(dep_delay > 0, na.rm = TRUE),
            perc_delayed_flights = total_delayed_flights / total_flights * 100)

```

## <span style="color: purple;">4. Aerolíneas y Destinos: Mañana, Tarde, Noche y Madrugada</span>
```{r}
#Se necesita conocer las aerolíneas (clave y nombre) y destinos que vuelan por la Mañana: de 6 a 12, Tarde: de 12 a 19 , Noche: de 19 a 24 y Madrugada de 24 a 6.

turno_carrier <- flights %>% select (carrier, dest, sched_dep_time) %>% left_join (airlines, by = "carrier")

turno_MTNM<- mutate(turno_carrier, clas_horario = ifelse(sched_dep_time %in% 600:1159,"Mañana",ifelse(sched_dep_time %in% 1200:1859,"Tarde",ifelse(sched_dep_time %in% 1900:2400,"Noche", "Madrugada"))))
```

## <span style="color: purple;">5. Cantidad de vuelos: Mañana, Tarde y Noche</span>
```{r}
#Se presenta la cantidad de vuelos por aerolínea y destino que hay en cada turno, ya sea en la mañana, tarde, noche o madrugada.

cantidad_turno_MTNM <- turno_MTNM %>% group_by(carrier, dest, clas_horario) %>% count()
```

## <span style="color: purple;">6. Destinos a los que vuela American Airlines en Madrugada</span>
```{r}
AA_destinos_mad <- turno_MTNM %>% select(carrier,name, dest,clas_horario) %>% filter(carrier == "AA" & clas_horario == "Madrugada") %>% group_by(carrier,name, dest,clas_horario)
```

## <span style="color: purple;">7. Aviones que utiliza American Airlines</span>
```{r}
#Se presenta la aerolínea, tipo, motor, número de asientos y la cantidad de vuelos que se han realizado con cada uno de los aviones.
AA_aviones <- flights %>% left_join(planes, by = "tailnum") %>% select(carrier, type, engine, seats) %>% filter(carrier == "AA", !is.na(type)) %>% group_by(carrier,type,engine,seats) %>% count()
```

## <span style="color: purple;">8. Interpretaciones: Parte 2</span>
En esta segunda parte se comienza visualizando la base de datos *flights* y la obtención de información de cada vuelo, en este caso, la aerolínea, el aeropuerto de origen y el de destino. Con esto se pudo obtener la cantidad de vuelos por destino y el promedio de retraso que tiene cada uno de ellos, además de mencionar que aerolínea maneja cada destino. Por ejemplo, el destino con mayor cantidad de vuelos es Atlanta (ATL) con un total de 10,571 vuelos, con la aerolínea *Delta Air Lines Inc*. Por otra parte, hay un total de 17 destinos con la menor cantidad de vuelos, o sea 1 vuelo solamente hacia cada uno de esos 17 destinos, es por eso que en este caso las aerolíneas correspondientes varían. 

Continuando con el análisis, se obtiene la clave y el nombre de la aerolínea y los diferentes destinos que se operan en los turnos de mañana, tarde, noche y madrugada. Con esto se obtuvo un total de 336,776 vuelos con las 5 variables a analizar: *carrier*, *dest*, *sched_dep_time*, *name* y *clas_horario*. Después se presenta la cantidad de vuelos por aerolínea y destino que hay en cada turno, se destaca que la aerolínea *Delta* (DL) con destino a Atlanta (ATL) tiene la mayor cantidad de vuelos en un horario de tarde con un total de 4967 vuelos. De nuevo, los de menor cantidad varían, ya que existen varias aerolíneas con un solo vuelo, a un solo destino y en un solo horario.

Por último, para especificar más el caso, nos enfocamos completamente en *American Airlines* y se encontró que dicha aerolínea tuvo un total de 365 vuelos de madrugada a un único destino, en este caso al aeropuerto de Miami (MIA). Después se logró presentar los aviones que utiliza *American Airlines*, por ejemplo el avión con mayor cantidad de asientos, con un total de 330, es un *Fixed wing multi engine* con un motor de *Turbo-fan*, por otra parte el avión con menor cantidad de asientos, con un total de 2, es un *Fixed wing single engine* con un motor de *Reciprocating*.


## <span style="color: purple;">9. Visualización de Datos</span>
Visualizaciones de la aerolínea American Airlines para los ejecutivos con las siguientes características. Dentro de las aerolíneas el retraso tanto en la hora de partida como en la hora de llegada a su destino van generando indicadores negativos.

### <span style="color: green;">Vuelos con retraso en ida y regreso</span>
```{r}
#Vuelos de American Airlines que si tienen retraso en la partida también tienen retraso en la hora de llegada.

vuelos_aa <- flights %>% filter(carrier == "AA")
retrasopartida <- mutate(vuelos_aa, dep_delay = dep_time - sched_dep_time)
retrasollegada <- mutate(vuelos_aa, arr_delay = arr_time - sched_arr_time)
partidaAAretrasos <- filter(retrasollegada, dep_delay > 0)
llegadaAAretrasos <- filter(retrasollegada, arr_delay > 0)
AAretrasos_lp <- intersect(partidaAAretrasos, llegadaAAretrasos)
ggplot(AAretrasos_lp, aes(x = dep_delay, y = arr_delay)) +
  geom_point() +
  labs(x = "Retraso en la partida)", y = "Retraso en la llegada") +
  theme_void()
```

### <span style="color: green;">Tendencia de la temperatura</span>
```{r}
#Tendencia de la temperatura durante los primeros 15 días del mes de Enero en los vuelos que parten del aeropuerto “Newark, EWR”, se utiliza una gráfica de línea.

EWRenero15 <- weather %>% filter(origin == "EWR", month == 1, day <= 15)
EWRenero15Temp <- select(EWRenero15, day, temp)

EWRenero15TempProm <- EWRenero15Temp %>% group_by(day) %>% summarise(promediotemp = mean(temp, na.rm=TRUE))

ggplot(EWRenero15TempProm, aes(x = day, y = promediotemp)) +
  geom_line() +
  labs(x = "Dia", y = "Temperatura (°C)") +
  theme_void()
```

### <span style="color: green;">Temperatura más frecuente</span>
```{r}
#Visualiza la temperatura más frecuente en los primeros 15 días del mes de Enero, utilizar un histrograma.
datos_enero <- df %>%
  filter(month.x == 1, day.x <= 15)

# Convertir a celsius
datos_enero_celsius <- mutate(datos_enero, celsius=(temp-32)*(5/9))


# Crear el histograma de temperatura
ggplot(datos_enero, aes(x = temp)) +
  geom_histogram(binwidth = 5, color = "white", fill = "purple") +
  labs(title = "Histograma de Temperatura en los Primeros 15 Dias de Enero",
       x = "Temperatura", y = "Frecuencia") +
  theme_minimal()

```


### <span style="color: green;">Facets</span>
```{r}
#Utiliza Facets para observar cómo varía la temperatura en cada mes en él histograma del punto anterior

datos <- df %>%
  select(month.x, temp)

datos$temp <- (datos$temp - 32) * 5/9

ggplot(datos, aes(x = temp)) +
  geom_histogram(binwidth = 3, color = "white", fill = "skyblue") +
  facet_wrap(~month.x, nrow = 3) + # Facetar por mes, con 3 paneles por fila
  labs(title = "Histograma de Temperatura por Mes",
       x = "Temperatura", y = "Frecuencia") +
  theme_minimal()
```

### <span style="color: green;">Vuelos que salieron de Nueva York en el 2013</span>
```{r}
#Se presentan el número de vuelos que salieron de Nueva York en 2013 por aerolínea y con las 10 aerolínes con más vuelos se realiza una gráfica de barras.
vuelos_cantidad2 <- flights %>% select (carrier, dest) %>% count(carrier)
vuelos_orden <- arrange(vuelos_cantidad2, desc(n))
head(vuelos_orden, 10)

grafico_barras <- ggplot(head(vuelos_orden, 10), aes(x = carrier, y = n)) +
  geom_bar(stat = "identity") +
  labs(x = "Aerolinea", y = "Cantidad de Vuelos")
grafico_barras

```

### <span style="color: green;">Grafica de pie</span>
```{r}
grafico_pastel <- grafico_barras +
  coord_polar("y", start = 0)
grafico_pastel
```
#### <span style="color: green;">Interpretaciones: Visualización de Datos</span>
Para la visualización de datos, primero se obtuvieron los vuelos de *American Airlines* que si tienen retraso en la partida, también tienen retraso en la hora de llegada, para esto se implementó un diagrama de dispersión, el cual nos muestra la relación entre el retraso de partida y el retraso en la llegada. Después se obtuvo la tendencia en temperatura durante los primeros 15 días del mes de Enero en los vuelos que parten del aeropuerto “Newark, EWR”, para esto se utiliza una gráfica de línea.

En la siguiente visualización se obtiene la temperatura más frecuente en los primeros 15 días del mes de Enero, pero ahora utilizando un histograma, en esta parte utilizamos la conversión de *farenheit* a *celsius* y a simple vista se podría destacar que la temperatura que más se repite se encuentra entre los 40 y 50 grados centígrados, nuestra estimación personal son 45°C con una repetición cerca de 4000 vuelos.

En el siguiente análisis se utiliza *facets* para observar cómo varía la temperatura en cada mes en él histograma del punto anterior, de igual manera, en esta parte utilizamos la conversión de *farenheit* a *celsius*, como resultado se obtuvo un histograma de temperatura por mes.

Continuando, se presentan el número de vuelos que salieron de Nueva York en 2013 por aerolínea, después se obtiene las 10 aerolíneas con más vuelos y se realiza una gráfica de barras con ellas. Se destaca que *United Airlines* (UA) se encuentra en el primer puesto con un total de 58,665 vuelos, a esta le sigue *JetBlue Airways* (B6) con un total de 54,635 vuelos. En el tercer puesto se encuentra *ExpressJet Airlines Inc.* con un total de 54,173 vuelos. En el cuarto puesto *Delta Air Lines Inc.* con un total de 48,110 vuelos. En el quinto puesto se encuentra presente *American Airlines* con un total de 32,729 vuelos. En el puesto número seis, se encuentra *Envoy Air* (MQ) con un total de 26,397 vuelos. En séptimo lugar, *US Airways Inc.* con un total de 20,536 vuelos. Para el octavo puesto se encuentra *Endeavor Air Inc.* (9E) con un total de 18,460 vuelos. En el penúltimo puesto, se integra *Southwest Airlines Co.* con un total de 12,275 vuelos. Por último lugar se encuentra *Virgin America* con un total de 5162 vuelos. Para poder representar todos estos números de vuelos por aerolíneas, se implementó una gráfica de barras, haciendo que sea más atractivo la manera de visualizar el resultado. De igual manera, se realiza un grafico de pie, con los mismos datos del Top 10 de aerolíneas con más vuelos.


### <span style="color: green;">Relación Flights and Airports</span>
```{r}
#Relaciona el data frame flights con el data frame airports a través del campo destino ¿cómo lograr estas relaciones?
df <- merge(flights,airlines, by="carrier")
df <- left_join(df,planes, by="tailnum")
df <- left_join(df,weather, by=c("origin","time_hour"))

#Estas relaciones se logran a través del uso de funciones como merge y left_join,que permiten encontra las relaciones entre los diferentes data frames. Este paso se realizó al inico del programa para el desarrollo de los otros puntos de análisis.
```

### <span style="color: green;">Visualizaciones Flights and Airports</span>

#### <span style="color: orange;">Visualizaciones Flights 1: Gráfico de Barras</span>
Cantidad de Vuelos por Aerolínea
```{r}
ggplot(data = vuelos_cantidad2, aes(x = carrier, y = n)) +
  geom_bar(stat = "identity") +
  labs(title = "Cantidad de Vuelos por Aerolinea",
       x = "Aerolinea",
       y = "Cantidad de Vuelos") +
  theme_minimal()
```
#### <span style="color: orange;">Visualizaciones Flights 2: Gráfico de Pastel</span>
Proporción de vuelos por aerolínea
```{r}
ggplot(data = vuelos_cantidad2, aes(x = "", y = n, fill = carrier)) +
  geom_bar(stat = "identity", width = 1) +
  coord_polar("y") +
  labs(title = "Proporcion de Vuelos por Aerolinea",
       x = NULL,
       y = NULL) +
  theme_void()
```
#### <span style="color: orange;">Visualizaciones Flights 3: Gráfico de Barras</span>
Número de vuelos por mes con y sin retraso
```{r}
flights_filtered <- flights %>%
  mutate(flights = ifelse(dep_delay > 0, "Delayed", "Not Delayed")) %>% 
  group_by(month, flights) %>%
  summarise(count = n()) %>%
  mutate(percent = count / sum(count) * 100)

ggplot(flights_filtered, aes(x = factor(month), y = count, fill = flights)) +
  geom_bar(stat = "identity", position = "stack") + 
  scale_fill_manual(values = c("seashell2", "rosybrown2")) +
  labs(title = "Número de vuelos por mes con y sin retraso",
       x = "Mes",
       y = "Número de vuelos",
       fill = "Retraso") +
  theme_minimal()
```

#### <span style="color: orange;">Visualizaciones Flights 4: Gráfico de Barras</span>
Retrasos en la partida
```{r}
ggplot(flights, aes(x = dep_delay)) + geom_bar() + labs(title = "Retrasos en la Partida")
```
#### <span style="color: green;">Interpretaciones: Visualizaciones Flights</span>
En esta parte se realiza un mayor enfoque en las visualizaciones de la base de datos *flights*, para esto optamos por gráficos de barras y de pastel. La primera visualización que se presenta es la cantidad de vuelos por Aerolínea, muy similar a la del Top 10 de aerolíneas con más vuelos, sin embargo en esta gráfica de barras si se presentan las 16 aerolíneas participantes en los aeropuertos de Nueva York.

Continuamos con un gráfico de pastel, el cuál en un formato atractivo muestra la proporción de vuelos por aerolínea, que a simple vista se destacan 5 principales: *American Airlines Inc.* (AA), *United Air Lines Inc.* (UA), *Delta Air Lines Inc.* (DL), *ExpressJet Airlines Inc* (EV) y *JetBlue Airways* (B6).

En el tercer gráfico se presenta el número de vuelos por mes con y sin retraso, esto por medio de una gráfica de barras, se destaca que la mayoría de los vuelos, en todos los meses, no se retrasan. Pero por ejemplo, en el mes número 7, o sea Julio, es de los más bajos con vuelos no retrasados y de los más altos con vuelos con retraso, esto sin duda nos ayuda a confirmar una de nuestras conclusiones de por qué los vuelos se retrasan, aquí hay un claro ejemplo, que la temporada alta de vacaciones de verano, es un factor para los retrasos en los vuelos. Por último agregamos una cuarta visualización, en ella se presenta los retrasos en la partida.

#### <span style="color: orange;">Visualizaciones Airports 1: Gráfico de Dispersión</span>
Relación entre coordenadas de aeropuertos
```{r}
ggplot(airports, aes(x = lon, y = lat)) + geom_point() + labs(title = "Relacion entre Coordenadas de Aeropuertos")
```
#### <span style="color: orange;">Visualizaciones Airports 2: Gráfico de Barras</span>
Aquí falta el tercer visualización
```{r}
top_10_airports <- head(airports[order(-airports$alt), ], 10)

ggplot(top_10_airports, aes(x = reorder(name, -alt), y = alt, fill = name)) +
  geom_bar(stat = "identity", size = 2) +
  labs(title = "Top 10 Aeropuertos Más Altos",
       x = "Aeropuerto",
       y = "Altura") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1, size = 3))
```


#### <span style="color: green;">Interpretaciones: Visualizaciones Airports</span>
En las visualizaciones de *Airports* se utilizaron un gráfico de dispersión y un gráfico de barras. En el primero se presenta la relación existente entre las coordenadas de los aeropuertos, si se mantemos un ataención, se puede destacar que en las coordenadas se presenta una parte de Estados Unidos y la otra parte sería de Alaska. En la segunda visualización, con una gráfica de barras, se obtiene el Top 10 de aeropuertos más altos, en el primer puesto se encuentra *Telluride*, en el top 5 se encuentra el *Bryce Canyon* y en el top 10 *Mammoth Yosemit Airport*.

## <span style="color: purple;">10. Conclusión: Parte 2</span>
En esta segunda parte se pudieron poner en práctica diferentes habilidades de programación, principalmente al momento de realizar gráficos y analizarlos. Se logró obtener la información de cada vuelo, de los destinos más concurridos y hasta la divisón de vuelos en los diferentes turnos de oferta de vuelos. Se generó un enfoque en *American Airlines* y con las visualizaciones de la última parte de la evidencia, se logró realizar un análisis más profundo en los retrasos, encontrar las relaciones entre la base de datos *flights* y la de *airports* y cómo es que cada una de ellas nos sirve para encontrar diferentes variables para el desarrollo de análisis de retrasos. En las interpretaciones anteriores, se explica de manera más detallada, los resultados obtenidos, pero sin duda, el uso de visualizaciones fue clave para poder entender mejor como funcionan el tema de los vuelos, aerolíneas, destinos, entre otros.

# <span style="color: blue;">¿Por qué se retrasan los vuelos en Nueva York?</span>
```{r}
#Atrasos de origen, carrier y mes.
atraso_por_origen <- flights %>% group_by(origin) %>% summarise(tiempo_atraso_promedio = mean(dep_delay, na.rm = TRUE))

atraso_por_carrier <- flights %>% group_by(carrier) %>% summarise(tiempo_atraso_promedio = mean(dep_delay, na.rm = TRUE))

atraso_por_mes <- flights %>% group_by(month) %>% summarise(tiempo_atraso_promedio = mean(dep_delay, na.rm = TRUE))

# Resumen por origen
summary_by_origin <- flights %>% group_by(origin) %>% summarize(Media_Dep_Delay = mean(dep_delay, na.rm = TRUE),
Mediana_Dep_Delay = median(dep_delay, na.rm = TRUE), Min_Dep_Delay = min(dep_delay, na.rm = TRUE), Max_Dep_Delay = max(dep_delay, na.rm = TRUE))

# Resumen por aerolínea
summary_by_carrier <- flights %>% group_by(carrier) %>% summarize(Media_Dep_Delay = mean(dep_delay, na.rm = TRUE),
    Mediana_Dep_Delay = median(dep_delay, na.rm = TRUE),
    Min_Dep_Delay = min(dep_delay, na.rm = TRUE),
    Max_Dep_Delay = max(dep_delay, na.rm = TRUE))

# Calcular resumen estadístico por destino
summary_by_dest <- flights %>%
  group_by(dest) %>%
  summarize(Media_Dep_Delay = mean(dep_delay, na.rm = TRUE),
    Mediana_Dep_Delay = median(dep_delay, na.rm = TRUE),
    Min_Dep_Delay = min(dep_delay, na.rm = TRUE),
    Max_Dep_Delay = max(dep_delay, na.rm = TRUE))

# Crear un conjunto de datos combinando las variables de interés
modelo_data <- flights %>%
  select(dep_delay, carrier, origin, month)

# Ajustar el modelo de regresión lineal
modelo <- lm(dep_delay ~ carrier + origin + month, data = modelo_data)

# Resumen del modelo
summary(modelo)

ggplot(modelo_data, aes(x = as.factor(month), y = dep_delay, group = 1)) +
  geom_line(stat = "summary", fun = "mean", linetype = "solid", size = 1) +
  labs(title = "Promedio del Retraso de Salida en función del Mes",
       x = "Mes",
       y = "Promedio de Retraso de Salida")
```


```{r}
df_combinado <- bdgrande2 %>%
  merge(weather) 

df_combinado <- as.data.frame(df_combinado)
```

```{r}
regresion <- lm(dep_delay ~ tailnum + carrier + year.x + month + day + dep_time + arr_delay + flight + origin + dest + air_time + distance  + minute  + name + year.y + type + model + speed + engine   + temp + dewp + humid + wind_dir + wind_speed + precip + pressure + visib, data=df_combinado)
summary(regresion)
```
## <span style="color: purple;">Análisis Retrasos</span>

### <span style="color: green;">Gráfico - Atraso promedio por origen</span>
Gráfico - Atraso promedio por origen
```{r}
ggplot(atraso_por_origen, aes(x=origin, y=tiempo_atraso_promedio)) +
  geom_bar(stat="identity", fill="lightblue1") +
  theme_minimal() +
  labs(title="Atraso promedio por origen", x="Origen", y="Tiempo de atraso promedio")
```

### <span style="color: green;">Gráfico - Atraso promedio por carrier</span>
Gráfico - Atraso promedio por carrier
```{r}
ggplot(atraso_por_carrier, aes(x=carrier, y=tiempo_atraso_promedio)) +
  geom_bar(stat="identity", fill="cadetblue3") +
  theme_minimal() +
  labs(title="Atraso promedio por carrier", x="Carrier", y="Tiempo de atraso promedio")
```

### <span style="color: green;">Gráfico - Atraso promedio por mes</span>
Gráfico - Atraso promedio por mes
```{r}
ggplot(atraso_por_mes, aes(x=month, y=tiempo_atraso_promedio)) +
  geom_line(group=1, colour="darkslategray3") +
  theme_minimal() +
  labs(title="Atraso promedio por mes", x="Mes", y="Tiempo de atraso promedio")
```

### <span style="color: green;">Interpretaciones: Retrasos</span>
Acercándonos más hacia el análisis final del por qué los vuelos se retrasan en los aeropuertos de Nueva York, se obtuvo el atraso en tiepo promedio por aerolínea, origen y mes.
En la gráfica de barras se muestra el primer análisis de atraso promedio por origen, dando como resultado que el aeropuerto **EWR** es el que cuenta con un mayor atraso promedio, con un total del 15.11 minutos de atraso, a este le sigue **JK** con un total de 12.11 minutos de atraso, y con el menor promedio se encuentra **LGA** con un total de 10.35 mintos de atraso. 

En la segunda gráfica de barras se presenta el atraso promedio por carrier, dando como resultados principales que *Frontier Airlines Inc.* (F9) es la aerolínea que cuenta con un mayor atraso promedio de de 20.22 minutos, en cambio la aerolínea con el menor atraso promedio es *US Airways Inc.* con un total de 3.78 minutos de atraso.

Para la tercera gráfica de línea, se presenta el atraso promedio por mes, en donde se destaca que el mes de Julio es el que cuenta con un mayor tiempo de atraso en promedio, con un total de 21.73 minutos. En segundo lugar se encuentra Junio, con un tiempo de atraso en promedio de 20.85 minutos, y en tercer lugar se encuentra diciembre, con un total de atraso promedio de 16.57 minutos. El atraso promedio en el mes, se puede deber al principal factor de temporadas altas vacacionales.

### <span style="color: green;">Retraso por tipo de avión</span>
Retraso por tipo de avión
```{r}
# Retraso por tipo de avión
retraso_por_avion <- flights %>%
  left_join(planes, by = "tailnum") %>%
  group_by(type) %>%
  summarize(avg_delay = mean(dep_delay, na.rm = TRUE))

# Gráfico de barras para retraso por tipo de avión
ggplot(retraso_por_avion, aes(x = type, y = avg_delay)) +
  geom_bar(stat = "identity", fill = "skyblue") +
  labs(title = "Retraso Promedio por Tipo de Avión",
       x = "Tipo de Avión",
       y = "Retraso Promedio") +
  theme_minimal()
```


### <span style="color: green;">Retraso por día de la semana</span>
Retraso por día de la semana
```{r}
# Retraso por día de la semana
retraso_por_dia_semana <- flights %>%
  mutate(weekday = weekdays(as.Date(paste(year, month, day, sep = "-")))) %>%
  group_by(weekday) %>%
  summarize(avg_delay = mean(dep_delay, na.rm = TRUE))

# Ordenar días de la semana
retraso_por_dia_semana$weekday <- factor(retraso_por_dia_semana$weekday, levels = c("Monday", "Tuesday", "Wednesday", "Thursday", "Friday", "Saturday", "Sunday"))

# Gráfico de barras para retraso por día de la semana
ggplot(retraso_por_dia_semana, aes(x = weekday, y = avg_delay)) +
  geom_bar(stat = "identity", fill = "blue") +
  labs(title = "Retraso Promedio por Dia de la Semana",
       x = "Dia de la Semana",
       y = "Retraso Promedio") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

```


### <span style="color: green;">Retraso por hora del día</span>
Retraso por hora del día
```{r}
# Retraso por hora del día
flights$hour <- as.integer(flights$hour) 
mean_delay_per_hour <- aggregate(dep_delay ~ hour, flights, mean)
ggplot(data = mean_delay_per_hour, aes(x = hour, y = dep_delay)) +
  geom_bar(stat = "identity", fill = "skyblue") +
  labs(x = "Hora del día", y = "Retraso promedio (minutos)", 
       title = "Retraso promedio por hora del día") +
  theme_minimal() +
  theme(plot.title = element_text(hjust = 0.5))
```

### <span style="color: green;">Interpretaciones: Retrasos</span>
En el análisis anterior, ahora se toma en cuenta el retraso promedio por tipo de avión, el retraso por día de la semana, y retraso por hora del día. 

El primer retraso analizado fue por el tipo de avión, el cual nos presenta que los tipos de aviones *Rotorcraft* son los que cuentan con un mayor atraso promedio, dando como resultado un total de 14.17 minutos de retraso. A este le sigue los tipos de aviones de *Fixed wing multi engine* con un total de 13.19 minutos de retraso. Por último el tipo de avión con menor cantidad de retraso promedio es el *Fixed wing single engine* con un total de 10.50 minutos. A pesar de que existen esos tres tipos de aviones, la gráfica también nos muestra los NA con un total de 9.5 minutos de atraso promedio.

En la segunda gráfica se presenta el atraso promedio por día de la semana, donde se destaca que los jueves son los días con mayor atraso promedio, con un total de 16.15 minutos. Por otra parte, el día con menor atraso promedio son los sábados, con un total de 7.65 minutos.

En la tercer gráfica se muestra el atraso promedio por hora del día, en la cuál es visible un crecimiento en retrasos entre los horarios de las 15:00 y 20:00 horas, después de esto disminuye para los vuelos de las 5:00 a 10:00 horas.

## <span style="color: purple;">Análisis del Clima</span>
### <span style="color: green;">Retraso promedio por humedad relativa</span>
```{r warning=FALSE}
flights_weather<- merge(weather, flights)
flights_weather %>%
  group_by(humid) %>%
  summarise(delay = mean(dep_delay, na.rm = TRUE)) %>%
  ggplot(aes(x = humid, y = delay)) +
  labs(x = "Humedad relativa", y = "Retraso promedio (minutos)", fill = "Aeoropuerto") +
  ggtitle("Retraso promedio por humedad relativa") +
  geom_line() + geom_point()+ theme(plot.title= element_text(hjust=0.5))
```
### <span style="color: green;">Retraso promedio por temperatura</span>
```{r warning=FALSE}
flights_weather %>%
  group_by(temp) %>%
  summarise(delay = mean(dep_delay, na.rm = TRUE)) %>%
  ggplot(aes(x = temp, y = delay)) +
  labs(x = "Temperatura", y = "Retraso promedio (minutos)", fill = "Aeoropuerto") +
  ggtitle("Retraso promedio por Temperatura") +
  geom_point() +
  geom_smooth()+ theme(plot.title= element_text(hjust=0.5))
```
### <span style="color: green;">Retraso promedio por velocidad del viento</span>
```{r warning=FALSE}
flights_weather %>%
  group_by(wind_speed) %>%
  summarise(delay = mean(dep_delay, na.rm = TRUE)) %>%
  ggplot(aes(x = wind_speed, y = delay)) +
  labs(x = "Velocidad del Viento", y = "Retraso promedio (minutos)") +
  ggtitle("Retraso promedio por Velocidad del Viento") +
  geom_smooth()+ theme(plot.title= element_text(hjust=0.5))
```
### <span style="color: green;">Retraso promedio por dirección del viento</span>
```{r warning=FALSE}
flights_weather %>%
  group_by(wind_dir) %>%
  summarise(delay = mean(dep_delay, na.rm = TRUE)) %>%
  ggplot(aes(x = wind_dir, y = delay)) +
  labs(x = "Dirección del Viento", y = "Retraso promedio (minutos)") +
  ggtitle("Retraso promedio por Dirección del Viento") +
  geom_bar(stat = "identity") + 
  theme(plot.title=element_text(hjust=0.5))
```

### <span style="color: green;">Retraso promedio por visibilidad en el aire</span>
```{r warning=FALSE}
flights_weather %>%
  group_by(visib) %>%
  summarise(delay = mean(dep_delay, na.rm = TRUE)) %>%
  ggplot(aes(x = visib, y = delay)) +
  labs(x = "Visibilidad", y = "Retraso promedio (minutos)") +
  ggtitle("Retraso promedio por Visibilidad en el aire") +
  geom_line() + 
  theme(plot.title=element_text(hjust=0.5))
```

### <span style="color: green;">Interpretaciones: Análisis del Clima</span>
En el análisis del clima, primero se obtuvo el retraso promedio por humedad relativa, en donde muestra que hay  atrasos de una mayor cantidad de tiempo entre el 75% y 100% de la humedad relativa. Después, se obtuvo el atraso promedio por la temperatura, en este gráfico se destaca que puede variar mucho la temperatura y el tiempo que se retrasa los vuelos. 

El tercer análisis utiliza el retraso promedio por velocidad del viento, en donde si la velocidad se encuentra entre el 30 y 40, existe la probabilidad de que los atrasos sean mayores a los 20 minutos. Después se obtuvo el atraso promedio por dirección del viento, que gracias a la visualización de la gráfica de barras, si la dirección del viento se encuentra en un estimado entre 80 y 150, existe un atraso promedio mayor. Por último se obtuvo el atraso promedio por la visibilidad en el aire, en el que haciendo un estimado, si la visibilidad se encunetra entre 0.0 y 2.5, los vuelos tienden a tener un mayor atraso promedio, de alrededor de 30 a 50 minutos.

## <span style="color: purple;">Conclusiones de retrasos</span>
En esta actividad de manera grupal, determinamos el por qué se retrasan los vuelos en los aeropuertos de Nueva York. Se obtuvo información muy interesante a través de los diferentes análisis de las bases de datos.  

En primera instancia se obtuvo el atraso por origen, en donde nos mostró el tiempo de atraso promedio en cada uno de los tres aeropuertos disponibles, dando como resultado que el aeropuerto con mayor atraso en promedio es el **EWR**. El siguiente análisis fue el atraso por Carrier, en donde se obtuvo el atraso promedio por aerolínea; 9E (*Endevoir Air*) obtuvo el mayor resultado en atraso promedio.  

Despúes nos enfocamos más en el mes en el que había mayores retrasos, dando como resultado temporadas altas para viajar, por ejemplo en primer lugar del mes con mayor retraso se encontraba Julio, aproximadamente solo por un minuto mayor a Junio, y a este le seguía diciembre en el tercer puesto. Si tomamos en cuenta que muchas personas viajan en dichas temporados por el verano y las fiestas decembrinas, lo que ocasiona que haya mayor cantidad de personas en movilidad en aeropuertos, podría ser un importante factor del por qué los vuelos se retrasan más en dichas temporadas.  

Realizamos un modelo del promedio del retraso de salida en función del mes, lo que nos muestra con mayor claridad, que las temporadas altas de viajes son un factor que influye en los retrasos generados en los aeropuertos de Nueva York.

Por último se realizaron los análisis del clima, considerando diferentes variables, ya sea la dirección de viento, su visibilidad, la humedad relativa y la temperatura, en los cuáles se nos muestra que sin duda son un factor importante a considerar dentro del por qué los vuelos se retrasan, este punto es explicado con mayor detenimiento en las interpretaciones anteriores.


# <span style="color: blue;">Ejercicios de evidencia en clase</span> 
## <span style="color: purple;">Extra 1. Consulta la estructura de "flights"</span> 
```{r}
str(flights)
# int: entero (sin decimales)
# num: numérico (con decimales)
# chr: caractér (letras)
# Date: fecha (en R va año-mes-día)
# POSIXct: formato fecha y hora
```

## <span style="color: purple;">Extra 2. ¿Cuál es la clase de "flights" y que significa?</span> 
```{r}
class(flights)

# Las 5 clases de objetos son:
# 1. numeric: Número real o decimales.
# 2. integer: Númweos enteros
# 3. complex: Números complejos
# 4. character: carácteres
# 5. logical: TRUE O FALSE

# Las 4 clases de objetos compuestos son:
# 1. list: lista
# 2. matrix: matriz
# 3. array: colección de objetos
# 4. data.frame: base de datos

```
## <span style="color: purple;">Extra 3. ¿Cuántas columnas y renglones tiene "flights"? ¿Cuál es su dimensión?</span> 
```{r}
# Número de columnas
ncol(flights)
# Número de renglones
nrow(flights)
# Dimensión
dim(flights)
```
## <span style="color: purple;">Extra 4. Muestra los primeros 6 renglones de "flights". También los últimos 6.</span> 
```{r}
head(flights)
tail(flights)
# Si quisieramos 7 renglones: head(flights,7)
```

# <span style="color: blue;">Compromiso ético y ciudadano</span> 
El valor de la integridad, según las Naciones Unidas, viene de la práctica de ser una persona honesta, que se adhiere a sus valores y que la toma de decisiones es sistemáticamente positiva. La integridad es la forma de actuar de acuerdo a los principios, a diferencia de la honestidad que es el acto de ser veraz. (Naciones Unidas)  
Por la parte del compromiso ético, según miembros de la Universitat de Barcelona, es la capacidad de actuar con las virtudes personales y profesionales que requiere el correcto ejerccio de una profesión, el desarrollo personal y la ciudadanía democrática, todo esto dentro de un contexto universitario. (Mauri-Álvarez, Margarita, et al)

Por último, el compromiso ciudadano lo podemos diferenciar de la participación ciudadana. El compromiso busca un diálogo activo entre la toma de decisiones y los ciudadanos.(Lodewijckx, Ilona) 
Tener un compromiso ético y ciudadano fue un punto clave para la elaboración de esta evidencia.

## <span style="color: purple;">Reflexión Personal: Nancy Marroquín</span> 
- Reflexión personal: El respeto y la honestidad forman parte de los valores que trato de representar en mi día a día. En cualquie tipo de proyecto en el que participo, busco que este se lleve a cabo de manera más tranparente, fomentando la comunicación y la escucha activa. En el mundo de los negocios fomentar estos valores tan importantes, son clave para el éxito de las empresas. El actua de manera honesta y con respeto hacia los demás, te permite tener un mejor desarrollo personal y profesional. Si nos enfocamos más, hacia la parte de análisis de datos y el uso de datos de las empresas, el repeto y la honestidad, no son los únicos valores que se promueven, sino que también la confianza, el compromiso y la integridad. Al trabajar con información de la empresas es necesario tener mucho cuidado cómo es que se utiliza y cuál es su propósito. De esta manera es posible generar una mejor toma de decisiones repecto al uso y desarrollo de dichos datos.

## <span style="color: purple;">Reflexión Personal: Kevin Meza</span> 
- Reflexión personal: La responsabilidad, es un valor el cual va de la mano con transparencia e integridad. El serlo al llevar a cabo en el uso de datos, es asumir las consecuencias de las acciones tomadas y garantizar que se cumplan los principio éticos y legales del momento. Otro punto relevante a considerar es la ética en la toma de decisiones basadas en datos. Es fundamental que las decisiones empresariales se tomen considerando no solo la información disponible, sino también los valores éticos que guían el comportamiento de quienes gestionan dichos datos.  
Asimismo, se puede destacar la importancia de la confianza como resultado de la combinación de estos valores éticos. La confianza tanto interna como externa se construye a partir de la coherencia entre lo que se dice y lo que se hace en relación con los datos empresariales.

## <span style="color: purple;">Reflexión Personal: Adrián Morales</span> 
- Reflexión personal: Desde mi punto de vista, considero que la integridad es fundamental para la honestidad y la coherencia en todos los aspectos de la vida. En el campo de la inteligencia de negocios, donde me desempeño como estudiante, el código ético de nuestra disciplina actúa como el guía que orienta mi comportamiento profesional. Este código no solamente establece la obligación de manejar la información de forma precisa y confidencial, sino que también resalta la importancia de utilizar el conocimiento adquirido de manera equitativa y clara. Tener acceso a la información de una empresa conlleva una gran responsabilidad de manejarla con cuidado, garantizando la confidencialidad y evitando conflictos de interés, aplicando análisis éticos que beneficie a la organización y a la sociedad en general. Al final del día, mantener la integridad en la gestión de datos de la empresa no solo muestra mi dedicación a la ética laboral, sino que también aumenta la confianza y credibilidad en el campo de la inteligencia empresarial

## <span style="color: purple;">Reflexión Personal: Karla López</span> 
- Reflexión personal: La integridad se puede definir como la calidad de ser honesto, ético y moral en todas las acciones y decisiones. En el contexto de mi disciplina académica, la integridad es fundamental para mis trabajos individuales y grupales, ya que representa la relación de mis acciones, valores, principios y resultados. Asimismo, en mi disciplina personal, me impulsa a ser honesta, transparente y responsable en mis actividades, asegurando que mis acciones siempre reflejen mis valores morales y éticos. Por otro lado, en el ámbito profesional, en una empresa no solo se busca contar con un compromiso con la información proporcionada sino también con el equipo y las herramientas, ya que es fundamental mantener una conducta ética tanto en las relaciones con los compañeros como en el uso de los recursos disponibles para el desarrollo y el éxito de la empresa.

# <span style="color: blue;">Conclusión General</span> 
Tras examinar el modelo de regresión lineal, se pudo observar que el 88.68% de la variabilidad en la variable dependiente (retraso en los vuelos) se puede explicar utilizando las variables independientes. Las cuales se identificaron ciertas variables que muestran una significancia estadística, con valores de p menores a 0.001, lo que demuestra que tienen un impacto significativo, lo que significa que tienen una relación directa y lógica con el retraso de los vuelos, las cuales fueron:


dep_time: Razones por las cuales el tiempo de salida puede afectar a los vuelos pueden ser problemas de gestión por parte de las aerolíneas, como dificultades operativas relacionadas con el equipo o el personal, o problemas en el aeropuerto.(***)

arr_delay: Relación significativa en la conexión de las llegadas tardías con las salidas. (***)

air_time: Al estar más expuestos en el aire, los vuelos pueden sufrir problemas climáticos, escalas, procesos de seguridad, entre otros. (***)

dest: Los vuelos pueden verse afectados por algunos destinos donde hay tráfico aéreo, condiciones meteorológicas locales o congestión del aeropuerto de destino, que sucede frecuentemente en ciudades grandes.(***)

wind_speed: Relación entre la velocidad del viento y los retrasos en la salida de los vuelos. Puede ser ocasionado por operación en el vuelo o de seguridad, procedimientos de seguridad, entre otros. (**)

wind_dir: Relación entre la dirección del viento y los retrasos, que pueden ser debidos por las condiciones de vuelo, procedimientos de despegue, entre otros. (**)


Por lo cual, sugiere que una variedad de variables, tanto relacionadas con la operación de las aerolíneas como con las condiciones meteorológicas, pueden contribuir a los retrasos en la salida de los vuelos. 







# <span style="color: blue;">Bibliografías</span> 
*Berrendero, J. R. (n.d.). Una breve introducción a ggplot2. http://verso.mat.uam.es/~joser.berrendero/R/introggplot2.html

* El valor de valores: La integridad | LinkedIn. (n.d.). https://www.linkedin.com/pulse/el-valor-de-valores-la-integridad-marleth-morales/?originalSubdomain=es

* “La Ciencia de La Integridad.” Naciones Unidas : Oficina de Las Naciones Unidas Contra La Droga Y El Delito, www.unodc.org/unodc/es/listen-first/super-skills/integrity.html.

* Lodewijckx, Ilona. “¿Cuál Es La Diferencia Entre El Compromiso Ciudadano Y La Participación?” CitizenLab’s Blog, 29 June 2020, www.citizenlab.co/blog/participacion-ciudadana/cual-es-la-diferencia-entre-el-compromiso-ciudadano-y-la-participacion/?lang=es. Accessed 12 Mar. 2024.

* Mauri-Álvarez, Margarita, et al. “Compromiso Ético Y Responsabilidad En El Contexto Universitario.” REIRE Revista d’Innovació I Recerca En Educació, vol. 15, no. 1, 2 Dec. 2021, diposit.ub.edu/dspace/bitstream/2445/194341/1/721517.pdf, https://doi.org/10.1344/reire.36970. Accessed 29 Aug. 2023

* RPubs - Función ggplot() de ggplot2. (n.d.). https://rpubs.com/daniballari/ggplot

* Rlt. (n.d.).Gráficos de barras con geom_bar. https://raymondltremblay.github.io/ANALITICA/G7_geom_bar.html
