NOMBRES: LAURA JULIANA GARZON ARIAS, Maria Fernanda Daza, Samuel Alejandro Paguatian Toloza

EXPLICACIÓN DE VARIABLES

Librerias utilizadas

library(gapminder)
library(dplyr)  # esta librería es parte de Tidyverse
library(ggplot2)
library(knitr)
library(gt)
library(googlesheets4)

EXPLICACIÓN DE VARIABLES

Descripcion de Variables del Dataset de Vuelos
VARIABLE DESCRIPCION
index Identificador numerico de cada registro (No aplica informacion analitica, solo el orden).
airline Nombre de la aerolinea que opera el vuelo (Splice, Alizasia…).
flight Codigo de vuelo asignado por la aerolinea (SG-8709, …).
source_city Ciudad de origen del vuelo.
departure_time Franja horaria de salida (Morning, evening, …).
stops Numero de escalas (Zero, one, …).
arrival_time Franja horaria de llegada del vuelo.
destination_city Ciudad de destino del vuelo.
class Clase de servicio del vuelo (Economy, Business, …)
duration Duracion del vuelo en horas (Incluye escalas si hay).
days_left Numero de dias que faltan entre la fecha de busqueda/reserva y la fecha del vuelo.
price Precio del boleto en moneda correspondiente (EUR).

CLASIFICACIÓN DE VARIABLES

Las variables cuantitativas discretas que tienen un nivel de medición de tipo razón son index, days_left y price, son cuantitativas discretas porque poseen valores contables y finitos. Por otro lado, su nivel de medición es de razón ya que cada variable posee un cero absoluto ($0, 0 vuelos, índice 0), se pueden ordenar y calcular diferencias y razones entre ellos.

Las variables cualitativas nominales son cinco: airline, flight, destination_city , source_city y class. Esta se denominan variables cualitativas nominales ya que estas se ordenan por categorías y sin jerarquía alguna. Por ejemplo, el nombre de la aerolínea o el código del vuelo porque a pesar de ser un número le está otorgando una categoría al vuelo, el lugar de destino es una ciudad que no necesita de jerarquía ni orden y la clase es ejecutiva o económica lo que indica que solo categorizan los datos.

Las variables cualitativas ordinales encontradas en este dataset son: departure_time, stops y arrival_time. Son consideradas como cualitativas ordinales porque los datos están clasificados con un orden y jerarquía implícita. En cuanto a departure_time y arrival_time, como en el dataset que se usó para el análisis no aparece una hora exacta sino ciertos tiempos en el día como morning, afternoon, evening y night es ordinal porque igual tiene un orden empezando desde morning hasta night. Asimismo, con stops porque hay un orden en la cantidad de escalas que hace cada vuelo.

cargar base de datos y observar los primeros 10

vuelos <- read.csv("../Downloads/airlines_flights_data.csv", stringsAsFactors = FALSE)
head(vuelos, n=10)  # muestra los primeros 10 datos

grafico de barras

datos_duracion <- vuelos %>% 
  filter(duration > 20.00)
head(datos_duracion)
tabla_vuelos <- datos_duracion %>%
  count(airline, name = "Frecuencia") %>%
  mutate(
    Relativa = round(Frecuencia / sum(Frecuencia), 3),
    Porcentaje = round(Relativa * 100, 1),
    Acumulada = cumsum(Frecuencia)
  )

kable(tabla_vuelos)
airline Frecuencia Relativa Porcentaje Acumulada
Air_India 23596 0.465 46.5 23596
GO_FIRST 6 0.000 0.0 23602
SpiceJet 2368 0.047 4.7 25970
Vistara 24785 0.488 48.8 50755
ggplot(tabla_vuelos, aes(x = reorder(airline, -Frecuencia), y = Frecuencia, fill = airline)) +
  geom_bar(stat = "identity") +
  labs(title = "Frecuencia de vuelos salidos de cada aereolinea con una duracion de mas de 20 horas",
       x = "aereolinea", y = "Frecuencia") +
  theme_minimal()

la torta

arrival_table <- vuelos %>%
  count(arrival_time) %>%
  mutate(porcentaje = n / sum(n) * 100,
         etiqueta = paste0(arrival_time, "", round(porcentaje, 1), "%"))
head(arrival_table)
# Creamos gráfico de torta
ggplot(arrival_table, aes(x = "", y = porcentaje, fill = factor(arrival_time))) +
  geom_col(width = 1, color = "white") +
  coord_polar(theta = "y") +
  labs(title = "Distribución de vuelos y su tiempo de arrivo",
       fill = "tiempo de arrivo") +
  geom_text(aes(label = etiqueta), position = position_stack(vjust = 0.5)) +
  theme_void()

Histograma

n <- nrow(vuelos)
k <- ceiling(1 + log2(n))
k  # número de bins sugeridos
## [1] 20
rango <- max(vuelos$price) - min(vuelos$price)
rango
## [1] 121966
ancho_bin <- ceiling(rango / k)
ancho_bin
## [1] 6099
ggplot(vuelos, aes(x = price)) +
  geom_histogram(binwidth = ancho_bin, fill = "steelblue", color = "black") +
  labs(title = "Histograma de precio de vuelos",
       x = "preciode vuelos",
       y = "Frecuencia") +
  theme_minimal()

INTERPRETACIÓN DE GRAFICOS

grafico de barras

se filtran los vuelos que duraron mas de 20 horas, haciendo una tabla de frecuencia, y así obtenemos un grafico de barras con la frecuencia por aerolínea de vuelos salidos con una duración de mas de 20 horas, las aerolíneas con más vuelos con una duración de más de 20 horas fueron vistara y Air india, por otro lado Spice jet y Go first tienen muy pocos, podríamos concluir que vistara y air india son aerolíneas especializadas en vuelos de mucha duración y por lo tanto más costosos, llegando tenerer cada una entre 25000 y 20000 vuelos con una duración de más de 20 horas. los datos muestran que Vistara y Air India dominan ampliamente en el segmento de vuelos de más de 20 horas, lo que podría indicar una estrategia orientada a rutas internacionales de alto costo. En contraste, SpiceJet y GO_FIRST apenas participan en este mercado, lo que podría deberse a que centran su modelo de negocio en vuelos más cortos y de bajo costo

grafico de torta

para este grafico quisimos representar el porcentaje en el que cada vuelo llega a su destino, pero en términos de Afternoon,Early_Morning,Evening, Late_Night, Morning, Night, encontramos que la mayoría de vuelos llegan en la noche paradójicamente la minoría de los vuelos llegan tarde en la noche, Podemos concluir que existe una clara preferencia operativa por programar arribos en la noche y tarde-noche, mientras que los horarios extremos (muy temprano o muy tarde) son los menos utilizados. Esto sugiere una estrategia orientada a la comodidad de los pasajeros y a la optimización de la logística aeroportuaria. El bajo porcentaje de Late Night puede indicar que las aerolíneas evitan programar arribos tan tarde debido a restricciones aeroportuarias, costos adicionales o menor comodidad para los pasajeros. Es importante destacar también que la mayoría esta en Morning o en night, horarios preferidos por las aerolíneas porque permiten a los pasajeros aprovechar el día antes de viajar o llegar temprano a su destino al día siguiente.

Histograma

En el histograma representamos la frecuencia en de los precios de los vuelos, queríamos ver que tipo de precios eran mas frecuentes entre las aerolíneas. El histograma muestra que el mercado de vuelos está dominado por precios bajos, probablemente asociados a rutas cortas o aerolíneas low-cost. Sin embargo, la existencia de una minoría de vuelos con precios elevados refleja la coexistencia de un segmento premium, lo cual evidencia una estructura de precios bimodal o diversificada en función del tipo de vuelo. Además del grupo masivo de vuelos baratos, se distinguen algunos picos secundarios entre 40.000 y 70.000, lo que puede interpretarse como diferentes segmentos de mercado (por ejemplo, vuelos regionales frente a internacionales). También Las aerolíneas parecen centrarse principalmente en ofrecer vuelos de bajo costo, lo que explica el gran volumen de precios bajos. Los vuelos caros, aunque pocos, pueden ser estratégicamente importantes porque generan mayor ingreso por pasajero.