NOMBRES: LAURA JULIANA GARZON ARIAS, Maria Fernanda Daza, Samuel Alejandro Paguatian Toloza
EXPLICACIÓN DE VARIABLES
Librerias utilizadas
library(gapminder)
library(dplyr) # esta librería es parte de Tidyverse
library(ggplot2)
library(knitr)
library(gt)
library(googlesheets4)
EXPLICACIÓN DE VARIABLES
| VARIABLE | DESCRIPCION |
|---|---|
| index | Identificador numerico de cada registro (No aplica informacion analitica, solo el orden). |
| airline | Nombre de la aerolinea que opera el vuelo (Splice, Alizasia…). |
| flight | Codigo de vuelo asignado por la aerolinea (SG-8709, …). |
| source_city | Ciudad de origen del vuelo. |
| departure_time | Franja horaria de salida (Morning, evening, …). |
| stops | Numero de escalas (Zero, one, …). |
| arrival_time | Franja horaria de llegada del vuelo. |
| destination_city | Ciudad de destino del vuelo. |
| class | Clase de servicio del vuelo (Economy, Business, …) |
| duration | Duracion del vuelo en horas (Incluye escalas si hay). |
| days_left | Numero de dias que faltan entre la fecha de busqueda/reserva y la fecha del vuelo. |
| price | Precio del boleto en moneda correspondiente (EUR). |
CLASIFICACIÓN DE VARIABLES
Las variables cuantitativas discretas que tienen un nivel de medición de tipo razón son index, days_left y price, son cuantitativas discretas porque poseen valores contables y finitos. Por otro lado, su nivel de medición es de razón ya que cada variable posee un cero absoluto ($0, 0 vuelos, índice 0), se pueden ordenar y calcular diferencias y razones entre ellos.
Las variables cualitativas nominales son cinco: airline, flight, destination_city , source_city y class. Esta se denominan variables cualitativas nominales ya que estas se ordenan por categorías y sin jerarquía alguna. Por ejemplo, el nombre de la aerolínea o el código del vuelo porque a pesar de ser un número le está otorgando una categoría al vuelo, el lugar de destino es una ciudad que no necesita de jerarquía ni orden y la clase es ejecutiva o económica lo que indica que solo categorizan los datos.
Las variables cualitativas ordinales encontradas en este dataset son: departure_time, stops y arrival_time. Son consideradas como cualitativas ordinales porque los datos están clasificados con un orden y jerarquía implícita. En cuanto a departure_time y arrival_time, como en el dataset que se usó para el análisis no aparece una hora exacta sino ciertos tiempos en el día como morning, afternoon, evening y night es ordinal porque igual tiene un orden empezando desde morning hasta night. Asimismo, con stops porque hay un orden en la cantidad de escalas que hace cada vuelo.
cargar base de datos y observar los primeros 10
vuelos <- read.csv("../Downloads/airlines_flights_data.csv", stringsAsFactors = FALSE)
head(vuelos, n=10) # muestra los primeros 10 datos
grafico de barras
datos_duracion <- vuelos %>%
filter(duration > 20.00)
head(datos_duracion)
tabla_vuelos <- datos_duracion %>%
count(airline, name = "Frecuencia") %>%
mutate(
Relativa = round(Frecuencia / sum(Frecuencia), 3),
Porcentaje = round(Relativa * 100, 1),
Acumulada = cumsum(Frecuencia)
)
kable(tabla_vuelos)
| airline | Frecuencia | Relativa | Porcentaje | Acumulada |
|---|---|---|---|---|
| Air_India | 23596 | 0.465 | 46.5 | 23596 |
| GO_FIRST | 6 | 0.000 | 0.0 | 23602 |
| SpiceJet | 2368 | 0.047 | 4.7 | 25970 |
| Vistara | 24785 | 0.488 | 48.8 | 50755 |
ggplot(tabla_vuelos, aes(x = reorder(airline, -Frecuencia), y = Frecuencia, fill = airline)) +
geom_bar(stat = "identity") +
labs(title = "Frecuencia de vuelos salidos de cada aereolinea con una duracion de mas de 20 horas",
x = "aereolinea", y = "Frecuencia") +
theme_minimal()
la torta
arrival_table <- vuelos %>%
count(arrival_time) %>%
mutate(porcentaje = n / sum(n) * 100,
etiqueta = paste0(arrival_time, "", round(porcentaje, 1), "%"))
head(arrival_table)
# Creamos gráfico de torta
ggplot(arrival_table, aes(x = "", y = porcentaje, fill = factor(arrival_time))) +
geom_col(width = 1, color = "white") +
coord_polar(theta = "y") +
labs(title = "Distribución de vuelos y su tiempo de arrivo",
fill = "tiempo de arrivo") +
geom_text(aes(label = etiqueta), position = position_stack(vjust = 0.5)) +
theme_void()
Histograma
n <- nrow(vuelos)
k <- ceiling(1 + log2(n))
k # número de bins sugeridos
## [1] 20
rango <- max(vuelos$price) - min(vuelos$price)
rango
## [1] 121966
ancho_bin <- ceiling(rango / k)
ancho_bin
## [1] 6099
ggplot(vuelos, aes(x = price)) +
geom_histogram(binwidth = ancho_bin, fill = "steelblue", color = "black") +
labs(title = "Histograma de precio de vuelos",
x = "preciode vuelos",
y = "Frecuencia") +
theme_minimal()
INTERPRETACIÓN DE GRAFICOS
grafico de barras
se filtran los vuelos que duraron mas de 20 horas, haciendo una tabla de frecuencia, y así obtenemos un grafico de barras con la frecuencia por aerolínea de vuelos salidos con una duración de mas de 20 horas, las aerolíneas con más vuelos con una duración de más de 20 horas fueron vistara y Air india, por otro lado Spice jet y Go first tienen muy pocos, podríamos concluir que vistara y air india son aerolíneas especializadas en vuelos de mucha duración y por lo tanto más costosos, llegando tenerer cada una entre 25000 y 20000 vuelos con una duración de más de 20 horas. los datos muestran que Vistara y Air India dominan ampliamente en el segmento de vuelos de más de 20 horas, lo que podría indicar una estrategia orientada a rutas internacionales de alto costo. En contraste, SpiceJet y GO_FIRST apenas participan en este mercado, lo que podría deberse a que centran su modelo de negocio en vuelos más cortos y de bajo costo
grafico de torta
para este grafico quisimos representar el porcentaje en el que cada vuelo llega a su destino, pero en términos de Afternoon,Early_Morning,Evening, Late_Night, Morning, Night, encontramos que la mayoría de vuelos llegan en la noche paradójicamente la minoría de los vuelos llegan tarde en la noche, Podemos concluir que existe una clara preferencia operativa por programar arribos en la noche y tarde-noche, mientras que los horarios extremos (muy temprano o muy tarde) son los menos utilizados. Esto sugiere una estrategia orientada a la comodidad de los pasajeros y a la optimización de la logística aeroportuaria. El bajo porcentaje de Late Night puede indicar que las aerolíneas evitan programar arribos tan tarde debido a restricciones aeroportuarias, costos adicionales o menor comodidad para los pasajeros. Es importante destacar también que la mayoría esta en Morning o en night, horarios preferidos por las aerolíneas porque permiten a los pasajeros aprovechar el día antes de viajar o llegar temprano a su destino al día siguiente.
Histograma
En el histograma representamos la frecuencia en de los precios de los vuelos, queríamos ver que tipo de precios eran mas frecuentes entre las aerolíneas. El histograma muestra que el mercado de vuelos está dominado por precios bajos, probablemente asociados a rutas cortas o aerolíneas low-cost. Sin embargo, la existencia de una minoría de vuelos con precios elevados refleja la coexistencia de un segmento premium, lo cual evidencia una estructura de precios bimodal o diversificada en función del tipo de vuelo. Además del grupo masivo de vuelos baratos, se distinguen algunos picos secundarios entre 40.000 y 70.000, lo que puede interpretarse como diferentes segmentos de mercado (por ejemplo, vuelos regionales frente a internacionales). También Las aerolíneas parecen centrarse principalmente en ofrecer vuelos de bajo costo, lo que explica el gran volumen de precios bajos. Los vuelos caros, aunque pocos, pueden ser estratégicamente importantes porque generan mayor ingreso por pasajero.