Fortaleciendo las competencias analíticas desde el aula de clases: Ajuste de un modelo de regresión lineal múltiple, caso Aerolíneas Indias.

IV congreso internacional de la ingeniería y el diseño. Tecnología emergentes y sostenibles, Corporacion Universitaria Del Caribe, Cecar

MSc. Cesar Lopez Martínez, Universidad Pontificia Bolivariana, Seccional Montería

2022-11-10

Contenido

  1. Introducción
  2. Contexto Curricular
  3. Materiales y métodos
  4. Análisis de resultados
  5. Conclusiones
  6. Referencias bibliográficas

Introducción

Minuto a minuto, se mueven millones y millones de datos a través del internet.

Tomado de: Twitter @LoriLewis

Así mismo, las organizaciones poseen diversa cantidades de datos, los cuales no se aprovechan al máximo. El correcto análisis de estos datos, propiciará una adecuada toma de decisiones en estas.

Contexto Curricular

Esta experiencia de aprendizaje se desarrolló en el curso de Modelos de regresión y series de tiempo perteneciente al VI semestre del programa de Ingeniería Industrial de la Universidad Pontifica Bolivariana, seccional Montería. Se buscó desarrollar diferentes competencias.

Fuente: Cartas Descriptivas Transformación Curricular

Materiales y métodos

Para el desarrollo de esta experiencia de aprendizaje, se dividió el curso en grupos de máximo 3 integrantes y se le suministró una base de datos disponible en https://www.kaggle.com. Este archivo con extensión .csv contiene 300153 registros en donde se analiza diferente información útil para estimar el precio de un boleto para una aerolínea en especifico. Todos los análisis se realizaron en el software R studio.

airline source_city departure_time stops arrival_time destination_city class duration days_left price
SpiceJet Delhi Evening zero Night Mumbai Economy 2.17 1 5953
SpiceJet Delhi Early_Morning zero Morning Mumbai Economy 2.33 1 5953
AirAsia Delhi Early_Morning zero Early_Morning Mumbai Economy 2.17 1 5956
Vistara Delhi Morning zero Afternoon Mumbai Economy 2.25 1 5955
Vistara Delhi Morning zero Morning Mumbai Economy 2.33 1 5955
Vistara Delhi Morning zero Afternoon Mumbai Economy 2.33 1 5955

Se buscaba conformar un modelo de regresión lineal múltiple con el fin de estimar el precio de venta de un tiquete aéreo, dadas diferentes variables de entrada.

El campo airline contiene las diferentes aerolíneas, cada aerolínea tiene un número determinado de observaciones, por lo tanto, los grupos de trabajo debían escoger al menos 2 aerolíneas y para cada caso, ajustar un modelo de regresión. Para facilidad de la presentación el día de hoy, se escogió la aerolínea Spicejet.

##        Var1   Freq
## 1 Air_India  80892
## 2   AirAsia  16098
## 3  GO_FIRST  23173
## 4    Indigo  43120
## 5  SpiceJet   9011
## 6   Vistara 127859
airline source_city departure_time stops arrival_time destination_city class duration days_left price
SpiceJet Delhi Evening zero Night Mumbai Economy 2.17 1 5953
SpiceJet Delhi Early_Morning zero Morning Mumbai Economy 2.33 1 5953
SpiceJet Delhi Evening zero Night Mumbai Economy 2.33 1 10260
SpiceJet Delhi Evening one Night Mumbai Economy 4.50 1 12123
SpiceJet Delhi Evening one Morning Mumbai Economy 15.25 1 12123
SpiceJet Delhi Evening one Afternoon Mumbai Economy 19.58 1 12230

Se analizó las variables con el fin de saber a mas profundidad cual era su significado.

## 
## Bangalore   Chennai     Delhi Hyderabad   Kolkata    Mumbai 
##      1255      1219      2524       332      1947      1734

## 
## Bangalore   Chennai     Delhi Hyderabad   Kolkata    Mumbai 
##      1088      1172      2541       383      2054      1773

## [1] 12.57977
## [1] 8.927157

## [1] 24.12285
## [1] 13.65882

Se transformaron las variables categóricas a variables ficticias o dummies, obtiniedo un total de 32 variables predictoras. Posteriormente se realiza una selección de variables por medio del método forward. Se muestra a continuación las variables que fueron seleccionadas, ademas de su coeficiente estimado. El criterio de seleccion se basó en el AIC ó Criterio de informacion de Akaike, el cual, para el mejor modelo obtenido tiene un total de 19 variable y un valor de 140991.1.

Se conforma una ecuación de regresión de la forma:

\[Y= \beta_{0} + \beta_{1}X_{1}+ \beta_{2}X_{2}+....+ \beta_{n}X_{n}\]

## [1]     20.0 140991.1

Analisis De Resultados

Miremos las siguientes situaciones: Se quiere estimar el precio de la aerolínea SpiceJet con las siguiente condiciones:

Situación 1:

Situación 2:

Coeficientes Datos_1 Datos_2
(Intercept) 6018.50172 1.0 1.0
days_left -80.43584 1.0 45.0
stops_one 1656.30009 1.0 1.0
departure_time_Afternoon 1299.53355 0.0 0.0
arrival_time_Evening 851.53736 0.0 0.0
source_city_Kolkata 913.81913 1.0 1.0
destination_city_Kolkata 531.70294 0.0 0.0
arrival_time_Afternoon 590.73841 0.0 0.0
departure_time_Morning 754.51093 1.0 1.0
source_city_Chennai -599.08196 0.0 0.0
arrival_time_Early_Morning -687.88427 0.0 0.0
arrival_time_Late_Night 710.56828 1.0 1.0
departure_time_Early_Morning 408.40941 0.0 0.0
destination_city_Hyderabad -778.14488 0.0 0.0
source_city_Delhi 311.71362 0.0 0.0
arrival_time_Morning -267.83112 0.0 0.0
duration 12.83541 23.8 21.5
source_city_Hyderabad -393.70847 0.0 0.0
destination_city_Chennai -265.13300 0.0 0.0
destination_city_Mumbai -120.07294 1.0 1.0
##       Costo_1  Costo_2
## [1,] 10158.67 6589.975

Conclusiones

Al replicar esta metodología, cada grupo de trabajo tuvo un espacio de 15 minutos para mostrar su desarrollo. Con esto, se buscaba desarrollar habilidades comunicativas para poder transmitir adecuadamente la información relevante del trabajo. Se utilizó una rúbrica de evaluación.

Con el desarrollo de esta experiencia de aprendizaje, los estudiantes desarrollaron competencias en manejo de grandes volúmenes de datos y su procesamiento. Ademas, manejo en software adecuados para realizar estos análisis. El desarrollo de estas competencias propicia un factor diferenciador al momento de incluirse al mercado laboral o al momento de emprender.

Referencias Biblograficas

  1. Montgomery, D. C., Runger, G. C., & Medal, E. G. U. (1996). Probabilidad y estadística aplicadas a la ingeniería (Vol. 1). Mexico DF, Mexico: McGraw-Hill.

  2. Devore, J. L. (2011). Probability and Statistics for Engineering and the Sciences. Cengage learning.

  3. R Core Team (2021). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.