MSc. Cesar Lopez Martínez, Universidad Pontificia Bolivariana, Seccional Montería
2022-11-10
Minuto a minuto, se mueven millones y millones de datos a través del internet.
Tomado de: Twitter @LoriLewis
Así mismo, las organizaciones poseen diversa cantidades de datos, los cuales no se aprovechan al máximo. El correcto análisis de estos datos, propiciará una adecuada toma de decisiones en estas.
Esta experiencia de aprendizaje se desarrolló en el curso de Modelos de regresión y series de tiempo perteneciente al VI semestre del programa de Ingeniería Industrial de la Universidad Pontifica Bolivariana, seccional Montería. Se buscó desarrollar diferentes competencias.
Fuente: Cartas Descriptivas Transformación Curricular
Para el desarrollo de esta experiencia de aprendizaje, se dividió el curso en grupos de máximo 3 integrantes y se le suministró una base de datos disponible en https://www.kaggle.com. Este archivo con extensión .csv contiene 300153 registros en donde se analiza diferente información útil para estimar el precio de un boleto para una aerolínea en especifico. Todos los análisis se realizaron en el software R studio.
| airline | source_city | departure_time | stops | arrival_time | destination_city | class | duration | days_left | price |
|---|---|---|---|---|---|---|---|---|---|
| SpiceJet | Delhi | Evening | zero | Night | Mumbai | Economy | 2.17 | 1 | 5953 |
| SpiceJet | Delhi | Early_Morning | zero | Morning | Mumbai | Economy | 2.33 | 1 | 5953 |
| AirAsia | Delhi | Early_Morning | zero | Early_Morning | Mumbai | Economy | 2.17 | 1 | 5956 |
| Vistara | Delhi | Morning | zero | Afternoon | Mumbai | Economy | 2.25 | 1 | 5955 |
| Vistara | Delhi | Morning | zero | Morning | Mumbai | Economy | 2.33 | 1 | 5955 |
| Vistara | Delhi | Morning | zero | Afternoon | Mumbai | Economy | 2.33 | 1 | 5955 |
Se buscaba conformar un modelo de regresión lineal múltiple con el fin de estimar el precio de venta de un tiquete aéreo, dadas diferentes variables de entrada.
El campo airline contiene las diferentes aerolíneas, cada aerolínea tiene un número determinado de observaciones, por lo tanto, los grupos de trabajo debían escoger al menos 2 aerolíneas y para cada caso, ajustar un modelo de regresión. Para facilidad de la presentación el día de hoy, se escogió la aerolínea Spicejet.
## Var1 Freq
## 1 Air_India 80892
## 2 AirAsia 16098
## 3 GO_FIRST 23173
## 4 Indigo 43120
## 5 SpiceJet 9011
## 6 Vistara 127859
| airline | source_city | departure_time | stops | arrival_time | destination_city | class | duration | days_left | price |
|---|---|---|---|---|---|---|---|---|---|
| SpiceJet | Delhi | Evening | zero | Night | Mumbai | Economy | 2.17 | 1 | 5953 |
| SpiceJet | Delhi | Early_Morning | zero | Morning | Mumbai | Economy | 2.33 | 1 | 5953 |
| SpiceJet | Delhi | Evening | zero | Night | Mumbai | Economy | 2.33 | 1 | 10260 |
| SpiceJet | Delhi | Evening | one | Night | Mumbai | Economy | 4.50 | 1 | 12123 |
| SpiceJet | Delhi | Evening | one | Morning | Mumbai | Economy | 15.25 | 1 | 12123 |
| SpiceJet | Delhi | Evening | one | Afternoon | Mumbai | Economy | 19.58 | 1 | 12230 |
Se analizó las variables con el fin de saber a mas profundidad cual era su significado.
##
## Bangalore Chennai Delhi Hyderabad Kolkata Mumbai
## 1255 1219 2524 332 1947 1734
##
## Bangalore Chennai Delhi Hyderabad Kolkata Mumbai
## 1088 1172 2541 383 2054 1773
## [1] 12.57977
## [1] 8.927157
## [1] 24.12285
## [1] 13.65882
Se transformaron las variables categóricas a variables ficticias o dummies, obtiniedo un total de 32 variables predictoras. Posteriormente se realiza una selección de variables por medio del método forward. Se muestra a continuación las variables que fueron seleccionadas, ademas de su coeficiente estimado. El criterio de seleccion se basó en el AIC ó Criterio de informacion de Akaike, el cual, para el mejor modelo obtenido tiene un total de 19 variable y un valor de 140991.1.
Se conforma una ecuación de regresión de la forma:
\[Y= \beta_{0} + \beta_{1}X_{1}+ \beta_{2}X_{2}+....+ \beta_{n}X_{n}\]
## [1] 20.0 140991.1
Miremos las siguientes situaciones: Se quiere estimar el precio de la aerolínea SpiceJet con las siguiente condiciones:
Situación 1:
Ciudad Origen: Kolkata
Ciudad Llegada: Mumbai
Dias para el viaje: 1
Escalas: 1
Tiempo de salida:Mañana
Tiempo de Llegada: Alta Noche
Duracion del vuelo:23.8 Horas
Situación 2:
Ciudad Origen: Kolkata
Ciudad Llegada: Mumbai
Dias para el viaje: 45
Escalas: 1
Tiempo de salida:Mañana
Tiempo de Llegada: Alta Noche
Duracion del vuelo:21.5 Horas
| Coeficientes | Datos_1 | Datos_2 | |
|---|---|---|---|
| (Intercept) | 6018.50172 | 1.0 | 1.0 |
| days_left | -80.43584 | 1.0 | 45.0 |
| stops_one | 1656.30009 | 1.0 | 1.0 |
| departure_time_Afternoon | 1299.53355 | 0.0 | 0.0 |
| arrival_time_Evening | 851.53736 | 0.0 | 0.0 |
| source_city_Kolkata | 913.81913 | 1.0 | 1.0 |
| destination_city_Kolkata | 531.70294 | 0.0 | 0.0 |
| arrival_time_Afternoon | 590.73841 | 0.0 | 0.0 |
| departure_time_Morning | 754.51093 | 1.0 | 1.0 |
| source_city_Chennai | -599.08196 | 0.0 | 0.0 |
| arrival_time_Early_Morning | -687.88427 | 0.0 | 0.0 |
| arrival_time_Late_Night | 710.56828 | 1.0 | 1.0 |
| departure_time_Early_Morning | 408.40941 | 0.0 | 0.0 |
| destination_city_Hyderabad | -778.14488 | 0.0 | 0.0 |
| source_city_Delhi | 311.71362 | 0.0 | 0.0 |
| arrival_time_Morning | -267.83112 | 0.0 | 0.0 |
| duration | 12.83541 | 23.8 | 21.5 |
| source_city_Hyderabad | -393.70847 | 0.0 | 0.0 |
| destination_city_Chennai | -265.13300 | 0.0 | 0.0 |
| destination_city_Mumbai | -120.07294 | 1.0 | 1.0 |
## Costo_1 Costo_2
## [1,] 10158.67 6589.975
Al replicar esta metodología, cada grupo de trabajo tuvo un espacio de 15 minutos para mostrar su desarrollo. Con esto, se buscaba desarrollar habilidades comunicativas para poder transmitir adecuadamente la información relevante del trabajo. Se utilizó una rúbrica de evaluación.
Con el desarrollo de esta experiencia de aprendizaje, los estudiantes desarrollaron competencias en manejo de grandes volúmenes de datos y su procesamiento. Ademas, manejo en software adecuados para realizar estos análisis. El desarrollo de estas competencias propicia un factor diferenciador al momento de incluirse al mercado laboral o al momento de emprender.
Montgomery, D. C., Runger, G. C., & Medal, E. G. U. (1996). Probabilidad y estadística aplicadas a la ingeniería (Vol. 1). Mexico DF, Mexico: McGraw-Hill.
Devore, J. L. (2011). Probability and Statistics for Engineering and the Sciences. Cengage learning.
R Core Team (2021). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.