Introducción.

Cali es la capital del departamento del Valle del Cauca y la tercera ciudad más grande del país. Debido a su densidad poblacional, actividad económica y los distintos eventos culturales, deportivos y festivos, la demanda de taxis es significativa y puede aumentar considerablemente en distintos momentos en el año pues los taxis son una opción popular para el transporte público individual en esta ciudad.

Con este taller buscamos analizar y predecir la demanda de servicios de taxi en la ciudad de Cali, pues esto es fundamental para la planificación y gestión del transporte urbano ya que al comprender la demanda de servicios de taxi, se puede manejar de manera eficiente la distribución de estos en diferentes zonas de la ciudad, ajustando la flota según las necesidades reales, evitando la saturación en ciertas partes y la escasez en otras, esto de la mano con evitar congestion en la ciudad y circulacion de muchos vehiculos vacios que resultan en emision de gases contaminantes que se podrian evitar.

Utilizamos una ventana de 180 dias desde el 1 de octublre del 2018 al 29 de marzo del 2019. con 172 datos para entrenar el modelo y 8 mas para verificar la prediccion, esta decision fue tomada debido a que inicialmente se penso en 10 datos a predecir, sin embargo dos de esos 10 eran demasiado atipicos lo que generaba una prediccion alejada en esos datos.

Metodologia.

los modelos ARIMA (AutoRegressive Integrated Moving Average) son herramientas esenciales en el análisis y predicción de series temporales, pues nos ayudan a ver más allá de los números y a tomar decisiones inteligentes; nos brinda una representacion grafica de datos que nos permite predecir comportamientos futuros.

para verificar si un modelo ARIMA predice bien una serie de tiempo y sirve para la vida real, se deben comprobar tres supuestos:

Residuales con media cero y varianza constante (homocedasticidad):

Los residuales deben tener una media cercana a cero y una varianza constante a lo largo del tiempo. Esto asegura que el modelo no tiene patrones no capturados. Se puede verificar en el gráfico de residuales y mediante el ACF test sujeto a:

  • \(H_0: La\hspace{1.5mm}serie\hspace{1.5mm}temporal\hspace{1.5mm}no\hspace{1.5mm}es\hspace{1.5mm}estacionaria,\hspace{1.5mm}por\hspace{1.5mm}lo\hspace{1.5mm}cual\hspace{1.5mm}los\hspace{1.5mm}residuos\hspace{1.5mm}no\hspace{1.5mm}lo\hspace{1.5mm}son.\)
  • \(H_1: La\hspace{1.5mm}serie\hspace{1.5mm}temporal\hspace{1.5mm}es\hspace{1.5mm}estacionaria,\hspace{1.5mm}por\hspace{1.5mm}lo\hspace{1.5mm}cual\hspace{1.5mm}los\hspace{1.5mm}residuos\hspace{1.5mm}lo\hspace{1.5mm}son.\)

Residuales no correlacionados:

Los residuos del modelo deben comportarse como ruido blanco, es decir, no deben mostrar autocorrelación y para esto Se utilizo la prueba de Ljung-Box sujeta a:

  • \(H_0: Los\hspace{1.5mm}datos\hspace{1.5mm}se\hspace{1.5mm}distribuyen\hspace{1.5mm}de\hspace{1.5mm}forma\hspace{1.5mm}independiente.\)
  • \(H_1: Los\hspace{1.5mm}datos\hspace{1.5mm}no\hspace{1.5mm}se\hspace{1.5mm}distribuyen\hspace{1.5mm}de\hspace{1.5mm}forma\hspace{1.5mm}independiente\hspace{1.5mm}(autocorrelacionados).\)

Es entonces donde el valor p nos ayuda a comprender mejor la estructura y las dependencias dentro de los datos.

Normalidad de los residuales:

Esto es importante para la validación del modelo y para la construcción de intervalos de predicción. La normalidad de los residuales puede evaluarse en el histograma.

Tras esta verificacion del modelo mas adecuado y preciso, se realizo un pronostico de 10 dias el cual es comparado con los valores reales.

En este caso se analizo el modelo ARIMA(4,1,4) a lo largo de este documento pero se decidieron hacer comparaciones especificas con el modelo ARIMA(6,1,7), con esto nos referimos a que los analisis de los graficos en el documento solo hacen referencia al modelo elegido. Aun asi es interesante ver la comparacion en resultados y pronosticos para llegar a conclusiones.

Serie de tiempo.

Una serie de tiempo que es una secuencia de datos recolectados o registrados a lo largo del tiempo, generalmente a intervalos regulares. Estos datos pueden representar diversos fenómenos, como la temperatura diaria, las ventas mensuales de una tienda, o el PIB trimestral de un país.

La clave es que los datos están ordenados cronológicamente, lo que permite analizar tendencias, patrones estacionales y otras características que cambian con el tiempo.

El análisis de series de tiempo es crucial para hacer predicciones y tomar decisiones informadas en diversos campos, como la economía, la meteorología y la ingeniería.

Modelo ARIMA.

El modelo ARIMA es una metodología para predecir futuros valores de esta serie al combinar términos autoregresivos, integrados y de media móvil. Es ampliamente utilizado debido a su flexibilidad y capacidad para adaptarse a una variedad de patrones en los datos temporales.

Este modelo se denota como ARIMA\((p,d,q)\), donde:

  • \(p\hspace{1.5mm}:número\hspace{1.5mm}de\hspace{1.5mm}términos\hspace{1.5mm}autoregresivos.\)
  • \(d\hspace{1.5mm}:número\hspace{1.5mm}de\hspace{1.5mm}diferencias\hspace{1.5mm}necesarias\hspace{1.5mm}para\hspace{1.5mm}hacer\hspace{1.5mm}la\hspace{1.5mm}serie\hspace{1.5mm}estacionaria.\)
  • \(q\hspace{1.5mm}:número\hspace{1.5mm}de\hspace{1.5mm}términos\hspace{1.5mm}de\hspace{1.5mm}media\hspace{1.5mm}móvil.\)

Serie temporal.

plot(Tiempotaxis2)

Contexto historico.

En el mes de diciembre podemos observar cierto crecimiento de transporte debido a la alta demanda de los servicios de taxis , ya que Cali al ser la tercer ciudad más grande de Colombia también es una de las más multiculturales y turísticas,posee una gran visita de extranjeros para vivenciar la feria de cali generando un gran incremento en la economía de la ciudad y el flujo de personas dentro de ella , se respalda la información con la siguiente declaración, “ El profesor Luis Fernando Aguado, director del Departamento de Economía de la Javeriana y líder de este estudio, señaló que por cada peso que Cali invierte en la Feria, se generan 27 pesos a la economía local”.

Gracias a esto se genera cierto contraste para el mes siguiente, enero siendo el primer mes del año nuevo con nuevos proyectos y metas también es uno de los meses poco prósperos para la economía de la ciudad ya que parte de la población abandona la ciudad para tomar unas respectivas vacaciones y la otra parte no cuenta con el dinero necesario para salir, por los gastos que se generaron en el mes de diciembre, la población entra en una recesión económica disminuyendo así la demanda de los taxis.

Dando continuidad a nuestra linea temporal tenemos un pico bajo especialmente el 25 de marzo de 2019 siendo este la conmemoración del día de San José que corresponde al día lunes de la semana por lo cual la población caleña abandona la ciudad para tomar por completo el puente festivo, esto genera que la ciudad quede vacía y no haya demanda de transporte.

  • El 7 de enero de 2019, hubo una notable disminución en la demanda de taxis en Cali debido a varias razones. Primero, ese día fue festivo en Colombia, lo que generalmente reduce la necesidad de transporte ya que muchas personas no trabajan y optan por quedarse en casa o usar medios de transporte alternativos

  • El 12 de noviembre de 2018, hubo menos taxis disponibles en Cali debido a una protesta organizada por los taxistas contra el uso de aplicaciones de transporte como Uber y Cabify.

  • El 7 de diciembre de 2018, Cali experimentó una alta demanda de taxis debido a varios factores. En esta fecha, se celebran las festividades de la Virgen de la Inmaculada Concepción, conocida popularmente como el Día de las Velitas. Esta celebración es muy importante en Colombia y genera un aumento significativo en la movilidad de las personas, quienes participan en eventos familiares y religiosos, encendiendo velas y faroles en las calles y parques.

Estadisticas descriptivas.

Media Mediana Desviacion estandar Minimo Maximo
4077.15 4053 868.4497 1782 6366

Cómo podemos observar, los datos de encuentran moderadamente dispersos, aunque manejan un rango desde 3000 a 6000 en su mayoría, además, a simple vista no se percibe estacionariedad.

Este gráfico nos muestra el promedio de demanda de taxis cada mes y podemos analizar que diciembre fue el mes con el promedio más alto y enero el más bajo, esto puede ser porque en Cali diciembre es un mes en el que se celebra la feria de Cali, por esta razón siempre hay mucho flujo en la movilidad vial en esta época. Por otro lado enero como resultante de que en diciembre los habitantes de Cali tienen un gasto económico alto, enero que es el mes consecuente es un mes en el que hay menor movilidad.

## Límite Inferior: 2155.375
## Límite Superior: 6096.375

En este gráfico podemos confirmar lo que analizamos en el gráfico de dispersión anterior, sobre qué en los datos hay una dispersión moderada y esto se debe a que hay presencia de datos atípicos, sumado a que podemos visualizar la media de los datos, la cual fue 4077. Podemos observar tres datos atípicos por debajo, los cuales son los días 12 de noviembre de 2018, 07 de enero de 2019 y 25 de marzo de 2019, y por encima los días 07 de diciembre de 2018 y 29 de marzo del 2019.

Resultados del Modelo ARIMA.

Modelo elegido

Algunos supuestos como el de los residuos no correlacionados (grafica ACF) no se cumplen, por lo tanto el modelo ARIMA (4,1,4) no es completamente adecuado y puede necesitar refinamiento.

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(4,1,4)
## Q* = 16.18, df = 3, p-value = 0.001042
## 
## Model df: 8.   Total lags used: 11
## 
##  Augmented Dickey-Fuller Test
## 
## data:  lapso1.1
## Dickey-Fuller = -12.938, Lag order = 5, p-value = 0.01
## alternative hypothesis: stationary

Modelo 2

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(6,1,7)
## Q* = 7.3672, df = 3, p-value = 0.06107
## 
## Model df: 13.   Total lags used: 16
## 
##  Augmented Dickey-Fuller Test
## 
## data:  lapso1.1
## Dickey-Fuller = -12.938, Lag order = 5, p-value = 0.01
## alternative hypothesis: stationary

Grafico de residuos.

Los residuales parecen oscilar alrededor de cero, sin una tendencia clara y visualmente su varianza es mas o menos constante, lo que sugiere que el supuesto de homocedasticidad se cumple, para confirmarlo realizamos el ADF test, donde el \(valor\hspace{1.5mm}p=\hspace{1.5mm}0.01\) lo que nos lleva a rechazar \(H_0\). Es decir, la serie es estacionaria y por ende sus residuos lo son.

Grafico ACF.

A partir del grafico podemos observar que la mayoría de los lags están dentro de las bandas de confianza, pero hay dos lags que son la excepcion.

para verificar esto realizamos la prueba de Ljung-Box la cual debido al \(valor\hspace{1.5mm}p=\hspace{1.5mm}0.001042\) nos lleva a rechazar \(H_0\) lo que sugiere que hay autocorrelación presente. Es decir, este supuesto no se cumple.

Histograma.

El histograma de los residuales parece seguir una distribución aproximadamente normal, aunque se ven ligeros desvíos.

Pronostico.

Modelo elegido

##     Point Forecast    Lo 95    Hi 95
## 171       4211.037 2965.642 5456.432
## 172       4567.354 3205.253 5929.456
## 173       4280.399 2900.138 5660.659
## 174       3418.673 1893.967 4943.378
## 175       3290.736 1660.156 4921.315
## 176       3834.332 2173.029 5495.635
## 177       4140.122 2334.841 5945.403
## 178       4286.221 2230.504 6341.939

Modelo 2

##     Point Forecast    Lo 95    Hi 95
## 171       4088.065 2968.379 5207.750
## 172       4449.878 3271.495 5628.261
## 173       4581.017 3357.012 5805.022
## 174       3407.139 2122.224 4692.054
## 175       3263.662 1937.124 4590.201
## 176       4015.605 2638.138 5393.072
## 177       4410.213 2982.190 5838.237
## 178       4017.843 2533.421 5502.266

Comparacion.

Modelo elegido.
Valor Real Predicción Modelo
2019-03-20 4145 4211.037
2019-03-21 4526 4567.354
2019-03-22 4330 4280.399
2019-03-23 3184 3418.673
2019-03-24 2560 3290.736
2019-03-25 1782 3834.332
2019-03-26 4166 4140.122
2019-03-27 4126 4286.221
Modelo 2
Valor Real Predicción Modelo
2019-03-20 4145 4088.065
2019-03-21 4526 4449.878
2019-03-22 4330 4581.017
2019-03-23 3184 3407.139
2019-03-24 2560 3263.662
2019-03-25 1782 4015.605
2019-03-26 4166 4410.213
2019-03-27 4126 4017.843

Cabe resaltar que se hizo la comparación entre 20 diferentes modelos y se utilizó el modelo más acertado, que fue el modelo (4,1,4).En el documento vemos como hay comparaciones con un modelo llamado modelo 2 que fue el ARIMA(6,1,7).

Conclusiones.

  • Aunque el modelo 2 cumple los supuestos, al manejar un valor p tan alto nos da predicciones mas imprecisas o valores menos cercanos a los reales que el modelo elegido. Esto sucede ya que usa demasiados datos anteriores y esto genera ruido en el modelo.

  • El modelo escogido no puede ser usado en la vida real para predecir la demanda de taxis en la ciudad ya que no cumple todos los supuestos; es decir, necesita ajustes y no es muy confiable

  • En los modelos arimas se usan datos pasados para predecir los siguientes por lo general en las series de tiempo y en esta que estamos estudiando los datos son muy volatiles es por eso que los datos pasados no influyen directamente en los datos siguientes por tanto un modelo que use demasiados datos anteriores para predecir tiende a ser más impreciso