La ciudad de Santiago de Cali, mayormente conocida como Cali, es la capital del departamento del Valle del Cauca y la tercera ciudad más grande de Colombia. Al ser una de las ciudades más grandes del país, cuenta con una densidad poblacional alta (2.28 millones de habitantes), lo cual implica una economía en constante crecimiento, siendo así una de las principales ciudades del suroccidente colombiano y un importante centro cultural, económico y comercial. La división de la ciudad de Cali es bastante variada, incluyendo un aproximado de 20 zonas comunes urbanas y más de 10 corregimientos rurales, teniendo así una diversidad alta de estratos socioeconómicos.
Una de las principales razones por las cuales la economía en la ciudad está en constante crecimiento es su fortaleza en sectores como la manufactura, la agroindustria, el comercio y los servicios, esta fortaleza se debe en gran medida a su ubicación estratégica en el Valle del Cauca. Cali también es reconocida como gran productora de azúcar, café y otra cantidad de productos agrícolas. Es posible inferir que la cosecha y producción de este tipo de productos sea consecuencia de la cantidad de zonas rurales presentes en la ciudad y sus alrededores.
Además de ser una ciudad que se destaca en la producción agrícola, Cali es reconocida como la “Capital de la Salsa”, atrayendo a turistas vida nocturna activa y sus festivales culturales, como la feria de Cali. Además de sitios turísticos como Cristo Rey, el Parque Artesanal Loma de la Cruz, la Iglesia de San Antonio y el Zoológico - Parque Botánico de Cali.
Debido a todos estos factores, tanto económicos como culturales, la dinámica del servicio de taxi es muy compleja y multifacética. Es correcto destacar que el constante crecimiento poblacional tiene como consecuencia una mayor demanda de transporte privado, sin embargo, los taxis no son los únicos que ofrecen este tipo de servicios, ya que actualmente hay en función aplicaciones con el objetivo de ofrecer un servicio seguro de transporte privado.
No obstante, es de forma notable que la demanda de taxis incrementa de manera exponencial en épocas de eventos (como la mencionada feria de Cali), debido al constante flujo de turistas que estas épocas trae consigo, por la preferencia que tienen los turistas por utilizar taxis por comodidad, seguridad y rapidez. Los factores económicos y los niveles de ingresos también están relacionados con la demanda de taxis, en tiempos de expansión económica más personas tienen la capacidad de utilizar taxis, mientras que en tiempos de recesión la demanda tiende a disminuir.
Es de suma importancia que se pueda identificar el comportamiento de la demanda de servicios de taxi para una mejor planeación y gestión del transporte urbano en la ciudad. Al tener una comprensión del funcionamiento de la demanda de taxis las autoridades pueden tener un manejo de recursos óptimo o más eficiente, porque se tiene en cuenta factores como la asignación de rutas más concurridas a más cantidad de taxis, y la gestión del tráfico teniendo en cuenta la cantidad de taxis que transitan en la ciudad y satisfacer las necesidades de movilidad de la ciudad.
Realizar una gestión del tráfico con un conocimiento previo de cómo será el comportamiento de la demanda de servicios de taxi tiene como consecuencia una disminución en la congestión del tráfico, permitiendo un mejor flujo de transporte en la ciudad. Además, el tener un conocimiento sobre las rutas más concurridas por los taxis ayuda a tomar decisiones sobre mejora de infraestructura o arreglo de calles desgastadas debido a que son muy transitadas.
El estudio expuesto a continuación fue realizado a partir de una recopilación del comportamiento de la demanda del servicio de taxis entre los años 2017 y 2018, utilizando un total de 342 datos, los cuales representan el comportamiento de dicha demanda por día. Debido a los factores tenidos en cuenta anteriormente, el objetivo del estudio es desarrollar un modelo con una capacidad predictiva en un intérvalo de confianza definido, pudiendo así realizar análisis a corto plazo para llevar un monitoreo que conlleve a una toma de decisiones adecuadas sobre los factores a mejorar con el conocimiento del comportamiento de la demanda de taxis y las rutas más transitadas en la ciudad.
Para este nuevo estudio, se analizó el concepto de “series de tiempo” el cual va proporcionado por medio de la cantidad de servicios de taxis que se tomaron en la ciudad de Cali. Esta idea nos ayuda a producir un mejor manejo en los registros, ya que se recolecta una secuencia de datos en intervalos de tiempos continuos, así mismo, para realizar análisis de diferentes aspectos como predicciones, pronósticos, controles, tendencias futuras, etc. Así mismo, permitiendo mejorar la toma de decisiones y planificaciones a futuro.
Teniendo en cuenta este concepto, se aclaró el intervalo de tiempo el cual iba ser utilizado en la base de datos, el cual fue acotado para las fechas desde el 1 de julio de 2018 hasta el 17 de mayo de 2019. Teniendo en cuenta estos datos se realizaron diferentes conceptos como el de estacionariedad, tendencia y estacionalidad. Estos modelos ayudan a tener una vision mas clara de la serie de tiempo que se está realizando, ya sea para saber si la serie maneja una media constante en sus valores durante toda la secuencia, si maneja una tendencia ya sea creciente o decreciente ó si tiene aspectos de igualdad durante cada cierto periodo.
Con los modelos utilizados se prosigue a diferenciar la serie secuencial, este proceso se hace de tal forma que se pueda transformar la serie para eliminar sus tendencias, haciendo que se vuelva estacionaria. Esto con el objetivo de facilitar el modelado y las predicciones, ya que al ser estacionaria maneja estadísticas constantes a lo largo de toda la serie de tiempo.
Al llevar a cabo estos modelos, se prosigue a utilizar el modelo ARIMA, el cual trata de proporcionar un enfoque para los pronósticos de series de tiempo. Este modelo es de suma importancia ya que este concepto se usa ampliamente para hacer predicciones a corto y mediano plazo en series temporales, puesto que ayuda a identificar patrones y tendencias en diferentes periodos en donde facilita la planeación y toma de decisiones. La ventaja de este modelo se centra en la flexibilidad que tiene esta misma, dado que puede cubrir una alta capacidad de series temporales gracias a su combinación de componentes.
Este modelo está caracterizado por tres componentes fundamentales: autoregresión, diferenciación y medias móviles. Al ser utilizado en el proyecto se prosigue a emplear funciones de autocorrelación (ACF) y autocorrelación parcial (PACF) los cuales son herramientas fundamentales para obtener los parámetros deseados del modelo ARIMA.
De esta misma forma se utiliza la herramienta autoarima, el cual consiste en arrojar un modelo de forma automática, de tal modo, que pueda servir para orientar a escoger más modelos. De esta forma, al escoger diferentes modelos, son sometidos a diferentes criterios para compararlos y así mismo tener un único modelo el cual sea el que resalta entre los demás y cumpla los criterios.
Teniendo esto, la base de datos final estará resumida en un solo modelo, el cual sea el más adecuado para poder pronosticar, y así mismo, facilitar la observación de la serie de tiempo y hacer un análisis detallado acerca de los picos de anormalidad que se manejan en los servicios de taxis utilizados en la ciudad de Cali, para poder concluir y predecir de forma más confiable.
Observando el gráfico de la serie de servicios de taxis en Cali, se pueden identificar varios picos máximos y mínimos, reflejando comportamientos atípicos.
Analizando más a profundidad, se pueden determinar las causas de estos comportamientos en las fechas mostradas:
Días de alta demanda:
22 de septiembre de 2018: El “Día sin carro ni moto” en Cali provocó un incremento significativo en la demanda de taxis, ya que los vehículos particulares y motocicletas no podían circular. Esto convirtió a los taxis en una de las mejores alternativas para moverse por la ciudad, resultando en un pico máximo en los servicios de taxis.
7 de diciembre de 2018: Durante el Día de las Velitas, miles de personas salieron a las calles para celebrar el inicio de las festividades navideñas, encendiendo faroles y velas. La necesidad de transporte aumentó notablemente, ya que muchas familias y amigos requirieron taxis para desplazarse a los distintos puntos de celebración.
29 de marzo de 2019: El concierto de Gilberto Santa Rosa atrajo a una gran multitud de fans en Cali. Además, otros eventos realizados en la ciudad ese mismo día contribuyeron a una mayor demanda de taxis, ya que los asistentes necesitaron transporte para llegar a los eventos.
9 de mayo de 2019: Varios eventos culturales y musicales tuvieron lugar en diferentes partes de Cali, atrayendo a un gran número de participantes tanto de la ciudad como de áreas circundantes. Esto resultó en un aumento significativo en la demanda de servicios de taxi.
Días de baja demanda:
7 de agosto de 2018: La posesión presidencial de Iván Duque y el festivo de la Batalla de Boyacá hicieron que muchos ciudadanos prefirieran quedarse en casa para disfrutar del día festivo, reduciendo la necesidad de transporte y, por ende, la demanda de servicios de taxi.
25 de marzo de 2019: Con el inicio de la Semana Santa, muchas personas optaron por viajar fuera de la ciudad o descansar en casa. Además, la disminución de actividades escolares y laborales causó una reducción en la necesidad de transporte urbano, resultando en menos servicios de taxi.
19 de abril de 2019: Coincidiendo con el Viernes Santo, un día de significativas actividades religiosas y menor actividad nocturna, muchas personas decidieron quedarse en casa o participar en eventos religiosos, lo que llevó a una disminución en el uso de taxis.
17 de mayo de 2019: Los taxistas protestaron contra el uso de plataformas de transporte “ilegales” como Uber, bloqueando calles y reduciendo significativamente la disponibilidad de taxis. Esta protesta afectó tanto la demanda como la oferta de servicios de taxi, resultando en una marcada disminución en el número de servicios.
| Name | Taxis |
| Number of rows | 321 |
| Number of columns | 1 |
| _______________________ | |
| Column type frequency: | |
| numeric | 1 |
| ________________________ | |
| Group variables | None |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| Servicios | 0 | 1 | 3905.87 | 882.79 | 779 | 3432 | 3869 | 4404 | 7317 | ▁▃▇▂▁ |
Como se puede observar, de primera mano se obtiene una información en general de la base de datos con la cantidad de registros. Como segunda parte se contempla los análisis estadísticos de la serie de tiempo, donde se empieza mostrando el porcentaje que tiene en su totalidad la variable de servicios, se observa que esta misma arroja el 100%, lo que significa que los registros para esta serie de tiempo si tiene todos sus datos completos en su totalidad.
Como segunda parte se observa la media que maneja de 3.906, lo que indica que, en promedio, se solicitaron 3.906 servicios de taxis. Esto ayuda a adecuar una idea del nivel normativo de demanda diaria que se maneja.
Teniendo esto en cuenta, como tercera parte tenemos la desviación estándar, la cual arroja una desviación de 883, lo que demuestra que la demanda de taxis no es constante al pasar los días, si no que puede variar notablemente. Lo que puede requerir que se tenga una variabilidad no muy alta, pero sí bastante considerable.
Esta variabilidad en los datos se debe a factores como conciertos, eventos especiales, cambios climatológicos, días festivos, etc. Todos estos componentes pueden causar la variabilidad considerada que se maneja en la serie temporal. Por lo cual los gremios de taxis deben de estar preparados para manejar días en donde se obtenga una mayor demanda, así como días de baja demanda. Esto podría ayudar a mejorar el manejo que se le da a la cantidad de taxis que salen de ruta y mejorar la capacidad de respuesta a los cambios extremos que se den en la demanda de manera eficiente.
Teniendo en cuenta el primer gráfico, donde se puede observar las variaciones que se tuvo durante toda la serie de tiempo, se pueden observar también los altos y bajos picos más considerables. Así mismo, a simple vista, se puede notar que la serie no maneja una estacionariedad, ya que los datos están un poco dispersos, lo que nos quiere decir que sus valores no son constantes alrededor de los días. De lo contrario, maneja una estacionalidad semanal, se puede observar que cada 7 días se nota una igualdad en las cantidades de servicios de taxis, esto quiero decir, que se nota una semejanza si se analiza un sábado comparado con el sábado de la semana anterior o posterior, donde se sabrá que los picos serán altos ocasionado por ser un fin de semana.
Por otro lado, si se observa la gráfica por cada trimestre, se puede notar una tendencia con un crecimiento no muy fuerte. Esto con el fin de poder tener un análisis exhaustivo de la razón por la cual surgen estos cambios inesperados en el comportamiento de la serie de tiempo.
Como ya se describió previamente, el objeto de estudio es una serie de tiempo que contiene el número de servicios de taxi solicitados diariamente entre el 1 de julio de 2018 y el 17 de mayo de 2019:
Para definir el modelo, inicialmente es necesario seccionar la serie de datos en dos:
Debido a la naturaleza de los pronósticos es conveniente que se realice la prueba con pocas fechas, por lo que se seleccionan para el testeo los últimos 5 registros (del 13 al 19 de mayo de 2019); de forma que la parte de entrenamiento abarca los 316 registros desde el 1 de julio de 2018 hasta el 12 de mayo de 2019.
Gráficamente se observa que la serie no es estacionaria, ya que pareciera tener una tendencia ligeramente creciente. Sin embargo, es mejor comprobarlo revisando sus autocorrelaciones:
Los rezagos positivos que sobresalen de las bandas de confianza evidencian la tendencia creciente de la serie ya mencionada, pero aún así es posible realizar un test de Dickey-Fuller para confirmar numéricamente esta tendencia:
##
## Augmented Dickey-Fuller Test
##
## data: train
## Dickey-Fuller = -2.8591, Lag order = 6, p-value = 0.2142
## alternative hypothesis: stationary
El test de Dickey-Fuller establece como hipótesis nula la no estacionariedad de la serie, por lo que el p-valor de 0.2142 obtenido indica que la serie de entrenamiento no es estacionaria. Para la definición del modelo es necesario que lo sea, por lo cual el siguiente paso es diferenciarla una vez.
El proceso de diferenciación se centra en los cambios ocurridos entre
los registros de la serie, lo cual elimina cualquier tendencia existente
y la lleva a la estacionariedad necesaria. Sin embargo, es necesario
tener en cuenta que la naturaleza de esta serie de datos lleva ímplícita
una estacionalidad, es decir, cierto patrón cíclico en el que los datos
se comportan de forma similar.
Al tratarse de una toma de datos diaria de algo tan cotidiano como el
transporte urbano, existe una estacionalidad semanal. Esto significa que
se espera que los comportamientos de todos los Lunes sean similares
entre sí, así como también que los comportamientos de un fin de semana
sean similares a los de los demás fines de semana pero distintos al
resto de la semana.
Cabe resaltar que esta autocorrelación también fue visible en el ACF visto previamente. Por ende, dicha estacionalidad que ocurre cada 7 días debe de ser incluida en la diferenciación.
De esta forma, la serie de entrenamiento diferenciada es la siguiente:
Visualmente se observa que ahora sí es una serie estacionaria, pues no se evidencia una tendencia creciente ni decreciente. Sin embargo, de nuevo es posible confirmar al observar el ACF y la prueba de Dickey-Fuller para esta nueva serie:
##
## Augmented Dickey-Fuller Test
##
## data: traindiff
## Dickey-Fuller = -9.6334, Lag order = 6, p-value = 0.01
## alternative hypothesis: stationary
El comportamiento de las autocorrelaciones vistas en el ACF muestra que casi no existen rezagos significativos (es decir, autocorrelaciones cuya significancia exceda los niveles establecidos por las bandas de confianza), más allá de dos casos especiales para la autocorrelación entre datos con 1 día y 7 días de diferencia entre sí.
En cuanto a la prueba de Dickey-Fuller, su p-valor indica que con un 5% de margen de error se debe aprobar la hipótesis alterna: esta serie es estacionaria.
Una vez realizada esta preparación previa, ya es posible definir el modelo ARIMA con el que se realizarán los pronósticos de futuras demandas de servicio de taxi.
Es necesario recordar que un modelo ARIMA tiene 3 parámetros: (p, d, q). El valor de d está dado por el número de diferenciaciones que fueron necesarias para que la serie fuera estacionaria, pero no se tienen en cuenta las diferenciaciones con estacionalidad como la que se realizó en este caso, por lo que será igual a 0.
En cuanto a los valores de p y q, están dados por el primer rezago significativo presente entre las autocorrelaciones y las autocorrelaciones parciales de la serie de entrenamiento que se está tratando, por lo que es necesario revisar ambas simultáneamente:
En cuanto a p:
En cuanto a q:
Así pues, es posible establecer diferentes modelos ARIMA al hallar todas las combinaciones posibles entre los valores ya mencionados. Además, existe una posibilidad de modelo adicional que es proporcionada por el programa como un autoARIMA:
## Series: train
## ARIMA(2,1,3) with drift
##
## Coefficients:
## ar1 ar2 ma1 ma2 ma3 drift
## -0.6171 -0.6426 0.0230 -0.0924 -0.5416 3.8985
## s.e. 0.1262 0.1174 0.1327 0.1398 0.0895 7.3475
##
## sigma^2 = 563654: log likelihood = -2530.26
## AIC=5074.53 AICc=5074.89 BIC=5100.79
De esta forma, las posibilidades de modelo ARIMA que se van a evaluar son las siguientes:
Para escoger el modelo más adecuado para el pronóstico es necesario realizar una serie de pruebas para compararlos en ciertos criterios, llamados AIC, AICc y BIC. Aunque su significado es irrelevante, lo que se busca es a aquél modelo que tenga el menor valor en la mayoría de los 3, por lo que se procede a compararlos en pares hasta determinar cuál es dicho modelo.
Los valores de todos los modelos pueden ser visualizados a continuación:
## Series: train
## ARIMA(2,1,3)
##
## Coefficients:
## ar1 ar2 ma1 ma2 ma3
## -0.6173 -0.6428 0.0242 -0.0913 -0.5408
## s.e. 0.1262 0.1174 0.1326 0.1396 0.0894
##
## sigma^2 = 562348: log likelihood = -2530.4
## AIC=5072.81 AICc=5073.08 BIC=5095.32
## Series: train
## ARIMA(1,0,1) with non-zero mean
##
## Coefficients:
## ar1 ma1 mean
## 0.2052 0.2889 3902.677
## s.e. 0.1585 0.1638 70.355
##
## sigma^2 = 602166: log likelihood = -2549.71
## AIC=5107.42 AICc=5107.55 BIC=5122.44
## Series: train
## ARIMA(1,0,0) with non-zero mean
##
## Coefficients:
## ar1 mean
## 0.4470 3900.7639
## s.e. 0.0505 78.5734
##
## sigma^2 = 603420: log likelihood = -2550.53
## AIC=5107.06 AICc=5107.14 BIC=5118.33
## Series: train
## ARIMA(1,0,7) with non-zero mean
##
## Coefficients:
## ar1 ma1 ma2 ma3 ma4 ma5 ma6 ma7
## 0.3489 0.0567 -0.0016 0.1477 0.0829 -0.0588 0.1211 0.3164
## s.e. 0.1556 0.1440 0.0790 0.0655 0.0779 0.0758 0.0622 0.0556
## mean
## 3903.7439
## s.e. 100.9573
##
## sigma^2 = 515482: log likelihood = -2522.51
## AIC=5065.02 AICc=5065.74 BIC=5102.58
## Series: train
## ARIMA(7,0,1) with non-zero mean
##
## Coefficients:
## ar1 ar2 ar3 ar4 ar5 ar6 ar7 ma1 mean
## 0.2146 -0.0199 0.1209 0.0051 -0.0841 0.158 0.3576 0.1655 3916.865
## s.e. 0.1247 0.0745 0.0550 0.0572 0.0537 0.055 0.0611 0.1274 172.843
##
## sigma^2 = 478968: log likelihood = -2511.24
## AIC=5042.48 AICc=5043.2 BIC=5080.04
## Series: train
## ARIMA(7,0,0) with non-zero mean
##
## Coefficients:
## ar1 ar2 ar3 ar4 ar5 ar6 ar7 mean
## 0.3651 -0.0889 0.1400 -0.0172 -0.0887 0.178 0.3070 3917.9356
## s.e. 0.0535 0.0567 0.0566 0.0576 0.0570 0.057 0.0543 179.0635
##
## sigma^2 = 479913: log likelihood = -2512.05
## AIC=5042.09 AICc=5042.68 BIC=5075.89
En cuanto a la selección, se llevó a cabo de la siguiente forma:
De esta forma, se determina que el modelo 6 es el más indicado guiándose por estos criterios.
Sin embargo, existe otro factor decisivo para definir qué modelo ARIMA es más idóneo para los fines de este estudio, y es la precisión (accuracy) de los pronósticos. A través de una seríe de parámetros intrínsecos de cada modelo (MAE, RMSE y MAPE) se da una cuantificación de las medidas de error del pronóstico, por lo que nuevamente el mejor modelo será aquél con un menor valor en la mayoría o totalidad de estos parámetros.
Establecido esto, los parámetros de la precisión de pronóstico de los 6 modelos en discusión son los siguientes, en orden numérico del modelo 1 al modelo 6:
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set 28.67923 742.7453 571.1219 -3.065688 16.04596 0.1462554 0.04878369
## ME RMSE MAE MPE MAPE MASE
## Training set 1.805578 772.3014 608.7595 -4.343051 16.93574 0.1558938
## ACF1
## Training set -0.01131409
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set 2.903119 774.3391 608.7941 -4.346838 16.99262 0.1559027 0.01004414
## ME RMSE MAE MPE MAPE MASE
## Training set 4.483292 707.6725 535.8185 -3.835024 15.13327 0.1372148
## ACF1
## Training set 0.006417083
## ME RMSE MAE MPE MAPE MASE
## Training set 8.887676 682.1485 498.0032 -3.399922 14.15302 0.1275309
## ACF1
## Training set 0.006259505
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set 9.370871 683.9323 502.267 -3.408009 14.27189 0.1286228 0.02752014
Por consiguiente, la comparación entre ellos se llevó a cabo de la siguiente manera:
Por ende, el modelo 5 es aquél cuyos pronósticos tienen menores medidas de error, es decir, tienden a ser mejores en cuanto a la acertividad de sus predicciones.
Por último, existe un tercer factor a tener en cuenta para la determinación del mejor modelo ARIMA: la independencia de sus residuales. En este caso, el hecho de que no sean independientes entre sí implica que aún existe un patrón en la serie que el modelo propuesto no está teniendo en cuenta, por lo que debe de buscarse uno cuyos residuales sí muestren una distribución normal.
Con esto en mente, existe una prueba llamada el test de L jung-Box,
que establece la hipótesis nula de que los residuales de la serie al ser
procesada por el modelo son independientes, y la hipótesis alterna de
que no lo son. Los resultados de los seis modelos propuestos ante esta
prueba son los siguientes:
##
## Ljung-Box test
##
## data: Residuals from ARIMA(2,1,3)
## Q* = 46.475, df = 5, p-value = 7.267e-09
##
## Model df: 5. Total lags used: 10
##
## Ljung-Box test
##
## data: Residuals from ARIMA(1,0,1) with non-zero mean
## Q* = 78.816, df = 8, p-value = 8.46e-14
##
## Model df: 2. Total lags used: 10
##
## Ljung-Box test
##
## data: Residuals from ARIMA(1,0,0) with non-zero mean
## Q* = 89.59, df = 9, p-value = 1.998e-15
##
## Model df: 1. Total lags used: 10
##
## Ljung-Box test
##
## data: Residuals from ARIMA(1,0,7) with non-zero mean
## Q* = 9.1213, df = 3, p-value = 0.02772
##
## Model df: 8. Total lags used: 11
##
## Ljung-Box test
##
## data: Residuals from ARIMA(7,0,1) with non-zero mean
## Q* = 6.8039, df = 3, p-value = 0.07842
##
## Model df: 8. Total lags used: 11
##
## Ljung-Box test
##
## data: Residuals from ARIMA(7,0,0) with non-zero mean
## Q* = 6.3819, df = 3, p-value = 0.09444
##
## Model df: 7. Total lags used: 10
Al observar el p-valor obtenido por cada modelo se define que los únicos modelos propuestos cuyos residuales son independientes son el modelo 5 y el modelo 6. Al observar el gráfico de la distribución de los residuos de estos dos modelos se puede confirmar que presentan un comportamiento normal, ya que se alinea a la campana de Gauss allí trazada.
Por esto, se define que los únicos modelos propuestos cuyos pronósticos tienen una base estadística sólida son el 5 y el 6, por lo que lo mejor es escoger uno de ellos. De hecho, cabe recordar que el mejor modelo según los primeros criterios es el 6, y el mejor según el criterio de precisión del pronóstico es el 5.
Finalmente se opta por trabajar con el modelo 5, ya que la viabilidad del modelo 6 se sustenta más en una base puramente teórica de planteamiento, mientras que la del 5 se basa en la precisión de los pronósticos que realiza, lo que es un factor de valor para la empresa de taxistas que está esperando los resultados de este modelo, ya que de eso dependen las decisiones que vayan a tomar para futuras fechas.
Como se estableció al inicio de esta sección, de la serie de datos original se extrajeron los últimos 5 días para realizar una prueba de pronóstico una vez que el modelo ARIMA estuviera definido. Dicha muestra de testeo es la siguiente:
De esta forma se emplea el modelo ARIMA (7,0,1) para analizar la serie de entrenamiento, para posteriormente solicitarle un pronóstico de los 5 días correspondientes a la serie de testeo:
## Point Forecast Lo 95 Hi 95
## 27302401 4451.688 3095.246 5808.131
## 27388801 4140.566 2689.421 5591.710
## 27475201 4294.193 2840.633 5747.753
## 27561601 5172.119 3708.445 6635.793
## 27648001 4949.197 3481.799 6416.595
Los valores mostrados corresponden a lo siguiente:
Para determinar la acertividad de estas predicciones es necesario observar los valores reales del número de servicios solicitados durante este periodo:
## Servicios
## 2019-05-13 4827
## 2019-05-14 4839
## 2019-05-15 4388
## 2019-05-16 4982
## 2019-05-17 779
Se observa que los valores reales de los primeros 4 días están dentro del intervalo predicho por el modelo, pero el quinto no. Esto puede deberse a múltiples factores coaccionando en conjunto: en primer lugar, la naturaleza de los pronósticos hace que entre más lejana sea la fecha a predecir, más díficil será acertar en los resultados; además, en el contexto de la serie de datos se observó que esa fecha fue un dato atípico, ya que ese día hubo un paro de taxistas. Como es de esperarse, cualquier dato atípico en una serie de datos va a ser casi imposible de pronosticar correctamente.
Finalmente, es posible visualizar de forma gráfica el pronóstico realizado:
De la serie de datos se incluyeron en el gráfico los últimos 80 días, y la región azul corresponde a los 5 días que se están pronosticando. De esta forma, la línea oscura que está en el centro de la región corresponde a los valores puntuales predichos (los cuales realmente no se espera que acierten); mientras que la región oscura está definida en sus bordes por los valores máximos y mínimos del intervalo predicho con un 95%, de los cuales ya se observó que los primeros 4 días están incluidos.
Como se pudo apreciar en todo la serie de tiempo, existieron datos atípicos en los cuales tuvieron una alta demanda como una baja demanda. Esto se debe por diferentes aspectos, como los conciertos que se realizaron en la ciudad, el día sin carro, festividades especiales como el día de velitas, en donde se registró una alta demanda de servicios de taxis gracias a la necesidad de las personas de transportarse para estas fechas especiales. En los momentos donde se presentó una baja demanda la ocasionaron fechas como la semana santa, en donde las personas utilizan estos días para salir de la ciudad, por lo cual la ciudad maneja una disminución en su población, lo cual ocasiona que disminuya la demanda. El dato más bajo registrado en esta serie de tiempo fue el paro de taxistas, en donde los gremios se ponen de acuerdo para no disponer el servicio de taxis, lo que causa que sea el dato inferior en este análisis.
Realizar este tipo de estudios sobre series de datos tiene
implicaciones positivas para las partes involucradas porque el modelo
obtenido al final permite realizar pronósticos sobre qué sucederá en las
fechas futuras más cercanas. En el caso concreto de la empresa de taxis,
conocer unos intervalos aproximados de cuántos servicios de taxis se van
a solicitar en los próximos 5 días les permiten preparar con antelación
las respectivas cantidades de vehículos con sus respectivos conductores
para poder satisfacer dicha demanda.
Así mismo, esta información es de utilidad para la gestión de la movilidad en Cali por parte de entidades como la Secretaría de Transporte, ya que al conocer con anticipación el número aproximado de servicios de taxi que se van a solicitar en toda la ciudad es posible prevenir escenarios problemáticos. Por ejemplo, si se prevee que un día se van a solicitar más servicios de los que la empresa puede atender, se puede gestionar una mayor disponibilidad de otros transportes como el Mio en sus principales rutas y los buses intermunicipales, para poder atender esa demanda total de transporte.
Respecto a las limitaciones del análisis realizado, se destaca principalmente el hecho de que este tipo de pronósticos tiene un rango útil de aproximadamente máximo 5 días en el futuro, ya que intentar predecir lo que ocurrirá más allá tiene mucho margen de resultar en pronósticos errados. Esta limitación obliga a que constantemente se deba realizar nuevamente este proceso, añadiendo los nuevos valores que se van registrando cada día.