Introducción

Santiago de Cali, una de las principales ciudades de Colombia, presenta una dinámica urbana compleja debido a su crecimiento poblacional, expansión territorial y diversificación de actividades económicas. Esta dinámica genera una alta demanda de servicios de transporte, especialmente taxis, que son fundamentales para la movilidad diaria de los ciudadanos. Factores como los horarios laborales, eventos culturales, condiciones climáticas y la percepción de seguridad afectan la variabilidad de la demanda (Alcaldía de Santiago de Cali, s.f.). Según el Observatorio de Movilidad de Cali, la densidad de taxis ha mostrado una tendencia sostenida a la baja desde 2005, pasando de valores superiores hasta llegar a 6,7 taxis por cada 1.000 habitantes en 2017, esto a raiz de la congelación del parque automotor y al crecimiento de la población sin una expansión equivalente en la oferta de taxis (Observatorio MOVIS, 2022). Esta disminución plantea importantes desafíos para garantizar la cobertura adecuada del servicio en distintos sectores de la ciudad.

En consecuencia, analizar y predecir la demanda de servicios de taxi resulta esencial para mejorar la planificación y gestión del transporte urbano en Cali. Una adecuada comprensión de los patrones de uso permite optimizar la distribución de los vehículos, reducir los tiempos de espera, minimizar la circulación innecesaria y contribuir a la disminución de la congestión vehicular y de la contaminación ambiental. De acuerdo con estudios sobre planificación del transporte en América Latina, la utilización de procesos analíticos para entender la demanda permite diseñar estrategias de movilidad más sostenibles y adaptadas a las necesidades reales de la población (Instituto Interamericano para la Investigación del Cambio Global [IAI], 2004). En este contexto, se propone utilizar un modelo SARIMA para pronosticar la demanda en una empresa de taxis en Cali, con el objetivo de apoyar la toma de decisiones informadas que contribuyan a una movilidad urbana más eficiente, equitativa y sostenible.

Metodología: Definiciones

Una serie de tiempo es un conjunto de observaciones recogidas de manera secuencial en el tiempo, normalmente en intervalos regulares. El análisis de series temporales permite identificar patrones como tendencias, estacionalidades o ciclos, y resulta esencial para comprender el comportamiento dinámico de una variable y realizar proyecciones basadas en su evolución histórica.

Dentro de los modelos utilizados para el análisis de series de tiempo, el modelo ARIMA (AutoRegressive Integrated Moving Average) destaca por su versatilidad y eficacia. Este modelo combina componentes autorregresivos (AR), de integración (I) —mediante diferenciación para lograr estacionariedad— y de promedios móviles (MA). Cada componente permite capturar distintas características de la serie, ajustándose a su estructura temporal a través de los parámetros \(p\), \(d\) y \(q\).

Por otro lado, cabe mencionar el modelo SARIMA (Seasonal AutoRegressive Integrated Moving Average), este es una extensión del modelo ARIMA que incorpora componentes estacionales, lo que lo hace adecuado para series de tiempo que presentan patrones que se repiten a intervalos regulares (por ejemplo, diariamente, mensualmente o anualmente). La notación general de un modelo SARIMA es: SARIMA(\(p\),\(d\),\(q\))(\(P\),\(D\),\(Q\))\(s\) Donde:

La importancia de estos modelos radica en su capacidad para modelar y predecir series temporales complejas, incluso aquellas que inicialmente no son estacionarias. Su aplicación es fundamental en campos como la economía, la producción, la climatología y las finanzas, donde realizar pronósticos precisos resulta clave para la toma de decisiones estratégicas y la gestión eficiente de recursos.

Serie temporal Servicio de Taxi

Se seleccionaron los últimos 180 días de la serie, comprendidos entre el 19 de noviembre de 2018 y el 17 de mayo de 2019, porque representan el periodo más reciente disponible en los datos, lo cual permite capturar de manera actualizada las dinámicas de la demanda de servicios de taxi en Cali.

date Servicios
2018-11-19 4592
2018-11-20 4236
2018-11-21 4613
2018-11-22 4005
2018-11-23 4671
2018-11-24 3619

Esta ventana proporciona una cantidad suficiente de observaciones para ajustar un modelo ARIMA o SARIMA de forma robusta, incluyendo variaciones estacionales y de tendencia que son relevantes para el pronóstico. Además, abarca meses con comportamientos diferenciados en la demanda, como las festividades de fin de año, lo que enriquece el modelo predictivo y garantiza que las proyecciones sean más realistas y útiles para la planificación del servicio.

Contexto histórico de la serie

Entre noviembre de 2018 y mayo de 2019, el servicio de taxi en Cali experimentó importantes fluctuaciones influenciadas por diversos factores sociales y tecnológicos. En noviembre de 2018, se reportó un aumento en el uso del transporte informal, lo que pudo haber comenzado a impactar negativamente la demanda de taxis formales. En enero de 2019, la suspensión temporal del ‘pico y placa’ para vehículos particulares probablemente incrementó el uso de autos privados, coincidiendo con una visible caída en la cantidad de servicios de taxi. Posteriormente, en marzo de 2019, la aparición y proliferación de apps de transporte como Uber e inDriver, que incluso permitían negociar el precio del viaje, intensificaron la competencia para los taxis tradicionales, reflejándose en una tendencia de servicios menos estable durante ese mes. A esto se sumó en abril la operación de nuevas empresas de patinetas eléctricas, promovidas por la Alcaldía, que ofrecieron alternativas de movilidad sostenibles y económicas, posiblemente desviando aún más usuarios del servicio de taxi. Finalmente, para mayo de 2019, la creciente congestión vehicular reportada en la ciudad pudo haber afectado tanto la demanda como la operación eficiente del servicio de taxi, tal como sugiere la volatilidad observada en los datos de esa etapa.

Estadísticas descriptivas

Entre noviembre de 2018 y mayo de 2019, la empresa de taxis registró en promedio 4095 servicios. La mediana fue de 4142 servicios, lo que indica que en al menos la mitad del tiempo se alcanzaron 4142 servicios o más. Además, el 75% de las observaciones estuvieron por debajo de 4706 servicios, mostrando que la mayoría de los registros se concentraron en ese rango. A pesar de esta tendencia, hubo una alta variabilidad en la demanda, con valores que oscilaron entre un mínimo de 779 y un máximo de 6366 servicios.

La desviación estándar fue de 939.2 servicios, reflejando una dispersión considerable en torno a la media, mientras que el coeficiente de variación fue de 0.2294, indicando una variabilidad moderada relativa respecto al promedio.

Estadístico Date Servicios
Min. 2018-11-19 00:00:00 779.0000
1st Qu. 2019-01-02 18:00:00 3596.5000
Median 2019-02-16 12:00:00 4142.0000
Mean 2019-02-16 12:00:00 4094.9444
3rd Qu. 2019-04-02 06:00:00 4706.5000
Max. 2019-05-17 00:00:00 6366.0000
Desviación estándar NA 939.2020
Coeficiente de variación NA 0.2294

Selección del modelo adecuado para la serie de tiempo (ARIMA o SARIMA)

La serie temporal presentada muestra una fuerte componente de ruido, con oscilaciones frecuentes y abruptas a lo largo del tiempo.Se identifican fluctuaciones notables en distintos puntos del periodo, particularmente caídas abruptas hacia finales de diciembre,posiblemente asociadas a eventos festivos o condiciones externas que afectaron la movilidad urbana. Mientras que en los meses siguientes el nivel parece estabilizarse sin una dirección clara. La variabilidad de la serie también es considerable, con valores que oscilan entre aproximadamente 2.000 y más de 6.000 servicios diarios, aunque sin mostrar cambios evidentes en la varianza a lo largo del tiempo.

El gráfico de la función de autocorrelación (ACF) para la serie ventana muestra valores de autocorrelación positivos significativos en los primeros lags (especialmente entre los lags 1 y 10), muchos de los cuales superan las bandas de significancia del 95% (líneas azules punteadas). Esto indica que existe una dependencia temporal entre los valores actuales y pasados de la serie. Además, se observa un pico claro en el lag 7, lo que podría estar señalando la presencia de estacionalidad semanal. Estas características respaldan el uso de un modelo SARIMA con frecuencia semanal (periodo = 7), que permita capturar tanto la dinámica temporal como los patrones estacionales observados en los datos.

Aplicación del test de Dickey-Fuller Aumentado (ADF)

Se evaluó si la serie de tiempo es estacionaria o no y se obtuvo valor-p de 0.09883, este resultado implica que, al nivel de significancia del 95%, no se puede rechazar la hipótesis nula de no estacionariedad, se recomienda aplicar al menos una diferenciación para asegurar la estacionariedad.

## 
##  Augmented Dickey-Fuller Test
## 
## data:  ventana
## Dickey-Fuller = -3.1478, Lag order = 5, p-value = 0.09883
## alternative hypothesis: stationary

Diferenciación de la serie

En el grafico de la serie diferenciada, aunque no es del todo claro, hay indicios de cierta repetición en el comportamiento de la serie, posiblemente con una periodicidad semanal como se mencionó anteriormente. Esto sugiere que podría existir estacionalidad semanal, algo muy común en servicios como taxis, donde el comportamiento de los usuarios varía entre semana y fines de semana.

Al analizar el gráfico de la Función de Autocorrelación (ACF) y el de la Función de Autocorrelación Parcial (PACF) de la serie de tiempo diferenciada de los servicios de taxis se puede observar posible estacionalidad. El pico en el lag 7 podría ser indicativo de un patrón semanal en los datos. Dado que se tienen registros diarios, un lag de 7 representaría una semana. La significancia de este pico sugiere que el número de viajes de taxi en un día dado podría estar correlacionado con el número de viajes de hace una semana. También se observan picos significativos en múltiplos de 7 (14, 21, etc.). Dada la fuerte indicación de estacionalidad semanal y que ya se aplicó una diferenciación, se recomienda explorar el modelo SARIMA(\(p\), \(1\), \(q\))(\(P\),\(D\),\(Q\))\(7\).

Selección del orden del modelo SARIMA

Para definir el orden del modelo se examinaron los gráficos de autocorrelación (ACF) y autocorrelación parcial (PACF) de la serie diferenciada. El gráfico ACF mostró aproximadamente 10 lags significativos, mientras que el PACF presentó 4 picos claramente visibles y 3 adicionales con menor magnitud pero fuera de las bandas de confianza, lo cual sugiere una estructura temporal compleja. En consecuencia, se consideró razonable ajustar un modelo con \(p\) = 4 y \(q\) = 3, ya que estos valores permiten capturar los principales rezagos en ambas funciones.

Adicionalmente, dado que la serie corresponde a datos diarios y el comportamiento muestra un patrón repetitivo cada 7 días, se asumió la existencia de estacionalidad semanal. Aunque el valor de nsdiffs() fue 0, lo cual indica que no es necesaria una diferenciación estacional (D = 0), los picos observados en los lags múltiplos de 7 (como el lag 7 y 14 en el ACF) justifican la inclusión de componentes estacionales. Por ello, se incorporaron valores P = 1 y Q = 1 con un periodo estacional de 7 (frequency = 7), obteniendo así una especificación completa del modelo SARIMA(\(4\),\(1\),\(3\))(\(1\),\(0\),\(1\))[\(7\)].

Resultados del Modelo

## Series: ventana 
## ARIMA(0,1,3) 
## 
## Coefficients:
##           ma1      ma2     ma3
##       -0.5146  -0.4154  0.1343
## s.e.   0.0764   0.0827  0.0805
## 
## sigma^2 = 605202:  log likelihood = -1363.79
## AIC=2735.58   AICc=2735.83   BIC=2748.1

Gráfico de los Residuos a lo Largo del Tiempo Comportamiento Aleatorio: Idealmente, los residuos deberían comportarse como ruido blanco, es decir, ser aleatorios sin ningún patrón discernible a lo largo del tiempo. En este gráfico, parece haber cierta variabilidad, pero no se observa una tendencia clara, estacionalidad obvia o cambios significativos en la varianza a lo largo del tiempo.

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(0,1,3)
## Q* = 35.82, df = 7, p-value = 7.839e-06
## 
## Model df: 3.   Total lags used: 10

Función de Autocorrelación (ACF) de los Residuos Autocorrelaciones Dentro de los Límites: Un buen modelo debería eliminar la mayor parte de la autocorrelación presente en los datos originales. En este gráfico ACF de los residuos, la mayoría de las barras se encuentran dentro de las líneas punteadas azules que indican los límites de significancia estadística.

Se observan algunas barras que sobresalen ligeramente de los límites, especialmente en los lags 7 y alrededor del lag 14-15. Esto podría indicar que el modelo ARIMA(\(0\), \(1\), \(3\)) no ha capturado completamente toda la dependencia temporal en los datos, particularmente en esos lags. El lag 7 podría seguir sugiriendo un componente semanal no del todo explicado. Histograma de los Residuos con una Curva Normal Superpuesta

Distribución Aproximadamente Normal: El histograma de los residuos muestra la distribución de las diferencias entre los valores predichos por el modelo y los valores reales. La curva naranja superpuesta representa una distribución normal teórica. Visualmente, la distribución de los residuos parece tener una forma aproximadamente acampanada, lo que sugiere que podrían estar distribuidos de forma más o menos normal.

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(4,1,3)(1,0,1)[7]
## Q* = 5.4779, df = 3, p-value = 0.14
## 
## Model df: 9.   Total lags used: 12

Gráfico de los Residuos a lo Largo del Tiempo Comportamiento Aleatorio: Al igual que con el ARIMA, los residuos parecen mostrar un comportamiento aleatorio sin patrones obvios, tendencias claras o cambios drásticos en la varianza a lo largo del tiempo. La variabilidad parece similar a la del modelo ARIMA.

Función de Autocorrelación (ACF) de los Residuos Autocorrelaciones Dentro de los Límites: En comparación con el ACF de los residuos del ARIMA(0, 1, 3), aquí parece haber una mejora notable. Las barras están claramente dentro de los límites de significancia, incluyendo el lag 7 donde vimos una ligera autocorrelación en el modelo ARIMA. Esto sugiere que el modelo SARIMA ha logrado capturar mejor la dependencia temporal, incluyendo la posible estacionalidad semanal.

Histograma de los Residuos con una Curva Normal Superpuesta Distribución Aproximadamente Normal: El histograma de los residuos del modelo SARIMA también muestra una distribución aproximadamente acampanada. Menor Asimetría Aparente: Visualmente, la asimetría que se observaba ligeramente en los residuos del ARIMA parece haber disminuido en este modelo SARIMA. La distribución se ve un poco más simétrica alrededor de cero.

##                     ME     RMSE      MAE       MPE     MAPE      MASE
## Training set -8.756688 768.7408 616.1035 -4.126124 16.82773 0.8600959
##                      ACF1
## Training set -0.004477015
##                     ME     RMSE      MAE       MPE     MAPE      MASE
## Training set -42.33623 594.4727 442.4717 -3.869857 12.25512 0.6177015
##                      ACF1
## Training set -0.002424657

Pronóstico

A partir del modelo ajustado SARIMA(4,1,3)(1,0,1)[7], se realizó una predicción de los próximos seis días en la serie de servicios de taxi. La tabla superior muestra los valores pronosticados (Point Forecast) junto con los intervalos de confianza al 95% (Lo 95 y Hi 95). Por ejemplo, para el primer día pronosticado, el modelo estima un valor de 4.245 servicios, con un rango de incertidumbre que va de 3.028 a 5.461. A lo largo de los seis días, se observa que las predicciones oscilan entre aproximadamente 3.250 y 4.800 servicios diarios.

La tabla inferior presenta los valores reales observados en ese mismo periodo (del 18 al 23 de diciembre de 2018), los cuales oscilan entre 4.572 y 5.541 servicios. Comparando ambos resultados, se puede observar que, si bien el modelo tiende a subestimar ligeramente la demanda real en algunos días, la mayoría de los valores observados se encuentran dentro del intervalo de confianza del 95%, lo cual indica que el modelo captura adecuadamente la variabilidad del fenómeno.

##     Point Forecast    Lo 95    Hi 95
## 171       4245.623 3029.276 5461.970
## 172       4550.650 3247.793 5853.508
## 173       4828.576 3482.862 6174.289
## 174       3886.091 2476.523 5295.659
## 175       3252.073 1818.380 4685.766
## 176       4227.192 2760.922 5693.463
##            [,1]
## 2018-12-18 5058
## 2018-12-19 4921
## 2018-12-20 5370
## 2018-12-21 5068
## 2018-12-22 5411
## 2018-12-23 4572

El gráfico complementario representa visualmente tanto los datos históricos como las predicciones generadas por el modelo. La franja azul más oscura corresponde al intervalo de confianza del 80% y la más clara al 95%, proporcionando una representación intuitiva de la incertidumbre asociada al pronóstico. Se aprecia que la tendencia prevista por el modelo sigue el comportamiento histórico reciente de la serie, con fluctuaciones que reflejan tanto la estacionalidad semanal como la variabilidad diaria.

Conclusiones

Referencias

Alcaldía de Santiago de Cali. (s.f.). Estudio de oferta y demanda de taxis en Santiago de Cali. https://web1.cali.gov.co/planeacion/descargar.php?id=26952

Observatorio MOVIS. (2022). Densidad de taxis por habitante. Alcaldía de Santiago de Cali. https://www.cali.gov.co/observatorios/publicaciones/141625/observatorio-movis-densidad-de-taxis-por-habitante/

Instituto Interamericano para la Investigación del Cambio Global (IAI). (2004). La demanda de transporte y el proceso de planificación analítica. https://www.iai.int/admin/site/sites/default/files/uploads/09-2004-URB-La-demanda-de-transporte-y-el-proceso-de-planif-analitica.pdf