Predicción de la demanda de servicio de Taxis
•Introducción
•Descripción del contexto de la ciudad de Cali y su dinámica en la demanda de servicios de taxi.
Cali es la tercera ciudad más poblada de Colombia y la más grande del suroccidente del país. Es un importante centro económico, cultural y urbano, con una población diversa que incluye tanto residentes locales como migrantes de otras regiones. La ciudad es conocida por su vibrante escena cultural, particularmente en la música y la danza, así como por su industria azucarera y su creciente sector de servicios.
La dinámica en la demanda de servicios de taxi en Cali refleja tanto el crecimiento económico de la ciudad como sus retos de movilidad urbana. Con un crecimiento sostenido en la población y un aumento en las actividades comerciales y turísticas, la necesidad de servicios de transporte eficientes ha incrementado significativamente. Los taxis en Cali juegan un papel crucial en la movilidad diaria, proporcionando un medio de transporte flexible y accesible para los residentes y visitantes. La demanda de taxis puede verse influenciada por varios factores, incluyendo el clima, los eventos culturales y deportivos, las horas pico laborales y la disponibilidad de otros medios de transporte público.
• Importancia de analizar y predecir la demanda de servicios de taxi para la planificación y gestión del transporte urbano.
Analizar y predecir la demanda de taxis es muy importante para planificar y manejar el transporte en Cali. Entender bien cómo y cuándo se necesita un taxi ayuda a las autoridades y a los conductores a distribuir los vehículos mejor, reduciendo el tiempo de espera para los usuarios y haciendo el servicio más eficiente. Además, predecir con precisión cuándo habrá más demanda ayuda a estar mejor preparados y responder mejor a las necesidades de transporte de la ciudad. Manejar bien el servicio de taxis también ayuda a reducir el tráfico y la congestión en la ciudad, mejora la calidad del aire y reduce los tiempos de viaje. En una ciudad en crecimiento como Cali, estas mejoras son muy importantes para mantener una movilidad sostenible y mejorar la calidad de vida de las personas. Usar técnicas avanzadas de análisis de datos y modelos predictivos puede proporcionar información valiosa para tomar decisiones estratégicas, desde políticas de transporte hasta la optimización de rutas y horarios.
En resumen, analizar y predecir la demanda de taxis es clave para enfrentar los desafíos del transporte en Cali, promoviendo un sistema más eficiente, justo y sostenible.
•Metodología
•Presenta una breve descripción del concepto de “Serie de tiempo” y del modelo ARIMA.
Una serie de tiempo es una secuencia de datos recogidos en intervalos sucesivos de tiempo. Estos datos pueden representar cualquier fenómeno que cambie con el tiempo, como la temperatura diaria, las cotizaciones bursátiles, el nivel de producción industrial, entre otros. Las series de tiempo son útiles para analizar cómo varían los datos a lo largo del tiempo y para hacer predicciones futuras basadas en patrones observados.
Aspectos Importantes de las Series de Tiempo:
•Estacionariedad: Una serie de tiempo es estacionaria si sus propiedades estadísticas, como la media y la varianza, son constantes a lo largo del tiempo. Muchas técnicas de análisis y modelado de series de tiempo suponen que la serie es estacionaria. Si no lo es, es posible que necesite transformarse.
•Tendencia: Es el movimiento a largo plazo hacia un aumento o disminución en la serie de tiempo.
•Estacionalidad: Son patrones que se repiten a intervalos regulares de tiempo, como los días de la semana, meses o estaciones del año.
•Ruido: Variaciones aleatorias en la serie de tiempo que no pueden explicarse por el modelo.
Modelo ARIMA:
El modelo ARIMA (AutoRegressive Integrated Moving Average) es una herramienta popular para el análisis y predicción de series de tiempo. Combina tres componentes principales: autoregresivo (AR), de promedios móviles (MA) e integración (I).
Componentes de ARIMA:
1.Autoregressive (AR): Este componente utiliza la dependencia entre una observación y un número de retrasos (lags) anteriores. Se representa como AR(p), donde p es el número de retardos.
2.Integrated (I): Este componente se encarga de diferenciar la serie de tiempo para hacerla estacionaria. Se representa como I(d), donde d es el número de diferencias necesarias para lograr la estacionariedad.
3.Moving Average (MA): Este componente modela la dependencia entre una observación y un error residual de un modelo de media móvil aplicado a retrasos anteriores. Se representa como MA(q), donde q es el número de términos de media móvil.
Modelo ARIMA (p,d,q):
• p: Número de términos autoregresivos. (PACF)
• d: Número de diferencias requeridas para hacer la serie estacionaria.
• q: Número de términos de media móvil. (ACF)
Pasos para Construir un Modelo ARIMA:
1.Identificación: Examinar los datos para determinar si es necesario diferenciar la serie para hacerla estacionaria y para identificar los valores potenciales de p y q. Esto puede involucrar el uso de gráficos de autocorrelación (ACF) y autocorrelación parcial (PACF).
2.Estimación: Ajustar el modelo ARIMA utilizando los valores identificados de p, d, y q. Esto se hace generalmente utilizando métodos de máxima verosimilitud.
3.Diagnóstico: Evaluar el modelo ajustado para asegurarse de que los residuos (errores) son esencialmente ruido blanco (aleatorios y no correlacionados).
4.Predicción: Utilizar el modelo para hacer predicciones futuras.
•Explica la importancia y utilidad de los modelos ARIMA en la predicción de series temporales.
Los modelos ARIMA (AutoRegressive Integrated Moving Average) son herramientas estadísticas muy útiles para la predicción de series temporales. La importancia y utilidad se destacan en aspectos tales como:
•Capacidad de Capturar Dependencias Temporales: Sus dependencias lineales a corto plazo (mediante la parte auto-regresiva) como las dependencias en el nivel de la serie temporal (mediante la integración) y las dependencias de los errores (mediante la parte de media móvil).
•Flexibilidad y Adaptabilidad: Es un modelo muy flexible que puede adaptarse a una amplia variedad de datos de series temporales con diferentes patrones y tendencias. La diferenciación (parte “I” de ARIMA) permite manejar series temporales no estacionarias transformándolas en estacionarias.
•Análisis y Pronósticos Robustos: Proporciona pronósticos robustos al considerar múltiples componentes (AR, I, MA) y ajustarlos a los datos históricos. Esto mejora la precisión de las predicciones, especialmente en series temporales con tendencias y estacionalidades complejas.
•Descripción de la Serie Temporal
•Contexto histórico de la serie de servicios solicitados
De acuerdo con el análisis del registro de servicios de taxi en Cali durante el período comprendido entre el 1 de julio de 2018 y el 31 de diciembre de 2018, se pueden identificar diversos acontecimientos que influyen en la demanda de taxis.
Durante los meses de julio y agosto, se observa un decremento en la demanda esto se puede asociar a la temporada de vacaciones escolares y universitarias de mitad de año. Esto se refleja en la gráfica I, donde los picos de demanda de taxis oscilan alrededor de los 4,000 servicios. Sin embargo, en septiembre se registra un pico notable de más de 7,000 servicios. Este aumento puede estar relacionado con la celebración del Día del Amor y la Amistad, una festividad que lleva a gran parte de la población a realizar actividades de esparcimiento en la ciudad.
Adicionalmente, en diciembre, la ciudad celebra la Feria de Cali, un
evento que aglomera numerosas actividades y mantiene la ciudad en
constante movimiento. Este fenómeno también se refleja en la serie de
tiempo, mostrando una tendencia de crecimiento en la demanda de taxis
durante este mes.
•Estadísticas descriptivas de la serie
## An xts object on 2018-07-01 / 2018-12-31 containing:
## Data: double [184, 1]
## Index: Date [184] (TZ: "UTC")
## Index ventana1
## Min. :2018-07-01 Min. :1491
## 1st Qu.:2018-08-15 1st Qu.:3454
## Median :2018-09-30 Median :3825
## Mean :2018-09-30 Mean :3926
## 3rd Qu.:2018-11-15 3rd Qu.:4405
## Max. :2018-12-31 Max. :7317
## [1] 865.0924
• Estadísticas descriptivas de la serie (media, desviación
estándar, tendencia, estacionalidad, etc.).
De acuerdo con la gráfica II, se puede observar que la demanda de taxis en la ciudad de Cali tiene una distribución casi normal. El promedio de demanda diaria de taxis en la ciudad es de 3926. Además, la mediana se ubica casi en el centro de la caja del diagrama de caja y bigotes, indicando que la dispersión de los datos podria no ser muy significativa, ya que la mediana es de 3825, un valor muy cercano al promedio. La desviación estándar es de 865, lo que refuerza esta observación. Durante el periodo de evaluación, la demanda diaria mínima ha sido de 1491 y la máxima de 7317.
En cuanto a los datos atípicos observados en la gráfica III, estos pueden deberse a días festivos en la ciudad, como el Día del Amor y la Amistad y la Feria de Cali.
Respecto a la tendencia, se observa un ligero aumento a lo largo del período evaluado, así como un patrón de aumentos y disminuciones en periodos más cortos. Por ello, se realizaron las diferenciaciones necesarias para convertir la serie en estacionaria. Esto se validó mediante los gráficos ACF y la prueba de Dickey-Fuller, la cual dio como resultado un valor p de 0.01, menor al nivel de significancia de 0.05, confirmando que la serie diferenciada es estacionaria.
## [1] 1
## [1] 0
##
## Augmented Dickey-Fuller Test
##
## data: miserie
## Dickey-Fuller = -11.766, Lag order = 5, p-value = 0.01
## alternative hypothesis: stationary
Resultados del Modelo ARIMA
• Selección del orden del modelo ARIMA (p, d, q)
Para realizar la selección del modelo ARIMA (p, d, q), se realizo el analisis de los graficos anterioeres de ACF y PACF.
Por su parte el valor de d, es de 1, el cual corresponde a el numero de diferenciaciones realizadas para convertir la serie en estacionaria que para este caso fue una vez.
Para determinar el valor de p, se analizó la forma de la gráfica PACF, donde se observó una forma sinusoidal. Se identificaron los primeros lags significativos, es decir, aquellos que están fuera de los intervalos de confianza. Los valores de p fueron 2, 3, 4, 5 y 6.
Para el valor de q, se analizó la gráfica ACF, también con una forma sinusoidal, y se identificaron los primeros lags significativos. Los valores de (q) identificados fueron 1, 2, 3 y 5.
Sin embargo, se realizó el modelo autoarima y este dá como resultado, d=1, p=2 y q=1.
Modelo 1
## Series: ventana1
## ARIMA(2,1,1)
##
## Coefficients:
## ar1 ar2 ma1
## 0.2637 -0.1982 -0.8908
## s.e. 0.0794 0.0782 0.0373
##
## sigma^2 = 472796: log likelihood = -1454.5
## AIC=2917.01 AICc=2917.23 BIC=2929.85
##
## Ljung-Box test
##
## data: Residuals from ARIMA(2,1,1)
## Q* = 21.279, df = 7, p-value = 0.003378
##
## Model df: 3. Total lags used: 10
## ME RMSE MAE MPE MAPE MASE
## Training set 81.31515 680.0867 514.9834 -1.113035 14.09611 0.8277948
## ACF1
## Training set -0.01495434
Modelo 2
##
## Call:
## arima(x = ventana1, order = c(2, 1, 2))
##
## Coefficients:
## ar1 ar2 ma1 ma2
## 0.7743 -0.3330 -1.4244 0.5018
## s.e. 0.2068 0.0841 0.2089 0.1919
##
## sigma^2 estimated as 460659: log likelihood = -1453.67, aic = 2917.33
##
## Ljung-Box test
##
## data: Residuals from ARIMA(2,1,2)
## Q* = 18.697, df = 6, p-value = 0.004706
##
## Model df: 4. Total lags used: 10
## ME RMSE MAE MPE MAPE MASE
## Training set 69.93333 676.8716 507.9198 -1.34848 13.92336 0.8164407
## ACF1
## Training set -0.004882574
Modelo 3
##
## Call:
## arima(x = ventana1, order = c(3, 1, 2))
##
## Coefficients:
## ar1 ar2 ar3 ma1 ma2
## 0.8224 -0.3518 0.0250 -1.4691 0.5390
## s.e. 0.3021 0.1209 0.1164 0.2922 0.2559
##
## sigma^2 estimated as 460539: log likelihood = -1453.64, aic = 2919.28
##
## Ljung-Box test
##
## data: Residuals from ARIMA(3,1,2)
## Q* = 18.315, df = 5, p-value = 0.002576
##
## Model df: 5. Total lags used: 10
## ME RMSE MAE MPE MAPE MASE
## Training set 69.85829 676.7835 507.9739 -1.350851 13.92815 0.8165276
## ACF1
## Training set -0.00611534
Modelo 4
##
## Call:
## arima(x = ventana1, order = c(4, 1, 2))
##
## Coefficients:
## ar1 ar2 ar3 ar4 ma1 ma2
## 0.4919 -0.3787 0.0239 -0.2275 -1.1296 0.3146
## s.e. 0.1660 0.1168 0.0908 0.1057 0.1588 0.1523
##
## sigma^2 estimated as 448057: log likelihood = -1451.16, aic = 2916.31
##
## Ljung-Box test
##
## data: Residuals from ARIMA(4,1,2)
## Q* = 15.137, df = 4, p-value = 0.004425
##
## Model df: 6. Total lags used: 10
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set 57.9451 667.5489 494.0348 -1.540625 13.63186 0.7941216 -0.02657673
Modelo 5
##
## Call:
## arima(x = ventana1, order = c(5, 1, 3))
##
## Coefficients:
## ar1 ar2 ar3 ar4 ar5 ma1 ma2 ma3
## 0.2351 -0.5678 -0.3388 -0.3253 -0.3640 -0.8786 0.4958 0.1941
## s.e. 0.3492 0.2402 0.2579 0.0686 0.1515 0.3723 0.4507 0.3717
##
## sigma^2 estimated as 411109: log likelihood = -1443.74, aic = 2905.49
##
## Ljung-Box test
##
## data: Residuals from ARIMA(5,1,3)
## Q* = 7.5547, df = 3, p-value = 0.05617
##
## Model df: 8. Total lags used: 11
## ME RMSE MAE MPE MAPE MASE
## Training set 30.76898 639.4332 471.8966 -1.722168 12.93518 0.7585362
## ACF1
## Training set -0.005897138
Modelo 6
##
## Call:
## arima(x = ventana1, order = c(6, 1, 5))
##
## Coefficients:
## ar1 ar2 ar3 ar4 ar5 ar6 ma1 ma2
## 1.0632 -1.7386 1.2054 -1.2896 0.2988 -0.0956 -1.7944 2.3717
## s.e. 0.0892 0.1176 0.1476 0.1462 0.1167 0.0861 0.0506 0.0086
## ma3 ma4 ma5
## -2.2755 1.7801 -0.8614
## s.e. NaN NaN NaN
##
## sigma^2 estimated as 335616: log likelihood = -1429.42, aic = 2882.84
##
## Ljung-Box test
##
## data: Residuals from ARIMA(6,1,5)
## Q* = 6.3919, df = 3, p-value = 0.09402
##
## Model df: 11. Total lags used: 14
## ME RMSE MAE MPE MAPE MASE
## Training set 67.54874 577.7474 398.3442 -0.6837334 10.92401 0.6403067
## ACF1
## Training set -0.01611928
Presentación de los pronósticos y su visualización gráfica
•Pronóstico 1
## Point Forecast Lo 80 Hi 80 Lo 95 Hi 95
## 185 4688.126 3866.424 5509.829 3431.441 5944.812
## 186 5008.168 4135.811 5880.525 3674.013 6342.323
## 187 4955.895 4076.696 5835.093 3611.277 6300.513
## 188 4838.590 3925.180 5751.999 3441.650 6235.529
## 189 4637.868 3677.639 5598.096 3169.324 6106.411
## 190 4294.234 3320.063 5268.405 2804.368 5784.100
## 191 4267.673 3245.078 5290.267 2703.749 5831.596
## [,1]
## 2019-01-01 5930
## 2019-01-02 3729
## 2019-01-03 3477
## 2019-01-04 3438
## 2019-01-05 3049
## 2019-01-06 2515
## 2019-01-07 1942
•Pronóstico 2
## Point Forecast Lo 80 Hi 80 Lo 95 Hi 95
## 185 4817.153 4070.248 5564.058 3674.861 5959.445
## 186 4940.436 4165.987 5714.885 3756.018 6124.854
## 187 5191.275 4411.577 5970.972 3998.830 6383.719
## 188 5459.470 4670.116 6248.824 4252.257 6666.683
## 189 4879.715 4088.384 5671.046 3669.479 6089.952
## 190 4246.266 3451.117 5041.414 3030.191 5462.341
## 191 4532.435 3719.344 5345.526 3288.920 5775.950
## [,1]
## 2019-01-01 5930
## 2019-01-02 3729
## 2019-01-03 3477
## 2019-01-04 3438
## 2019-01-05 3049
## 2019-01-06 2515
## 2019-01-07 1942
Conclusiones
•Resumen de los hallazgos principales del análisis.
Los modelos 5 y 6, tienen un mejor ajuste en los criteros de información, en la valores (p) de la prueba Ljung-Box y en el cálculo de los errores de pronóstico al ser menores comparativamente con el resto de modelos.
Los valores pronosticados están significativamente por encima de los valores reales observados en casi todos los puntos de datos. Esto sugiere que el modelo puede estar sobreestimando sistemáticamente los valores futuros.
Si el modelo se utiliza para la planificación y toma de decisiones, las sobreestimaciones pueden llevar a una mala asignación de recursos. Como se está pronosticando demanda, esto puede llevar a un exceso de inventario de taxis, costos adicionales y posibles pérdidas.
Dado que los valores pronosticados están lejos de los valores reales y los intervalos de confianza no capturan los valores reales, es esencial revisar el modelo. Puede ser necesario considerar otros modelos ARIMA con diferentes parámetros.
Un modelo mejorado que capture más adecuadamente los patrones en los datos puede llevar a pronósticos más precisos y útiles, reduciendo el riesgo de errores de planificación y mejorando la toma de decisiones.
Aumentar el tamaño del conjunto de datos utilizando datos históricos adicionales o fuentes de datos complementarias.