Marco Teórico
El uso del transporte público siempre será una opción para la movilización dentro de las ciudades, en especial cuando se trata de aquellas con variedad de opciones, precios y líneas. Londres es una de las ciudades que se conoce por su fácil movilidad, ya que la ciudad está conectada por diferentes vías de transporte.
Los autobuses son la opción más conveniente para aquellos que requieren un medio de transporte diario, a diferencia del popular London Underground, que es igual de eficiente y con una cobertura similar de la ciudad, los autobuses manejan una tarifa mucho más baja.
De 2012 a 2014 la población en Inglaterra pasó de 63,700,300 a 64,613,160 habitantes, y con una fuerza de trabajo de 32,543,044 y 33,143,711 respectivamente, es decir, el porcentaje de trabajadores se mantiene alrededor del 50% de la población total, cuando desde el 2000 ha seguido una tendencia creciente. Podemos ver claramente que la clase trabajadora está en aumento. La población en Londres durante 2012-2014 se mantuvo entre 8,000,000 y 9,000,000 habitantes, mostrando también un crecimiento. Esta información junto con el hecho de que la fuerza de trabajo suele ser más grande en las capitales, podemos decir que más del 50% de la población londinense se encuentra empleada.
Así podemos afirmar que los horarios de mayor uso del transporte público se encontraran en horarios de entrada y salida de los trabajadores, las cuales son 7:30-9:30 am y 5-8 pm de lunes a viernes.
Debido al crecimiento de la población, que lleva a un aumento en la demanda de autobuses, es importante determinar la cantidad de pasajeros que tendremos en el futuro para asegurar un uso apropiado, así como las horas/días de mayor flujo.
Análisis Descriptivo
Contamos con un registro de la cantidad de pasajeros que ocuparon la línea cada hora entre 2012-08-25 y 2014-09-25, cuyo comportamiento se ve de la siguiente forma:
Se observa que el número de usuarios ha incrementado significativamente en el tiempo. Sin embargo, este crecimiento no es constante. Aún al tener observaciones de más de 1,000 personas, en tiempos cercanos se tienen observaciones de 30 personas. La serie resulta ser muy volátil, y se lo atribuimos al distinto número de personas que utilizan la ruta en distintas horas, i. e., la afluencia de personas no es homogénea durante el día. Observemos cómo se comparan las observaciones en horas laborales con aquellas correspondientes a horas de descanso:
Es clara la diferencia respecto a la cantidad de personas que usan la ruta en cada hora. Así como se comparan estos dos horarios, pueden compararse otros más que resultan en diferencias similares, comprobando que existen patrones en los horarios de uso. Esto queda más claro al ver cómo se comprta la estacionalidad, en este caso ilustrativamente para la última semana con frecuencia de 24 horas.
Además de eso, tanto en la serie completa como en ambas separadas por horarios se observa que los usuarios aumentan con el tiempo. Viendo la tendencia tomando una frecuencia mensual para la serie lo reafirmamos.
En cuanto a las funciones de correlación, dada la naturaleza de la serie, parece ser que la correlación es significativa para casi todos los tiempos. Y, aún analizándolas a través del logaritmo de la serie, los resultados no mejoran.
Modelo a Ajustar
Se comenzó a ajustar el modelo a partir de diferentes temporalidades con un pronóstico de 50 observaciones.
Suavizamiento de 12 (medio día)
Tomando una temporalidad de 12 horas, es decir, analizando la serie de tiempo cada medio día, obtenemos un modelo ARIMA(0,0,1) con el cual podemos ver que la serie mantiene su comportamiento creciente. Sin embargo, los datos predichos se encuentran acotados y su crecimiento resulta mínimo. Así, vemos que este modelo no representa la serie debido a la falta de consideración de los horarios pico que mencionamos anteriormente.
## ARIMA ( 0 , 0 , 1 ) ( 2 , 1 , 2 ) [ 2 ]
## [1] 15599.41 15562.11
Autocorrelación simple: Podemos ver que la autocorrelación simple será aparentemente siempre determinante, incluso ondeando cerca del 1. Por lo tanto, nos hace sentido que el término auto regresivo sea 0, ya que conforme la longitud del intervalo crece, la autocorrelación no se aproxima a cero.
Autocorrelación parcial: Notemos que la autocorrelación parcial oscila alrededor del eje, es decir, cruza varias veces el cero. Como este “decrecimiento” se da desde los primeros términos, podemos considerar que se trate de un MA(1)
Suavizamiento 12 + log
En comparación, tomamos de nuevo una temporalidad de 12 horas aplicando una transformación a los datos para suavizar la función y disminuir la variabilidad de los datos. Además de ser invertible, es decir facilita la interpretación de los datos del cual obtenemos un modelo ARIMA (1,0,1), el cual sigue respetando el comportamiento creciente de los datos, y comparado con el primer modelo, tiene un crecimiento más rápido y, debido a que tiene un margen mayor de valores, considera de mejor manera los horarios pico que afectan a la serie.
## ARIMA ( 1 , 0 , 1 ) ( 0 , 1 , 2 ) [ 2 ]
## [1] 340.2287 308.2620
Autocorrelación simple: Notamos que la autocorrelación simple es siempre positiva y alta, por lo que tendrá que ser un AR(p) con p pequeña, por ejemplo p = 1. Autocorrelación parcial: De nuevo, la autocorrelación parcial oscila alrededor del eje, es decir, cruza varias veces el cero. Como este “decrecimiento” se da desde los primeros términos, podemos justificar que se trate de un MA(1).
Suavizamiento 24 (diario)
Considerando ahora una temporalidad de 24 horas, obtuvimos un modelo ARIMA (1,0,0) del que podemos ver predicciones crecientes que aumentan de manera poco significativa. Sin embargo, veamos que los valores resultan tener un comportamiento que se adecúa mejor a los datos históricos debido a que, por su rango, considera los valores variables que toman los datos originales.
## ARIMA ( 1 , 0 , 0 ) ( 0 , 1 , 1 ) [ 7 ]
## [1] 7288.041 7269.534
## [1] 7288.041
Autocorrelación simple: Notemos que aunque se trate de valores relativamente grandes, si se aproximan poco a poco a cero. Por lo tanto, se podría tratar de un modelo AR(1). Autocorrelación parcial: La diferencia entre la autocorrelación simple en 1 y en los demás es muy significativa, adicionalmente es decreciente ondeando hacia 0. Por lo que podemos creer que se trata de un MA(0).
Suavizamiento 24 + log
Tomando la temporalidad del modelo anterior, y considerando un suavizamiento con la función logaritmo, los datos arrojan un modelo ARIMA (3,0,3). Este modelo predice 50 datos que claramente genera datos con un incremento significativamente mayor al de los modelos propuestos anteriormente, en donde estos valores no serán acotados en caso de generar un mayor número de simulaciones, por lo que consideramos que no es el más adecuado.
## ARIMA ( 3 , 0 , 3 ) ( 0 , 1 , 1 ) [ 7 ]
## [1] 13.32390 -28.31656
## [1] 13.3239
Autocorrelación Parcial: Veamos que los valores se encuentran muy cercanos a 1 y siempre es positiva, por lo que tendrá que ser un AR(p) con p pequeña, por ejemplo p=1. Autorocrrelación parcial: La diferencia entre la autocorrelación simple en 1 y en los demás es muy significativa, adicionalmente los valores van decreciento y tendiendo a 0. Por lo que podemos creer que se trata de un MA(0).
Suavizamiento 168 (semanal)
Ahora tomaremos un periodo de tiempo mayor, en donde agrupamos cada 168 horas, es decir, una semana. Obteniendo un modelo ARIMA(0,1,1), del cual obtenemos predicciones que aumentan de manera lineal, por lo que consideramos que tampoco tendrá un límite superior en caso de querer graficar muchos valores.
## ARIMA ( 0 , 1 , 1 )
## [1] 959.9981 951.9796
## [1] 959.9981
Autocorrelación simple: Los valores para los términos de autocorrelación son decrecientes con tendencia a cero, por lo que podríamos pensar en un MA(1). Autocorrelación parcial: En este modelo la mayoría de los términos están dentro de las bandas, por lo que son muy cercanos a cero, así, podemos pensar en un MA(0).
Conclusiones
CONCLUSIONES
Debido al comportamiento de los datos, podemos afirmar la existencia de patrones en el comportamiento del número de pasajeros que utilizan los autobuses de acuerdo con los horarios. Así sabemos que el modelo buscado debe devolver datos crecientes que respeten la demanda en cada horario. Como administradores de la ruta proponemos implementar más camiones, debido a que la tendencia de uso de la ruta es creciente, y tener en cuenta las horas más concurridas para determinar la cantidad de autobuses en circulación.
Considerando los modelos anteriores proponemos al modelo 4 como el que mejor se ajusta a los datos originales. Sin embargo, realizando un mayor número de predicciones vemos que a pesar del suavizamiento de los datos para los modelos 2 y 4, éstas crecen de manera exponencial, por lo que consideraremos únicamente los modelos 1, 3 y 5.
## ARIMA ( 0 , 0 , 1 ) ( 2 , 1 , 2 ) [ 2 ]
## [1] 15599.41 15562.11
## ARIMA ( 1 , 0 , 1 ) ( 0 , 1 , 2 ) [ 2 ]
## [1] 340.2287 308.2620
## ARIMA ( 1 , 0 , 0 ) ( 0 , 1 , 1 ) [ 7 ]
## [1] 7288.041 7269.534
## ARIMA ( 3 , 0 , 3 ) ( 0 , 1 , 1 ) [ 7 ]
## [1] 13.32390 -28.31656
## ARIMA ( 0 , 1 , 1 )
## [1] 959.9981 951.9796
Veamos entonces, que la serie 3 (es decir aquella utilizada para el modelo 4 pero a la que no le aplicamos logaritmo) resulta tener el comportamiento más parecido a los datos históricos obtenidos del archivo “datos_conocidos.csv” la cual cumple ser creciente, considera (mejor que los otros modelos) la variabilidad debido a la demanda en cada horario, y tiene congruencia con el crecimiento poblacional al estar acotada.