Dada la la crisis de salud que está viviendo el mundo por el COVID-19, muchos países han optado por diferentes medidas para proteger a sus ciudadanos. Estados Unidos, en específico, entre sus múltiples medidas adoptó el cerrar la frontera terrestre. Mientras la frontera entre Estados Unidos y México permanece cerrada para viajes no esenciales, recopilamos una base de datos con información vital para hacernos la pregunta: ¿Dada la crisis del COVID-19 y la posterior medida de cerrar la frontera entre EUA y México, podremos predecir las entradas a EUA en promedio en el futuro viendo la tendencia actual y compararlas con los datos reales para ver cuál ha sido el impacto del cierre de fronteras?
La frontera de México con Estados Unidos es la frontera cruzada con mayor frecuencia en todo el mundo, con aproximadamente 350 millones de cruces documentados anualmente. Para nuestro proyecto de investigación, intentaremos predecir cuántas personas cruzan diariamente la frontera de México-Estados Unidos en el tramo específico de Tijuana a San Ysidro y queremos comprar nuestra predicción con los datos reales desde que se anunció la medida de cerrar la frontera en Marzo. En particular, nos pareció mejor idea elegir solamente un tramo y no la frontera completa debido a que la frontera completa era un proyecto demasiado ambicioso. De esta forma, elegimos específicamente San Ysidro debido a que es la frontera más transitada del mundo, por lo que nos parece un tramo representativo para poder estudiar el cruce de fronteras en su conjunto de México hacia Estados Unidos.
Por último, queremos destacar que elegimos estudiar del cruce de fronteras a Estados Unidos porque nos parece un tema vital en términos económicos y sociales para poder entender la realidad fronteriza de nuestro país.
El puerto de entrada de San Ysidro se encuentra entre San Ysidro, California y Tijuana, Baja California y aproximadamente 50,000 vehículos y 25,000 peatones usan esta entrada diariamente. Diario, miles de personas cruzan la frontera por dicho puerto, incluyendo a trabajadores en trabajos de alto contacto, como supermercados, tiendas, puestos de cuidado personal, etc. Dado esto, se vuelve más de interés el caso de todas estas personas que cruzan la frontera dada la crisis de salud.
El 19 de marzo, el gobierno de California ordenó que los residentes de dicho estado se quedaran en casa para frenar la propagación del nuevo coronavirus, y el 20 de Marzo, el presidente de los Estados Unidos ordenó el cierre de fronteras para todos menos el “tráfico esencial”. El tráfico esencial es aquel relacionado con el comercio, la educación y fines médicos.
La nueva modalidad de la frontera delimita la nueva problemática: que las restricciones que se aplicaron a mediados de marzo, que limitaban los cruces fronterizos a los viajes esenciales, han significado la reducción en el número de personas que cruzan. No obstante, los pocos residentes o trabajadores esenciales que sí pueden cruzar la frontera son sometidos a horas de esperas exageradamente largas. Esto podría tener un impacto social y económico importante.
Como destacamos anteriormente, Tijuana y San Diego son ciudades hermanas en el que el cruce fronterizo de San Ysidro, que los une, es el más transitado del mundo. Con 5 millones de personas aproximadamente haciendo el viaje de sur hacia norte diario, nos interesa ver el impacto que el covid-19 ha provocado en el número de cruces. Suponemos que, en efecto, el cruce de fronteras es un fenómeno clave para entender la realidad mexicana en términos económicos y sociales.
Los datos que obtuvimos del cruce de fronteras entre México y EE.UU son recopilados en los puertos de entrada por la Aduana y Protección de Fronteras (CBP por sus siglas en inglés) de los Estados Unidos. Los datos contienen 7 columnas que reflejan la cantidad de vehículos, contenedores, pasajeros y peatones que ingresan a los Estados Unidos diariamente, así como el puerto y su código, la fecha y la hora del cruce y el Estado por el cual cruzaron ingresaron. Para reducir nuestro análisis, decidimos centrarnos únicamente en las personas que ingresan a los Estados Unidos por el puerto de San Ysidro mediante automóviles privados, camionetas, motocicletas, vehículos recreativos, taxis, ambulancias, carros, tractores, y otros vehículos terrestres privados.
Una vez que definimos la pregunta a responder, que realizamos una revisión bibliográfica y que recolectamos los datos necesarios, comenzamos con el análisis econométrico.
Como parte de nuestro análisis exploratorio preliminar, queríamos ver el comportamiento de nuestros datos en general. En específico, los movimientos de los datos de la frontera de México-EUA. Por lo que nuestro primer paso fue hacer una depuración de los datos para unicamente incluir los datos relevantes a esta frontera. Posteriormente, queríamos verificar que efectivamente el número de cruces entre la frontera México-EUA era mayor en el puerto de San Ysidro. Cabe destacar que todo este análisis preliminar gráfico lo hizimos unicamente considerando los datos del 2019.
Sorprendentemente, vemos como la frontera donde hay mayor cruce es por Texas y posteriormente por California (donde se encuentra el puerto de San Ysidro). Dado esto, nuestro próximo paso a analizar fue reducir el número de cruces y tomar en consideración unicamente aquellos hecho por vehículo personal.
De este modo, logramos ver que aunque la frontera con Texas es la mas recurrida, probablemente sea por transporte de mercancía como camiones. Esto no es importante para nuestro proyecto de investigación. En conclusión, podemos analizar graficamente que el puerto de San Ysidro efectivamente tiene el mayor número de cruces en cuanto a vehículos personales.
A continuación, mostraremos los datos con los que estaremos trabajando así como una gráfica de la serie de tiempo. En concreto, la serie que queremos analizar en el tiempo es del cruce de fronteras de México-EUA por el puerto de San Ysidro en vehículos personales (número de personas dentro de los vehículos). Para esto, tenemos los datos mensuales desde Enero 1998 hasta Febrero 2020. Los últimos dos datos, que son los datos referentes al año 2020 los vamos a reservar para después calcular un error de predicción (RMSE). Proximamente, graficaremos la serie de tiempo. En primera instancia, no parece que la serie tenga una tendencia tan clara. Lo que sí podemos apreciar podría ser una tendencia negativa entre el 2014 y 2015.
## Jan Feb Mar Apr May Jun Jul Aug
## 1998 2718725 2332029 2604010 2577135 2667194 2585260 2796539 3031673
## 1999 2748350 2477730 2772662 2626593 2876784 2975397 2911427 3004881
## 2000 2763992 2514446 2843531 2780316 2920469 277473 2854568 2892641
## 2001 2896806 2580356 2894142 2876540 3052559 2987153 3102411 3301498
## 2002 2750343 2620407 2753199 2872654 2820906 2840257 3253492 3357246
## 2003 3247611 2833789 3098181 3086332 3309009 3153005 3343490 3296368
## 2004 2629971 2501197 2974450 3030252 3119562 2891791 2839056 3012706
## 2005 2658312 2419729 2811324 2548656 2765424 2589383 2818186 2815794
## 2006 2676650 2425383 2841946 2687693 2531455 2524021 2661737 2746389
## 2007 2278764 2077505 2524813 2385031 2526911 2398143 2739652 2463855
## 2008 2067103 1804385 2217164 2460515 2004735 2358199 2311077 2187196
## 2009 1805612 1584060 2036989 1881734 2061761 2060688 2136708 2244432
## 2010 1986456 1865934 1958118 1959718 2043279 2006614 2071351 2088792
## 2011 1886747 1650316 1862245 1811925 1879596 1753341 1867828 1891804
## 2012 1727713 1524581 1635362 1630516 1670706 1616670 1775986 1735472
## 2013 1631776 1440604 1644178 1653543 1675863 1639260 1744088 1757175
## 2014 1682425 1472980 1646280 1607439 1650479 1590749 1684104 1709091
## 2015 2103361 1920544 2148006 2127967 2222411 2128210 2260433 2269563
## 2016 2029911 1899427 2047400 2003746 2097239 2005386 2138861 2031778
## 2017 1847403 1676754 1975085 1960771 2026742 1983329 2164841 2125264
## 2018 2065547 1872429 2153400 2152137 2196649 2202496 2245201 2212710
## 2019 1985438 1731228 2045733 2078570 2148620 2176784 2298255 2260539
## Sep Oct Nov Dec
## 1998 2598220 2658929 2524551 2750046
## 1999 2769932 2874161 2594427 2960690
## 2000 2632907 2879846 2747730 2917424
## 2001 2249599 2212588 2242152 2607750
## 2002 3218351 3340091 3183908 3161030
## 2003 3157152 3306745 3593252 3755585
## 2004 2703039 2528488 2331977 2820502
## 2005 2563076 2695009 2579816 3000768
## 2006 2370496 2647088 3181791 2573914
## 2007 2228440 2313345 2189126 2264590
## 2008 2027246 2003813 1832202 2045814
## 2009 1901002 1998869 2015275 2207752
## 2010 1870938 1899721 1870535 1979149
## 2011 1640460 1799269 1637180 1842195
## 2012 1628489 1658141 1637658 1703619
## 2013 1623048 1624023 1640324 1813172
## 2014 1704128 2062972 2111922 2193520
## 2015 2072821 2130319 2078382 2184056
## 2016 1877128 1996291 1883199 2003826
## 2017 1882513 2064689 1990602 2133145
## 2018 2098589 2160536 1853285 1969155
## 2019 2194994 2256125 2198715 2470347
La serie que queremos pronosticar varía en el tiempo y como sabemos de cursos de Macroeconometría, esto se puede deber a factores como tendencia, estacionalidad y ciclos. Por lo tanto, en los próximos apartados nuestro objetivo es desglosar estos componentes y verificar con cuales cumple nuestra serie de tiempo.
La tendencia puede deberse a factores como: preferencias, tecnologías, instituciones y/o datos demográficos que evolucionan lentamente. En este apartado, nos enfocaremos en modelos de tendencia determinista, es decir, modelos en los que la tendencia evoluciona de una manera predecible. Posterior a este análisis, nos centrareoms en una tendencia estocástica y veremos cual se asemeja más a nuestros datos.
##
## Call:
## lm(formula = bdts ~ time, data = bdts)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2495442 -295871 42190 218787 1171218
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2907592.6 46358.7 62.72 <2e-16 ***
## time -4489.2 303.3 -14.80 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 375600 on 262 degrees of freedom
## Multiple R-squared: 0.4554, Adjusted R-squared: 0.4533
## F-statistic: 219.1 on 1 and 262 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = bdts ~ time + time2, data = bdts)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2579025 -252192 29604 214386 1209425
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3116595.15 67833.71 45.945 < 2e-16 ***
## time -9203.59 1182.03 -7.786 1.63e-13 ***
## time2 17.79 4.32 4.118 5.13e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 364600 on 261 degrees of freedom
## Multiple R-squared: 0.4886, Adjusted R-squared: 0.4847
## F-statistic: 124.7 on 2 and 261 DF, p-value: < 2.2e-16
##
## Formula: bdts ~ a * exp(b * time)
##
## Parameters:
## Estimate Std. Error t value Pr(>|t|)
## a 2.976e+06 5.192e+04 57.32 <2e-16 ***
## b -1.992e-03 1.317e-04 -15.13 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 371100 on 262 degrees of freedom
##
## Number of iterations to convergence: 2
## Achieved convergence tolerance: 1.079e-06
## AIC_bdts BIC_bdts
## 1 7530.678 7541.405
## 2 7516.058 7530.361
## 3 7524.400 7535.128
En la teoría, el MSE es inconsistente, porque no penaliza por los grados de libertad. Por otro lado, AIC (Akaike information criterion) sí penaliza los grados de libertad, pero es inconsistente; incluso cuando el tamaño de la muestra aumenta, el AIC selecciona modelos que son demasiado grandes (son modelos sobreparamizados). Por último, el criterio de BIC (Bayesian information criterion), que penaliza los grados de libertad más fuertemente, es consistente y el mejor criterio para elegir la mejor tendencia. Tomando esto en cuenta, podemos ver que el modelo que logra minimizar el criterio de BIC es el modelo cuadrático. Visualmente, logramos ver una tendencia negativa en los datos, a pesar del pequeño repunte de los últimos 5 años. Además, los coeficientes son significativos con un 99.99% de confianza.
Un patrón estacional es aquel que se repite año tras año. En nuestro modelo, queremos ver si hay ciertas épocas en el año en el cual aumenta (o disminuye) el número de cruces por la frontera de San Ysidro en vehículos personales. La estacionalidad surge por el enlace de los datos con tecnologías, preferencias, climas, fechas festivas, etc. Dado esto, nosotros determinamos que es esencial para nuestro análisis saber si hay un mayor flujo de personas en ciertas épocas del año. En específico, en vacaciones de invierno (consideramos diciembre y enero), vacaciones de verano (consideramos junio y julio), y las vacaciones de Semana Santa (depende el mes en el que cae).
regbor <- lm(bdts~time+time2+d2+d3+d4+d5+d6+d7+d8+d9+d10+d11+d12+ss+v+i,data=databor)
summary(regbor)
##
## Call:
## lm(formula = bdts ~ time + time2 + d2 + d3 + d4 + d5 + d6 + d7 +
## d8 + d9 + d10 + d11 + d12 + ss + v + i, data = databor)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2483533 -247103 17512 200880 1070197
##
## Coefficients: (2 not defined because of singularities)
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.065e+06 9.677e+04 31.670 < 2e-16 ***
## time -9.245e+03 1.143e+03 -8.086 2.70e-14 ***
## time2 1.781e+01 4.178e+00 4.264 2.86e-05 ***
## d2 -2.209e+05 1.063e+05 -2.078 0.0388 *
## d3 8.996e+04 1.160e+05 0.776 0.4388
## d4 8.004e+04 1.345e+05 0.595 0.5524
## d5 1.131e+05 1.063e+05 1.064 0.2885
## d6 -4.254e+04 1.063e+05 -0.400 0.6894
## d7 2.018e+05 1.063e+05 1.898 0.0589 .
## d8 2.253e+05 1.063e+05 2.118 0.0351 *
## d9 -1.685e+04 1.063e+05 -0.158 0.8742
## d10 8.295e+04 1.064e+05 0.780 0.4362
## d11 3.310e+04 1.064e+05 0.311 0.7559
## d12 1.938e+05 1.064e+05 1.822 0.0696 .
## ss -5.263e+04 1.133e+05 -0.464 0.6428
## v NA NA NA NA
## i NA NA NA NA
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 352600 on 249 degrees of freedom
## Multiple R-squared: 0.5437, Adjusted R-squared: 0.518
## F-statistic: 21.19 on 14 and 249 DF, p-value: < 2.2e-16
Permitiendo la posibilidad de variación de vacaciones de invierno, verano y Semana Santa, obtuvimos un modelo de regresión lineal que, mediante OLS, estimó los parámetros. En general, podemos analizar como casi ninguna dummy salió significativa. Además, las vacaciones de invierno, verano y Semana Santa tampoco fueron significativas por lo que podemos concluir que en general, no se observa un mayor o menos flujo de cruces en la frontera en estas épocas. En conclusión, dado que el resultado de OLS fue poco significativo para los parámetros, la serie no presenta estacionalidad. Ya no es necesario hacer la prueba de Wald. Este resultado fue sorprendente ya que habíamos tenido la hipótesis inicial de que sí ibamos a encontrar estacionalidad en el modelo dado que en meses de vacaciones de invierno y semana santa iba a haber más flujo de personas cruzando la frontera. En conclusión, como no se presenta estacionalidad en el modelo, la tendencia cuadrática será la mejor para predecir mi modelo.
Dado lo anterior, la especificación económetrica que utilizaremos es la regresión del modelo cuadrático ya que es la que mejor se ajustó a los datos.
Hasta este punto, hemos creado un modelo de pronóstico con tendencia y sin estacionalidad. El siguiente paso lógico para nuestro análisis del cruce de fronteras sería ver si existen ciclos, o alguna persistencia, en nuestra serie de tiempo. Es decir, queremos ver si hay fluctuaciones ciclicas sea por factores económicos, gubernamentales, etc. que muestren alguna dinámica no captada por la tendencia o estacionalidad. La importancia de poder modelar los ciclos, presentes en los residuales, es que aportan información útil para nuestra predicción. Además, el error de pronóstico de un buen modelo debe ser ruido blanco por lo que intentaremos acercarnos lo más posible a ello. Por lo tanto, nuestro primer paso es analizar el comportamiento de nuestros residuales y ver si son ruido blanco, o efectivamente presentan un ciclo.
Gráficamente no parece que los residuales tengan un comportamiento como ruido blanco. Pero para profundizar nuestro análisis, obtuvimos las funciones de autocorrelación y autocorrelación parcial así como las pruebas de Box-Pierce y Ljung-Box.
##
## Box-Pierce test
##
## data: bdts
## X-squared = 900.34, df = 16.248, p-value < 2.2e-16
##
## Box-Ljung test
##
## data: bdts
## X-squared = 932.12, df = 16.248, p-value < 2.2e-16
Gráficamente, se ve que la autocorrelación y la autocorrelación parcial se salen de las bandas de Bartlett, lo cual es un indicador de que los residuales no son ruido blanco. Aún más, de acuerdo a las pruebas de Box-Pierce y Ljung-Box, rechazamos la hipótesis nula por lo que NO hay ruido blanco.
Dado esto, nuestro próximo paso lógico es modelar el ciclo de los residuales utilizando modelos de promedio móvil (MA), modelos autorregresivos (AR) y modelos de promedio móvil autorregresivo (ARMA).
arma403 <- arima(bdts,order =c(4,0,3))
BIC(arma403)
## [1] 7346.559
summary(arma403)
## Length Class Mode
## coef 8 -none- numeric
## sigma2 1 -none- numeric
## var.coef 64 -none- numeric
## mask 8 -none- logical
## loglik 1 -none- numeric
## aic 1 -none- numeric
## arma 7 -none- numeric
## residuals 264 ts numeric
## call 3 -none- call
## series 1 -none- character
## code 1 -none- numeric
## n.cond 1 -none- numeric
## nobs 1 -none- numeric
## model 10 -none- list
Tras haber modelado los residuales con MA, AR y ARMA, y posteriormente haber corrido los BIC’s para cada modelo, obtuvimos que el modelo que minimiza el BIC es el ARMA(4,3).
Para verificar si mi proceso estocástico es estacionario e invertible, recordamos que el proceso AR(p) es estacionario si y solo si los inversos de las raices del operador rezago caen dentro del círculo unitario.
## $roots
## [1] 0.0160965+0.9998709i 0.0160965-0.9998709i 1.4856024+0.0000000i
##
## $type
## [1] "MA"
##
## attr(,"class")
## [1] "armaroots"
## [1] 0.0160965-0.99987i 0.0160965+0.99987i 0.6731276+0.00000i
## $roots
## [1] -0.000394+1.001788i -0.000394-1.001788i 1.037868-0.000000i
## [4] 18.213188+0.000000i
##
## $type
## [1] "AR"
##
## attr(,"class")
## [1] "armaroots"
## [1] -0.00039296-0.9982153i -0.00039296+0.9982153i 0.96351330+0.0000000i
## [4] 0.05490527-0.0000000i
De este modo, podemos analizar que el inverso de las raices de promedios moviles cae dentro del círculo unitario, es decir, sus valores están entre -1 y 1. Lo mismo sucede con el inverso de las raices ARMA. Podemos concluir entonces que el proceso estocástico es estacionario.
Próximamente, volvemos a correr las pruebas de Box-Pierce y Ljung-Box donde obtemenos resultados diferentes a los que habíamos obtenido en un principio para modelar si nuestros errores son ruido blanco.
residualesarma <- residuals(arma403)
Box.test(residualesarma, lag =length(residualesarma)^.5 , type = c("Box-Pierce"))
##
## Box-Pierce test
##
## data: residualesarma
## X-squared = 16.559, df = 16.248, p-value = 0.432
Box.test(residualesarma, lag =length(residualesarma)^.5 , type = c("Ljung-Box"))
##
## Box-Ljung test
##
## data: residualesarma
## X-squared = 17.192, df = 16.248, p-value = 0.3901
Teóricamente, no rechazamos la hipótesis nula si el valor-p es mayor a 0.05, por lo que afirmariamos que los residuales se comportan como ruido blanco. En nuestro modelo, dado que los valores p de las pruebas de Box-Pierce y Ljung-Box fueron 0.432 y 0.3901 sucesivamente, no rechazamos la hipótesis nula, y por lo tanto ya tenemos ruido blanco. Aquí podemos hacer unas conclusiones importantes de nuestro resultado: los mejores modelos son aquellos en los que los errores de pronóstico de 1 paso adelante son ruido blanco. Esto porque, si no fueran ruido blanco, entonces los errores están correlacionados, lo que significaría que son previsibles. Si son previsibles, entonces el pronóstico no sería muy bueno. Por lo tanto, este resultado que obtuvimos fue óptimo para nuestro modelo.
Por último, haremos nuestro pronóstico de enero y febrero del 2020. El propósito de hacer esto es que queremos determinar Por lo tanto, los pronósticos para enero y febrero 2020 son:
predenero <- 3116595.15 - 9203.59*265 + 17.79*265^2
predfeb <- 3116595.15 - 9203.59*266 + 17.79*266^2
cpred <- c(predenero,predfeb)
predicciones2020 <- predict(arma403, n.ahead=2)
pronostico <- predicciones2020$pred + cpred
pronosticots <- ts(pronostico, start = c(2020,1), frequency = 12)
pronosticots
## Jan Feb
## 2020 2251389 2173589
Los intervalos de pronóstico los calculamos de la siguiente manera:
upper <- pronostico + 1.96*predicciones2020$se
lower<-pronostico-1.96*predicciones2020$se
bdts <-ts(borderdata$Value, start = c(1998,1), frequency = 12)
lowerts<-ts(lower, start = c(2020,1), frequency = 12)
upperts<-ts(upper, start = c(2020,1), frequency = 12)
Gráficamente, podemos ver nuestro pronóstico:
De color azul y rojo están nuestros intervalos de pronóstico y de color verde nuestras predicciones de los valores de enero y febrero 2020.
Por último, calcularemos el RMSE. Este dato lo guardaremos para que posteriormente, lo comparemos con el rmse del modelo estocástico.
## [1] 38991.37
Nuestro resultado es un RMSE de 38991.7.
Hasta este punto, hemos afirmado que la serie que queremos modelar cambia en el tiempo. Al desglosar en sus diferentes componentes, observamos que la serie presenta tendencia y ciclos, por lo que los modelamos en nuestra serie de tiempo. Sin embargo, hasta el momento, estábamos bajo el supuesto de que la tendencia era determinística, es decir, se puede determinar directamente a partir de la ecuación. Por lo tanto, en este apartado nuestra meta será replicar nuestro análisis ya hecho pero modelando por tendencia estocástica, es decir modelar para la tendencia que puede cambiar en cada tiempo debido al componente aleatorio del proceso. Dado que en la práctica, es muy difícil diferenciar entre los dos tipos de tendencia, modelaremos los dos y al final haremos un análisis acerca de con cual nos quedamos.
Nuestro primer paso para la tendencia estocástica es determinar si hay raíz unitaria con la prueba de Dickey-Fuller.
adf.test(bdts)
##
## Augmented Dickey-Fuller Test
##
## data: bdts
## Dickey-Fuller = -1.9106, Lag order = 6, p-value = 0.6136
## alternative hypothesis: stationary
Los resultados de la prueba de Dickey-Fuller nos arrojó que la serie presenta una raíz unitaria, es decir, que es I(1), lo cual implica que los datos siguen no tienen patrón determinístico, pero sin embargo presentan tendencia. Debido a esto, pusimos la serie en diferencia y realizamos el análisis correspondiente para ver si la tendencia estocástica es mejor para predecir que la tendencia determinística calculada anteriormente. Dado que nuestra serie resultó ser I(1), la pondremos en diferencias para obtener una serie I(0).
Una vez que concluimos que la serie sí presenta una raíz unitaria, el siguiente paso es calcular cuál especificación ARIMA es la que mejor modela la serie.
BIC(arma403)
## [1] 7346.559
arma403diff<-arima(diffborderts,order =c(4,0,3))
Tras realizar el análisis correspondiente modelando los residuales con MA, AR y ARMA, concluimos que el ARMA que mejor modela la serie en diferencias es el ARIMA (4,0,3), pues tiene los menores BIC y AIC, los cuales, como mencionamos anteriormente, son los criterios de información con los cuales podemos seleccionar el mejor modelo.
Al igual que con la tendencia determinística, fuimos cuidadosos de asegurarnos que el proceso estocástico fuera invertible y estacionario verificando que el inverso de las raíces del operador rezago caen dentro del círculo unitario. Obtuvimos los siguientes resultados:
Las raíces inversas caen dentro del círculo unitario por lo que el proceso estocástico es estacionario.
Posteriormente, el siguiente paso lógico de nuestro análisis fue realizar el pronóstico para enero y febrero de 2020, con lo que concluimos que el número de cruces en la frontera de San Ysidro esos meses iba a ser el siguiente:
predicciones<-predict(arma403diff,n.ahead=2)
pronostico<-predicciones$pred
pronostico2<-(cumsum(pronostico))+2470347
prediccionests2<-ts(pronostico2,start=c(2020,1),frequency=12)
prediccionests2
## Jan Feb
## 2020 2252264 2192355
Asimismo, el intervalo de pronóstico será el siguiente:
## Jan Feb
## 2020 2723100 2762675
## Jan Feb
## 2020 1781429 1622034
Después de obtener los intervalos de pronóstico, por último, graficamos nuestros resultados.
Por otro lado, cabe recalcar que realizamos la prueba de Box-Test y de Ljung-Box de los residuales del ARIMA(4,0,3) mediante lo cual concluimos que efectivamente eran ruido blanco.
residualesarma<-residuals(arma403diff)
plot.ts(residualesarma)
acf(residualesarma)
pacf(residualesarma)
Box.test(residualesarma, lag =length(residualesarma)^.5 , type = c("Box-Pierce"))
##
## Box-Pierce test
##
## data: residualesarma
## X-squared = 12.889, df = 16.217, p-value = 0.6951
Box.test(residualesarma, lag =length(residualesarma)^.5 , type = c("Ljung-Box"))
##
## Box-Ljung test
##
## data: residualesarma
## X-squared = 13.421, df = 16.217, p-value = 0.6566
Debido al resultado de que nuestros errores son ruido blanco, es pertinente concluir que no es necesario estimar nuestros residuales con un GARCH, los cuales sirven para modelar volatilidad cuando la varianza de los residuales no es constante. Esto no fue necesario debido a que los residuales de nuestro ARIMA (4,0,3) son ruido blanco.
Como se puede observar, el pronóstico final para la tendencia determinística y tendencia estocástica es muy similar. Sin embargo, para concluir cuál de los dos es mejor aún falta calcular el error cuadrático medio de los residuales.
El error cuadrático medio (RMSE) es la desviación estándar de los residuales (errores de predicción). Los residuales miden qué tan lejos están los puntos de datos de la línea de regresión por lo que el RMSE es una medida de la dispersión de estos errores. Por lo tanto, queremos obtener un RMSE menor ya que reflejaría un mejor ajuste a la línea de tendencia.
## RMSE_tendencia_determinística RMSE_tendencia_estocástica
## 1 2365215 46997.55
Como se puede observar, el error cuadrático medio de los residuales pronosticado mediante el análisis de tendencia determinística es menor, lo cual implica que es un mejor modelo para pronosticar. Este resultado nos permite concluir que, a pesar de que la serie presenta una raíz unitaria, es importante siempre realizar un análisis determinístico y estocástico para poder concluir cuál modelo se ajuste mejor a la realidad de nuestros datos y con cuál nos quedamos para predecir lo deseado de la manera más exacta.
Finalmente, una vez que concluimos que el modelo cuadrático de tendencia determinística es el mejor para predecir nuestro modelo, obtuvimos respectivamente los pronósticos de marzo, abril y mayo del 2020:
print(pronosticots)
## Mar Apr May
## 2020 2225469 2276292 2202558
Será interesante ver cuál fue el número real de cruces de Tijuana a San Ysidro en esos meses. Intuitivamente, esperamos que el número haya decrecido considerablemente, pues hubo varios controles que disminuyeron el flujo migratorio debido a la crisis sanitaria mundial que tanto el gobierno de México como el de Estados Unidos han implementado para proteger a sus ciudadanos, como el cierre de la frontera que impuso Estados Unidos a los viajes no esenciales.
Para resumir lo que encontramos, modelamos nuestros datos para buscar tendencia determinística y encontramos que el modelo que mejor ajustaba era el cuadrático. Por lo que procedimos a checar si presenta estacionalidad debido a vacaciones, y dado que ningún coeficiente obtenido fue significativo, concluimos que no presenta estacionalidad. Posteriormente intentamos modelar los residuales con AR, MA o ARMA, y obtuvimos que el modelo que mejor ajustaban fue el ARMA 4,3. Nos aseguramos de que el proceso fuera invertible y estacionario. Con esto establecido, realizamos tanto una predicción puntual de enero y febrero, con un intervalo de confianza al 95% para su valor.
Posteriormente, hicimos un análisis similar para la tendencia estocástica, mediante el cual obtuvimos con la prueba de Dickey-Fuller que efectivamente había una raíz unitaria en el modelo. Por lo tanto, procedimos a modelar la serie con AR, MA o ARMA, con lo cual obtuvimos que el mejor modelo fue el ARMA 4,3. De igual forma, hicimos las predicciones para enero y febrero del 2020. Realizamos las pruebas apropiadas para determinar que los residuales se portaban como White Noise, por lo que no fue necesario estimar los residuales con un GARCH, que sirve para modelar volatilidad.
Por último, comparamos los errores cuadráticos medios del modelo determinístico y el estocástico, y dado que fue menor el RMSE de la tendencia determinística, tomamos el modelo cuadrático que modeló la tendencia determinística como el mejor. Finalmente, utilizamos dicho modelo para pronosticar el número de cruces en San Ysidro de marzo a mayo
Obtuvimos, de las bases de datos del Bureau of Transportation Statistics (CBP), los datos reales del número de individuos que cruzan la frontera en vehículos personales marzo. Estos fueron de 2,298,003 personas en enero, 2,144,131 personas en febrero y 1,621,349 personas en marzo. Pudimos comparar los datos reales de enero, febrero y marzo contra nuestras predicciones, y observamos que en enero y febrero, antes del COVID-19, tuvimos un error de pronóstico de alrededor de 2%, mostrando buena precisión en las predicciones. Sin embargo, después de que corrimos todo el modelo con tendencia determinística, incluyendo los datos de enero y febrero del 2020, obtuvimos un error de pronóstico de -604120 en marzo. Tiene sentido con la realidad dado que fue cuando se implementaron las medidas de control sanitario y el cierre de fronteras. En general, vemos que nuestro error de predicción creció considerablemente, sobreestimando alrededor del 40% del tráfico. Esto, claramente, se debe a que el modelo no contempla choques de la magnitud que estamos experimentando actualmente. Desde luego, vemos en los datos reales que para el periodo de marzo hubo una disminución de más de un millón de individuos. Sin embargo, nuestros resultados siguen siendo provechosos dado que podemos seguir pronosticando cuanto hubiera sido el número de cruces de frontera en dicho mes sin el choque del COVID-19, y como este número está siendo afectado por el tema sanitario.
Será interesante ver cuál fue el número real de cruces de Tijuana a San Ysidro a partir de abril, dado del cual todavía no publica el CBP. Sin duda, continuará la tendencia en la disminución de tráfico por la frontera y será interesante ver cómo los nuevos datos reducidos afectarán un modelo similar a este en el futuro.