La base de datos que utilizaremos pertenece al Ministerio de Ciencia, Tecnología, Conocimiento e Innovación, el cual posee datos de casos y muertes diarias reportadas en el país en distintas categorías. Es descargable de la cuenta del ministerio en la página de Github (https://data.europa.eu/euodp/en/data/dataset/covid-19-coronavirus-data).
Graficamos primero la evolución de los nuevos casos de asintomáticos y no asintomáticos detectados por día a la fecha:
Graficamos ahora la evolución de total número de casos detectados en Chile a la fecha:
Por último, observemos ahora el crecimiento logarítmico del total de casos. En este caso, viendo ambos casos por resparado, se puede apreciar que no existe una variación significativa en el crecimiento logarítmico del total de contagiados. En gran parte de la curva esto se explica debido a que no existen casos registrados de asintomáticos, por lo que el total de casos es equivalente al total de sintomáticos. Pero incluso, como se apreció en el gráfico anterior, el incluir los casos asintomáticos no cambia la tendencia general de la curva total de infectados, puesto que este grupo es proporcionalmente insignificante en comparación al total de casos sintomáticos:
Observamos que la integración de los casos de personas asintomáticas es poco relevante, puesto que la variación logarítmica y absoluta de total de casos no sufre mayores cambios al agregarle los casos de personas asintomáticas. Aún así, para ser prolijos con el método de trabajo, se utilizará solo los datos correspondientes a los casos de personas sintomáticas. Por lo tanto, nuestro trabajo de invetigación se centrará en predecir los casos nuevos futuros de pacientes sintomáticos.
Observaremos inicialmente la función de autocorrelación (ACF) de los nuevos casos:
Observamos la función de autocorrelación parcial (PACF) de los nuevos casos:
Observamos también en el primer gráfico que la serie es claramente no estacionaria. Por lo tanto, mediante el método de segundas diferencias (el de primera diferencia genera una tendencia no estacionaria), generamos una serie que si sea estacionaria:
Calculamos el test de Dickey-Fuller para ver con que nivel de confianza podemos asegurar que no existen raices unitarias para la serie difereciada, de tal manera de asegurar que el proceso es estacionario (con 5 rezagos):
##
## Augmented Dickey-Fuller Test
##
## data: tsstationary
## Dickey-Fuller = -4.2847, Lag order = 5, p-value = 0.01
## alternative hypothesis: stationary
Observamos que se puede rechazar la hipótesis nula de que existan raices unitarias con un nivel de significacia del 99% (revisar bien que implica que los lags sean de 0). Ahora hacemos el test de Phillips-Perron para la serie diferenciada:
##
## Phillips-Perron Unit Root Test
##
## data: tsstationary
## Dickey-Fuller Z(alpha) = -77.262, Truncation lag parameter = 3,
## p-value = 0.01
## alternative hypothesis: stationary
Observamos en este test, el cual corrige la autocorrelación y heterocedasticidad en los errores, también se observa significancia. Por lo tanto, se puede rechazar la hipótesis nula (con un 99% de confianza) e indicar que el proceso puede ser estacionario por la posible existencia de raices no unitarias.
Observamos la función de autocorrelación (ACF):
Observamos la función de autocorrelación parcial (PACF) de los nuevos casos:
Observamos que en PACF, según filosofía de Box-Jenkins, debiese de ser un Ar(2).
##
## Ljung-Box test
##
## data: Residuals from ARIMA(0,0,0) with zero mean
## Q* = 50.624, df = 15, p-value = 9.517e-06
##
## Model df: 0. Total lags used: 15
Gráfico plotly de forecasting: https://community.plotly.com/t/how-to-plot-forecast-using-plotly-for-time-series-data-having-index-with-datetime-value/4091/3
Ayuda con modelo ARIMA en R: http://finanzaszone.com/analisis-y-prediccion-de-series-temporales-con-r-ii-estacionariedad-y-raices-unitarias/