Todo modelo predictivo debe probarse con datos reales, para determinar su validez. Una forma de medir el grado de error es el error medio cuadrático, que se calcula

\[ EMC= \sum_i^k \frac{(y_i-\hat{y_i})^2}{n} \]

Donde \(y_i\) es el dato observado en el momento \(i\), entanto que \(\hat{y_i}\) es valor predicho. En nuestros ejemplos, como se calculará el EMC sobre los valores al logaritmo.

Durante esta semana, se probó un modelo cuadrático sobre los datos en bruto, con una estructura de autocorrelación AR(2).

Modelos de casos totales

Probaremos la adecuación de los tres modelos, que usamos hasta el momento - general cuadrático + AR(2), casos nuevos + AR(1), casos nuevos + AR(4), usando el modelo calculado el día 16 de Abril.

Se debe considerar que como los reportes del MINSAL se realizan con un día de retraso, realmente estamos usando los datos del día 15 para predecir hasta el 22.

Se puede ver que los modelos T+AR(1) y T+AR(4) subestiman de forma sistemática, pero mantienen siempre su intervalo de confianza. En cambio, el modelo cuadrático siempre sobrestima en menor cantidad, pero no logra mantener su intervalo de confianza pasado dos días.

El MSE de AR(4) presenta mayor MSE que AR(1), lo que revierte lo que ocurrió la semana pasada. El modelo cuadrático prácticamente tiene la mitad del error de los otros modelos.

¿Qué pasaría si hubiesemos considerado solo desde el caso 250 en adelante, como hace dos semanas? Se puede ver que habríamos caído fuera del intervalo de confianza para las predicciones de T+AR(4). Además, el modelo exponencial también hubiera fallado en su intervalo de confianza, también sobrestimando.

Es interesante notar que pese a la ruptura del intervalo de confianza, los MSE son menores para todos los modelos. En particular, T+AR(1) presenta un muy bajo MSE.

Si utilizamos el corte del periodo anterior, con 20 casos, los modelos T+AR(1) y T+AR(4) siguen subestimando de forma ssistemática, fallando los intervalos de confianza para los dos últimos días, en tanto que el modelo cuadrático sigue sobreestimando fallando su intervalo a los dos días.

Los errores con este ajuste suben, aunque el cuadrático se mantiene estable, cercano a 0.003.

Tanto para AR(1) como para AR(4), podemos ver que la predicción subestima sistemáticamente el valor total, en tanto que el cuadrático sobreestima, siendo sus intervalos de confianza erróneos, pero siempre con menor error cuadrático.

Predicción por regiones

Durante las últimas semanas hemos probado un modelo de predicción que suma los resultados parciales por región. Para cada región se elige un punto de corte distinto, el cual se puede consultar en el código a continuación

Se observamos la serie posterior, con detalle, podemos ver que AR(1) tiene un ajuste muy bueno a los datos, en tanto que el modelo exponencial tiende, nuevamente, a sobreestimar.

El MSE del TAR regional es extremadamente bueno, y el modelo lineal cuadrático, si bien un poco inferior,sigue superando en dos órdenes de magnitud la predicción del modelo general.

Conclusión

Durante la próxima semana, la predicción se seguirá realizará usando un modelo que parta del día 50. Se eliminará el modelo ARIMA, ya que no muestra ser útil. Se destaca el buen desempeño del modelo por regiones, que en el peor de los casos es un poco peor que el modelo de serie total, y en el mejor - como ahora - lo supera en órdenes de magnitud.