Todo modelo predictivo debe probarse con datos reales, para determinar su validez. Una forma de medir el grado de error es el error medio cuadrático, que se calcula

\[ EMC= \sum_i^k \frac{(y_i-\hat{y_i})^2}{n} \]

Donde \(y_i\) es el dato observado en el momento \(i\), en tanto que \(\hat{y_i}\) es valor predicho. En nuestros ejemplos, como se calculará el EMC sobre los valores al logaritmo.

Durante esta semana, se probó un modelo cuadrático sobre los datos en bruto, con una estructura de autocorrelación AR(2).

Modelos de casos totales

Probaremos la adecuación de los tres modelos, que usamos hasta el momento - general cuadrático + AR(1), casos nuevos + AR(1), casos nuevos + AR(4), usando el modelo calculado el día 8 de Mayo.

Se debe considerar que como los reportes del MINSAL se realizan con un día de retraso, realmente estamos usando los datos del día 7 de Mayo para predecir hasta el 14.

A diferencia de la prueba anterior del modelo, el modelo cuadrático ha funcionado bastante mal, estando fuera del intervalo de confianza 4 de los 7 días. El modelo de T+AR(1), muy similar al cuadrático, al menos mantiene el intervalo de confianza. El modelo T+AR(4) funcionó muy bien los primeros 4 días, hasta el aumento repentino de casos los últimos 3 días, pero igual se mantiene el intervalo de confianza.

El MSE de T+AR(4) es menor al de T+AR(1) y el modelo cuadrático, lo contrario a lo que ocurrió en la prueba anterior.

¿Qué pasaría si hubiesemos considerado solo desde el caso 250 en adelante, como hace un mes? Se puede ver que tanto T+AR(1) y T+AR(4) se habrían comportado bien, mientras el modelo cuadrático habría subestimado todo el tiempo.

Bajo este enfoque, T+AR(4) funciona muy bien, prácticamente con la mitad del error de mantener desde los 50 casos. T+AR(1) tiene un error similar al de mantener 50 casos, en tanto que el cuadrático mantiene su error.

Si utilizamos el corte del periodo anterior, con 20 casos, el modelo T+AR(4) nuevamente funciona bastante bien, en tanto que T+AR(1) y el cuadrático subestiman de forma sistemática.

Los errores son mayores a los de cortar a los 50 o 250 casos.

Predicción por regiones

Durante las últimas semanas hemos probado un modelo de predicción que suma los resultados parciales por región. Para cada región se elige un punto de corte distinto, el cual se puede consultar en el código a continuación

Se observamos la serie posterior, con detalle, podemos ver que AR(1) tiene un ajuste muy bueno a los datos, en tanto que el modelo exponencial tiende, a subestimar.

El MSE del TAR regional es extremadamente bueno, y el modelo lineal cuadrático, si bien un poco inferior,sigue superando en dos órdenes de magnitud la predicción del modelo general.

Conclusión

Tras 3 evaluaciones de modelos, destaca la ventaja de tener varios algoritmos, ya que algunos funcionan mejor cuando el proceso no experimenta cambios bruscos (cuadrático), en cambio otros no siempre son óptimos por semana, pero aparecen como buenas estrategias porque nunca son muy malos (T+AR(4)). El claro ganador es el modelo de suma regional, que en las dos últimas pruebas ha logrado acercarse mucho a la sumatoria total, lo que refleja la importancia de analizar los procesos a nivel local.