Nota

Este informe sucede a este otro sobre correlaciones, que usaba los acumulados, cuya correlación no va a indicar más que relaciones entre uno y otro y no van a tener demasiado valor predictivo, sobre todo porque siempre sus valores van a estar por encima de la media. A partir de ahora usamos sólo los incrementos diarios, que permiten predecir con mucha más precisión.

Introducción

Las correlaciones cruzadas entre diferentes variables nos indican cómo influyen una en la otra, y si una precede o va detrás de la otra. Aunque correlación nunca indica causalidad, al menos sí puede dar, en general, una cierta idea de qué va a suceder en el futuro: una correlación cruzada fuerte entre dos variables a uno, dos o tres días vista permite averiguar qué es lo que puede suceder, y con hipótesis adicionales se puede establecer relación causa-efecto.

Utilizaremos autocorrelaciones y correlaciones cruzadas en R, usando las funciones acf y ccf. En estos gráficos se indican con barras de diferente longitud la correlación; líneas punteadas indican la zona a partir de la cual la correlación es significativa. A la izquierda del cero, la variable X antecede o predice la y, a la derecha es justo al contrario; por encima de la barra serían correlaciones positivas y por debajo negativas, es decir que cuando crece una variable, la otra disminuye.

Autocorrelación de nuevos casos

Esta es la autocorrelación de nuevos casos, es decir como influyen los casos de los que se informa cada día en los siguientes. Esta serie temporal tiene mucha incertidumbre, ya que sólo refleja los hospitalizados y, a estas alturas, personal crítico, aunque en el mes de abril se están empezando a hacer tests de forma más extensiva.

pacf(data$Casos.nuevos,na.action = na.pass, lag=35)

La autocorrelación parcial refleja sólo una relación entre los nuevos casos reportados cada día y el siguiente. Esto probablemente significa que es una situación dinámica, en evolución, y que no hay tiempo siquiera a que haya correlaciones negativas (que indicarían inmunidad de grupo).

Realmente este dato es poco fiable, porque no se sabe cuantas altas hay ni cuantos tests se están haciendo, y además el número varía con el tiempo.

Nota Se ha eliminado cualquier gráfica que use el número de hospitalizados o el de ingresos en UCI. Ambos datos de la serie nacional, proporcionada por el ministerio, están mal calculados y son, por tanto, falsos.

¿Cuanto se tarda en llegar a una salida de la situación? Trazaremos los casos frente al las altas y fallecimientos. Observando la gráfica de altas en (Merelo 2020) se observa cierta periodicidad, al menos inicialmente

pacf(data$Altas.nuevas,na.action = na.pass,lag.max = 28)

Mientras que hasta el día 20 aparecía una cierta periodicidad de unos dos días, a partir del día 21 prácticamente ha desaparecido y sólo hay periodicidad de un sólo día. Usando autocorrelación parcial, aparece una correlación negativa a 9 días vista, que es imposible de interpretar también.

Esta periodicidad también aparece en los fallecimientos, como se puede ver en el siguiente gráfico de correlación

pacf(data$Fallecimientos.nuevos,na.action = na.pass,lag.max = 28)

Cambiando a autocorrelación parcial, no hay ningún valor que sea significativo, es decir, es una serie sin ninguna correlación, excepto de un día hacia el siguiente, que es positiva.

La correlación entre casos y el resto de los datos se muestra a continuación

ccf(data$Casos.nuevos,data$Fallecimientos.nuevos,na.action = na.pass,lag.max = 28)

ccf(data$Casos.nuevos,data$Altas.nuevas,na.action = na.pass,lag.max = 28)

Reconocimientos

Este fichero está generado a partir de los datos elaborados por Datadista y tiene una licencia libre. Se puede generar con nuevos datos usando el script en este repositorio.

Merelo, JJ. 2020. “Evolución Casos Covid19 En España.” LibreLabGRX. https://rpubs.com/jjmerelo/covid-19-es-evolucion.