Propósito. Esta publicación tiene como objetivo visualizar los datos reales y actualizados de la evaluación del coronavirus COVID-19, atendiendo a una interpretación y modelización estadística rigurosa y accesible para todos los públicos, y en especial para nuestro alumnado en la Universidad Miguel Hernández.

Toda la información a nivel mundial está actualizada a 10 de abril de 2020.

Principios básicos: datos absolutos o datos relativos.

Es importante remarcar, cuando presentamos información estadística, que podemos presentarla en cifras absolutas -mucho más impactantes- o en cifras relativas. La mayoría de la información que nos llega a través de los medios de comunicación viene expresada en cifras absolutas. Si estas cifras no las relativizamos teniendo en cuenta el tamaño de la población en la que se están produciendo, pueden resultar realmente alarmantes y en absoluto comparables entre poblaciones.

A modo de ejemplo, y sin hacer referencia siquiera al COVID-19, imagina que nos dicen que Madrid ha sufrido un problema tráfico que ha afectado a 50.000 personas que han quedado retenidas en la carretera durante 5 horas. En paralelo, se produjo una retención similar en cuanto a duración en Elche, y afectó sólo a la quinta parte de personas que en Madrid, esto es, a 10.000 personas. ¿Cuál fue más grave? Claramente, si atendemos a las cifras absolutas, la retención de Madrid afectó a muchas más personas, por lo que obviamente, tuvo mucha más repercusión en los medios. Sin embargo, si relativizamos por el tamaño de los municipios, que es lo lógico a hacer cuando queremos comparar la repercusión real que un evento ha tenido en municipios distintos, resulta que la retención de Madrid sólo la notaron un 0.75% de los habitantes de Madrid, pero en Elche afectó a un 4.3% de su población. (Fte consultada: INE-Población por provincias 2019. Tamaño de la población en el municipio de Madrid: 6.663.394; tamaño de la población en Elche: 232.517).

Algo similar nos pasa cuando pretendemos comparar el impacto del COVID en los diversos países a los que está afectando. Para obtener una buena comparación hemos de relativizar por su población, y compararlas respecto de una tasa común. Esto lo conseguimos dividiendo las cifras absolutas por el tamaño de la población y multiplicando por la tasa en la que queremos expresar la medida: por 100 si queremos una escala porcentual, por 100.000 si queremos contabilizar casos por cada 100.000 habitantes.

Cierto es que las cifras absolutas son necesarias para dimensionar los recursos necesarios. No es igual de grave tener que hospitalizar a un 2% de una población de 100 personas que a una de 1.000.000. En la primera estaríamos hablando de 2 camas de hospital; en la segunda de una necesidad de 20.000 camas adicionales. Estas cifras son las que se resuelven especialmente graves en las grandes ciudades como Madrid.

En los siguientes apartados encontrarás gráficos que vienen expresados en cifras absolutas y otros, útiles para comparar, que vienen expresados en tasas por cada 100.000 habitantes. Las poblaciones más afectadas son aquellas en las que estas tasas relativas son mayores, porque supondrá que han afectado a una mayor proporción de miembros de su población.

En Europa los países más afectados han sido los más pequeños. Echa un vistazo en la Tabla de cifras, a los datos de Luxemburgo, Andorra, San Marino,… y compáralos con los países que más repercusión tienen en los medios de comunicación.

Datos disponibles y fuentes

## 'data.frame':    950 obs. of  7 variables:
##  $ CCAA          : Factor w/ 19 levels "AN","AR","AS",..: 1 2 3 12 8 4 7 6 9 5 ...
##  $ FECHA         : Factor w/ 50 levels "1/3/2020","1/4/2020",..: 15 15 15 15 15 15 15 15 15 15 ...
##  $ CASOS         : int  NA NA NA 1 1 NA NA 0 NA NA ...
##  $ Hospitalizados: int  NA NA NA NA NA NA NA NA NA NA ...
##  $ UCI           : int  NA NA NA NA NA NA NA NA NA NA ...
##  $ Fallecidos    : int  NA NA NA NA NA NA NA NA NA NA ...
##  $ Recuperados   : int  NA NA NA NA NA NA NA NA NA NA ...

Los datos se obtienen de las siguientes fuentes:

Para la visualización hemos seleccionado los países más afectados (en números absolutos de casos" a fecha 12 de marzo de 2020. Distinguimos en los gráficos por un lado los cuatro países europeos más afectados: Italia, España, Francia y Alemania, y por otro los asiáticos: China, Corea del Sur, Irán y Japón. Esto no significa, como bien hemos comentado antes, que estos países sean los más afectados en términos relativos. Sí los que más casos de contagio han sufrido en términos absolutos.

¿Cómo ha evolucionado el número de casos nuevos de contagio?

Representamos los nuevos casos de contagio cada día, en términos absolutos (gráfico izquierdo) y relativos (gráfico derecho) respecto del tamaño de la población. Si bien la forma es casi similar, cuando miramos el eje vertical para leer las cifras, la diferencia entre el número de casos de contagio diarios por cada 100.000 habitantes (gráfico derecho) no es tan descomunal como leemos en el gráfico de la izquierda.

Observamos también el impacto al comparar los países asiáticos más afectados en cifras absolutas de contagios. Si bien China es el más afectado en cifras absolutas de los cuatro que aparecen en el gráfico izquierdo, ha sido Corea del Sur en la que se han dado más contagios diarios por cada 100.000 habitantes, seguida de Irán (gráfico derecho).

En estos países apreciamos, además, un efecto que no hemos observado todavía en los países europeos afectados de COVID-19: el descenso del número de contagios, que se empezó a notar en China a finales de febrero, y en Corea del Sur durante la primera semana de marzo.

¿Cómo ha evolucionado el número de contagios en cada país?

Calculamos y graficamos el número de casos de contagio acumulados hasta la fecha por cada 100.000 habitantes, en escala base y en escala logarítmica (para linealizar la tendencia exponencial). Se aprecia claramente en el gráfico, el desfase temporal de una aproximadamente una semana de cadencia entre España, Francia y Alemania respecto de Italia. También se aprecia una tendencia similar en el crecimiento de contagios en España a la que ha venido mostrando Suiza. El crecimiento en España y Suiza ha sido más severo (rápido) que en Italia, como se deriva de una pendiente mayor en la curva logarítmica (o más empimada en la exponencial).

Al representar los valores absolutos en los países asiáticos, el efecto poblacional de China es destacable. En el gráfico izquierdo aparecen las cifras absolutas de contagios; es espectacular la curva de China, muy por encima del resto. En el gráfico derecho se representan las cifras relativas de contagios por cada 100.000 habitantes. El impacto real sobre la población de Corea del Sur y de Irán ha sido considerablemente superior al de China, con más afectados por cada 100.000 habitantes (de hecho prácticamente tres veces más a mitad de marzo). Las cifras concretas las puedes consultar en la Tabla 1 que tienes más abajo.

¿Cómo ha evolucionado la cifra de muertos por COVID-19?

Calculamos y representamos el número de muertes acumuladas en cada país, relativizada por el tamaño de la población. Expresamos los datos en número de muertes por cada millón de habitantes.

Observamos en el gráfico de la izquierda, que Italia ha sufrido un crecimiento exponencial en el número de muertos por COVID, pero sin embargo, el número total de muertes ha sido, a mitad de marzo, de aproximadamente 20 por cada millón de habitantes. El resto de países europeos van muy por debajo (aproximadamente 2.5 en España), pero se empieza a apreciar en España la reproducción de la tendencia de crecimiento de Italia (la curva es similar, demorada en dos semanas).

En el gráfico de la derecha prescindimos de Italia con el fin de monitorizar y comparar mejor los países que iniciaron la pandemia en Europa más tarde. Claramente España va a la cabeza en el crecimiento de la cifra de fallecidos por COVID-19, pero se diferencia de Francia en algo menos de un fallecido más por cada millón de habitantes (a mitad de marzo).

En los países asiáticos claramente se aprecia en el gráfico, el efecto más mortífero del virus en Irán, respecto de China y Corea del Sur, pero manteniendo sin embargo cifras relativas inferiores a los países europeos.

Quiero cifras: ¿cómo es de contagiosa y letal la enfermedad?

Para investigar lo contagiosa y letal que es la enfermedad, utilizamos los siguientes indicadores para cada país:

Se aprecian tasas de mortalidad muy altas en países africanos, asociados posiblemente a tasas de detección muy bajas (no disponibilidad de tests diagnósticos) y por tanto mala contabilización de los contagiados.

Ahora, a modo de autoaprendizaje, te propongo un muy sencillo ejercicio.

Ordena la tabla mediante la columna Tasa contagio y responde tú mismo/a a las siguientes preguntas:

Después, si tienes curiosidad, localiza España (o cualquier otro país), y responde las mismas preguntas.

Ahora, ordena la tabla mediante la columna Tasa Muertes y responde tú mismo/a a las siguientes preguntas:

Después, si tienes curiosidad, localiza España (o cualquier otro país), y responde las mismas preguntas.

Mapas de contagio y mortalidad

En España, ¿cuál es la incidencia de la enfermedad por comunidad autónoma?

Destacan:

Mostramos a continuación en la Tabla 3 la información pública con los contagios y fallecimientos por COVID-19 en cada comunidad autónoma. Las columnas en dicha tabla contienen la siguiente información:

Ahora, a modo de autoaprendizaje, te propongo un muy sencillo ejercicio.

Ordena la tabla mediante la columna tasa.contagios y responde tú mismo/a a las siguientes preguntas:

Contesta a las mismas preguntas mirando la información publicada para tu comunidad autónoma o cualquier otra.

Modelización y predicción del número de contagios

A la vista de cómo se están produciendo los contagios, vamos a ajustar un modelo Poisson con los datos de contagios acumulados de los países que manifiestan una mayor incidencia de la enfermedad; utilizamos para ello los 10 países como mayor frecuencia relativa del número total de contagios. La justificación del modelo Poisson viene dada porque los datos son conteos, y este modelo es específico para conteos.

Habremos de utilizar para cada país los datos desde los que arranca la epidemia. Esto implica identificar el “día0” en cada uno de ellos, y lo hacemos considerando el día en el que en cada país superó una tasa de contagio acumulada (#diagnósticos/población) de 0.1. Este hecho está justificado porque una buena parte de los países demoraron las pruebas diagnósticas o los resultados, con lo cual desde que se da el primer caso transcurren bastantes días hasta que la enfermedad empieza a crecer.

Restringimos el análisis a continuación a los datos disponibles desde el día0 para cada país, incluyendo un referente de días transcurridos desde el día cero. Visualizamos a continuación los datos acumulados de casos diagnosticados, y los datos relativizados por cada 100.000 habitantes, que son los que realmente nos permiten comparar de modo objetivo las similitudes entre los países.

Para modelizar y predecir el avance de la epidemia en España vamos a utilizar todos estos países.

En segundo lugar estudiamos el efecto temporal sobre la serie de los casos acumulados, y advertimos, a la vista del gráfico de autocorrelaciones y autocorrelaciones parciales (solamente visualizado para el caso de España), la existencia de un efecto autorregresivo de orden uno, que habremos de incorporar al modelo para vincular todas las observaciones con las del día anterior. Este hecho se advierte en unas colas prolongadas en el gráfico de autocorrelaciones (ACF) y un corte de paso 1 en el gráfico de autocorrelaciones parciales (PACF).

Modelización 1 con todos los países en crecimiento

Ajustamos, a continuación un modelo Bayesiano de Poisson para predecir la tasa de crecimiento de los contagios en cada país, teniendo en cuenta la población como offset, el país como efecto fijo (en cada país la curva de crecimiento es distinta), y un efecto aleatorio autorregresivo de orden uno para incluir el efecto del tiempo.

La verosimilitud para las tasas de diagnósticos de COVID19 (casos) respecto del tamaño de la población (pop) \(y_{ij}=casos_{ij}/pop_{ij}\) del \(pais_i\) transcurridos \(dia_j\) días desde el día cero, viene dada por: \[ y_{ij} \sim Po(\lambda_{ij})\] y el predictor lineal viene definido en función del país (efecto fijo) y un efecto aleatorio autorregresivo de orden 1 y con covariable la media móvil de los casos nuevos de los últimos días, para interpretar la evolución con el paso de los días desde el día cero: \[log(\lambda_{ij}) \sim 1 + pais_i + f(dia_j,model="ar1")\] El efecto aleatorio autorregresivo de orden 1 asume que los datos totales de diagnosticados de un día dependen de los que se registraron el día anterior: \[ x_1 \sim N(0,1/(\tau(1-\rho^2))), \ \ x_j = \rho x_{j-1}+\epsilon_j, \ \ \epsilon_j \sim N(0,1/\tau)\]

Utilizamos la librería INLA para realizar el ajuste, y obtenemos el ajuste que representamos a continuación.

La estimación del modelo resulta razonablemente buena a la vista de cómo capta la tendencia en cada uno de los países:

Modelización 2 con todos los países en crecimiento

Inspeccionamos más profundamente los datos con el fin de proponer otra modelización alternativa o más sofisticada que capte y adapte mejor (si es posible) la tendencia que muestran los datos durante los últimos días. Para ello visualizamos las variables relativas a casos nuevos, su media móvil durante la última semana, los fallecimientos, las hospitalizaciones, y las recuperaciones sólo en España.

A través del gráfico de medias móviles de los casos nuevos que se han producido durante los últimos 7 días, apreciamos la reducción paulatina de la infección vírica, por lo que podríamos intentar introducir esta variable, con la finalidad de intentar una mejor adaptación del ajuste, no sólo basada en el día anterior, sino también en el promedio de lo que ha estado ocurriendo la última semana. Al no disponer en la BD de la ERCR de información sobre hospitalizaciones y recuperaciones, sólo podemos ajustar modelos utilizando casos y fallecimientos.

Ajustamos un segundo modelo introduciendo como covariable las medias móviles de los nuevos casos producidos durante los últimos 7 días. \[log(\lambda_{ij}) \sim 1 + pais_i + \theta_i \cdot z_{ij}+ f(dia_j,model="ar1"),\] con \(z_{ij}\) la media móvil del logaritmo de los nuevos casos durante los 7 días previos al día \(j\) en para el país \(i\), y \(\theta_i\) una pendiente (efecto) diferente de esta variable para cada país. Si bien esta variable va asociada al tiempo, en una primera aproximación la introducimos como covariable, alejada (en términos de correlación) del efecto aleatorio autorregresivo por el modo de calcularla -a través de un promedio de 7 días anteriores de los casos nuevos que se han producido. La predicción con este modelo la realizamos bajo un escenario totalmente conservador referido a que la media móvil en los próximos días es similar a la computada el último día en que se dispone de datos reales.

Predicciones

Y por último predecimos el comportamiento para los próximos días en función del modelo ajustado, mostrando la comparativa con los datos existentes de los últimos días.

Para predecir con el modelo 2, puesto que precisamos fijar cuál va a ser la evolución en el número de nuevos casos, con el fin de capturar la tendencia de los últimos días, asumimos que entre el último día para el que se disponía de información y el último día para el que es plausible predecir (dado por el desfase que lleva la enfermedad en Italia), se va produciendo un descenso del número de casos similar al que se ha producido en los últimos tres días (promediado). Así, si en los últimos tres días el número de casos ha descendido, consideraremos que en la semana siguiente seguirá reduciéndose al mismo ritmo; si ha crecido, el modelo asumirá que la semana siguiente seguirá aumentando al mismo ritmo.

Para leer la tabla a continuación es importante considerar que el número de casos confirmados durante el día D son los que se hacen públicos el día D+1. Observamos que la predicción que proporcionan ambos modelos podría interpretarse como un rango de variación plausible para la predicción del número de casos totales.

Conclusiones

Espero que hayas aprendido a interpretar con objetividad los datos estadísticos. Estamos recibiendo mucha información y no todo lo que llega es correcto ni proporciona una visión real de lo que está sucediendo con la pandemia por el coronavirus COVID-19.

Las cifras mostradas en este informe no pretenden en absoluto quitar relevancia a la pandemia, pero sí aclarar la diferencia entre datos absolutos y datos relativos, remarcar la utilidad de estos últimos para comparar distintos países o comunidades autónomas, así como mostrar el efecto de zonificación que está regulando esta pandemia.

Hemos pretendido incluir la modelización y la predicción estadística, para intentar preveer con antelación lo que ocurrirá en los próximos días. La variabilidad que se produce hace complicado obtener predicciones precisas. No obstante, los modelos que estamos considerando no se desvían excesivamente de los datos que se han venido sucediendo en España.

Otros países como China y Corea del Sur, han conseguido retener los contagios y aminorarlos para acabar con la epidemia. Sólo las medidas sanitarias y políticas de contención han conseguido este hecho. Estas medidas son diferentes a las que se han aplicado en Europa y en consecuencia han provocado efectos distintos a los que se están produciendo en Europa, actualmente con una epidemia en ascenso y sin control.

Si asumimos con responsabilidad la extensión de la pandemia y acatamos las restricciones impuestas en el contacto con otros ciudadanos y las medidas sanitarias, evitaremos que el crecimiento continúe creciendo.