Datos Estadísticos sobre el COVID-19 en España

A continuación les presentaremos los datos estadísticos sobre el avance del COVID-19 en España, los cuales nos enfocaremos en: Número de Contagiados, Número de Fallecidos, Número de Hospitalizados.

Investigación sobre el conjunto de datos seleccionados Los datos publicados proceden de la declaración individualizada de casos COVID-19 a la Red Nacional de Vigilancia Epidemiológica (RENAVE) a través de la aplicación informática SiViEs y se están actualizando de forma continua. Además de que pueden contener errores, hay un retraso al ir añadiendo los nuevos casos en las fechas de diagnóstico casos.RData: Número de casos, hospitalizaciones, ingresos en UCI y defunciones por sexo, edad, provincia de residencia y fecha de diagnóstico (nuevos casos).

casos_ccaa.RData: Número de casos, hospitalizaciones, ingresos en UCI y defunciones por sexo, edad, CCAA y fecha de diagnóstico (nuevos casos), incluyendo los totales por sexo, edad y CCAA (España).

acumulados.RData: Evolución de los valores acumulados por CCAA y para el total de España (formato adecuado para el proyecto Predicción Cooperativa).

En COVID-19-tablas.html se pueden consultar tablas con los datos actuales por CCAA (informe generado automáticamente a partir de COVID-19-tablas.Rmd).

El archivo COVID-19-actualizar.R contiene el código necesario para descargar e importar los datos a R.

En el directorio acumula2_hist2 se están almacenando un histórico de los datos publicados el ISCIII (reportados por las CCAA). Puede ser de utilidad para estudiar como se van consolidando los datos de la serie. Por ejemplo se incluye un informe con la evolución de los datos reportados por las distintas CCAA. Es muy triste constatar que después de tanto tiempo todavía siguen los problemas (algunas CCAA están tardando más de 6 semanas en consolidar los datos…).

Además de haber utilizado el programa RStudio para almacenar archivos RData y Rmd.

Hallazgos -Al utilizar esta base de datos en la cual es muy específica, pero tuve que simplificar los datos basandonos en importantes fechas, las cuales son el comienzo y final de la cuarentena en España, luego de crear enormes tabla de datos. -Los datos estaban un poco desordenados, los cuales ordene a mi beneficio para facilitar el uso de tablas csv.

Datos Catalogado por Provincias En esta sección nos enfocaremos en el nÚmero de casos al principio (15 de Marzo), final (21 de Junio) de la cuarentena decretada por el Gobierno de España en el año 2020. Los siguentes datos se obtuvieron de la base de datos oficiales de la OMS en España, la cual fue realizada por Instituto de Salud Carlos III.

Comienzo de la cuarentena (15-Marzo-2020)

datosMarzo

##    provincia_iso      fecha num_casos prueba_pcr num_hosp num_def
## 1              A 15/03/2020       189        184       31       3
## 2             AB 15/03/2020       180        172       27       5
## 3             AL 15/03/2020        20         19        2       0
## 4             AV 15/03/2020        25         25        4       0
## 5              B 15/03/2020      1206       1159      173       7
## 6             BA 15/03/2020        20         20        2       0
## 7             BI 15/03/2020       216        213       21       2
## 8             BU 15/03/2020        63         63        9       0
## 9              C 15/03/2020       113        113        9       0
## 10            CA 15/03/2020        54         53        3       0
## 11            CC 15/03/2020        42         42        5       1
## 12            CE 15/03/2020         1          1        0       0
## 13            CO 15/03/2020        34         34        7       0
## 14            CR 15/03/2020       275        259       35       4
## 15            CS 15/03/2020        53         52        3       0
## 16            CU 15/03/2020        92         71       22       0
## 17            GC 15/03/2020        40         39        3       0
## 18            GI 15/03/2020        84         82        8       0
## 19            GR 15/03/2020        88         88        8       0
## 20            GU 15/03/2020        60         57       12       0
## 21             H 15/03/2020        10         10        0       0
## 22            HU 15/03/2020        16         16        2       0
## 23             J 15/03/2020        28         27        6       0
## 24             L 15/03/2020        36         36        0       0
## 25            LE 15/03/2020        54         52        9       1
## 26            LO 15/03/2020       111        110       13       1
## 27            LU 15/03/2020        27         27        0       0
## 28             M 15/03/2020      2739       2739      699      79
## 29            MA 15/03/2020       113        113       22       3
## 30            ME 15/03/2020         3          3        0       0
## 31            MU 15/03/2020        75         71        5       0
## 32          <NA> 15/03/2020       167        166       32       1
## 33            NC 15/03/2020       139        138       13       0
## 34             O 15/03/2020        89         89        5       0
## 35            OR 15/03/2020        57         57        2       0
## 36             P 15/03/2020        27         27        2       0
## 37            PM 15/03/2020        83         83        6       0
## 38            PO 15/03/2020        76         76        3       1
## 39             S 15/03/2020        68         68        2       0
## 40            SA 15/03/2020        78         78        8       1
## 41            SE 15/03/2020        68         67       16       1
## 42            SG 15/03/2020        88         87       10       2
## 43            SO 15/03/2020        52         48        6       0
## 44            SS 15/03/2020        77         76        5       2
## 45             T 15/03/2020        37         35        7       0
## 46            TE 15/03/2020        10         10        4       0
## 47            TF 15/03/2020        57         56        8       1
## 48            TO 15/03/2020       139        130       31       4
## 49             V 15/03/2020       240        234       27       1
## 50            VA 15/03/2020        79         78       12       0
## 51            VI 15/03/2020       133        133       17      10
## 52             Z 15/03/2020       102        102       14       1
## 53            ZA 15/03/2020        15         13        6       0

Final de la cuarentena (21-Junio-2020)

datosJunio

##    provincia_iso      fecha num_casos prueba_pcr num_hosp num_def
## 1              A 21/06/2020         3          3        0       1
## 2             AB 21/06/2020         0          0        0       0
## 3             AL 21/06/2020         1          1        0       0
## 4             AV 21/06/2020         2          2        1       0
## 5              B 21/06/2020        38         37        1       0
## 6             BA 21/06/2020         1          1        0       0
## 7             BI 21/06/2020         6          2        0       0
## 8             BU 21/06/2020         0          0        2       2
## 9              C 21/06/2020         3          3        0       0
## 10            CA 21/06/2020         0          0        0       1
## 11            CC 21/06/2020         4          4        0       0
## 12            CE 21/06/2020         0          0        0       0
## 13            CO 21/06/2020         0          0        0       0
## 14            CR 21/06/2020         9          8        0       0
## 15            CS 21/06/2020         1          1        0       0
## 16            CU 21/06/2020         0          0        0       0
## 17            GC 21/06/2020         2          2        0       0
## 18            GI 21/06/2020        10         10        1       0
## 19            GR 21/06/2020         3          3        2       0
## 20            GU 21/06/2020         2          2        0       0
## 21             H 21/06/2020         0          0        0       0
## 22            HU 21/06/2020        27         27        0       0
## 23             J 21/06/2020         2          2        0       0
## 24             L 21/06/2020        38         38        2       0
## 25            LE 21/06/2020         0          0        0       0
## 26            LO 21/06/2020         0          0        0       0
## 27            LU 21/06/2020         3          3        0       0
## 28             M 21/06/2020        30         29        3       5
## 29            MA 21/06/2020         4          4        0       0
## 30            ME 21/06/2020         2          2        0       0
## 31            MU 21/06/2020         5          5        0       0
## 32          <NA> 21/06/2020        15         15        1       0
## 33            NC 21/06/2020         1          1        0       0
## 34             O 21/06/2020         0          0        0       1
## 35            OR 21/06/2020         0          0        0       0
## 36             P 21/06/2020         1          1        0       0
## 37            PM 21/06/2020         2          2        0       0
## 38            PO 21/06/2020         0          0        1       0
## 39             S 21/06/2020         2          2        0       0
## 40            SA 21/06/2020         0          0        0       0
## 41            SE 21/06/2020         0          0        1       0
## 42            SG 21/06/2020         0          0        0       0
## 43            SO 21/06/2020         0          0        0       1
## 44            SS 21/06/2020         4          2        0       0
## 45             T 21/06/2020         0          0        0       1
## 46            TE 21/06/2020         1          1        0       0
## 47            TF 21/06/2020         0          0        0       0
## 48            TO 21/06/2020         3          2        0       0
## 49             V 21/06/2020         6          6        1       0
## 50            VA 21/06/2020         3          3        1       3
## 51            VI 21/06/2020         5          2        0       0
## 52             Z 21/06/2020         9          8        0       0
## 53            ZA 21/06/2020         0          0        1       0

Estadística descriptiva univariante

Número de Casos Contagiados

Los siguientes gráficos representan el número de Contagiados que hubo el 15 de Marzo de 2020, el cual se observó:

En el cual el número de Contagiados se centra principalmente en el rango de (0 a 500). Y donde el Diagrama de Caja tiene una Mediana \((M)\) y Cuatiles (25%, 50% y 75%) \((Q)\) de :

median(contagiadosMarzo)

## [1] 68

quantile(contagiadosMarzo, probs=c(0.25, 0.5, 0.75))

## 25% 50% 75% 
##  36  68 111

Además, el Coeficiente de Curtois \((Kurt[X])\) y Coeficiente de Asimetría o Sesgo \((g)\)

kurtosi(contagiadosMarzo)

## [1] 31.47637

skew(contagiadosMarzo)

## [1] 5.503214

Con una Media Arimética \((X̅)\) y Desviación Estándar \((S^2)\) de, respectivamente:

mean(contagiadosMarzo)

## [1] 149.9623

sd(contagiadosMarzo)

## [1] 398.7195

Tabla de Datos Agrupado del número de Contagios el 15-Marzo

datosAgrupadosContagiosMarzo

##         clase  f  F     f.n     F.n
## 1    [0, 913) 51 51 0.96226 0.96226
## 2 [913, 1826)  1 52 0.01887 0.98113
## 3     [1826+)  1 53 0.01887 1.00000

Ahora, los siguientes graficos representan el número de Contagiados que hubo el 21 de Junio de 2020, el cual se observó:

En cambio, en los otros gráficos se concetra mas en un range de (0 a 10). Esto se debe a que disminuyo el número de Contagiados en España.

En el cual el número de Contagiados se centra principalmente en el rango de (0 a 40). Y donde el Diagrama de Caja tiene una Mediana \((M)\) y Cuatiles (25%, 50% y 75%) \((Q)\) de :

median(contagiadosJunio)

## [1] 2

quantile(contagiadosJunio, probs=c(0.25, 0.5, 0.75))

## 25% 50% 75% 
##   0   2   4

Además, el Coeficiente de Curtois \((Kurt[X])\) y Coeficiente de Asimetría o Sesgo \((g)\)

kurtosi(contagiadosJunio)

## [1] 6.547554

skew(contagiadosJunio)

## [1] 2.70291

Con una Media Arimética \((X̅)\) y Desviación Estándar \((S^2)\) de, respectivamente:

mean(contagiadosJunio)

## [1] 4.679245

sd(contagiadosJunio)

## [1] 8.881211

Tabla de Datos Agrupado del número de Contagios el 21-Junio

datosAgrupadosContagiosJunio

##      clase  f  F     f.n     F.n
## 1   [0, 5) 41 41 0.77358 0.77358
## 2  [5, 10)  6 47 0.11321 0.88679
## 3 [10, 15)  1 48 0.01887 0.90566
## 4 [15, 20)  1 49 0.01887 0.92453
## 5    [20+)  4 53 0.07547 1.00000

Número de Pruebas PCR

Los siguientes gráficos representan el número de Pruebas PCR que hubo el 15 de Marzo de 2020, el cual se observó:

En el cual el número de Pruebas PCR se centra principalmente en el rango de (0 a 500). Y donde el Diagrama de Caja tiene una Mediana \((M)\) y Cuatiles (25%, 50% y 75%) \((Q)\) de, respectivamente: :

median(pruebasPCRMarzo)

## [1] 68

quantile(pruebasPCRMarzo, probs=c(0.25, 0.5, 0.75))

## 25% 50% 75% 
##  35  68 110

Además, el Coeficiente de Curtois \((Kurt[X])\) y Coeficiente de Asimetría o Sesgo \((g)\) de, respectivamente:

kurtosi(pruebasPCRMarzo)

## [1] 32.27757

skew(pruebasPCRMarzo)

## [1] 5.573606

Con una Media Arimética \((X̅)\) y Desviación Estándar \((S^2)\) de, respectivamente:

mean(pruebasPCRMarzo)

## [1] 147.1887

sd(pruebasPCRMarzo)

## [1] 396.4292

Tabla de Datos Agrupado de las pruebas PCR el 15-Marzo

datosAgrupadosPCRMarzo

##       clase  f  F     f.n     F.n
## 1   (0-145) 45 45 0.84906 0.84906
## 2 (146-291)  6 51 0.11321 0.96226
## 3    (292+)  2 53 0.03774 1.00000

Ahora, los siguientes graficos representan el número de Pruebas PCR que hubo el 21 de Junio de 2020, el cual se observó:

En cambio, en los otros gráficos se concetra mas en un rangO de (0 a 5). Esto se debe a que disminuyo el número de Pruebas PCR confirmadas en España.

En el cual el número de Pruebas PCR se centra principalmente en el rango de (0 a 40). Y donde el Diagrama de Caja tiene una Mediana \((M)\) y Cuatiles (25%, 50% y 75%) \((Q)\) de, respectivamente:

median(pruebasPCRJunio)

## [1] 2

quantile(pruebasPCRJunio, probs=c(0.25, 0.5, 0.75))

## 25% 50% 75% 
##   0   2   3

Además, el Coeficiente de Curtois \((Kurt[X])\) y Coeficiente de Asimetría o Sesgo \((g)\) de, respectivamente:

kurtosi(pruebasPCRJunio)

## [1] 6.761777

skew(pruebasPCRJunio)

## [1] 2.757782

Con una Media Arimética \((X̅)\) y Desviación Estándar \((S^2)\) de, respectivamente:

mean(pruebasPCRJunio)

## [1] 4.415094

sd(pruebasPCRJunio)

## [1] 8.760563

Tabla de Datos Agrupado de las pruebas PCR el 21-Junio

datosAgrupadosPCRJunio

##      clase  f  F     f.n     F.n
## 1   [0, 5) 43 43 0.81132 0.81132
## 2  [5, 10)  4 47 0.07547 0.88679
## 3 [10, 15)  1 48 0.01887 0.90566
## 4 [15, 20)  1 49 0.01887 0.92453
## 5    [20+)  4 53 0.07547 1.00000

Número de Hospitalizados

Los siguientes gráficos representan el número de Hospitalizados que hubo el 15 de Marzo de 2020, el cual se observó:

En el cual el número de Hospitalizados se centra principalmente en el rango de (0 a 100). Y donde el Diagrama de Caja tiene una Mediana \((M)\) y Cuatiles (25%, 50% y 75%) \((Q)\) de, respectivamente: :

median(hospitalizadosMarzo)

## [1] 7

quantile(hospitalizadosMarzo, probs=c(0.25, 0.5, 0.75))

## 25% 50% 75% 
##   3   7  14

Además, el Coeficiente de Curtois \((Kurt[X])\) y Coeficiente de Asimetría o Sesgo \((g)\) de, respectivamente:

kurtosi(hospitalizadosMarzo)

## [1] 40.30457

skew(hospitalizadosMarzo)

## [1] 6.303058

Con una Media Arimética \((X̅)\) y Desviación Estándar \((S^2)\) de, respectivamente:

mean(hospitalizadosMarzo)

## [1] 25.96226

sd(hospitalizadosMarzo)

## [1] 97.29455

Tabla de Datos Agrupado de los Hospitalizados el 15-Marzo

datosAgrupadosHospitalizadosMarzo

##      clase  f  F     f.n     F.n
## 1   [0,10] 35 35 0.66038 0.66038
## 2 (10, 21]  8 43 0.15094 0.81132
## 3    (21+) 10 53 0.18868 1.00000

Ahora, los siguientes graficos representan el número de Hospitalizados que hubo el 21 de Junio de 2020, el cual se observó:

En cambio, en los otros gráficos se concetra mas en un rangO de (0 a 1). Esto se debe a que disminuyo el número de Hospitalizados en España.

En el cual el número de Hospitalizados se centra principalmente en el rango de (0 a 1). Y donde el Diagrama de Caja tiene una Mediana \((M)\) y Cuatiles (25%, 50% y 75%) \((Q)\) de, respectivamente:

median(pruebasPCRJunio)

## [1] 2

quantile(pruebasPCRJunio, probs=c(0.25, 0.5, 0.75))

## 25% 50% 75% 
##   0   2   3

Además, el Coeficiente de Curtois \((Kurt[X])\) y Coeficiente de Asimetría o Sesgo \((g)\) de, respectivamente:

kurtosi(pruebasPCRJunio)

## [1] 6.761777

skew(pruebasPCRJunio)

## [1] 2.757782

Con una Media Arimética \((X̅)\) y Desviación Estándar \((S^2)\) de, respectivamente:

mean(pruebasPCRJunio)

## [1] 4.415094

sd(pruebasPCRJunio)

## [1] 8.760563

Tabla de Datos Agrupado de los Hospitalizados el 21-Junio

datosAgrupadosHospitalizadosJunio

##    clase  f  F     f.n     F.n
## 1 [0, 1) 40 40 0.75472 0.75472
## 2 [1, 2)  9 49 0.16981 0.92453
## 3   [2+)  4 53 0.07547 1.00000

Número de Fallecidos

Los siguientes gráficos representan el número de Fallecidos que hubo el 15 de Marzo de 2020, el cual se observó:

En el cual el número de Fallecidos se centra principalmente en el rango de (0 a 10). Y donde el Diagrama de Caja tiene una Mediana \((M)\) y Cuatiles (25%, 50% y 75%) \((Q)\) de, respectivamente: :

median(fallecidosMarzo)

## [1] 0

quantile(fallecidosMarzo, probs=c(0.25, 0.5, 0.75))

## 25% 50% 75% 
##   0   0   1

Además, el Coeficiente de Curtois \((Kurt[X])\) y Coeficiente de Asimetría o Sesgo \((g)\) de, respectivamente:

kurtosi(fallecidosMarzo)

## [1] 43.07527

skew(fallecidosMarzo)

## [1] 6.554085

Con una Media Arimética \((X̅)\) y Desviación Estándar \((S^2)\) de, respectivamente:

mean(fallecidosMarzo)

## [1] 2.471698

sd(fallecidosMarzo)

## [1] 10.88684

Tabla de Datos Agrupado de Fallecidos el 15-Marzo

datosAgrupadosFallecidosMarzo

##     clase  f  F      f.n      F.n
## 1 [0, 10] 52 52 0.981132 0.981132
## 2   (10+)  1 53 0.018868 1.000000

Ahora, los siguientes graficos representan el número de Fallecidos que hubo el 21 de Junio de 2020, el cual se observó:

En cambio, en los otros gráficos se concetra mas en un rangO de (0 a 1). Esto se debe a que disminuyo el número de Fallecidos en España.

En el cual el número de Fallecidos se centra principalmente en el rango de (0 a 1). Y donde el Diagrama de Caja tiene una Mediana \((M)\) y Cuatiles (25%, 50% y 75%) \((Q)\) de, respectivamente:

median(fallecidosJunio)

## [1] 0

quantile(fallecidosJunio, probs=c(0.25, 0.5, 0.75))

## 25% 50% 75% 
##   0   0   0

Además, el Coeficiente de Curtois \((Kurt[X])\) y Coeficiente de Asimetría o Sesgo \((g)\) de, respectivamente:

kurtosi(fallecidosJunio)

## [1] 16.0176

skew(fallecidosJunio)

## [1] 3.838491

Con una Media Arimética \((X̅)\) y Desviación Estándar \((S^2)\) de, respectivamente:

mean(fallecidosJunio)

## [1] 0.2830189

sd(fallecidosJunio)

## [1] 0.8632978

Tabla de Datos Agrupado de Fallecidos el 21-Junio

datosAgrupadosFallecidosJunio

##    clase  f  F    f.n    F.n
## 1 [0, 1) 45 45 0.8491 0.8491
## 2 [1, 2)  5 50 0.0943 0.9434
## 3 [2, 3)  1 51 0.0189 0.9623
## 4   [3+)  2 53 0.0377 1.0000

Ahora veremos unos dos gráficos, enfocados en el número de Contagiados por Provincia y el número de Hospitalizados por Género en España, de las fechas ya mencioadas:

Número de Contagiados por Provincia

Comienzo de la cuarentena (15-Marzo-2020)

table(datos$num_casosMarzoP)

## 
##    A   AB   AL   AV    B   BA   BI   BU    C   CA   CC   CE   CO   CR   CS   CU 
##  189  180   20   25 1206   20  216   63  113   54   42    1   34  275   53   92 
##   GC   GI   GR   GU    H   HU    J    L   LE   LO   LU    M   MA   ME   MU   NC 
##   40   84   88   60   10   16   28   36   54  111   27 2739  113    3   75  139 
##    O   OR    P   PM   PO    S   SA   SE   SG   SO   SS    T   TE   TF   TO    V 
##   89   57   27   83   76   68   78   68   88   52   77   37   10   57  139  240 
##   VA   VI    Z   ZA 
##   79  133  102   15

barplot(table(datos$num_casosMarzoP), xlab='Provincias', ylab = 'Frecuencia', main = 'Número de Contagiados por Provincia')

pie(table(datos$num_casosMarzoP),clockwise=TRUE, main='Diagrama Circular del Número de Contagiados por Provincia')

Mediante este Diagrama Circular, nos podemos dar cuenta que la provinicia M, Madrid, seguido por la provincia B, Barcelona. Final de la cuarentena (21-Junio-2020)

table(datos$num_casosJunioP, exclude = '')

## 
##    A   AL   AV    B   BA   BI    C   CC   CR   CS   GC   GI   GR   GU   HU    J 
##    3    1    2   38    1    6    3    4    9    1    2   10    3    2   27    2 
##    L   LU    M   MA   ME   MU   NC    P   PM    S   SS   TE   TO    V   VA   VI 
##   38    3   30    4    2    5    1    1    2    2    4    1    3    6    3    5 
##    Z <NA> 
##    9   15

barplot(table(datos$num_casosJunioP, exclude = ''), xlab='Provincias', ylab = 'Frecuencia', main = 'Número de Contagiados por Provincia')

pie(table(datos$num_casosJunioP, exclude = ''),clockwise=TRUE, main='Diagrama Circular del Número de Contagiados por Provincia')

Mediante este Diagrama Circular, nos podemos dar cuenta que aumento el número de contagios en España, dado que el Virus COVID-19 avanzó.

Número de Hospitalizados por Género

Comienzo de la cuarentena (15-Marzo-2020)

table(datos$sexoMarzo, exclude = '')

## 
##   H   M  NC 
## 209 152   3

barplot(table(datos$sexoMarzo, exclude = ''), xlab='Género', ylab = 'Frecuencia', main = 'Número de Hospitalizados por Género')

pie(table(datos$sexoMarzo, exclude = ''),clockwise=TRUE, main='Diagrama Circular del Número de Hospitalizados por Género')

Al comienzo de la cuarentena había datos estadísticos que respaldan que las mujeres fueron las mas contagiadas.

Final de la cuarentena (21-Junio-2020)

table(datos$sexoJunio, exclude = '')

## 
## H M 
## 4 1

barplot(table(datos$sexoJunio, exclude = ''), xlab='Género', ylab = 'Frecuencia', main = 'Número de Hospitalizados por Género')

pie(table(datos$sexoJunio, exclude = ''),clockwise=TRUE, main='Diagrama Circular del Número de Hospitalizados por Género')

En cambio, al final de la cuarentena fue totalmente diferente.

Estadística descriptiva bivariante o multivariante

Diagrama de Cajas El diagrama de caja es un gráfico utilizado para representar una variable cuantitativa (variable numérica). El gráfico es una herramienta que permite visualizar, a través de los cuartiles, cómo es la distribución, su grado de asimetría, los valores extremos, la posición de la mediana, etc. Se compone de:

Un rectángulo (caja) delimitado por el primer y tercer cuartil (\(Q1\) y \(Q3\)). Dentro de la caja una línea indica dónde se encuentra la mediana (segundo cuartil \(Q2\)) Dos brazos, uno que empieza en el primer cuartil y acaba en el mínimo, y otro que empieza en el tercer cuartil y acaba en el máximo. Los datos atípicos (o valores extremos) que son los valores distintos que no cumplen ciertos requisitos de heterogeneidad de los datos. Segmentado por Provincias ### Contagiados por Provincias Comienzo de la cuarentena (15-Marzo-2020)

boxplot(datos$num_casos ~ datos$num_casosMarzoP, , horizontal =TRUE, ylim= c(0, 200), border='red', col='white')

Final de la cuarentena (21-Junio-2020)

boxplot(datos$num_casos ~ datos$num_casosJunioP, , horizontal =TRUE, ylim= c(0, 200), border='blue', col='white')

PruebasPCR por Provincias

Comienzo de la cuarentena (15-Marzo-2020)

boxplot(datos$num_casos ~ datos$num_casosMarzoP, , horizontal =TRUE, ylim= c(0, 200), border='red', col='white', xlab='Contagiados', ylab = 'Provincias')

Final de la cuarentena (21-Junio-2020)

boxplot(datos$num_casos ~ datos$num_casosJunioP, , horizontal =TRUE, ylim= c(0, 200), border='blue', col='white', xlab='Contagiados', ylab = 'Provincias')

Hospitalizados por Provincias

Comienzo de la cuarentena (15-Marzo-2020)

boxplot(datos$num_hosp ~ datos$num_casosMarzoP, , horizontal =TRUE, ylim= c(0, 40), border='red', col='white', xlab='Hospitalizados', ylab = 'Provincias')

Final de la cuarentena (21-Junio-2020)

boxplot(datos$num_hosp ~ datos$num_casosJunioP, , horizontal =TRUE, ylim= c(0, 40), border='blue', col='white', xlab='Hospitalizados', ylab = 'Provincias')

Fallecidos por Provincias

Comienzo de la cuarentena (15-Marzo-2020)

boxplot(datos$num_def ~ datos$num_casosMarzoP, , horizontal =TRUE, ylim= c(0, 10), border='red', col='white', xlab='Fallecidos', ylab = 'Provincias')

Final de la cuarentena (21-Junio-2020)

boxplot(datos$num_def ~ datos$num_casosJunioP, , horizontal =TRUE, ylim= c(0, 8), border='blue', col='white', xlab='Fallecidos', ylab = 'Provincias')

Matriz de Correlación y Covarianzas

Matriz de Correlación Es una tabla de doble entrada para A, B, C,.. , que muestra una lista multivariable horizontalmente y la misma lista verticalmente y con el correspondiente coeficiente de correlación llamado r o la relación entre cada pareja en cada celda, expresada con un número que va desde 0 a 1. El modelo mide y muestra la interdependencia en relaciones asociadas o entre cada pareja de variables y todas al mismo tiempo.

datMatriz=matrix(c(datos$num_casos,datos$prueba_pcr,datos$num_hosp,datos$num_def), nrow = 4, ncol = 4)
matriz=data.frame(datMatriz)
matrizCorrelacion = data.frame(cor(matriz,method = "spearman"))
matrizCorrelacion

##      X1   X2   X3   X4
## X1  1.0  0.2  0.8 -0.2
## X2  0.2  1.0  0.4 -1.0
## X3  0.8  0.4  1.0 -0.4
## X4 -0.2 -1.0 -0.4  1.0

Matriz de Covarianzas Es una matriz cuadrada de dimensión nxm que recoge las varianzas en la diagonal principal y las covarianzas en los elementos de fuera de la diagonal principal.

En otras palabras, la matriz varianza-covarianza es una matriz que tiene el mismo número de filas y columnas y que tiene distribuidas las varianzas en la diagonal principal y las covarianzas en los elementos fuera de la diagonal principal.

matrizCovarianzas = data.frame(cov(matriz,method="kendall"))
matrizCovarianzas

##    X1  X2 X3  X4
## X1 12   0  8   0
## X2  0  12  4 -12
## X3  8   4 12  -4
## X4  0 -12 -4  12

Matriz Gráfica de Correlación

corr = round(cor(matriz, method = "spearman"), 2)
corrplot(corr, method = "shade", shade.col = NA, tl.col = "black",
 tl.srt = 53, addCoef.col = "Black")

Matriz de Diagramas de Disperción Una matriz de gráficos de dispersión es una cuadrícula de varios gráficos de dispersión de hasta cinco variables numéricas. La matriz incluye gráficos de dispersión individuales para cualquier combinación de variables.

Las matrices de gráficos de dispersión permiten responder a preguntas sobre sus datos, por ejemplo: ¿qué relaciones existen entre varias variables?

pairs(~num_casos+prueba_pcr+num_hosp+num_def,data=datos, main='Matriz de Diagramas de Disperción')

Estadística inferencial

Pruebas de Hípotesis

Otra manera de hacer inferencia es haciendo una afirmación acerca del valor que el parámetro de la población bajo estudio puede tomar. Esta afirmación puede estar basada en alguna creencia o experiencia pasada que será contrastada con la evidencia que nosotros obtengamos a través de la información contenida en la muestra. Esto es a lo que llamamos: Prueba de Hipótesis Una prueba de hipótesis comprende cuatro componentes principales: -Hipótesis Nula, denotada como \(Ho\) siempre especifica un solo valor del parámetro de la población si la hipótesis es simple o un conjunto de valores si es compuesta (es lo que queremos desacreditar). \(Ho :µ = µ0\) \(Ho :µ ≤ µ0\) \(Ho :µ ≥ µ0\) -Hipótesis Alternativa, denotada como H1 es la que responde nuestra pregunta, la que se establece en base a la evidencia que tenemos. Puede tener cuatro formas: \(H1 :µ ≠ µ0\) \(H1 :µ = µ0\) \(H1 :µ ≤ µ0\) \(H1 :µ ≥ µ0\) -Estadística de Prueba es una estadística que se deriva del estimador puntual del parámetro que estemos probando y en ella basamos nuestra decisión acerca de si rechazar o no rechazar la Hipótesis Nula -Región de Rechazo es el conjunto de valores tales que si la prueba estadística cae dentro de este rango, decidimos rechazar la Hipótesis Nula.

Prueba de hipótesis para la media \(μ\) de una población normal de grandes muestras Comienzo de la cuarentena (15-Marzo-2020) Tomamos como datos númericos a el Número de Contagiados en el inicio de la cuarentena, y como hipótesis alterna \(≠\) a la media, tomando como referencia a \(140\), y el nivel de significancia de \(5%\).

t.test(datosMarzo$num_casos, alternative='two.sided',conf.level=0.95, mu=140)

## 
##  One Sample t-test
## 
## data:  datosMarzo$num_casos
## t = 0.1819, df = 52, p-value = 0.8564
## alternative hypothesis: true mean is not equal to 140
## 95 percent confidence interval:
##   40.06155 259.86298
## sample estimates:
## mean of x 
##  149.9623

Final de la cuarentena (21-Junio-2020) Tomamos como datos númericos a el Número de Contagiados en el final de la cuarentena, y como hipótesis alterna \(≠\) a la media, tomando como referencia a \(140\), y el nivel de significancia de \((α)\) \(5%\).

t.test(datosJunio$num_casos, alternative='two.sided',conf.level=0.95, mu=140)

## 
##  One Sample t-test
## 
## data:  datosJunio$num_casos
## t = -110.93, df = 52, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 140
## 95 percent confidence interval:
##  2.23128 7.12721
## sample estimates:
## mean of x 
##  4.679245

Ambas hipótesis son rechazas ya que (texto)

Prueba de hipótesis para dos varianzas \(σ\) de una población normal Tomamos como datos númericos a el Número de Contagiados al inicio y final de la cuarentena, y como hipótesis alterna \(≠\) a la media, y el nivel de significancia de \((α)\) \(5%\).

var.test(datosMarzo$num_casos,datosJunio$num_casos, alternative = "two.sided",null.value = 1, conf.level = 0.95)

## 
##  F test to compare two variances
## 
## data:  datosMarzo$num_casos and datosJunio$num_casos
## F = 2015.5, num df = 52, denom df = 52, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  1163.328 3492.039
## sample estimates:
## ratio of variances 
##           2015.536

Lo cual indica que se rechaza la hipótesis ya que las varianzas no son iguales.

Prueba de hipótesis relacionadas con la proporción Para este caso se tomará el modelo de probabilidad es de distribución binomial.

Prueba binomial exacta Tomamos como datos el número de observaciones \(n=53\), siendo esta el total de datos en el Número de Contagiados en Marzo y Junio, y número de posibles éxitos \(x=20\), y el nivel de significancia de \((α)\) \(5%\).

binom.test(20, 53, p = 0.5,alternative = c("two.sided", "less", "greater"),conf.level = 0.95)

## 
##  Exact binomial test
## 
## data:  20 and 53
## number of successes = 20, number of trials = 53, p-value = 0.09837
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.2478722 0.5210607
## sample estimates:
## probability of success 
##              0.3773585

(texto)

Tablas de Contigencia

Se sabe que la información proporcionada por una tabla bidimensional puede expresarse en términos diversos: frecuencias absolutas conjuntas, relativas conjuntas, condicionadas de una variable a valores de la otra. Además puede derivarse el comportamiento unidimensional de las variables implicadas mediante las distribuciones marginales.

La tabla bidimensional recibe el nombre de tabla de contingencia cuando las características en estudio no son cuantitativas. Siendo estas variables Cuantitativas sean el ¿Qué Género son? y ¿Dé que Provincias son?

Comienzo de la cuarentena (15-Marzo-2020)

table(datosSexoProvincia$provincia_isoMarzo, datosSexoProvincia$sexoMarzo)

##     
##        H   M  NC
##   A   20  11   0
##   AB  16  11   0
##   AL   2   0   0
##   AV   3   1   0
##   B   93  80   0
##   BA   1   1   0
##   BI  14   7   0
##   BU   7   2   0
##   C    5   4   0
##   CA   0   3   0
##   CC   2   3   0
##   CO   4   3   0
##   CR  21  14   0
##   CS   3   0   0
##   CU  11   8   3
##   GC   2   1   0
##   GI   5   3   0
##   GR   3   5   0
##   GU   6   6   0
##   HU   0   2   0
##   J    4   2   0
##   LE   7   2   0
##   LO   6   7   0
##   M  406 293   0
##   MA  13   9   0
##   MU   2   3   0
##   NC   0   2  11
##   O    3   2   0
##   OR   2   0   0
##   P    2   0   0
##   PM   2   4   0
##   PO   2   1   0
##   S    2   0   0
##   SA   5   3   0
##   SE   7   9   0
##   SG   7   3   0
##   SO   4   2   0
##   SS   3   2   0
##   T    5   2   0
##   TE   2   2   0
##   TF   6   2   0
##   TO  16  15   0
##   V   19   8   0
##   VA   7   5   0
##   VI  10   7   0
##   Z   11   3   0
##   ZA   4   2   0

addmargins(table(datosSexoProvincia$provincia_isoMarzo, datosSexoProvincia$sexoMarzo))

##      
##          H    M   NC  Sum
##   A     20   11    0   31
##   AB    16   11    0   27
##   AL     2    0    0    2
##   AV     3    1    0    4
##   B     93   80    0  173
##   BA     1    1    0    2
##   BI    14    7    0   21
##   BU     7    2    0    9
##   C      5    4    0    9
##   CA     0    3    0    3
##   CC     2    3    0    5
##   CO     4    3    0    7
##   CR    21   14    0   35
##   CS     3    0    0    3
##   CU    11    8    3   22
##   GC     2    1    0    3
##   GI     5    3    0    8
##   GR     3    5    0    8
##   GU     6    6    0   12
##   HU     0    2    0    2
##   J      4    2    0    6
##   LE     7    2    0    9
##   LO     6    7    0   13
##   M    406  293    0  699
##   MA    13    9    0   22
##   MU     2    3    0    5
##   NC     0    2   11   13
##   O      3    2    0    5
##   OR     2    0    0    2
##   P      2    0    0    2
##   PM     2    4    0    6
##   PO     2    1    0    3
##   S      2    0    0    2
##   SA     5    3    0    8
##   SE     7    9    0   16
##   SG     7    3    0   10
##   SO     4    2    0    6
##   SS     3    2    0    5
##   T      5    2    0    7
##   TE     2    2    0    4
##   TF     6    2    0    8
##   TO    16   15    0   31
##   V     19    8    0   27
##   VA     7    5    0   12
##   VI    10    7    0   17
##   Z     11    3    0   14
##   ZA     4    2    0    6
##   Sum  775  555   14 1344

Final de la cuarentena (21-Junio-2020)

table(datosSexoProvincia$provincia_isoJunio, datosSexoProvincia$sexoJunio)

##     
##              H    M
##      1357    0    0
##   AV    0    1    0
##   B     0    1    0
##   BU    0    2    0
##   GI    0    0    1
##   GR    0    1    1
##   L     0    2    0
##   M     0    1    2
##   PO    0    0    1
##   SE    0    1    0
##   V     0    1    1
##   VA    0    0    1
##   ZA    0    0    1

addmargins(table(datosSexoProvincia$provincia_isoJunio, datosSexoProvincia$sexoJunio))

##      
##               H    M  Sum
##       1357    0    0 1357
##   AV     0    1    0    1
##   B      0    1    0    1
##   BU     0    2    0    2
##   GI     0    0    1    1
##   GR     0    1    1    2
##   L      0    2    0    2
##   M      0    1    2    3
##   PO     0    0    1    1
##   SE     0    1    0    1
##   V      0    1    1    2
##   VA     0    0    1    1
##   ZA     0    0    1    1
##   Sum 1357   10    8 1375

Pruebas de Bondad de Ajuste

Las pruebas de bondad de ajuste se aplican a datos de frecuencias en escalas nominales, los cuales son propocionados por Sexo en el comienzo y final de la cuarentena. Estos métodos nos permiten evaluar qué tan bien una muestra de observaciones de frecuencias de una población, se ajusta a una distribución hipotética de las frecuencias. Prueba de bondad de ajuste Kolmogorov-Smirnov La prueba de Kolmogorov-Smirnov nos permite comparar frecuencias observadas y esperadas, en escalas de proporciones (acumuladas), ordinales o intervalos, las cuales son \((9,3,3)\) y \((9, 3)\), respectivamente. Esta prueba también se usa para probar si las distribuciones de dos muestras de valores continuos, son iguales o no (provienen o no de la misma población).

Comienzo de la cuarentena (15-Marzo-2020)

fo <- table(datos$sexoMarzo, exclude = '')
fo

## 
##   H   M  NC 
## 209 152   3

n = sum(fo)
#frec esperada
proporcion <- c(9,3,3)
np  = sum(proporcion)
fe <- proporcion*n/np
fe

## [1] 218.4  72.8  72.8

#tabla
fit <- t(fo)
fit

##       
##          H   M  NC
##   [1,] 209 152   3

fet <- t(fe)
fet

##       [,1] [,2] [,3]
## [1,] 218.4 72.8 72.8

frec <- rbind(fit,fet)
row <- c("fi","fe")
tabla <- cbind(row,frec)
table(datos$sexoMarzo, exclude = '')

## 
##   H   M  NC 
## 209 152   3

knitr::kable(tabla, format = "markdown", col.names = c(" ","Hombres",'Mujeres',"NA"))

	Hombres	Mujeres	NA
fi	209	152	3
fe	218.4	72.8	72.8

Final de la cuarentena (21-Junio-2020)

fo2 <- table(datos$sexoJunio, exclude = '')
fo2

## 
## H M 
## 4 1

n2 = sum(fo2)
#frec esperada
proporcion2 <- c(9,3)
np2  = sum(proporcion2)
fe2 <- proporcion2*n2/np2
fe2

## [1] 3.75 1.25

#tabla
fit2 <- t(fo2)
fit2

##       
##        H M
##   [1,] 4 1

fet2 <- t(fe2)
fet2

##      [,1] [,2]
## [1,] 3.75 1.25

frec2 <- rbind(fit2,fet2)
row2 <- c("fi2","fe2")
tabla2 <- cbind(row2,frec2)
table(datos$sexoJunio, exclude = '')

## 
## H M 
## 4 1

knitr::kable(tabla2, format = "markdown", col.names = c(" ","Hombres",'Mujeres'))

	Hombres	Mujeres
fi2	4	1
fe2	3.75	1.25

Modelos de Regresión Lineal

El objetivo de un modelo de regresión es tratar de explicar la relación que existe entre una variable dependiente (variable respuesta) Y un conjunto de variables independientes (variables explicativas) \(X1,..., Xn\). Regresión Lineal Simple En un modelo de regresión lineal simple tratamos de explicar la relación que existe entre la variable respuesta \(Y\) y una única variable explicativa \(X\), las cuales son Número de Contagiados y Número de Hospitalizados al comienzo y final de la cuarentena en España Comienzo de la cuarentena (15-Marzo-2020)

pairs(regresionMarzo)

cor(regresionMarzo)

##            num_casos prueba_pcr  num_hosp   num_def
## num_casos  1.0000000  0.9998473 0.9823679 0.9380015
## prueba_pcr 0.9998473  1.0000000 0.9848139 0.9427852
## num_hosp   0.9823679  0.9848139 1.0000000 0.9797746
## num_def    0.9380015  0.9427852 0.9797746 1.0000000

regresionM <- lm(num_casos ~ num_hosp,data=regresionMarzo)
regresionM

## 
## Call:
## lm(formula = num_casos ~ num_hosp, data = regresionMarzo)
## 
## Coefficients:
## (Intercept)     num_hosp  
##      45.443        4.026

plot(datosMarzo$num_hosp, datosMarzo$num_casos, xlab='Contagiados', ylab='Hospitalizados')
abline(regresionM)

confint(regresionM)

##                 2.5 %    97.5 %
## (Intercept) 23.946135 66.940170
## num_hosp     3.810425  4.241192

Final de la cuarentena (21-Junio-2020)

pairs(regresionJunio)

cor(regresionJunio)

##            num_casos prueba_pcr  num_hosp   num_def
## num_casos  1.0000000  0.9963487 0.5168385 0.2302821
## prueba_pcr 0.9963487  1.0000000 0.5264006 0.2308147
## num_hosp   0.5168385  0.5264006 1.0000000 0.5556367
## num_def    0.2302821  0.2308147 0.5556367 1.0000000

regresionJ <- lm(num_casos ~ num_hosp,data=regresionJunio)
regresionJ

## 
## Call:
## lm(formula = num_casos ~ num_hosp, data = regresionJunio)
## 
## Coefficients:
## (Intercept)     num_hosp  
##       2.379        6.773

plot(datosJunio$num_hosp, datosMarzo$num_casos, xlab='Contagiados', ylab='Hospitalizados')
abline(regresionJ)

confint(regresionJ)

##                   2.5 %   97.5 %
## (Intercept) 0.006560405 4.751733
## num_hosp    3.618964434 9.926059

#Refencias https://rubenfcasal.github.io/COVID-19/

Proyecto Estadística

Oscar López

30/1/2021

Datos Estadísticos sobre el COVID-19 en España

Estadística descriptiva univariante

Número de Casos Contagiados

Número de Pruebas PCR

Número de Hospitalizados

Número de Fallecidos

Número de Contagiados por Provincia

Número de Hospitalizados por Género

Estadística descriptiva bivariante o multivariante

PruebasPCR por Provincias

Hospitalizados por Provincias

Fallecidos por Provincias

Matriz de Correlación y Covarianzas

Estadística inferencial

Pruebas de Hípotesis

Tablas de Contigencia

Pruebas de Bondad de Ajuste

Modelos de Regresión Lineal