library(psych)
library(reticulate)
library(kableExtra)
library(nycflights13)
library(corrplot)
library(ggplot2)
library(rt.test)
library(knitr)
library(dplyr)
datos <- read.table(file='c:/Users/Oscar/Downloads/Proyecto/DatosContagiados.csv', header = TRUE, sep=';')
datosMarzo <- read.table(file='c:/Users/Oscar/Downloads/Proyecto/DatosContagiadosMarzo.csv', header = TRUE, sep=';')
datosJunio <- read.table(file='c:/Users/Oscar/Downloads/Proyecto/DatosContagiadosJunio.csv', header = TRUE, sep=';')
datosAgrupadosContagiosMarzo <- read.table(file='c:/Users/Oscar/Downloads/Proyecto/TablaContagiadosMarzo.csv', header = TRUE, sep=';')
datosAgrupadosContagiosJunio <- read.table(file='c:/Users/Oscar/Downloads/Proyecto/TablaContagiadosJunio.csv', header = TRUE, sep=';')
datosSexoProvincia <- read.table(file='c:/Users/Oscar/Downloads/Proyecto/DatosSexoProvinciaMarzo.csv', header = TRUE, sep=';')
datosAgrupadosPCRMarzo <- read.table(file='c:/Users/Oscar/Downloads/Proyecto/TablaPCRMarzo.csv', header = TRUE, sep=';')
datosAgrupadosPCRJunio <- read.table(file='c:/Users/Oscar/Downloads/Proyecto/TablaPCRJunio.csv', header = TRUE, sep=';')
datosAgrupadosHospitalizadosMarzo <- read.table(file='c:/Users/Oscar/Downloads/Proyecto/TablaHospitalizadosMarzo.csv', header = TRUE, sep=';')
datosAgrupadosHospitalizadosJunio <- read.table(file='c:/Users/Oscar/Downloads/Proyecto/TablaHospitalizadosJunio.csv', header = TRUE, sep=';')
datosAgrupadosFallecidosMarzo <- read.table(file='c:/Users/Oscar/Downloads/Proyecto/TablaFallecidosMarzo.csv', header = TRUE, sep=';')
datosAgrupadosFallecidosJunio <- read.table(file='c:/Users/Oscar/Downloads/Proyecto/TablaFallecidosJunio.csv', header = TRUE, sep=';')
regresionMarzo <- select(datosMarzo, -fecha, -provincia_iso)
regresionJunio <- select(datosJunio, -fecha, -provincia_iso)
A continuación les presentaremos los datos estadísticos sobre el avance del COVID-19 en España, los cuales nos enfocaremos en: Número de Contagiados, Número de Fallecidos, Número de Hospitalizados.
Investigación sobre el conjunto de datos seleccionados Los datos publicados proceden de la declaración individualizada de casos COVID-19 a la Red Nacional de Vigilancia Epidemiológica (RENAVE) a través de la aplicación informática SiViEs y se están actualizando de forma continua. Además de que pueden contener errores, hay un retraso al ir añadiendo los nuevos casos en las fechas de diagnóstico casos.RData: Número de casos, hospitalizaciones, ingresos en UCI y defunciones por sexo, edad, provincia de residencia y fecha de diagnóstico (nuevos casos).
casos_ccaa.RData: Número de casos, hospitalizaciones, ingresos en UCI y defunciones por sexo, edad, CCAA y fecha de diagnóstico (nuevos casos), incluyendo los totales por sexo, edad y CCAA (España).
acumulados.RData: Evolución de los valores acumulados por CCAA y para el total de España (formato adecuado para el proyecto Predicción Cooperativa).
En COVID-19-tablas.html se pueden consultar tablas con los datos actuales por CCAA (informe generado automáticamente a partir de COVID-19-tablas.Rmd).
El archivo COVID-19-actualizar.R contiene el código necesario para descargar e importar los datos a R.
En el directorio acumula2_hist2 se están almacenando un histórico de los datos publicados el ISCIII (reportados por las CCAA). Puede ser de utilidad para estudiar como se van consolidando los datos de la serie. Por ejemplo se incluye un informe con la evolución de los datos reportados por las distintas CCAA. Es muy triste constatar que después de tanto tiempo todavía siguen los problemas (algunas CCAA están tardando más de 6 semanas en consolidar los datos…).
Además de haber utilizado el programa RStudio para almacenar archivos RData y Rmd.
Hallazgos -Al utilizar esta base de datos en la cual es muy específica, pero tuve que simplificar los datos basandonos en importantes fechas, las cuales son el comienzo y final de la cuarentena en España, luego de crear enormes tabla de datos. -Los datos estaban un poco desordenados, los cuales ordene a mi beneficio para facilitar el uso de tablas csv.
Datos Catalogado por Provincias En esta sección nos enfocaremos en el nÚmero de casos al principio (15 de Marzo), final (21 de Junio) de la cuarentena decretada por el Gobierno de España en el año 2020. Los siguentes datos se obtuvieron de la base de datos oficiales de la OMS en España, la cual fue realizada por Instituto de Salud Carlos III.
Comienzo de la cuarentena (15-Marzo-2020)
datosMarzo
## provincia_iso fecha num_casos prueba_pcr num_hosp num_def
## 1 A 15/03/2020 189 184 31 3
## 2 AB 15/03/2020 180 172 27 5
## 3 AL 15/03/2020 20 19 2 0
## 4 AV 15/03/2020 25 25 4 0
## 5 B 15/03/2020 1206 1159 173 7
## 6 BA 15/03/2020 20 20 2 0
## 7 BI 15/03/2020 216 213 21 2
## 8 BU 15/03/2020 63 63 9 0
## 9 C 15/03/2020 113 113 9 0
## 10 CA 15/03/2020 54 53 3 0
## 11 CC 15/03/2020 42 42 5 1
## 12 CE 15/03/2020 1 1 0 0
## 13 CO 15/03/2020 34 34 7 0
## 14 CR 15/03/2020 275 259 35 4
## 15 CS 15/03/2020 53 52 3 0
## 16 CU 15/03/2020 92 71 22 0
## 17 GC 15/03/2020 40 39 3 0
## 18 GI 15/03/2020 84 82 8 0
## 19 GR 15/03/2020 88 88 8 0
## 20 GU 15/03/2020 60 57 12 0
## 21 H 15/03/2020 10 10 0 0
## 22 HU 15/03/2020 16 16 2 0
## 23 J 15/03/2020 28 27 6 0
## 24 L 15/03/2020 36 36 0 0
## 25 LE 15/03/2020 54 52 9 1
## 26 LO 15/03/2020 111 110 13 1
## 27 LU 15/03/2020 27 27 0 0
## 28 M 15/03/2020 2739 2739 699 79
## 29 MA 15/03/2020 113 113 22 3
## 30 ME 15/03/2020 3 3 0 0
## 31 MU 15/03/2020 75 71 5 0
## 32 <NA> 15/03/2020 167 166 32 1
## 33 NC 15/03/2020 139 138 13 0
## 34 O 15/03/2020 89 89 5 0
## 35 OR 15/03/2020 57 57 2 0
## 36 P 15/03/2020 27 27 2 0
## 37 PM 15/03/2020 83 83 6 0
## 38 PO 15/03/2020 76 76 3 1
## 39 S 15/03/2020 68 68 2 0
## 40 SA 15/03/2020 78 78 8 1
## 41 SE 15/03/2020 68 67 16 1
## 42 SG 15/03/2020 88 87 10 2
## 43 SO 15/03/2020 52 48 6 0
## 44 SS 15/03/2020 77 76 5 2
## 45 T 15/03/2020 37 35 7 0
## 46 TE 15/03/2020 10 10 4 0
## 47 TF 15/03/2020 57 56 8 1
## 48 TO 15/03/2020 139 130 31 4
## 49 V 15/03/2020 240 234 27 1
## 50 VA 15/03/2020 79 78 12 0
## 51 VI 15/03/2020 133 133 17 10
## 52 Z 15/03/2020 102 102 14 1
## 53 ZA 15/03/2020 15 13 6 0
Final de la cuarentena (21-Junio-2020)
datosJunio
## provincia_iso fecha num_casos prueba_pcr num_hosp num_def
## 1 A 21/06/2020 3 3 0 1
## 2 AB 21/06/2020 0 0 0 0
## 3 AL 21/06/2020 1 1 0 0
## 4 AV 21/06/2020 2 2 1 0
## 5 B 21/06/2020 38 37 1 0
## 6 BA 21/06/2020 1 1 0 0
## 7 BI 21/06/2020 6 2 0 0
## 8 BU 21/06/2020 0 0 2 2
## 9 C 21/06/2020 3 3 0 0
## 10 CA 21/06/2020 0 0 0 1
## 11 CC 21/06/2020 4 4 0 0
## 12 CE 21/06/2020 0 0 0 0
## 13 CO 21/06/2020 0 0 0 0
## 14 CR 21/06/2020 9 8 0 0
## 15 CS 21/06/2020 1 1 0 0
## 16 CU 21/06/2020 0 0 0 0
## 17 GC 21/06/2020 2 2 0 0
## 18 GI 21/06/2020 10 10 1 0
## 19 GR 21/06/2020 3 3 2 0
## 20 GU 21/06/2020 2 2 0 0
## 21 H 21/06/2020 0 0 0 0
## 22 HU 21/06/2020 27 27 0 0
## 23 J 21/06/2020 2 2 0 0
## 24 L 21/06/2020 38 38 2 0
## 25 LE 21/06/2020 0 0 0 0
## 26 LO 21/06/2020 0 0 0 0
## 27 LU 21/06/2020 3 3 0 0
## 28 M 21/06/2020 30 29 3 5
## 29 MA 21/06/2020 4 4 0 0
## 30 ME 21/06/2020 2 2 0 0
## 31 MU 21/06/2020 5 5 0 0
## 32 <NA> 21/06/2020 15 15 1 0
## 33 NC 21/06/2020 1 1 0 0
## 34 O 21/06/2020 0 0 0 1
## 35 OR 21/06/2020 0 0 0 0
## 36 P 21/06/2020 1 1 0 0
## 37 PM 21/06/2020 2 2 0 0
## 38 PO 21/06/2020 0 0 1 0
## 39 S 21/06/2020 2 2 0 0
## 40 SA 21/06/2020 0 0 0 0
## 41 SE 21/06/2020 0 0 1 0
## 42 SG 21/06/2020 0 0 0 0
## 43 SO 21/06/2020 0 0 0 1
## 44 SS 21/06/2020 4 2 0 0
## 45 T 21/06/2020 0 0 0 1
## 46 TE 21/06/2020 1 1 0 0
## 47 TF 21/06/2020 0 0 0 0
## 48 TO 21/06/2020 3 2 0 0
## 49 V 21/06/2020 6 6 1 0
## 50 VA 21/06/2020 3 3 1 3
## 51 VI 21/06/2020 5 2 0 0
## 52 Z 21/06/2020 9 8 0 0
## 53 ZA 21/06/2020 0 0 1 0
Los siguientes gráficos representan el número de Contagiados que hubo el 15 de Marzo de 2020, el cual se observó:
En el cual el número de Contagiados se centra principalmente en el rango de (0 a 500). Y donde el Diagrama de Caja tiene una Mediana \((M)\) y Cuatiles (25%, 50% y 75%) \((Q)\) de :
median(contagiadosMarzo)
## [1] 68
quantile(contagiadosMarzo, probs=c(0.25, 0.5, 0.75))
## 25% 50% 75%
## 36 68 111
Además, el Coeficiente de Curtois \((Kurt[X])\) y Coeficiente de Asimetría o Sesgo \((g)\)
kurtosi(contagiadosMarzo)
## [1] 31.47637
skew(contagiadosMarzo)
## [1] 5.503214
Con una Media Arimética \((X̅)\) y Desviación Estándar \((S^2)\) de, respectivamente:
mean(contagiadosMarzo)
## [1] 149.9623
sd(contagiadosMarzo)
## [1] 398.7195
Tabla de Datos Agrupado del número de Contagios el 15-Marzo
datosAgrupadosContagiosMarzo
## clase f F f.n F.n
## 1 [0, 913) 51 51 0.96226 0.96226
## 2 [913, 1826) 1 52 0.01887 0.98113
## 3 [1826+) 1 53 0.01887 1.00000
Ahora, los siguientes graficos representan el número de Contagiados que hubo el 21 de Junio de 2020, el cual se observó:
En cambio, en los otros gráficos se concetra mas en un range de (0 a 10). Esto se debe a que disminuyo el número de Contagiados en España.
En el cual el número de Contagiados se centra principalmente en el rango de (0 a 40). Y donde el Diagrama de Caja tiene una Mediana \((M)\) y Cuatiles (25%, 50% y 75%) \((Q)\) de :
median(contagiadosJunio)
## [1] 2
quantile(contagiadosJunio, probs=c(0.25, 0.5, 0.75))
## 25% 50% 75%
## 0 2 4
Además, el Coeficiente de Curtois \((Kurt[X])\) y Coeficiente de Asimetría o Sesgo \((g)\)
kurtosi(contagiadosJunio)
## [1] 6.547554
skew(contagiadosJunio)
## [1] 2.70291
Con una Media Arimética \((X̅)\) y Desviación Estándar \((S^2)\) de, respectivamente:
mean(contagiadosJunio)
## [1] 4.679245
sd(contagiadosJunio)
## [1] 8.881211
Tabla de Datos Agrupado del número de Contagios el 21-Junio
datosAgrupadosContagiosJunio
## clase f F f.n F.n
## 1 [0, 5) 41 41 0.77358 0.77358
## 2 [5, 10) 6 47 0.11321 0.88679
## 3 [10, 15) 1 48 0.01887 0.90566
## 4 [15, 20) 1 49 0.01887 0.92453
## 5 [20+) 4 53 0.07547 1.00000
Los siguientes gráficos representan el número de Pruebas PCR que hubo el 15 de Marzo de 2020, el cual se observó:
En el cual el número de Pruebas PCR se centra principalmente en el rango de (0 a 500). Y donde el Diagrama de Caja tiene una Mediana \((M)\) y Cuatiles (25%, 50% y 75%) \((Q)\) de, respectivamente: :
median(pruebasPCRMarzo)
## [1] 68
quantile(pruebasPCRMarzo, probs=c(0.25, 0.5, 0.75))
## 25% 50% 75%
## 35 68 110
Además, el Coeficiente de Curtois \((Kurt[X])\) y Coeficiente de Asimetría o Sesgo \((g)\) de, respectivamente:
kurtosi(pruebasPCRMarzo)
## [1] 32.27757
skew(pruebasPCRMarzo)
## [1] 5.573606
Con una Media Arimética \((X̅)\) y Desviación Estándar \((S^2)\) de, respectivamente:
mean(pruebasPCRMarzo)
## [1] 147.1887
sd(pruebasPCRMarzo)
## [1] 396.4292
Tabla de Datos Agrupado de las pruebas PCR el 15-Marzo
datosAgrupadosPCRMarzo
## clase f F f.n F.n
## 1 (0-145) 45 45 0.84906 0.84906
## 2 (146-291) 6 51 0.11321 0.96226
## 3 (292+) 2 53 0.03774 1.00000
Ahora, los siguientes graficos representan el número de Pruebas PCR que hubo el 21 de Junio de 2020, el cual se observó:
En cambio, en los otros gráficos se concetra mas en un rangO de (0 a 5). Esto se debe a que disminuyo el número de Pruebas PCR confirmadas en España.
En el cual el número de Pruebas PCR se centra principalmente en el rango de (0 a 40). Y donde el Diagrama de Caja tiene una Mediana \((M)\) y Cuatiles (25%, 50% y 75%) \((Q)\) de, respectivamente:
median(pruebasPCRJunio)
## [1] 2
quantile(pruebasPCRJunio, probs=c(0.25, 0.5, 0.75))
## 25% 50% 75%
## 0 2 3
Además, el Coeficiente de Curtois \((Kurt[X])\) y Coeficiente de Asimetría o Sesgo \((g)\) de, respectivamente:
kurtosi(pruebasPCRJunio)
## [1] 6.761777
skew(pruebasPCRJunio)
## [1] 2.757782
Con una Media Arimética \((X̅)\) y Desviación Estándar \((S^2)\) de, respectivamente:
mean(pruebasPCRJunio)
## [1] 4.415094
sd(pruebasPCRJunio)
## [1] 8.760563
Tabla de Datos Agrupado de las pruebas PCR el 21-Junio
datosAgrupadosPCRJunio
## clase f F f.n F.n
## 1 [0, 5) 43 43 0.81132 0.81132
## 2 [5, 10) 4 47 0.07547 0.88679
## 3 [10, 15) 1 48 0.01887 0.90566
## 4 [15, 20) 1 49 0.01887 0.92453
## 5 [20+) 4 53 0.07547 1.00000
Los siguientes gráficos representan el número de Hospitalizados que hubo el 15 de Marzo de 2020, el cual se observó:
En el cual el número de Hospitalizados se centra principalmente en el rango de (0 a 100). Y donde el Diagrama de Caja tiene una Mediana \((M)\) y Cuatiles (25%, 50% y 75%) \((Q)\) de, respectivamente: :
median(hospitalizadosMarzo)
## [1] 7
quantile(hospitalizadosMarzo, probs=c(0.25, 0.5, 0.75))
## 25% 50% 75%
## 3 7 14
Además, el Coeficiente de Curtois \((Kurt[X])\) y Coeficiente de Asimetría o Sesgo \((g)\) de, respectivamente:
kurtosi(hospitalizadosMarzo)
## [1] 40.30457
skew(hospitalizadosMarzo)
## [1] 6.303058
Con una Media Arimética \((X̅)\) y Desviación Estándar \((S^2)\) de, respectivamente:
mean(hospitalizadosMarzo)
## [1] 25.96226
sd(hospitalizadosMarzo)
## [1] 97.29455
Tabla de Datos Agrupado de los Hospitalizados el 15-Marzo
datosAgrupadosHospitalizadosMarzo
## clase f F f.n F.n
## 1 [0,10] 35 35 0.66038 0.66038
## 2 (10, 21] 8 43 0.15094 0.81132
## 3 (21+) 10 53 0.18868 1.00000
Ahora, los siguientes graficos representan el número de Hospitalizados que hubo el 21 de Junio de 2020, el cual se observó:
En cambio, en los otros gráficos se concetra mas en un rangO de (0 a 1). Esto se debe a que disminuyo el número de Hospitalizados en España.
En el cual el número de Hospitalizados se centra principalmente en el rango de (0 a 1). Y donde el Diagrama de Caja tiene una Mediana \((M)\) y Cuatiles (25%, 50% y 75%) \((Q)\) de, respectivamente:
median(pruebasPCRJunio)
## [1] 2
quantile(pruebasPCRJunio, probs=c(0.25, 0.5, 0.75))
## 25% 50% 75%
## 0 2 3
Además, el Coeficiente de Curtois \((Kurt[X])\) y Coeficiente de Asimetría o Sesgo \((g)\) de, respectivamente:
kurtosi(pruebasPCRJunio)
## [1] 6.761777
skew(pruebasPCRJunio)
## [1] 2.757782
Con una Media Arimética \((X̅)\) y Desviación Estándar \((S^2)\) de, respectivamente:
mean(pruebasPCRJunio)
## [1] 4.415094
sd(pruebasPCRJunio)
## [1] 8.760563
Tabla de Datos Agrupado de los Hospitalizados el 21-Junio
datosAgrupadosHospitalizadosJunio
## clase f F f.n F.n
## 1 [0, 1) 40 40 0.75472 0.75472
## 2 [1, 2) 9 49 0.16981 0.92453
## 3 [2+) 4 53 0.07547 1.00000
Los siguientes gráficos representan el número de Fallecidos que hubo el 15 de Marzo de 2020, el cual se observó:
En el cual el número de Fallecidos se centra principalmente en el rango de (0 a 10). Y donde el Diagrama de Caja tiene una Mediana \((M)\) y Cuatiles (25%, 50% y 75%) \((Q)\) de, respectivamente: :
median(fallecidosMarzo)
## [1] 0
quantile(fallecidosMarzo, probs=c(0.25, 0.5, 0.75))
## 25% 50% 75%
## 0 0 1
Además, el Coeficiente de Curtois \((Kurt[X])\) y Coeficiente de Asimetría o Sesgo \((g)\) de, respectivamente:
kurtosi(fallecidosMarzo)
## [1] 43.07527
skew(fallecidosMarzo)
## [1] 6.554085
Con una Media Arimética \((X̅)\) y Desviación Estándar \((S^2)\) de, respectivamente:
mean(fallecidosMarzo)
## [1] 2.471698
sd(fallecidosMarzo)
## [1] 10.88684
Tabla de Datos Agrupado de Fallecidos el 15-Marzo
datosAgrupadosFallecidosMarzo
## clase f F f.n F.n
## 1 [0, 10] 52 52 0.981132 0.981132
## 2 (10+) 1 53 0.018868 1.000000
Ahora, los siguientes graficos representan el número de Fallecidos que hubo el 21 de Junio de 2020, el cual se observó:
En cambio, en los otros gráficos se concetra mas en un rangO de (0 a 1). Esto se debe a que disminuyo el número de Fallecidos en España.
En el cual el número de Fallecidos se centra principalmente en el rango de (0 a 1). Y donde el Diagrama de Caja tiene una Mediana \((M)\) y Cuatiles (25%, 50% y 75%) \((Q)\) de, respectivamente:
median(fallecidosJunio)
## [1] 0
quantile(fallecidosJunio, probs=c(0.25, 0.5, 0.75))
## 25% 50% 75%
## 0 0 0
Además, el Coeficiente de Curtois \((Kurt[X])\) y Coeficiente de Asimetría o Sesgo \((g)\) de, respectivamente:
kurtosi(fallecidosJunio)
## [1] 16.0176
skew(fallecidosJunio)
## [1] 3.838491
Con una Media Arimética \((X̅)\) y Desviación Estándar \((S^2)\) de, respectivamente:
mean(fallecidosJunio)
## [1] 0.2830189
sd(fallecidosJunio)
## [1] 0.8632978
Tabla de Datos Agrupado de Fallecidos el 21-Junio
datosAgrupadosFallecidosJunio
## clase f F f.n F.n
## 1 [0, 1) 45 45 0.8491 0.8491
## 2 [1, 2) 5 50 0.0943 0.9434
## 3 [2, 3) 1 51 0.0189 0.9623
## 4 [3+) 2 53 0.0377 1.0000
Ahora veremos unos dos gráficos, enfocados en el número de Contagiados por Provincia y el número de Hospitalizados por Género en España, de las fechas ya mencioadas:
Comienzo de la cuarentena (15-Marzo-2020)
table(datos$num_casosMarzoP)
##
## A AB AL AV B BA BI BU C CA CC CE CO CR CS CU
## 189 180 20 25 1206 20 216 63 113 54 42 1 34 275 53 92
## GC GI GR GU H HU J L LE LO LU M MA ME MU NC
## 40 84 88 60 10 16 28 36 54 111 27 2739 113 3 75 139
## O OR P PM PO S SA SE SG SO SS T TE TF TO V
## 89 57 27 83 76 68 78 68 88 52 77 37 10 57 139 240
## VA VI Z ZA
## 79 133 102 15
barplot(table(datos$num_casosMarzoP), xlab='Provincias', ylab = 'Frecuencia', main = 'Número de Contagiados por Provincia')
pie(table(datos$num_casosMarzoP),clockwise=TRUE, main='Diagrama Circular del Número de Contagiados por Provincia')
Mediante este Diagrama Circular, nos podemos dar cuenta que la provinicia M, Madrid, seguido por la provincia B, Barcelona. Final de la cuarentena (21-Junio-2020)
table(datos$num_casosJunioP, exclude = '')
##
## A AL AV B BA BI C CC CR CS GC GI GR GU HU J
## 3 1 2 38 1 6 3 4 9 1 2 10 3 2 27 2
## L LU M MA ME MU NC P PM S SS TE TO V VA VI
## 38 3 30 4 2 5 1 1 2 2 4 1 3 6 3 5
## Z <NA>
## 9 15
barplot(table(datos$num_casosJunioP, exclude = ''), xlab='Provincias', ylab = 'Frecuencia', main = 'Número de Contagiados por Provincia')
pie(table(datos$num_casosJunioP, exclude = ''),clockwise=TRUE, main='Diagrama Circular del Número de Contagiados por Provincia')
Mediante este Diagrama Circular, nos podemos dar cuenta que aumento el número de contagios en España, dado que el Virus COVID-19 avanzó.
Comienzo de la cuarentena (15-Marzo-2020)
table(datos$sexoMarzo, exclude = '')
##
## H M NC
## 209 152 3
barplot(table(datos$sexoMarzo, exclude = ''), xlab='Género', ylab = 'Frecuencia', main = 'Número de Hospitalizados por Género')
pie(table(datos$sexoMarzo, exclude = ''),clockwise=TRUE, main='Diagrama Circular del Número de Hospitalizados por Género')
Al comienzo de la cuarentena había datos estadísticos que respaldan que las mujeres fueron las mas contagiadas.
Final de la cuarentena (21-Junio-2020)
table(datos$sexoJunio, exclude = '')
##
## H M
## 4 1
barplot(table(datos$sexoJunio, exclude = ''), xlab='Género', ylab = 'Frecuencia', main = 'Número de Hospitalizados por Género')
pie(table(datos$sexoJunio, exclude = ''),clockwise=TRUE, main='Diagrama Circular del Número de Hospitalizados por Género')
En cambio, al final de la cuarentena fue totalmente diferente.
Diagrama de Cajas El diagrama de caja es un gráfico utilizado para representar una variable cuantitativa (variable numérica). El gráfico es una herramienta que permite visualizar, a través de los cuartiles, cómo es la distribución, su grado de asimetría, los valores extremos, la posición de la mediana, etc. Se compone de:
Un rectángulo (caja) delimitado por el primer y tercer cuartil (\(Q1\) y \(Q3\)). Dentro de la caja una línea indica dónde se encuentra la mediana (segundo cuartil \(Q2\)) Dos brazos, uno que empieza en el primer cuartil y acaba en el mínimo, y otro que empieza en el tercer cuartil y acaba en el máximo. Los datos atípicos (o valores extremos) que son los valores distintos que no cumplen ciertos requisitos de heterogeneidad de los datos. Segmentado por Provincias ### Contagiados por Provincias Comienzo de la cuarentena (15-Marzo-2020)
boxplot(datos$num_casos ~ datos$num_casosMarzoP, , horizontal =TRUE, ylim= c(0, 200), border='red', col='white')
Final de la cuarentena (21-Junio-2020)
boxplot(datos$num_casos ~ datos$num_casosJunioP, , horizontal =TRUE, ylim= c(0, 200), border='blue', col='white')
Comienzo de la cuarentena (15-Marzo-2020)
boxplot(datos$num_casos ~ datos$num_casosMarzoP, , horizontal =TRUE, ylim= c(0, 200), border='red', col='white', xlab='Contagiados', ylab = 'Provincias')
Final de la cuarentena (21-Junio-2020)
boxplot(datos$num_casos ~ datos$num_casosJunioP, , horizontal =TRUE, ylim= c(0, 200), border='blue', col='white', xlab='Contagiados', ylab = 'Provincias')
Comienzo de la cuarentena (15-Marzo-2020)
boxplot(datos$num_hosp ~ datos$num_casosMarzoP, , horizontal =TRUE, ylim= c(0, 40), border='red', col='white', xlab='Hospitalizados', ylab = 'Provincias')
Final de la cuarentena (21-Junio-2020)
boxplot(datos$num_hosp ~ datos$num_casosJunioP, , horizontal =TRUE, ylim= c(0, 40), border='blue', col='white', xlab='Hospitalizados', ylab = 'Provincias')
Comienzo de la cuarentena (15-Marzo-2020)
boxplot(datos$num_def ~ datos$num_casosMarzoP, , horizontal =TRUE, ylim= c(0, 10), border='red', col='white', xlab='Fallecidos', ylab = 'Provincias')
Final de la cuarentena (21-Junio-2020)
boxplot(datos$num_def ~ datos$num_casosJunioP, , horizontal =TRUE, ylim= c(0, 8), border='blue', col='white', xlab='Fallecidos', ylab = 'Provincias')
Matriz de Correlación Es una tabla de doble entrada para A, B, C,.. , que muestra una lista multivariable horizontalmente y la misma lista verticalmente y con el correspondiente coeficiente de correlación llamado r o la relación entre cada pareja en cada celda, expresada con un número que va desde 0 a 1. El modelo mide y muestra la interdependencia en relaciones asociadas o entre cada pareja de variables y todas al mismo tiempo.
datMatriz=matrix(c(datos$num_casos,datos$prueba_pcr,datos$num_hosp,datos$num_def), nrow = 4, ncol = 4)
matriz=data.frame(datMatriz)
matrizCorrelacion = data.frame(cor(matriz,method = "spearman"))
matrizCorrelacion
## X1 X2 X3 X4
## X1 1.0 0.2 0.8 -0.2
## X2 0.2 1.0 0.4 -1.0
## X3 0.8 0.4 1.0 -0.4
## X4 -0.2 -1.0 -0.4 1.0
Matriz de Covarianzas Es una matriz cuadrada de dimensión nxm que recoge las varianzas en la diagonal principal y las covarianzas en los elementos de fuera de la diagonal principal.
En otras palabras, la matriz varianza-covarianza es una matriz que tiene el mismo número de filas y columnas y que tiene distribuidas las varianzas en la diagonal principal y las covarianzas en los elementos fuera de la diagonal principal.
matrizCovarianzas = data.frame(cov(matriz,method="kendall"))
matrizCovarianzas
## X1 X2 X3 X4
## X1 12 0 8 0
## X2 0 12 4 -12
## X3 8 4 12 -4
## X4 0 -12 -4 12
Matriz Gráfica de Correlación
corr = round(cor(matriz, method = "spearman"), 2)
corrplot(corr, method = "shade", shade.col = NA, tl.col = "black",
tl.srt = 53, addCoef.col = "Black")
Matriz de Diagramas de Disperción Una matriz de gráficos de dispersión es una cuadrícula de varios gráficos de dispersión de hasta cinco variables numéricas. La matriz incluye gráficos de dispersión individuales para cualquier combinación de variables.
Las matrices de gráficos de dispersión permiten responder a preguntas sobre sus datos, por ejemplo: ¿qué relaciones existen entre varias variables?
pairs(~num_casos+prueba_pcr+num_hosp+num_def,data=datos, main='Matriz de Diagramas de Disperción')
Otra manera de hacer inferencia es haciendo una afirmación acerca del valor que el parámetro de la población bajo estudio puede tomar. Esta afirmación puede estar basada en alguna creencia o experiencia pasada que será contrastada con la evidencia que nosotros obtengamos a través de la información contenida en la muestra. Esto es a lo que llamamos: Prueba de Hipótesis Una prueba de hipótesis comprende cuatro componentes principales: -Hipótesis Nula, denotada como \(Ho\) siempre especifica un solo valor del parámetro de la población si la hipótesis es simple o un conjunto de valores si es compuesta (es lo que queremos desacreditar). \(Ho :µ = µ0\) \(Ho :µ ≤ µ0\) \(Ho :µ ≥ µ0\) -Hipótesis Alternativa, denotada como H1 es la que responde nuestra pregunta, la que se establece en base a la evidencia que tenemos. Puede tener cuatro formas: \(H1 :µ ≠ µ0\) \(H1 :µ = µ0\) \(H1 :µ ≤ µ0\) \(H1 :µ ≥ µ0\) -Estadística de Prueba es una estadística que se deriva del estimador puntual del parámetro que estemos probando y en ella basamos nuestra decisión acerca de si rechazar o no rechazar la Hipótesis Nula -Región de Rechazo es el conjunto de valores tales que si la prueba estadística cae dentro de este rango, decidimos rechazar la Hipótesis Nula.
Prueba de hipótesis para la media \(μ\) de una población normal de grandes muestras Comienzo de la cuarentena (15-Marzo-2020) Tomamos como datos númericos a el Número de Contagiados en el inicio de la cuarentena, y como hipótesis alterna \(≠\) a la media, tomando como referencia a \(140\), y el nivel de significancia de \(5%\).
t.test(datosMarzo$num_casos, alternative='two.sided',conf.level=0.95, mu=140)
##
## One Sample t-test
##
## data: datosMarzo$num_casos
## t = 0.1819, df = 52, p-value = 0.8564
## alternative hypothesis: true mean is not equal to 140
## 95 percent confidence interval:
## 40.06155 259.86298
## sample estimates:
## mean of x
## 149.9623
Final de la cuarentena (21-Junio-2020) Tomamos como datos númericos a el Número de Contagiados en el final de la cuarentena, y como hipótesis alterna \(≠\) a la media, tomando como referencia a \(140\), y el nivel de significancia de \((α)\) \(5%\).
t.test(datosJunio$num_casos, alternative='two.sided',conf.level=0.95, mu=140)
##
## One Sample t-test
##
## data: datosJunio$num_casos
## t = -110.93, df = 52, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 140
## 95 percent confidence interval:
## 2.23128 7.12721
## sample estimates:
## mean of x
## 4.679245
Ambas hipótesis son rechazas ya que (texto)
Prueba de hipótesis para dos varianzas \(σ\) de una población normal Tomamos como datos númericos a el Número de Contagiados al inicio y final de la cuarentena, y como hipótesis alterna \(≠\) a la media, y el nivel de significancia de \((α)\) \(5%\).
var.test(datosMarzo$num_casos,datosJunio$num_casos, alternative = "two.sided",null.value = 1, conf.level = 0.95)
##
## F test to compare two variances
##
## data: datosMarzo$num_casos and datosJunio$num_casos
## F = 2015.5, num df = 52, denom df = 52, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 1163.328 3492.039
## sample estimates:
## ratio of variances
## 2015.536
Lo cual indica que se rechaza la hipótesis ya que las varianzas no son iguales.
Prueba de hipótesis relacionadas con la proporción Para este caso se tomará el modelo de probabilidad es de distribución binomial.
Prueba binomial exacta Tomamos como datos el número de observaciones \(n=53\), siendo esta el total de datos en el Número de Contagiados en Marzo y Junio, y número de posibles éxitos \(x=20\), y el nivel de significancia de \((α)\) \(5%\).
binom.test(20, 53, p = 0.5,alternative = c("two.sided", "less", "greater"),conf.level = 0.95)
##
## Exact binomial test
##
## data: 20 and 53
## number of successes = 20, number of trials = 53, p-value = 0.09837
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
## 0.2478722 0.5210607
## sample estimates:
## probability of success
## 0.3773585
(texto)
Se sabe que la información proporcionada por una tabla bidimensional puede expresarse en términos diversos: frecuencias absolutas conjuntas, relativas conjuntas, condicionadas de una variable a valores de la otra. Además puede derivarse el comportamiento unidimensional de las variables implicadas mediante las distribuciones marginales.
La tabla bidimensional recibe el nombre de tabla de contingencia cuando las características en estudio no son cuantitativas. Siendo estas variables Cuantitativas sean el ¿Qué Género son? y ¿Dé que Provincias son?
Comienzo de la cuarentena (15-Marzo-2020)
table(datosSexoProvincia$provincia_isoMarzo, datosSexoProvincia$sexoMarzo)
##
## H M NC
## A 20 11 0
## AB 16 11 0
## AL 2 0 0
## AV 3 1 0
## B 93 80 0
## BA 1 1 0
## BI 14 7 0
## BU 7 2 0
## C 5 4 0
## CA 0 3 0
## CC 2 3 0
## CO 4 3 0
## CR 21 14 0
## CS 3 0 0
## CU 11 8 3
## GC 2 1 0
## GI 5 3 0
## GR 3 5 0
## GU 6 6 0
## HU 0 2 0
## J 4 2 0
## LE 7 2 0
## LO 6 7 0
## M 406 293 0
## MA 13 9 0
## MU 2 3 0
## NC 0 2 11
## O 3 2 0
## OR 2 0 0
## P 2 0 0
## PM 2 4 0
## PO 2 1 0
## S 2 0 0
## SA 5 3 0
## SE 7 9 0
## SG 7 3 0
## SO 4 2 0
## SS 3 2 0
## T 5 2 0
## TE 2 2 0
## TF 6 2 0
## TO 16 15 0
## V 19 8 0
## VA 7 5 0
## VI 10 7 0
## Z 11 3 0
## ZA 4 2 0
addmargins(table(datosSexoProvincia$provincia_isoMarzo, datosSexoProvincia$sexoMarzo))
##
## H M NC Sum
## A 20 11 0 31
## AB 16 11 0 27
## AL 2 0 0 2
## AV 3 1 0 4
## B 93 80 0 173
## BA 1 1 0 2
## BI 14 7 0 21
## BU 7 2 0 9
## C 5 4 0 9
## CA 0 3 0 3
## CC 2 3 0 5
## CO 4 3 0 7
## CR 21 14 0 35
## CS 3 0 0 3
## CU 11 8 3 22
## GC 2 1 0 3
## GI 5 3 0 8
## GR 3 5 0 8
## GU 6 6 0 12
## HU 0 2 0 2
## J 4 2 0 6
## LE 7 2 0 9
## LO 6 7 0 13
## M 406 293 0 699
## MA 13 9 0 22
## MU 2 3 0 5
## NC 0 2 11 13
## O 3 2 0 5
## OR 2 0 0 2
## P 2 0 0 2
## PM 2 4 0 6
## PO 2 1 0 3
## S 2 0 0 2
## SA 5 3 0 8
## SE 7 9 0 16
## SG 7 3 0 10
## SO 4 2 0 6
## SS 3 2 0 5
## T 5 2 0 7
## TE 2 2 0 4
## TF 6 2 0 8
## TO 16 15 0 31
## V 19 8 0 27
## VA 7 5 0 12
## VI 10 7 0 17
## Z 11 3 0 14
## ZA 4 2 0 6
## Sum 775 555 14 1344
Final de la cuarentena (21-Junio-2020)
table(datosSexoProvincia$provincia_isoJunio, datosSexoProvincia$sexoJunio)
##
## H M
## 1357 0 0
## AV 0 1 0
## B 0 1 0
## BU 0 2 0
## GI 0 0 1
## GR 0 1 1
## L 0 2 0
## M 0 1 2
## PO 0 0 1
## SE 0 1 0
## V 0 1 1
## VA 0 0 1
## ZA 0 0 1
addmargins(table(datosSexoProvincia$provincia_isoJunio, datosSexoProvincia$sexoJunio))
##
## H M Sum
## 1357 0 0 1357
## AV 0 1 0 1
## B 0 1 0 1
## BU 0 2 0 2
## GI 0 0 1 1
## GR 0 1 1 2
## L 0 2 0 2
## M 0 1 2 3
## PO 0 0 1 1
## SE 0 1 0 1
## V 0 1 1 2
## VA 0 0 1 1
## ZA 0 0 1 1
## Sum 1357 10 8 1375
Las pruebas de bondad de ajuste se aplican a datos de frecuencias en escalas nominales, los cuales son propocionados por Sexo en el comienzo y final de la cuarentena. Estos métodos nos permiten evaluar qué tan bien una muestra de observaciones de frecuencias de una población, se ajusta a una distribución hipotética de las frecuencias. Prueba de bondad de ajuste Kolmogorov-Smirnov La prueba de Kolmogorov-Smirnov nos permite comparar frecuencias observadas y esperadas, en escalas de proporciones (acumuladas), ordinales o intervalos, las cuales son \((9,3,3)\) y \((9, 3)\), respectivamente. Esta prueba también se usa para probar si las distribuciones de dos muestras de valores continuos, son iguales o no (provienen o no de la misma población).
Comienzo de la cuarentena (15-Marzo-2020)
fo <- table(datos$sexoMarzo, exclude = '')
fo
##
## H M NC
## 209 152 3
n = sum(fo)
#frec esperada
proporcion <- c(9,3,3)
np = sum(proporcion)
fe <- proporcion*n/np
fe
## [1] 218.4 72.8 72.8
#tabla
fit <- t(fo)
fit
##
## H M NC
## [1,] 209 152 3
fet <- t(fe)
fet
## [,1] [,2] [,3]
## [1,] 218.4 72.8 72.8
frec <- rbind(fit,fet)
row <- c("fi","fe")
tabla <- cbind(row,frec)
table(datos$sexoMarzo, exclude = '')
##
## H M NC
## 209 152 3
knitr::kable(tabla, format = "markdown", col.names = c(" ","Hombres",'Mujeres',"NA"))
| Hombres | Mujeres | NA | |
|---|---|---|---|
| fi | 209 | 152 | 3 |
| fe | 218.4 | 72.8 | 72.8 |
Final de la cuarentena (21-Junio-2020)
fo2 <- table(datos$sexoJunio, exclude = '')
fo2
##
## H M
## 4 1
n2 = sum(fo2)
#frec esperada
proporcion2 <- c(9,3)
np2 = sum(proporcion2)
fe2 <- proporcion2*n2/np2
fe2
## [1] 3.75 1.25
#tabla
fit2 <- t(fo2)
fit2
##
## H M
## [1,] 4 1
fet2 <- t(fe2)
fet2
## [,1] [,2]
## [1,] 3.75 1.25
frec2 <- rbind(fit2,fet2)
row2 <- c("fi2","fe2")
tabla2 <- cbind(row2,frec2)
table(datos$sexoJunio, exclude = '')
##
## H M
## 4 1
knitr::kable(tabla2, format = "markdown", col.names = c(" ","Hombres",'Mujeres'))
| Hombres | Mujeres | |
|---|---|---|
| fi2 | 4 | 1 |
| fe2 | 3.75 | 1.25 |
El objetivo de un modelo de regresión es tratar de explicar la relación que existe entre una variable dependiente (variable respuesta) Y un conjunto de variables independientes (variables explicativas) \(X1,..., Xn\). Regresión Lineal Simple En un modelo de regresión lineal simple tratamos de explicar la relación que existe entre la variable respuesta \(Y\) y una única variable explicativa \(X\), las cuales son Número de Contagiados y Número de Hospitalizados al comienzo y final de la cuarentena en España Comienzo de la cuarentena (15-Marzo-2020)
pairs(regresionMarzo)
cor(regresionMarzo)
## num_casos prueba_pcr num_hosp num_def
## num_casos 1.0000000 0.9998473 0.9823679 0.9380015
## prueba_pcr 0.9998473 1.0000000 0.9848139 0.9427852
## num_hosp 0.9823679 0.9848139 1.0000000 0.9797746
## num_def 0.9380015 0.9427852 0.9797746 1.0000000
regresionM <- lm(num_casos ~ num_hosp,data=regresionMarzo)
regresionM
##
## Call:
## lm(formula = num_casos ~ num_hosp, data = regresionMarzo)
##
## Coefficients:
## (Intercept) num_hosp
## 45.443 4.026
plot(datosMarzo$num_hosp, datosMarzo$num_casos, xlab='Contagiados', ylab='Hospitalizados')
abline(regresionM)
confint(regresionM)
## 2.5 % 97.5 %
## (Intercept) 23.946135 66.940170
## num_hosp 3.810425 4.241192
Final de la cuarentena (21-Junio-2020)
pairs(regresionJunio)
cor(regresionJunio)
## num_casos prueba_pcr num_hosp num_def
## num_casos 1.0000000 0.9963487 0.5168385 0.2302821
## prueba_pcr 0.9963487 1.0000000 0.5264006 0.2308147
## num_hosp 0.5168385 0.5264006 1.0000000 0.5556367
## num_def 0.2302821 0.2308147 0.5556367 1.0000000
regresionJ <- lm(num_casos ~ num_hosp,data=regresionJunio)
regresionJ
##
## Call:
## lm(formula = num_casos ~ num_hosp, data = regresionJunio)
##
## Coefficients:
## (Intercept) num_hosp
## 2.379 6.773
plot(datosJunio$num_hosp, datosMarzo$num_casos, xlab='Contagiados', ylab='Hospitalizados')
abline(regresionJ)
confint(regresionJ)
## 2.5 % 97.5 %
## (Intercept) 0.006560405 4.751733
## num_hosp 3.618964434 9.926059
#Refencias https://rubenfcasal.github.io/COVID-19/