Vamos a realizar una exploración de datos…
##Importamos los Datos
library(readxl)
datos = read_excel("~/Desktop/casos_covid.2xlsx.xlsx")
#Presentamos los primeros registros de la base
datos[1:5,1:5]
fecha_reporte_web | id_de_caso | fecha_de_notificaci_n | departamento | departamento_nom |
---|---|---|---|---|
2020-09-08 | 675920 | 2020-08-27 | 76 | VALLE |
2020-09-08 | 675924 | 2020-08-27 | 76 | VALLE |
2020-09-08 | 675925 | 2020-08-27 | 76 | VALLE |
2021-03-04 | 2265227 | 2021-02-27 | 76 | VALLE |
2021-03-04 | 2265228 | 2021-02-26 | 76 | VALLE |
#Cambiamos a formato fecha la de inicio de sintomas
datos$fis=as.Date(datos$fecha_inicio_sintomas)
#Filtrar solo casos del 2021 (eliminar los de 2020)
pos=which(datos$fis>"2020-12-31" & datos$ciudad_municipio_nom=="CALI")
datos_filtro=datos[pos,]
Se observa que la base de datos depurada contiene un total de 1125 registros y 25 variables, sobre esta vamos a explorar la información:
##Tabla de indicadores
require(table1)
require(ggplot2)
tabla=sort(table(datos$fis),decreasing = TRUE)[1:5]
res=data.frame(tabla)
names(res)=c("Fecha","Frecuencia")
res
Fecha | Frecuencia |
---|---|
2021-01-07 | 83 |
2021-01-06 | 81 |
2021-01-08 | 53 |
2021-01-05 | 48 |
2021-01-23 | 45 |
table1(~edad+sexo+fuente_tipo_contagio|Estado,data = datos_filtro,overall=F,extra.col=list(`P-value`=pvalue))
Confirmado (N=1100) |
Fallecido (N=25) |
P-value | |
---|---|---|---|
edad | |||
Mean (SD) | 37.5 (17.1) | 72.2 (14.0) | <0.001 |
Median [Min, Max] | 35.0 [1.00, 87.0] | 72.0 [32.0, 97.0] | |
sexo | |||
F | 657 (59.7%) | 8 (32.0%) | 0.0098 |
M | 443 (40.3%) | 17 (68.0%) | |
fuente_tipo_contagio | |||
Comunitaria | 704 (64.0%) | 21 (84.0%) | 0.0637 |
Relacionado | 396 (36.0%) | 4 (16.0%) |
La tabla nos muestra que los factores edad y sexo se relacionan con la mortalidad por covid 19, indicando que los mas adultos tienen mayor posibilidad de morir al igual que los hombres, mientras que la fuente de contagio no se relaciona con la mortalidad.