Vamos a realizar una exploración de datos…

Exploratorio Univariado

##Importamos los Datos
library(readxl)
datos = read_excel("~/Desktop/casos_covid.2xlsx.xlsx")

#Presentamos los primeros registros de la base
datos[1:5,1:5]
fecha_reporte_web id_de_caso fecha_de_notificaci_n departamento departamento_nom
2020-09-08 675920 2020-08-27 76 VALLE
2020-09-08 675924 2020-08-27 76 VALLE
2020-09-08 675925 2020-08-27 76 VALLE
2021-03-04 2265227 2021-02-27 76 VALLE
2021-03-04 2265228 2021-02-26 76 VALLE
#Cambiamos a formato fecha la de inicio de sintomas
datos$fis=as.Date(datos$fecha_inicio_sintomas)

#Filtrar solo casos del 2021 (eliminar los de 2020)
pos=which(datos$fis>"2020-12-31" & datos$ciudad_municipio_nom=="CALI")

datos_filtro=datos[pos,]

Se observa que la base de datos depurada contiene un total de 1125 registros y 25 variables, sobre esta vamos a explorar la información:

##Tabla de indicadores
require(table1)
require(ggplot2)

tabla=sort(table(datos$fis),decreasing = TRUE)[1:5]
res=data.frame(tabla)
names(res)=c("Fecha","Frecuencia")
res
Fecha Frecuencia
2021-01-07 83
2021-01-06 81
2021-01-08 53
2021-01-05 48
2021-01-23 45
table1(~edad+sexo+fuente_tipo_contagio|Estado,data = datos_filtro,overall=F,extra.col=list(`P-value`=pvalue))
Confirmado
(N=1100)
Fallecido
(N=25)
P-value
edad
Mean (SD) 37.5 (17.1) 72.2 (14.0) <0.001
Median [Min, Max] 35.0 [1.00, 87.0] 72.0 [32.0, 97.0]
sexo
F 657 (59.7%) 8 (32.0%) 0.0098
M 443 (40.3%) 17 (68.0%)
fuente_tipo_contagio
Comunitaria 704 (64.0%) 21 (84.0%) 0.0637
Relacionado 396 (36.0%) 4 (16.0%)

La tabla nos muestra que los factores edad y sexo se relacionan con la mortalidad por covid 19, indicando que los mas adultos tienen mayor posibilidad de morir al igual que los hombres, mientras que la fuente de contagio no se relaciona con la mortalidad.