Vamos a realizar una exploración de datos…………………..

###Exploratorio Univariado

library(readxl)
Datos = read_excel("D:/Usuario/Desktop/casos_covid.2xlsx (1).xlsx")
## Presentamos los primeros registros de la base
Datos[1:5,1:5]
fecha_reporte_web id_de_caso fecha_de_notificaci_n departamento departamento_nom
2020-09-08 675920 2020-08-27 76 VALLE
2020-09-08 675924 2020-08-27 76 VALLE
2020-09-08 675925 2020-08-27 76 VALLE
2021-03-04 2265227 2021-02-27 76 VALLE
2021-03-04 2265228 2021-02-26 76 VALLE
## Cambiamos a formato fecha la de inicio de sintomas
Datos$fis=as.Date(Datos$fecha_inicio_sintomas)

# Filtrar solo casos del 2021( eliminar los del 2020)
pos=which(Datos$fis>"2020-12-31" &
Datos$ciudad_municipio_nom=="CALI")

Se observa que la base de datos depuradacontiene un total de 1125registros y 25 variables, sobre esta vamos a explorar la información:

##Tabla de indicadores
require(table1)
## Loading required package: table1
## 
## Attaching package: 'table1'
## The following objects are masked from 'package:base':
## 
##     units, units<-
require(ggplot2)
## Loading required package: ggplot2
tabla=sort(table(Datos$fis),decreasing = TRUE)[1:5]
res=data.frame(tabla)
names(res)=c("Fecha","Frecuencia")
res
Fecha Frecuencia
2021-01-07 83
2021-01-06 81
2021-01-08 53
2021-01-05 48
2021-01-23 45
table1(~edad+sexo+fuente_tipo_contagio|Estado,data = Datos,
        overall=F,extra.col=list(`P-value`=pvalue))
Confirmado
(N=1441)
Fallecido
(N=29)
P-value
edad
Mean (SD) 38.6 (17.2) 72.5 (15.7) <0.001
Median [Min, Max] 35.0 [1.00, 90.0] 73.0 [32.0, 97.0]
sexo
F 834 (57.9%) 9 (31.0%) 0.00685
M 607 (42.1%) 20 (69.0%)
fuente_tipo_contagio
Comunitaria 965 (67.0%) 25 (86.2%) 0.0469
Relacionado 476 (33.0%) 4 (13.8%)