Vamos a realizar una exploración de datos…………………..
###Exploratorio Univariado
library(readxl)
Datos = read_excel("D:/Usuario/Desktop/casos_covid.2xlsx (1).xlsx")
## Presentamos los primeros registros de la base
Datos[1:5,1:5]
| fecha_reporte_web | id_de_caso | fecha_de_notificaci_n | departamento | departamento_nom |
|---|---|---|---|---|
| 2020-09-08 | 675920 | 2020-08-27 | 76 | VALLE |
| 2020-09-08 | 675924 | 2020-08-27 | 76 | VALLE |
| 2020-09-08 | 675925 | 2020-08-27 | 76 | VALLE |
| 2021-03-04 | 2265227 | 2021-02-27 | 76 | VALLE |
| 2021-03-04 | 2265228 | 2021-02-26 | 76 | VALLE |
## Cambiamos a formato fecha la de inicio de sintomas
Datos$fis=as.Date(Datos$fecha_inicio_sintomas)
# Filtrar solo casos del 2021( eliminar los del 2020)
pos=which(Datos$fis>"2020-12-31" &
Datos$ciudad_municipio_nom=="CALI")
Se observa que la base de datos depuradacontiene un total de 1125registros y 25 variables, sobre esta vamos a explorar la información:
##Tabla de indicadores
require(table1)
## Loading required package: table1
##
## Attaching package: 'table1'
## The following objects are masked from 'package:base':
##
## units, units<-
require(ggplot2)
## Loading required package: ggplot2
tabla=sort(table(Datos$fis),decreasing = TRUE)[1:5]
res=data.frame(tabla)
names(res)=c("Fecha","Frecuencia")
res
| Fecha | Frecuencia |
|---|---|
| 2021-01-07 | 83 |
| 2021-01-06 | 81 |
| 2021-01-08 | 53 |
| 2021-01-05 | 48 |
| 2021-01-23 | 45 |
table1(~edad+sexo+fuente_tipo_contagio|Estado,data = Datos,
overall=F,extra.col=list(`P-value`=pvalue))
| Confirmado (N=1441) |
Fallecido (N=29) |
P-value | |
|---|---|---|---|
| edad | |||
| Mean (SD) | 38.6 (17.2) | 72.5 (15.7) | <0.001 |
| Median [Min, Max] | 35.0 [1.00, 90.0] | 73.0 [32.0, 97.0] | |
| sexo | |||
| F | 834 (57.9%) | 9 (31.0%) | 0.00685 |
| M | 607 (42.1%) | 20 (69.0%) | |
| fuente_tipo_contagio | |||
| Comunitaria | 965 (67.0%) | 25 (86.2%) | 0.0469 |
| Relacionado | 476 (33.0%) | 4 (13.8%) |