Se tiene la base de datos de contagios por Covid-19 del Instituto Nacional de Salud (INS) desde el primer caso detectado en Colombia hasta el día 14 de septiembre de 2020.
A continuación, se realiza un rápido análisis exploratorio.
Una vez intalada la base de datos y la librería necesaria para el análisis, se tienen los siguientes datos, la tabla muestra las 15 primeras filas y 7 primeras columnas.
kable(head((covid14sep[,1:7]), 15),caption = "Casos Covid-19 en Colombia hasta 14 de septiembre de 2020", align = 'c', booktabs = TRUE)
| Caso | Fecha Not | Departamento | nombre_depa | Ciudad_municipio | nombre_mun | Edad |
|---|---|---|---|---|---|---|
| 1 | 2/03/2020 | 11 | Bogotá D.C. | 11001 | Bogotá D.C. | 19 |
| 2 | 6/03/2020 | 76 | Valle del Cauca | 76111 | Guadalajara de Buga | 34 |
| 3 | 7/03/2020 | 05 | Antioquia | 05001 | Medellín | 50 |
| 4 | 9/03/2020 | 05 | Antioquia | 05001 | Medellín | 55 |
| 5 | 9/03/2020 | 05 | Antioquia | 05001 | Medellín | 25 |
| 6 | 10/03/2020 | 05 | Antioquia | 05360 | Itagüí | 27 |
| 7 | 8/03/2020 | 13 | Cartagena D.T. y C. | 13001 | Cartagena de Indias | 85 |
| 8 | 9/03/2020 | 11 | Bogotá D.C. | 11001 | Bogotá D.C. | 22 |
| 9 | 8/03/2020 | 11 | Bogotá D.C. | 11001 | Bogotá D.C. | 28 |
| 10 | 12/03/2020 | 11 | Bogotá D.C. | 11001 | Bogotá D.C. | 36 |
| 11 | 11/03/2020 | 11 | Bogotá D.C. | 11001 | Bogotá D.C. | 42 |
| 12 | 10/03/2020 | 41 | Huila | 41001 | Neiva | 74 |
| 13 | 10/03/2020 | 41 | Huila | 41001 | Neiva | 68 |
| 14 | 10/03/2020 | 76 | Valle del Cauca | 76520 | Palmira | 48 |
| 15 | 13/03/2020 | 50 | Meta | 50001 | Villavicencio | 30 |
Al realizar un histograma con las edades, se puede observar que la mayoría de las personas entre los 30 y 40 años, representaron la mayor parte de los contagios. Esto puede estar relacionado con las características demográficas de la población en general. Los contagios al ser aleatorios podrían representar de la misma manera la distribución de las edades de los contagiados.
#Histograma edad
ggplot(covid14sep, aes(x = Edad)) +
geom_histogram()
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
covid14sep <- covid14sep%>%mutate(Sexo = fct_recode(Sexo,
"F" = "f",
"F" = "F",
"M" = "m",
"M" = "M"))
grsexo <- ggplot(covid14sep, aes(x = Sexo)) + geom_bar(width=0.5)
grsexo + xlab("Sexo del Contagiado") + ylab ("Número de casos") +
ggtitle("Sexo del contagiado")
tabla1 <- round(prop.table(table(covid14sep$Sexo))*100,2)
kable(tabla1, col.names = c("Sexo","Porcentaje"), align = "c")
| Sexo | Porcentaje |
|---|---|
| F | 48.98 |
| M | 51.02 |
La mayor parte de los casos, mantienen en estudio la fuente de contagio, tan solo el 5% son relacionados.esto, por la dificultad cada vez más fuerte de crear el sesgo epidemiológico a medida que pasa el tiempo.
ggplot(data = covid14sep,
mapping = aes(x = factor(Fuente_tipo_contagio))) +
geom_bar() +
coord_flip()
tabla2 <- round(prop.table(table(covid14sep$Fuente_tipo_contagio))*100,2)
kable(tabla2, col.names = c("Estado","Porcentaje"), align = "c")
| Estado | Porcentaje |
|---|---|
| En estudio | 94.21 |
| En Estudio | 0.30 |
| Importado | 0.14 |
| relacionado | 0.01 |
| Relacionado | 5.34 |
| RELACIONADO | 0.00 |
Cerca del 81% de los casos contabilizados por el INS resultaron ser leves, mientras que, en el caso contrario, el 3% resultaron ser mortales. Lo que da cuenta de la letalidad del virus en el territorio nacional.
grg <- ggplot(covid14sep, aes(x = Estado)) + geom_bar(width=0.5)
grg + xlab("Estado") + ylab ("Número de casos") +
ggtitle("Estado de los contagiados")
tablae <- round(prop.table(table(covid14sep$Estado))*100,2)
kable(tablae, col.names = c("Estado","Porcentaje"), align = "c")
| Estado | Porcentaje |
|---|---|
| Asintomático | 12.44 |
| Fallecido | 3.20 |
| Grave | 0.30 |
| Leve | 80.80 |
| Moderado | 3.03 |
| N/A | 0.24 |
grrecu <- ggplot(covid14sep, aes(x = Tipo_recuperacion)) + geom_bar(width=0.5)
grrecu + xlab("Recuperación") + ylab ("Número de casos") +
ggtitle("Tipo de recuperación de los contagiados")
tabla3 <- round(prop.table(table(covid14sep$Tipo_recuperacion))*100,2)
kable(tabla3, col.names = c("Recuperación","Porcentaje"), align = "c")
| Recuperación | Porcentaje |
|---|---|
| PCR | 17.08 |
| Tiempo | 82.92 |
Al tener en cuenta los departamentos donde se presentaron los contagios, la tabla de frecuencias arrojó que el 33.5% de los contagiados se encontraban en Bogotá D.C y en Antioquia se encontraba el 13,43%, lo que representa aproximadamente el 47% de los contagios. Característica que va de la mano de la cantidad de población presente en cada área analizada.
ggplot(data = covid14sep,
mapping = aes(x = factor(nombre_depa))) +
geom_bar() +
coord_flip()
tabla4 <- sort(round(prop.table(table(covid14sep$nombre_depa))*100,2),decreasing = TRUE)
kable(tabla4, col.names = c("Departamento","Porcentaje"), align = "c")
| Departamento | Porcentaje |
|---|---|
| Bogotá D.C. | 33.52 |
| Antioquia | 13.43 |
| Valle del Cauca | 7.12 |
| Barranquilla D.E. | 5.14 |
| Cundinamarca | 3.99 |
| Atlántico | 3.98 |
| Santander | 3.46 |
| Córdoba | 3.07 |
| Cartagena D.T. y C. | 3.04 |
| Nariño | 2.24 |
| Cesar | 2.18 |
| Norte de Santander | 1.90 |
| Sucre | 1.83 |
| Meta | 1.78 |
| Tolima | 1.35 |
| Santa Marta D.T. y C. | 1.29 |
| Risaralda | 1.18 |
| Huila | 1.10 |
| Cauca | 1.02 |
| Caquetá | 1.01 |
| La Guajira | 0.92 |
| Boyacá | 0.75 |
| Bolívar | 0.74 |
| Magdalena | 0.63 |
| Caldas | 0.56 |
| Chocó | 0.54 |
| Putumayo | 0.47 |
| Amazonas | 0.38 |
| Buenaventura D.E. | 0.35 |
| Quindío | 0.30 |
| Casanare | 0.22 |
| Arauca | 0.18 |
| Archipiélago de San Andrés Providencia y Santa Catalina | 0.08 |
| Vaupés | 0.08 |
| Guaviare | 0.07 |
| Guainía | 0.05 |
| Vichada | 0.04 |
Si se grafican los contagios diarios, se puede apreciar la disminución de casos al axtremo derecho del gráfico, es decir, en los últimos días antes de la fecha de corte. Las acciones tomadas y medidas de seguridad adoptadas pueden estar reflejando resultados, que pueden volver a aumentar con el pasar del tiempo y aumento de confianza.
gcontagios=ggplot(covid14sep,aes(x=`Fecha Not`))+
geom_bar()+
theme_bw()+
xlab("Fecha de Notificación") +
ylab("Número de casos") +
ggtitle("Número de Contagios diarios en Colombia")
ggplotly(gcontagios)