Presentación

Este documento es un ejercicio práctico para aplicar algunos conceptos del lenguaje de programación R; editar bases de datos, realizar gráficos descriptivos, crear tablas. Es un ejemplo demostrativo, que a su vez, es usado por quien escribe estas líneas, para dejar nota de los códigos.

Siéntase en la libertad de copiar, compartir, criticar, satirizar, reproducir las ideas del documento; como también sugerir mejoras u opinar acerca del mismo.

La interpretación y análisis conceptual se deja al lector interesado en la temática propuesta para el ejercicio.

Datos

Fuente de la base de datos

La base de datos fué obtenida el día 13 de Noviembre de 2020 a través de la página de datos abiertos del gobierno de Colombia: datos.gov.co

Lectura de datos

library(data.table)
datos <- fread("Casos_positivos_de_COVID-19_en_Colombia.csv",
               encoding = "UTF-8", na.strings = "N/A")
|--------------------------------------------------|
|==================================================|
datos[datos == ""] <- NA

La base de datos tiene 1’165.326 filas y 23 columnas (variables).

# dimensión de la base de datos
dim(datos)
[1] 1165326      23

Mostrar los primeros 100 datos

library(DT)
head(datos, 100)

Nombres de las variables o columnas.

Una descripción completa de las variables se presenta en el sitio web de datos abiertos del gobierno de Colombia.

names(datos)
 [1] "fecha reporte web"            "ID de caso"                  
 [3] "Fecha de notificación"        "Código DIVIPOLA departamento"
 [5] "Nombre departamento"          "Código DIVIPOLA municipio"   
 [7] "Nombre municipio"             "Edad"                        
 [9] "Unidad de medida de edad"     "Sexo"                        
[11] "Tipo de contagio"             "Ubicación del caso"          
[13] "Estado"                       "Código ISO del país"         
[15] "Nombre del país"              "Recuperado"                  
[17] "Fecha de inicio de síntomas"  "Fecha de muerte"             
[19] "Fecha de diagnóstico"         "Fecha de recuperación"       
[21] "Tipo de recuperación"         "Pertenencia étnica"          
[23] "Nombre del grupo étnico"     

Editar base de datos

  • Se editarán los nombres de las variables con el objetivo de que no generen confusión en el análisis.

  • Se precisa tener nombres cortos preferiblemente, que no contengan caracteres especiales tales como ")%(&´’/#¨!$.

  • Tampoco es recomendable que contengan acentos característicos del lenguaje natural, tildes o la letra ñ por ejemplo.

  • La variable etnia tiene seis niveles, establecidos de la siquiente manera:

      1. Indígena
      1. ROM
      1. Raizal
      1. Palenquero
      1. Negro
      1. Otro
  • fecha_notif es la fecha de notificación ante el SIVIGILA

  • fecha_diagnos Fecha de confirmación por laboratorio.

#librerías
library(lubridate)
library(tidyverse)
library(janitor)
library(Hmisc)
datos %>% 
  #nombres de las variables en minúsculas
  clean_names() %>% 
  #seleccionar y renombrar las variables de interés
  select(fecha_sintomas = fecha_de_inicio_de_sintomas,
         fecha_diagnos = fecha_de_diagnostico,
         fecha_notif = fecha_de_notificacion,
         fecha_recu = fecha_de_recuperacion,
         departamento = nombre_departamento,
         municipio = nombre_municipio,
         edad,
         sexo,
         contagio = tipo_de_contagio,
         ubicacion_caso = ubicacion_del_caso,
         estado,
         pais = nombre_del_pais,
         recuperado,
         tipo_recuperacion = tipo_de_recuperacion,
         etnia = pertenencia_etnica) %>% 
  mutate(#cambiar a formato fecha (date)
         fecha_sintomas = as.Date(fecha_sintomas, format="%d/%m/%Y"),
         fecha_diagnos = as.Date(fecha_diagnos, format="%d/%m/%Y"),
         fecha_notif = as.Date(fecha_notif, format="%d/%m/%Y"),
         fecha_recu = as.Date(fecha_recu, format="%d/%m/%Y"),
         #editar los valores de la variable sexo
         sexo = gsub("f", "F", sexo),
         sexo = gsub("m", "M", sexo),
         #editar nombres de los departamentos
         departamento = capitalize(tolower(departamento)),
         departamento = gsub("Sta marta d.e.", "Sta marta",departamento),
         departamento = gsub("Atlantico", "Atlántico",departamento),
         departamento = gsub("Bogota", "Bogotá",departamento),
         departamento = gsub("Boyaca", "Boyacá",departamento),
         departamento = gsub("Caqueta", "Caquetá",departamento),
         departamento = gsub("Choco", "Chocó",departamento),
         departamento = gsub("Cordoba", "Córdoba",departamento),
         departamento = gsub("Guainia", "Guainía",departamento),
         departamento = gsub("Norte santander", "Norte Santander",departamento),
         departamento = gsub("Valle", "Valle del Cauca",departamento),
         #editar nombres de los municipios
         municipio = capitalize(tolower(municipio)),
         #editar los valores de la variable estado
         estado = gsub("LEVE", "Leve", estado),
         estado = gsub("leve", "Leve", estado),
         estado = gsub("moderado", "Moderado", estado),
         #editar los valores de la variable contagio
         contagio = gsub("En estudio", "en_estudio",contagio),
         contagio = gsub("EN ESTUDIO", "en_estudio",contagio),
         contagio = gsub("En Estudio", "en_estudio",contagio),
         contagio = gsub("relacionado", "Relacionado",contagio),
         contagio = gsub("Relacioando", "Relacionado",contagio),
         contagio = gsub("RELACIONADO", "Relacionado",contagio),
         #editar los valores de la variable pais
         pais = capitalize(tolower(pais)),
         pais = gsub("Arabia saudita" , "Arabia saudí",pais),
         pais = gsub("Arabia saudita" , "Arabia saudí",pais),
         pais = gsub("Estados unidos de america", "Estados unidos",pais),
         pais = gsub("Estados unidos de américa", "Estados unidos",pais),
         pais = gsub("Mexico" , "México",pais),
         pais = gsub("Panama" , "Panamá",pais),
         pais = gsub("Peru" , "Perú",pais),
         pais = gsub("Reino unido de gran bretaña e irlanda del norte" , "Reino unido",pais),
         pais = gsub("República árabe siria" , "Siria",pais),
         #editar los valores de la variable recuperado
         recuperado = gsub("fallecido" , "Fallecido", recuperado),
         #editar los valores de la variable ubicacion_caso
         ubicacion_caso = gsub("CASA" , "Casa", ubicacion_caso),
         ubicacion_caso = gsub("Hospital UCI" , "UCI", ubicacion_caso),
         #convertir variable etnia en factor
         etnia = as.factor(etnia)) %>% 
  #convertir las variables que estén en formato character a formato factor
  mutate_if(is.character, as.factor) -> covid

Base de datos editada, primeros 100 datos

head(covid, 100)

Exportar la base de datos

Se guardará la base de datos editada en un archivo .csv con el nombre datos_covid.csv.

write_csv(x = covid, file = "datos_covid.csv")

Series de tiempo

Las líneas rojas verticales punteadas representan algunas fechas durante la pandemia; de izquierda a derecha:

Casos Totales por día

library(plotly)
ggplotly(
  covid %>% 
  group_by(fecha_diagnos) %>% 
  summarise(Total = n()) %>%
  ggplot(., mapping = aes(x = fecha_diagnos, y = Total))+
  geom_point(color = "darkcyan")+
  scale_x_date(date_breaks = "15 day") +
  geom_line(color  = "gray") +
  geom_smooth(se = FALSE, color = "cornflowerblue")+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-06-19")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-09-01")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-07-03")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-10-9")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  labs(x = "Fecha", y = "Casos", title = "Total Casos por Día",
       subtitle = "", caption = "")+
  theme_bw()+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))+
  theme(panel.border = element_blank())
  ) %>% 
  layout(height = 500, width = 700)

NA

Logaritmo de los casos totales por día

library(plotly)
ggplotly(
  covid %>% 
  group_by(fecha_diagnos) %>% 
  summarise(Total = n()) %>%
  ggplot(., mapping = aes(x = fecha_diagnos, y = log(Total)))+
  geom_point(color = "darkcyan")+
  scale_x_date(date_breaks = "15 day") +
  geom_line(color  = "gray") +
  geom_smooth(se = FALSE, color = "cornflowerblue")+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-06-19")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-09-01")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-07-03")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-10-9")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  labs(x = "Fecha", y = "log(Casos)", title = "Escala logaritmica para casos diarios",
       subtitle = "", caption = "")+
  theme_bw()+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))+
  theme(panel.border = element_blank())
  ) %>% 
  layout(height = 500, width = 700)

Total casos acumulados del país

ggplotly(covid %>% 
  group_by(fecha_notif) %>% 
  summarise(Total = n()) %>%
  ungroup() %>% 
  mutate(T.Acumulado = cumsum(Total)) %>% 
  ggplot(otro, mapping = aes(x = fecha_notif, y = T.Acumulado))+
  geom_line(color = "aquamarine4", size=1)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-06-19")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-09-01")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-07-03")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-10-9")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  scale_x_date(date_breaks = "15 day") +
  labs(x = "Fecha", y = "Casos", title = "Casos Totales Acumulados Nacional",
       subtitle = "", caption = "")+
  theme_bw()+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))+
  theme(panel.border = element_blank())
)

Logaritmo de total casos en el país

ggplotly(covid %>% 
  group_by(fecha_notif) %>% 
  summarise(Total = n()) %>%
  ungroup() %>% 
  mutate(T.Acumulado = cumsum(Total)) %>% 
  ggplot(otro, mapping = aes(x = fecha_notif, y = log(T.Acumulado)))+
  geom_line(color = "aquamarine4", size=1)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-06-19")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-09-01")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-07-03")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-10-9")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  scale_x_date(date_breaks = "15 day") +
  labs(x = "", y = "log(casos)", title = "Escala Logarítmica Casos Acumulados Nacional",
       subtitle = "", caption = "")+
  theme_bw()+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))+
  theme(panel.border = element_blank())
)

Casos totales por departamento

Tabla con el total de casos positivos en cada departamento.

covid %>% 
  group_by(departamento) %>% 
  summarise(Total = n()) %>%
  ungroup() %>% 
  arrange(desc(Total)) %>% 
  datatable(extensions = 'Buttons',
            rownames = FALSE,
            filter = "top",
            selection = "multiple",
            options = list(dom = 'Bfrtip',
                           buttons = c('csv', 'excel', 'pdf')))

Variación diaria por Departamento

El punto rojo representa la media

ggplotly(covid %>% 
  group_by(departamento, fecha_notif) %>% 
  summarise(Total = n()) %>% 
  ungroup() %>% 
  group_by(departamento, fecha_notif) %>% 
  summarise(Total = sum(Total)) %>% 
  ggplot(aes(x = reorder(departamento, Total), y = Total))+
  geom_boxplot(fill = "cornflowerblue")+
  labs(x = "", y = "Casos", title = "",
       subtitle = "", caption = "")+
  stat_summary(fun.y = mean, geom = "point", color = "firebrick")+
  scale_y_log10()+
  theme_bw()+
  theme(panel.border = element_blank())+
  coord_flip())

NA

Representación por género de los casos acumulados

Serie de tiempo de los casos positivos presentados por género.

ggplotly(
  covid%>% 
  group_by(sexo, fecha_notif) %>% 
  summarise(Total = n()) %>%
  mutate(T.Acumulado = cumsum(Total)) %>% 
  ggplot(mapping = aes(x = fecha_notif, y = T.Acumulado, color = sexo))+
  geom_line(size=1, alpha=0.7)+
  scale_color_manual(values = c("aquamarine2", "chocolate2"))+
  scale_x_date(date_breaks = "15 day") +
  labs(x = "Fecha", y = "Casos", title = "Casos totales por género",
       subtitle = "", caption = "")+
  theme_bw()+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))+
  theme(panel.border = element_blank())
  )

Logaritmo casos acumulados por género

Serie de tiempo en escala logartítmica de casos acumulados por género.

ggplotly(
  covid%>% 
  group_by(sexo, fecha_notif) %>% 
  summarise(Total = n()) %>%
  mutate(T.Acumulado = cumsum(Total)) %>% 
  ggplot(mapping = aes(x = fecha_notif, y = log(T.Acumulado), color = sexo))+
  geom_line(size=1)+
  scale_color_manual(values = c("aquamarine2", "chocolate2"))+
  scale_x_date(date_breaks = "15 day") +
  labs(x = "Fecha", y = "log(casos)", title = "Escala logarítmica casos totales por género",
       subtitle = "", caption = "")+
  theme_bw()+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))+
  theme(panel.border = element_blank())
  )

Distribución de los casos presentados por semana y género

Variación semanal

  • En la semana 25 se encuentra el día 19 de Junio. Primer día sin IVA.

  • En la semana 27 se encuentra el día 3 de Julio. Segundo día sín IVA.

  • En la semana 36 se encuentra el día 1 de Septiembre. Inicia el aislamiento selectivo.

  • En la semana 41 y 42 se encuentra el 9 de Octubre y el 13 de Octubre. Eliminatorias copa mundial de fútbol Qatar 2022.

library(ggridges)
covid %>% 
  group_by(fecha_notif) %>% 
  count(name = "Total_dia") %>%
  ungroup() %>% 
  mutate(Semana = week(fecha_notif)) %>% 
  ggplot(aes(x = Total_dia, y = as.factor(Semana)))+
  geom_density_ridges(fill = "cadetblue")+theme_bw()+
  theme(panel.border = element_blank())+
  labs(x = "Casos por día", y = "Semana", title = "Variación semanal")

NA

Variación semanal por género

covid %>% 
  group_by(fecha_notif, sexo) %>% 
  count(name = "Total_dia") %>%
  ungroup() %>% 
  mutate(Semana = week(fecha_notif)) %>% 
  ggplot(aes(x = Total_dia, y = as.factor(Semana), fill = sexo))+
  scale_fill_manual(values = c("cadetblue", "firebrick2"))+
  geom_density_ridges(alpha = 0.7)+theme_bw()+
  theme(panel.border = element_blank(), legend.position = "right")+
  labs(x = "Casos por día", y = "Semana", title = "Variación semanal por género")

Representación gráfica para las edades

Gráfico de densidad por edad.

ggplot(data = covid, aes(edad))+
  geom_density(alpha = 0.5, fill = "darkcyan")+
  labs(x = "Edad", y = "Densidad", title = "Gráfico de densidad", subtitle="Distribución de casos según la edad")

Gráfico de densidad por edad y género

ggplot(data = covid, aes(edad, fill = sexo))+
  geom_density(alpha = 0.5)+
  labs(x = "Edad", y = "Densidad", title= "Gráfico de densidad",
       subtitle = "Distribución casos según la edad y el género")+
  scale_fill_manual(values = c("cadetblue", "firebrick2"))

Gráfico de violín por género y edades

Un diagrama de violín se utiliza para visualizar la distribución de los datos y su densidad de probabilidad. Este gráfico es una combinación de un diagrama de cajas y bigotes y un diagrama de densidad girado y colocado a cada lado, para mostrar la forma de distribución de los datos. Fuente

covid %>% 
  ggplot(aes(x = sexo, y = edad))+
  geom_violin(aes(color = sexo, fill = sexo), alpha = 0.7)+
  geom_boxplot(aes(fill = sexo),width = 0.2, outlier.alpha = 0.01)+
  scale_fill_manual(values = c("mediumpurple2", "darkslategray3"))+
  labs(x = "Sexo", y = "Edad", title = "Gráfico de violín para edades y género")

NA

Grafico de densidad Edad/Género/Fallecido

Se filtran casos en los que el estado es Fallecido para representarlos por género y edad.

fallecido <- covid %>% 
  filter(estado == "Fallecido")

ggplot(data = fallecido, mapping=aes(x = edad, fill = sexo))+
geom_density(alpha = 0.7)+
labs(x="Edad", y="Densidad", title="Distribución fallecidos por edad y género")+
scale_fill_manual(values = c("gold", "darkslategray3"))

NA
NA

Gráfico de densidad Edad/Género/Recuperado

Se filtran los valores de Recuperado para representarlos por género y edad.

recuperado <- covid %>% 
  filter(recuperado == "Recuperado")

ggplot(data = covid, mapping=aes(x = edad, fill = sexo))+
geom_density(alpha = 0.7)+
labs(x = "Edad", y="Densidad", title="Distribución recuperados por género y edad")+
scale_fill_manual(values = c("gold", "darkslategray3"))

NA
NA

Frecuencias para las variables pais y etnia

pais

Tabla de frecuencias para la variable pais. En orden descendente.

sort(desc(table(covid$pais)))

                España         Estados unidos                Ecuador 
                  -258                   -219                    -65 
                México                 Brasil                 Panamá 
                   -55                    -52                    -36 
               Turquía                   Perú                  Chile 
                   -27                    -24                    -20 
               Francia              Venezuela                Jamaica 
                   -19                    -18                    -16 
           Reino unido            Puerto rico               Alemania 
                   -15                    -13                    -11 
                Egipto                 Italia   República dominicana 
                   -11                    -11                    -10 
 Antillas neerlandesas                 Israel              Argentina 
                    -8                     -6                     -4 
                  Cuba                 Grecia                  Aruba 
                    -4                     -4                     -3 
                Canadá           Arabia saudí             Costa rica 
                    -3                     -2                     -2 
               Curazao              Marruecos              Nicaragua 
                    -2                     -2                     -2 
             Australia                Bélgica                Croacia 
                    -1                     -1                     -1 
Emiratos arabes unidos              Guatemala               Honduras 
                    -1                     -1                     -1 
               Irlanda                  Kenya               Portugal 
                    -1                     -1                     -1 
                 Siria                 Suecia                  Suiza 
                    -1                     -1                     -1 
               Uruguay 
                    -1 

etnia

Descripción obtenida del sitio web:

1-Indígena 2-ROM 3-Raizal 4-Palenquero 5-Negro 6-Otro. Esta variable se actualizará cada semana. ADVERTENCIA DE RESPONSABILIDAD: La variable etnia depende totalmente de tres cosas: - El correcto diligenciamiento de la variable Etnia por los profesionales de salud que notifican en más de 10.000 instituciones de salud en todos los municipios y departamentos. - Del autorreconocimiento de la persona cuando se le pregunta por esta variable. - Del listado censal que haga y mantenga actualizado cada departamento. No depende del Instituto Nacional de Salud, y por lo tanto, es responsabilidad de las autoridades de cada municipio, departamento y distrito de Colombia; la calidad y consistencia de dicha variable

Frecuencias obtenidas para la variable etnia.

table(covid$etnia)

      1       2       3       5       6 
  24181      36     405   40649 1052704 

Gráficos de barra

Se presenta una breve descripción para algunas variables, y se representan gráficamente a través de un diagrama de barras conjunto. En algunos casos las barras de las variables no se aprecian debido a que es bastante pequeña comparada con las otras variables presentes.

Variables

  • contagio: La barra para el valor Importado es bastante pequeña comparada con las otras dos debido a que la diferencia de contagios en este rubro es mucho menor; por lo tanto no se aprecia en el gráfico de manera correcta.

  • ubicacion_caso: *Corresponde a muertes no relacionadas con COVID-19, aún si eran casos activos **Hay pacientes recuperados para COVID-19, que pueden permanecer en hospitalización por otras comorbilidades.* (Descripción obtenida de la página oficial de datos abiertos.)

  • estado: *Corresponde a muertes no relacionadas con COVID-19, aún si eran casos activos **Hay pacientes recuperados para COVID-19, que pueden permanecer en hospitalización por otras comorbilidades.* (Descripción obtenida de la página oficial de datos abiertos.)

  • recuperado: Recuperado Fallecido N/A (Vacío). N/A se refiere a los fallecidos no COVID. Pueden haber casos recuperados con ubicación Hospital u Hospital UCI, ya que permanecen en hospitalización por causas diferentes. Los casos con información en blanco en esta columna corresponde a los casos activos (Descripción obtenida de la página oficial de datos abiertos.)

  • tipo_recuperacion

  • tipo_recuperacion: Se refiere a la variable de tipo de recuperación que tiene dos opciones: PCR y tiempo. PCR indica que la persona se encuentra recuperada por segunda muestra, en donde dio negativo para el virus; mientras que tiempo significa que son personas que cumplieron 30 días posteriores al inicio de síntomas o toma de muestras que no tienen síntomas, que no tengan más de 70 años ni que estén hospitalizados. (Descripción obtenida de la página oficial de datos abiertos.)

library(cowplot)

g1 <- ggplot(data = covid, aes(x = contagio)) +
geom_bar(stat = "count", fill = "cornflowerblue") + 
stat_count(geom = "text", colour = "black", size = 3.5,
aes(label = ..count..),position=position_stack(vjust=0.7))+
  labs(x = "", y = "",
       title = "Frecuencia Tipos de Contagio")+
  theme_minimal()+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

g2 <- ggplot(data = covid, aes(x = ubicacion_caso)) +
geom_bar(stat = "count", fill = "cornflowerblue") + 
stat_count(geom = "text", colour = "black", size = 3.5,
aes(label = ..count..),position=position_stack(vjust=1.1))+
  labs(x = "", y = "",
       title = "Frecuencia Ubicación Caso")+
  theme_minimal()+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

g3 <- ggplot(data = covid, aes(x = estado)) +
geom_bar(stat = "count", fill = "cornflowerblue") + 
stat_count(geom = "text", colour = "black", size = 3.5,
aes(label = ..count..),position=position_stack(vjust=1.1))+
  labs(x = "", y = "",
       title = "Frecuencia de la Variable Estado")+
  theme_minimal()+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

g4 <- ggplot(data = covid, aes(x = recuperado)) +
geom_bar(stat = "count", fill = "cornflowerblue") + 
stat_count(geom = "text", colour = "black", size = 3.5,
aes(label = ..count..),position=position_stack(vjust=1.1))+
  labs(x = "", y = "",
       title = "Frecuencia de Recuperado")+
  theme_minimal()+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

g5 <- ggplot(data = covid, aes(x = tipo_recuperacion)) +
geom_bar(stat = "count", fill = "cornflowerblue") + 
stat_count(geom = "text", colour = "black", size = 3.5,
aes(label = ..count..),position=position_stack(vjust=0.5))+
  labs(x = "", y = "",
       title = "Frecuencia Tipo de Recuperación")+
  theme_minimal()+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))


plot_grid(g1, g2, g3, g4, g5, scale = 1)

Gráficos de densidad

Distribución para la variable contagio

covid %>% 
  ggplot(data = covid, mapping = aes(x = edad, fill = contagio))+
  geom_density(alpha = 0.7)+
  labs(x = "Edad", y="Densidad", title="Distribución de tipo de contagio por edad")

Distribución de la variable ubicacion_caso

covid %>% 
  ggplot(data = covid, mapping = aes(x = edad, fill = ubicacion_caso))+
  geom_density(alpha = 0.7)+
  labs(x = "Edad", y="Densidad", title="Distribución ubicación de los casos por edad")

Distribución de la variable estado

covid %>% 
  ggplot(data = covid, mapping = aes(x = edad, fill = estado))+
  geom_density(alpha = 0.7)+
  labs(x = "Edad", y="Densidad", title="Distribución del estado por edad")

Distribución de la variable recuperado

covid %>% 
  ggplot(data = covid, mapping = aes(x = edad, fill = recuperado))+
  geom_density(alpha = 0.7)+
  labs(x = "Edad", y="Densidad", title="Distribución de recuperados por edad")

Distribución de la variable tipo_recuperacion

covid %>% 
  ggplot(data = covid, mapping = aes(x = edad, fill = tipo_recuperacion))+
  geom_density(alpha = 0.7)+
  labs(x = "Edad", y="Densidad", title="Distribución de recuperados por edad")+
  facet_grid()

Tablas

Tabla resumen por ciudad

ciudad1 <- covid %>% 
  group_by(municipio, departamento, contagio) %>% 
  summarise(Total = n()) %>% 
  ungroup()

ciudad11 <-  spread(data = ciudad1, key = contagio, value = Total) %>% 
  datatable(extensions = 'Buttons',
            rownames = FALSE,
            filter = "top",
            selection = "multiple",
            options = list(dom = 'Bfrtip',
                           buttons = c('csv', 'excel', 'pdf')))

ciudad11
ciudad2 <- covid %>% 
  group_by(municipio, departamento, ubicacion_caso) %>% 
  summarise(Total = n()) %>% 
  ungroup()

ciudad22 <-  spread(data = ciudad2, key = ubicacion_caso, value = Total) %>% 
  datatable(extensions = 'Buttons',
            rownames = FALSE,
            filter = "top",
            selection = "multiple",
            options = list(dom = 'Bfrtip',
                           buttons = c('csv', 'excel', 'pdf')))

ciudad22
ciudad3 <- covid %>% 
  group_by(municipio, departamento, estado) %>% 
  summarise(Total = n()) %>% 
  ungroup()

ciudad33 <-  spread(data = ciudad3, key = estado, value = Total) %>% 
  datatable(extensions = 'Buttons',
            rownames = FALSE,
            filter = "top",
            selection = "multiple",
            options = list(dom = 'Bfrtip',
                           buttons = c('csv', 'excel', 'pdf')))

ciudad33
ciudad4 <- covid %>% 
  group_by(municipio, departamento, recuperado) %>% 
  summarise(Total = n()) %>% 
  ungroup()

ciudad44 <-  spread(data = ciudad4, key = recuperado, value = Total) %>% 
  datatable(extensions = 'Buttons',
            rownames = FALSE,
            filter = "top",
            selection = "multiple",
            options = list(dom = 'Bfrtip',
                           buttons = c('csv', 'excel', 'pdf')))

ciudad44
ciudad5 <- covid %>% 
  group_by(municipio, departamento, tipo_recuperacion) %>% 
  summarise(Total = n()) %>% 
  ungroup()

ciudad55 <-  spread(data = ciudad5, key = tipo_recuperacion, value = Total) %>%
  datatable(extensions = 'Buttons',
            rownames = FALSE,
            filter = "top",
            selection = "multiple",
            options = list(dom = 'Bfrtip',
                           buttons = c('csv', 'excel', 'pdf')))

ciudad55
---
title: "Exploración datos de Covid-19 en Colombia" 
subtitle: "Cómputos con el lenguaje R"
author: "CRG"
date: 13/11/2020
output: 
  html_notebook:
    toc: true
    toc_float: true
    theme: flatly
    df_print: paged
    highlight: zenburn
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE, message = FALSE, warning = FALSE)
```

# Presentación

Este documento es un ejercicio práctico para aplicar algunos conceptos del lenguaje de programación R; editar bases de datos, realizar gráficos descriptivos, crear tablas. Es un ejemplo demostrativo, que a su vez, es usado por quien escribe estas líneas, para dejar nota de los códigos.

Siéntase en la libertad de copiar, compartir, criticar, satirizar, reproducir las ideas del documento; como también sugerir mejoras u opinar acerca del mismo.

La interpretación y análisis conceptual se deja al lector interesado en la temática propuesta para el ejercicio.

# Datos

## Fuente de la base de datos

La base de datos fué obtenida el día 13 de Noviembre de 2020 a través de la página de datos abiertos del gobierno de Colombia: [datos.gov.co](https://www.datos.gov.co/)  


![](imagenes/datos_gov.png)



## Lectura de datos

```{r}
library(data.table)
datos <- fread("Casos_positivos_de_COVID-19_en_Colombia.csv",
               encoding = "UTF-8", na.strings = "N/A")

datos[datos == ""] <- NA
```  

La base de datos tiene *1'165.326* filas y *23* columnas (variables).


```{r}
# dimensión de la base de datos
dim(datos)
```  
## Mostrar los primeros 100 datos

```{r}
library(DT)
head(datos, 100)
```



## Nombres de las variables o columnas.

Una descripción completa de las variables se presenta en el sitio web de [datos abiertos del gobierno de Colombia](https://www.datos.gov.co/Salud-y-Protecci-n-Social/Casos-positivos-de-COVID-19-en-Colombia/gt2j-8ykr).

```{r}
names(datos)
```

# Editar base de datos

* Se editarán los nombres de las variables con el objetivo de que no generen confusión en el análisis.  

* Se precisa tener nombres cortos preferiblemente, que no contengan caracteres especiales tales como **")%(&´'/#¨!\$**.  

* Tampoco es recomendable que contengan acentos característicos del lenguaje natural, tildes o la letra **ñ** por ejemplo.  

* La variable `etnia` tiene seis niveles, establecidos de la siquiente manera:  

    * 1. Indígena

    * 2. ROM

    * 3. Raizal

    * 4. Palenquero

    * 5. Negro

    * 6. Otro    
    


* `fecha_notif` es la fecha de notificación ante el [SIVIGILA](http://portalsivigila.ins.gov.co/)

* `fecha_diagnos` Fecha de confirmación por laboratorio.  


```{r}
#librerías
library(lubridate)
library(tidyverse)
library(janitor)
library(Hmisc)
datos %>% 
  #nombres de las variables en minúsculas
  clean_names() %>% 
  #seleccionar y renombrar las variables de interés
  select(fecha_sintomas = fecha_de_inicio_de_sintomas,
         fecha_diagnos = fecha_de_diagnostico,
         fecha_notif = fecha_de_notificacion,
         fecha_recu = fecha_de_recuperacion,
         departamento = nombre_departamento,
         municipio = nombre_municipio,
         edad,
         sexo,
         contagio = tipo_de_contagio,
         ubicacion_caso = ubicacion_del_caso,
         estado,
         pais = nombre_del_pais,
         recuperado,
         tipo_recuperacion = tipo_de_recuperacion,
         etnia = pertenencia_etnica) %>% 
  mutate(#cambiar a formato fecha (date)
         fecha_sintomas = as.Date(fecha_sintomas, format="%d/%m/%Y"),
         fecha_diagnos = as.Date(fecha_diagnos, format="%d/%m/%Y"),
         fecha_notif = as.Date(fecha_notif, format="%d/%m/%Y"),
         fecha_recu = as.Date(fecha_recu, format="%d/%m/%Y"),
         #editar los valores de la variable sexo
         sexo = gsub("f", "F", sexo),
         sexo = gsub("m", "M", sexo),
         #editar nombres de los departamentos
         departamento = capitalize(tolower(departamento)),
         departamento = gsub("Sta marta d.e.", "Sta marta",departamento),
         departamento = gsub("Atlantico", "Atlántico",departamento),
         departamento = gsub("Bogota", "Bogotá",departamento),
         departamento = gsub("Boyaca", "Boyacá",departamento),
         departamento = gsub("Caqueta", "Caquetá",departamento),
         departamento = gsub("Choco", "Chocó",departamento),
         departamento = gsub("Cordoba", "Córdoba",departamento),
         departamento = gsub("Guainia", "Guainía",departamento),
         departamento = gsub("Norte santander", "Norte Santander",departamento),
         departamento = gsub("Valle", "Valle del Cauca",departamento),
         #editar nombres de los municipios
         municipio = capitalize(tolower(municipio)),
         #editar los valores de la variable estado
         estado = gsub("LEVE", "Leve", estado),
         estado = gsub("leve", "Leve", estado),
         estado = gsub("moderado", "Moderado", estado),
         #editar los valores de la variable contagio
         contagio = gsub("En estudio", "en_estudio",contagio),
         contagio = gsub("EN ESTUDIO", "en_estudio",contagio),
         contagio = gsub("En Estudio", "en_estudio",contagio),
         contagio = gsub("relacionado", "Relacionado",contagio),
         contagio = gsub("Relacioando", "Relacionado",contagio),
         contagio = gsub("RELACIONADO", "Relacionado",contagio),
         #editar los valores de la variable pais
         pais = capitalize(tolower(pais)),
         pais = gsub("Arabia saudita" , "Arabia saudí",pais),
         pais = gsub("Arabia saudita" , "Arabia saudí",pais),
         pais = gsub("Estados unidos de america", "Estados unidos",pais),
         pais = gsub("Estados unidos de américa", "Estados unidos",pais),
         pais = gsub("Mexico" , "México",pais),
         pais = gsub("Panama" , "Panamá",pais),
         pais = gsub("Peru" , "Perú",pais),
         pais = gsub("Reino unido de gran bretaña e irlanda del norte" , "Reino unido",pais),
         pais = gsub("República árabe siria" , "Siria",pais),
         #editar los valores de la variable recuperado
         recuperado = gsub("fallecido" , "Fallecido", recuperado),
         #editar los valores de la variable ubicacion_caso
         ubicacion_caso = gsub("CASA" , "Casa", ubicacion_caso),
         ubicacion_caso = gsub("Hospital UCI" , "UCI", ubicacion_caso),
         #convertir variable etnia en factor
         etnia = as.factor(etnia)) %>% 
  #convertir las variables que estén en formato character a formato factor
  mutate_if(is.character, as.factor) -> covid
```

## Base de datos editada, primeros 100 datos

```{r}
head(covid, 100)
```

# Exportar la base de datos

Se guardará la base de datos editada en un archivo `.csv` con el nombre `datos_covid.csv`.

```{r , eval=FALSE}
write_csv(x = covid, file = "datos_covid.csv")

```


# Series de tiempo

Las líneas rojas verticales punteadas representan algunas fechas durante la pandemia; de izquierda a derecha:

* 19 de Junio de 2020. [Primer día sín IVA](https://id.presidencia.gov.co/Paginas/prensa/2020/Este-viernes-19-de-junio-se-realizara-el-primer-dia-sin-IVA-en-Colombia-200616.aspx).

* 3 de Julio de 2020. [Segundo día sín IVA](https://id.presidencia.gov.co/Paginas/prensa/2020/SEGUNDO-DIA-SIN-IVA-El-comercio-ha-redoblado-sus-esfuerzos-para-hacer-cumplir-protocolos-afirma-Fenalco-200207.aspx).

* 1 de Septiembre de 2020. [Inicia el aislamiento selectivo](https://www.semana.com/nacion/articulo/presidente-duque-anuncia-que-el-1-de-septiembre-empieza-aislamiento-selectivo/696740/).

* 9 de Octubre de 2020. [Eliminatorias copa del mundo de fútbol Qatar 2022](https://www.google.com/search?q=eliminatorias+qatar+2022+colombia&oq=eliminatoria+&aqs=chrome.1.69i57j69i59.3350j0j4&sourceid=chrome&ie=UTF-8#sie=m;/g/11j4dk2p18;2;/g/1226mn9d;dt;fp;1;;)


## Casos Totales por día


```{r}
library(plotly)
ggplotly(
  covid %>% 
  group_by(fecha_diagnos) %>% 
  summarise(Total = n()) %>%
  ggplot(., mapping = aes(x = fecha_diagnos, y = Total))+
  geom_point(color = "darkcyan")+
  scale_x_date(date_breaks = "15 day") +
  geom_line(color  = "gray") +
  geom_smooth(se = FALSE, color = "cornflowerblue")+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-06-19")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-09-01")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-07-03")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-10-9")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  labs(x = "Fecha", y = "Casos", title = "Total Casos por Día",
       subtitle = "", caption = "")+
  theme_bw()+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))+
  theme(panel.border = element_blank())
  ) %>% 
  layout(height = 500, width = 700)

```



## Logaritmo de los casos totales por día

```{r}
library(plotly)
ggplotly(
  covid %>% 
  group_by(fecha_diagnos) %>% 
  summarise(Total = n()) %>%
  ggplot(., mapping = aes(x = fecha_diagnos, y = log(Total)))+
  geom_point(color = "darkcyan")+
  scale_x_date(date_breaks = "15 day") +
  geom_line(color  = "gray") +
  geom_smooth(se = FALSE, color = "cornflowerblue")+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-06-19")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-09-01")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-07-03")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-10-9")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  labs(x = "Fecha", y = "log(Casos)", title = "Escala logaritmica para casos diarios",
       subtitle = "", caption = "")+
  theme_bw()+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))+
  theme(panel.border = element_blank())
  ) %>% 
  layout(height = 500, width = 700)
```


## Total casos acumulados del país

```{r}
ggplotly(covid %>% 
  group_by(fecha_notif) %>% 
  summarise(Total = n()) %>%
  ungroup() %>% 
  mutate(T.Acumulado = cumsum(Total)) %>% 
  ggplot(otro, mapping = aes(x = fecha_notif, y = T.Acumulado))+
  geom_line(color = "aquamarine4", size=1)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-06-19")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-09-01")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-07-03")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-10-9")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  scale_x_date(date_breaks = "15 day") +
  labs(x = "Fecha", y = "Casos", title = "Casos Totales Acumulados Nacional",
       subtitle = "", caption = "")+
  theme_bw()+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))+
  theme(panel.border = element_blank())
)
```

## Logaritmo de total casos en el país

```{r}
ggplotly(covid %>% 
  group_by(fecha_notif) %>% 
  summarise(Total = n()) %>%
  ungroup() %>% 
  mutate(T.Acumulado = cumsum(Total)) %>% 
  ggplot(otro, mapping = aes(x = fecha_notif, y = log(T.Acumulado)))+
  geom_line(color = "aquamarine4", size=1)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-06-19")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-09-01")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-07-03")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  geom_vline ( xintercept = as.numeric(as.Date ("2020-10-9")),
               linetype="dashed", 
               color = "firebrick", size=0.5, alpha=0.5)+
  scale_x_date(date_breaks = "15 day") +
  labs(x = "", y = "log(casos)", title = "Escala Logarítmica Casos Acumulados Nacional",
       subtitle = "", caption = "")+
  theme_bw()+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))+
  theme(panel.border = element_blank())
)
```

# Casos totales por departamento

Tabla con el total de casos positivos en cada departamento.

```{r}
covid %>% 
  group_by(departamento) %>% 
  summarise(Total = n()) %>%
  ungroup() %>% 
  arrange(desc(Total)) %>% 
  datatable(extensions = 'Buttons',
            rownames = FALSE,
            filter = "top",
            selection = "multiple",
            options = list(dom = 'Bfrtip',
                           buttons = c('csv', 'excel', 'pdf')))
```

# Variación diaria por Departamento
    
**El punto rojo representa la media**    
    
```{r fig.height=12, fig.width=7}
ggplotly(covid %>% 
  group_by(departamento, fecha_notif) %>% 
  summarise(Total = n()) %>% 
  ungroup() %>% 
  group_by(departamento, fecha_notif) %>% 
  summarise(Total = sum(Total)) %>% 
  ggplot(aes(x = reorder(departamento, Total), y = Total))+
  geom_boxplot(fill = "cornflowerblue")+
  labs(x = "", y = "Casos", title = "",
       subtitle = "", caption = "")+
  stat_summary(fun.y = mean, geom = "point", color = "firebrick")+
  scale_y_log10()+
  theme_bw()+
  theme(panel.border = element_blank())+
  coord_flip())
  
```



# Representación por género de los casos acumulados

Serie de tiempo de los casos positivos presentados por género.

```{r}
ggplotly(
  covid%>% 
  group_by(sexo, fecha_notif) %>% 
  summarise(Total = n()) %>%
  mutate(T.Acumulado = cumsum(Total)) %>% 
  ggplot(mapping = aes(x = fecha_notif, y = T.Acumulado, color = sexo))+
  geom_line(size=1, alpha=0.7)+
  scale_color_manual(values = c("aquamarine2", "chocolate2"))+
  scale_x_date(date_breaks = "15 day") +
  labs(x = "Fecha", y = "Casos", title = "Casos totales por género",
       subtitle = "", caption = "")+
  theme_bw()+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))+
  theme(panel.border = element_blank())
  )
```

# Logaritmo casos acumulados por género

Serie de tiempo en escala logartítmica de casos acumulados por género.

```{r}
ggplotly(
  covid%>% 
  group_by(sexo, fecha_notif) %>% 
  summarise(Total = n()) %>%
  mutate(T.Acumulado = cumsum(Total)) %>% 
  ggplot(mapping = aes(x = fecha_notif, y = log(T.Acumulado), color = sexo))+
  geom_line(size=1)+
  scale_color_manual(values = c("aquamarine2", "chocolate2"))+
  scale_x_date(date_breaks = "15 day") +
  labs(x = "Fecha", y = "log(casos)", title = "Escala logarítmica casos totales por género",
       subtitle = "", caption = "")+
  theme_bw()+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))+
  theme(panel.border = element_blank())
  )
```

# Distribución de los casos presentados por semana y género

## Variación semanal

* En la semana 25 se encuentra el día 19 de Junio. Primer día sin IVA.  

* En la semana 27 se encuentra el día 3 de Julio. Segundo día sín IVA.  

* En la semana 36 se encuentra el día 1 de Septiembre. Inicia el aislamiento selectivo.  

* En la semana 41 y 42 se encuentra el 9 de Octubre y el 13 de Octubre. Eliminatorias copa mundial de fútbol Qatar 2022.

```{r, fig.height=5.5, fig.asp=1}
library(ggridges)
covid %>% 
  group_by(fecha_notif) %>% 
  count(name = "Total_dia") %>%
  ungroup() %>% 
  mutate(Semana = week(fecha_notif)) %>% 
  ggplot(aes(x = Total_dia, y = as.factor(Semana)))+
  geom_density_ridges(fill = "cadetblue")+theme_bw()+
  theme(panel.border = element_blank())+
  labs(x = "Casos por día", y = "Semana", title = "Variación semanal")
  
```

## Variación semanal por género

```{r, fig.height=6, fig.asp=1}
covid %>% 
  group_by(fecha_notif, sexo) %>% 
  count(name = "Total_dia") %>%
  ungroup() %>% 
  mutate(Semana = week(fecha_notif)) %>% 
  ggplot(aes(x = Total_dia, y = as.factor(Semana), fill = sexo))+
  scale_fill_manual(values = c("cadetblue", "firebrick2"))+
  geom_density_ridges(alpha = 0.7)+theme_bw()+
  theme(panel.border = element_blank(), legend.position = "right")+
  labs(x = "Casos por día", y = "Semana", title = "Variación semanal por género")
```

# Representación gráfica para las edades

## Gráfico de densidad por edad.

```{r}
ggplot(data = covid, aes(edad))+
  geom_density(alpha = 0.5, fill = "darkcyan")+
  labs(x = "Edad", y = "Densidad", title = "Gráfico de densidad", subtitle="Distribución de casos según la edad")
```

## Gráfico de densidad por edad y género

```{r}
ggplot(data = covid, aes(edad, fill = sexo))+
  geom_density(alpha = 0.5)+
  labs(x = "Edad", y = "Densidad", title= "Gráfico de densidad",
       subtitle = "Distribución casos según la edad y el género")+
  scale_fill_manual(values = c("cadetblue", "firebrick2"))
```


## Gráfico de violín por género y edades

Un diagrama de violín se utiliza para visualizar la distribución de los datos y su densidad de probabilidad. Este gráfico es una combinación de un diagrama de cajas y bigotes y un diagrama de densidad girado y colocado a cada lado, para mostrar la forma de distribución de los datos. [Fuente](https://datavizcatalogue.com/ES/metodos/diagrama_de_violin.html#:~:text=Un%20diagrama%20de%20viol%C3%ADn%20se,de%20distribuci%C3%B3n%20de%20los%20datos.)


```{r}
covid %>% 
  ggplot(aes(x = sexo, y = edad))+
  geom_violin(aes(color = sexo, fill = sexo), alpha = 0.7)+
  geom_boxplot(aes(fill = sexo),width = 0.2, outlier.alpha = 0.01)+
  scale_fill_manual(values = c("mediumpurple2", "darkslategray3"))+
  labs(x = "Sexo", y = "Edad", title = "Gráfico de violín para edades y género")
  
```



## Grafico de densidad Edad/Género/Fallecido

Se filtran casos en los que el estado es `Fallecido` para representarlos por género y edad.

```{r}
fallecido <- covid %>% 
  filter(estado == "Fallecido")

ggplot(data = fallecido, mapping=aes(x = edad, fill = sexo))+
geom_density(alpha = 0.7)+
labs(x="Edad", y="Densidad", title="Distribución fallecidos por edad y género")+
scale_fill_manual(values = c("gold", "darkslategray3"))

  
```

## Gráfico de densidad Edad/Género/Recuperado

Se filtran los valores de `Recuperado` para representarlos por género y edad.

```{r}
recuperado <- covid %>% 
  filter(recuperado == "Recuperado")

ggplot(data = covid, mapping=aes(x = edad, fill = sexo))+
geom_density(alpha = 0.7)+
labs(x = "Edad", y="Densidad", title="Distribución recuperados por género y edad")+
scale_fill_manual(values = c("gold", "darkslategray3"))
  
  
```

# Frecuencias para las variables `pais` y `etnia`

## `pais`

Tabla de frecuencias para la variable `pais`. En orden descendente.

```{r}
sort(desc(table(covid$pais)))
```

## `etnia`

Descripción obtenida del sitio web:

*1-Indígena 2-ROM 3-Raizal 4-Palenquero 5-Negro 6-Otro. Esta variable se actualizará cada semana. ADVERTENCIA DE RESPONSABILIDAD: La variable etnia depende totalmente de tres cosas: - El correcto diligenciamiento de la variable Etnia por los profesionales de salud que notifican en más de 10.000 instituciones de salud en todos los municipios y departamentos. - Del autorreconocimiento de la persona cuando se le pregunta por esta variable. - Del listado censal que haga y mantenga actualizado cada departamento. No depende del Instituto Nacional de Salud, y por lo tanto, es responsabilidad de las autoridades de cada municipio, departamento y distrito de Colombia; la calidad y consistencia de dicha variable* 

Frecuencias obtenidas para la variable `etnia`.

```{r}
table(covid$etnia)
```


# Gráficos de barra

Se presenta una breve descripción para algunas variables, y se representan gráficamente a través de un diagrama de barras conjunto. En algunos casos las barras de las variables no se aprecian debido a que es bastante pequeña comparada con las otras variables presentes.

## Variables

- `contagio`: La barra para el valor `Importado` es bastante pequeña comparada con las otras dos debido a que la diferencia de contagios en este rubro es mucho menor; por lo tanto no se aprecia en el gráfico de manera correcta.



-  `ubicacion_caso`: *Corresponde a muertes no relacionadas con COVID-19, aún si eran casos activos **Hay pacientes recuperados para COVID-19, que pueden permanecer en hospitalización por otras comorbilidades.* (Descripción obtenida de la página oficial de datos abiertos.)



- `estado`: *Corresponde a muertes no relacionadas con COVID-19, aún si eran casos activos **Hay pacientes recuperados para COVID-19, que pueden permanecer en hospitalización por otras comorbilidades.* (Descripción obtenida de la página oficial de datos abiertos.)



- `recuperado`: *Recuperado Fallecido N/A (Vacío). N/A se refiere a los fallecidos no COVID. Pueden haber casos recuperados con ubicación Hospital u Hospital UCI, ya que permanecen en hospitalización por causas diferentes. Los casos con información en blanco en esta columna corresponde a los casos activos* (Descripción obtenida de la página oficial de datos abiertos.)



- `tipo_recuperacion`





- `tipo_recuperacion`: *Se refiere a la variable de tipo de recuperación que tiene dos opciones: PCR y tiempo. PCR indica que la persona se encuentra recuperada por segunda muestra, en donde dio negativo para el virus; mientras que tiempo significa que son personas que cumplieron 30 días posteriores al inicio de síntomas o toma de muestras que no tienen síntomas, que no tengan más de 70 años ni que estén hospitalizados.* (Descripción obtenida de la página oficial de datos abiertos.)


```{r, fig.width=11, fig.height=7}
library(cowplot)

g1 <- ggplot(data = covid, aes(x = contagio)) +
geom_bar(stat = "count", fill = "cornflowerblue") + 
stat_count(geom = "text", colour = "black", size = 3.5,
aes(label = ..count..),position=position_stack(vjust=0.7))+
  labs(x = "", y = "",
       title = "Frecuencia Tipos de Contagio")+
  theme_minimal()+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

g2 <- ggplot(data = covid, aes(x = ubicacion_caso)) +
geom_bar(stat = "count", fill = "cornflowerblue") + 
stat_count(geom = "text", colour = "black", size = 3.5,
aes(label = ..count..),position=position_stack(vjust=1.1))+
  labs(x = "", y = "",
       title = "Frecuencia Ubicación Caso")+
  theme_minimal()+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

g3 <- ggplot(data = covid, aes(x = estado)) +
geom_bar(stat = "count", fill = "cornflowerblue") + 
stat_count(geom = "text", colour = "black", size = 3.5,
aes(label = ..count..),position=position_stack(vjust=1.1))+
  labs(x = "", y = "",
       title = "Frecuencia de la Variable Estado")+
  theme_minimal()+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

g4 <- ggplot(data = covid, aes(x = recuperado)) +
geom_bar(stat = "count", fill = "cornflowerblue") + 
stat_count(geom = "text", colour = "black", size = 3.5,
aes(label = ..count..),position=position_stack(vjust=1.1))+
  labs(x = "", y = "",
       title = "Frecuencia de Recuperado")+
  theme_minimal()+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

g5 <- ggplot(data = covid, aes(x = tipo_recuperacion)) +
geom_bar(stat = "count", fill = "cornflowerblue") + 
stat_count(geom = "text", colour = "black", size = 3.5,
aes(label = ..count..),position=position_stack(vjust=0.5))+
  labs(x = "", y = "",
       title = "Frecuencia Tipo de Recuperación")+
  theme_minimal()+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))


plot_grid(g1, g2, g3, g4, g5, scale = 1)
```


# Gráficos de densidad

## Distribución para la variable `contagio`

```{r}
covid %>% 
  ggplot(data = covid, mapping = aes(x = edad, fill = contagio))+
  geom_density(alpha = 0.7)+
  labs(x = "Edad", y="Densidad", title="Distribución de tipo de contagio por edad")
```

## Distribución de la variable `ubicacion_caso`

```{r}
covid %>% 
  ggplot(data = covid, mapping = aes(x = edad, fill = ubicacion_caso))+
  geom_density(alpha = 0.7)+
  labs(x = "Edad", y="Densidad", title="Distribución ubicación de los casos por edad")
```

## Distribución de la variable `estado`

```{r}
covid %>% 
  ggplot(data = covid, mapping = aes(x = edad, fill = estado))+
  geom_density(alpha = 0.7)+
  labs(x = "Edad", y="Densidad", title="Distribución del estado por edad")
```
## Distribución de la variable `recuperado`

```{r}
covid %>% 
  ggplot(data = covid, mapping = aes(x = edad, fill = recuperado))+
  geom_density(alpha = 0.7)+
  labs(x = "Edad", y="Densidad", title="Distribución de recuperados por edad")
```
## Distribución de la variable `tipo_recuperacion`

```{r}
covid %>% 
  ggplot(data = covid, mapping = aes(x = edad, fill = tipo_recuperacion))+
  geom_density(alpha = 0.7)+
  labs(x = "Edad", y="Densidad", title="Distribución de recuperados por edad")+
  facet_grid()
```


# Tablas

## Tabla resumen por ciudad

```{r}
ciudad1 <- covid %>% 
  group_by(municipio, departamento, contagio) %>% 
  summarise(Total = n()) %>% 
  ungroup()

ciudad11 <-  spread(data = ciudad1, key = contagio, value = Total) %>% 
  datatable(extensions = 'Buttons',
            rownames = FALSE,
            filter = "top",
            selection = "multiple",
            options = list(dom = 'Bfrtip',
                           buttons = c('csv', 'excel', 'pdf')))

ciudad11
```

```{r}
ciudad2 <- covid %>% 
  group_by(municipio, departamento, ubicacion_caso) %>% 
  summarise(Total = n()) %>% 
  ungroup()

ciudad22 <-  spread(data = ciudad2, key = ubicacion_caso, value = Total) %>% 
  datatable(extensions = 'Buttons',
            rownames = FALSE,
            filter = "top",
            selection = "multiple",
            options = list(dom = 'Bfrtip',
                           buttons = c('csv', 'excel', 'pdf')))

ciudad22
```

```{r}
ciudad3 <- covid %>% 
  group_by(municipio, departamento, estado) %>% 
  summarise(Total = n()) %>% 
  ungroup()

ciudad33 <-  spread(data = ciudad3, key = estado, value = Total) %>% 
  datatable(extensions = 'Buttons',
            rownames = FALSE,
            filter = "top",
            selection = "multiple",
            options = list(dom = 'Bfrtip',
                           buttons = c('csv', 'excel', 'pdf')))

ciudad33
```

```{r}
ciudad4 <- covid %>% 
  group_by(municipio, departamento, recuperado) %>% 
  summarise(Total = n()) %>% 
  ungroup()

ciudad44 <-  spread(data = ciudad4, key = recuperado, value = Total) %>% 
  datatable(extensions = 'Buttons',
            rownames = FALSE,
            filter = "top",
            selection = "multiple",
            options = list(dom = 'Bfrtip',
                           buttons = c('csv', 'excel', 'pdf')))

ciudad44
```

```{r}
ciudad5 <- covid %>% 
  group_by(municipio, departamento, tipo_recuperacion) %>% 
  summarise(Total = n()) %>% 
  ungroup()

ciudad55 <-  spread(data = ciudad5, key = tipo_recuperacion, value = Total) %>%
  datatable(extensions = 'Buttons',
            rownames = FALSE,
            filter = "top",
            selection = "multiple",
            options = list(dom = 'Bfrtip',
                           buttons = c('csv', 'excel', 'pdf')))

ciudad55
```