Acerca de este documento
Este es un documento que explica de manera demostrativa una forma de procesar datos abiertos oficiales de México y convertirlos en análisis y visualizaciones que puedan ser útiles para los ciudadanos ante la pandemia por COVID-19
El análisis fue realizado con el objetivo de difundir y democratizar el uso y análisis de datos en México para de esta forma crear una masa crítica que nos permita tomar mejores decisiones en lo colectivo con mejores herramientas y métodos.
El código aquí usado está escrito en el lenguaje de programación abierto R y puede ser descargado y así como también sus datos en los hipervínculos que se encuentran abajo.
TALLER DE CIENCIA DE DATOS APLICADA A SALUD PÚBLICA Y EPIDEMIOLOGÍA
Ejercicios incluidos
Este es un taller de ciencia de datos (data science) gratuito con una duración de 3 horas y media, en el cual se pretende introducir al público al tema del análisis de las métricas de salud pública así como de la evolución y modelación de la pandemia de COVID-19 usando datos oficiales.
- En este taller se verán 3 ejercicios
- Datos globales de Johns Hopkins University para México
- Datos de coronavirus.gob.mx para Sonora y Sinaloa
- Datos de enfermedades crónicas en Sonora
importación de paquetes / bibliotecas
Descarga de este código
Para fines de reproductividad se incluyen todo el código para su descarga
Download RTALLERSALUD.RmdDatos globales de Johns Hopkins University para México
De lo general a lo particular
Datos obtenidos de:
“Coronavirus COVID-19 Global cases by the center for Systems Science and Engineering (CSSE) at Johns Hopkins University (JHU)” https://coronavirus.jhu.edu/map.html
Importar datos de JHU
#Se realiza la declaración de las variables que contendrán las url en donde se encuentran los datos crudos de confirmados, descesos, recuperados
url_conf <- "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv"
url_decesos <- "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_deaths_global.csv"
url_recuperados <- "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_recovered_global.csv"
#Leer los archivos .csv de las url
datos_conf <- read.csv(url_conf)
datos_decesos <- read.csv(url_decesos)
datos_recuperados <- read.csv(url_recuperados)
# definir variables
conf_mex <- t(datos_conf[datos_conf$Country.Region=="Mexico" ,])
dec_mex <- t(datos_decesos[datos_decesos$Country.Region=="Mexico" ,])
rec_mex <- t(datos_recuperados[datos_recuperados$Country.Region=="Mexico" ,])Formatear datos
- Eliminar campos no utilizables
- Formatear las fechas
- Crear un marco de dats (data frame)
#Vector de fecha
Fecha <- seq(from = as.Date("2020-01-22"), to = as.Date("2020-12-19"), by = "day")
#casos confirmados
vec1 <- as.vector(conf_mex)
vec2 <- vec1[5:337]
num1 <- as.numeric(vec2)
Confirmados <- as.vector(num1)
#casos decesos
vec1 <- as.vector(dec_mex)
vec2 <- vec1[5:337]
num1 <- as.numeric(vec2)
Decesos <- as.vector(num1)
#casos recuperados
vec1 <- as.vector(rec_mex)
vec2 <- vec1[5:337]
num1 <- as.numeric(vec2)
Recuperados <- as.vector(num1)
#generación de un marco de datos (data frame)
datos1 <- data.frame(Fecha, Confirmados, Decesos, Recuperados)graficacion de datos
A continuación se presentan visualizaciones que representan los datos de confirmados, decesosy recuperados para México
gcov <- ggplot(data = datos1) +
geom_line(aes(Fecha, Confirmados, colour="Confirmados")) +
geom_line(aes(Fecha, Decesos, colour="Decesos")) +
geom_line(aes(Fecha, Recuperados, colour="Recuperados")) +
xlab("Fecha") +
ylab("COVID-19 en México") +
labs(colour="casos")+
ggtitle("Casos de COVID-19 en México (Fuente: JHU CSSE") +
scale_y_continuous(labels = comma)
gcov ### Grafica interactiva
Esto es usando el paquete “plotly”
Gráfica animada
ggplot(data = datos1) +
geom_line(aes(Fecha, Confirmados, colour="Confirmados")) +
geom_line(aes(Fecha, Decesos, colour="Decesos")) +
geom_line(aes(Fecha, Recuperados, colour="Recuperados")) +
xlab("Fecha") +
ylab("COVID-19 en México") +
labs(colour="casos")+
ggtitle("Casos de COVID-19 en México (Fuente: JHU CSSE") +
scale_y_continuous(labels = comma) +
transition_reveal(Fecha)