TALLER DE CIENCIA DE DATOS APLICADA A SALUD PÚBLICA Y EPIDOMIOLOGÍA
En base a la presente situación de pandemia debido al virus del covid-19 que esta afectando a México y el mundo se realizo un analisis descriptivo de los datos oficiales de manera organizada y representativa que pueda lograr un mejor entendimiento por medio del uso de metodologias y herramientas de estadistica.
Ejercicios
En el presente trabajo se veran 3 tipos de ejercicios
Datos globales de JOhns Hopkins University para México.
Datos de coronavirus.gob.mx para Sonora y Sinaloa
Datos de enfermedades crónicas en Sonora.
Importación de paquetes / Bibliotecas
setwd("~/Reynaldo Rstudio")
library("pacman")
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2","plotly", "gganimate","gifski","scales")
library(readxl)Datos globales de John Hopkins University para México
De lo general a lo particular, una manera de organizar datos obteniendo un flujo de trabajo reproducible y representativo de la informacion que se presenta.
Datos obtenidos de: “Coronavirus COVID-19 Global Cases by the Center for Systems Science and Engineering (CSSE) at Johns Hopkins University (JHU)” https://coronavirus.jhu.edu/map.html
Importar datos de JHU
#Analisis de bases de datos provenientes de multiples URL como datos crudos de confirmados, decesos, recuperados
url_conf <- "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv"
url_decesos <- "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_deaths_global.csv"
url_recuperados <- "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_recovered_global.csv"
#Lectura de los url
datos_conf <- read.csv(url_conf)
datos_decesos <- read.csv(url_decesos)
datos_recuperados <- read.csv(url_recuperados)
#Definir parametros de variables
conf_mex <- t(datos_conf[datos_conf$Country.Region=="Mexico" ,])
dec_mex <- t(datos_decesos[datos_decesos$Country.Region=="Mexico" ,])
rec_mex <- t(datos_recuperados[datos_recuperados$Country.Region=="Mexico" ,])Formatear Datos
Para lograr una mayor reproducibilidad de datos
Eliminar campos no utilizables
Formatear las fechas
Crear un marco de datos(Data Frame)
#vector de fecha
Fecha <- seq(from = as.Date("2020/01/22"), to = as.Date("2021/02/15"), by = "day" )
#casos confirmados
vec1 <- as.vector(conf_mex)
vec2 <- vec1[5:395]
num1 <- as.numeric(vec2)
Confirmados <- as.vector(num1)
#decesos
vec1 <- as.vector(dec_mex)
vec2 <- vec1[5:395]
num1 <- as.numeric(vec2)
Decesos <- as.vector(num1)
#recuperados
vec1 <- as.vector(rec_mex)
vec2 <- vec1[5:395]
num1 <- as.numeric(vec2)
Recuperados <- as.vector(num1)
#generación de un marco de datos (data frame)
datos1 <- data.frame(Fecha, Confirmados, Decesos, Recuperados)Graficación de datos
La graficación es una manera de representar datos de manera que se puede identificar un comportamiento o una tendencia. A continuación se presentan visualizaciones que presenten los datos confirmados, decesos y recuperados para México.
Gráfica estática
Este grafico permite ver de manera fija el comportamiento de los datos.
gcov <- ggplot(data = datos1) +
geom_line(aes(Fecha, Confirmados, colour = "Confirmados")) +
geom_line(aes(Fecha, Decesos, colour = "Decesos")) +
geom_line(aes(Fecha, Recuperados, colour="Recuperados")) +
xlab("Fecha") +
ylab("COVID-19 en México") +
labs(colour="casos") +
ggtitle("Casos de COVID-19 en México (Fuente: JHU CSSE") +
scale_y_continuous(labels = comma)
gcovGráfico Interactivo
Este tipo de gráfico permite la lozalizacion de datos especificos respectivos a ciertas fechas por medio de la interacción con las diferentes lineas de variables utilizadas en este caso sobre los confirmados, Decesos y Recuperados. Esto es posible utilizando el paquete plotly.
ggplotly(gcov)Gráfica Interactiva
Con una gráfica de esta clase podemos analizar de manera evolutiva el comportamiento de nuestros datos entre un intervalo de tiempo en el que existan registros de ellos.
ggplot(data = datos1) +
geom_line(aes(Fecha, Confirmados, colour="Confirmados")) +
geom_line(aes(Fecha, Decesos, colour="Decesos")) +
geom_line(aes(Fecha, Recuperados, colour="Recuperados")) +
xlab("Fecha") +
ylab("COVID-19 en México") +
labs(colour="casos")+
ggtitle("Casos de COVID-19 en México (Fuente: JHU CSSE") +
scale_y_continuous(labels = comma) +
transition_reveal(Fecha)Datos de enfermedades crónicas en Sonora
Fuente de los datos obtenida de: https://datos.gob.mx/busca/dataset/expediente-clinico-electronico-unemes-enfermedades-cronicas--2018
URL con datos CSV crudos obtenidos de: http://www.cenaprece.salud.gob.mx/descargas/Excel/Diagnosticos18.csv
Expediente Clínico Electronico UNEMES (Unidades de Especialidades Médicas) Enfermedades Crónicas 2018
- El Centro Nacional de Programas Preventivos y Control de Enfermedades (CENAPRECE), es el órgano desconcentrado de la Secretaría de Salud responsable de conducir e implementar los programas sustantivos para la prevención y control de enfermedades, para reducir la morbilidad y mortalidad en la población mexicana.
Importar Datos
datos2 <- read.csv("Diagnosticos18.csv.html", encoding = "latin1")
class(datos2)## [1] "data.frame"
head(datos2)## Estado Jurisdicción Uneme CLUES Cve.Persona Genero
## 1 Guanajuato IRAPUATO UNEME EC IRAPUATO GTSSA017250 GuIRUN5910 Mujer
## 2 Guanajuato IRAPUATO UNEME EC IRAPUATO GTSSA017250 GuIRUN5953 Mujer
## 3 Guanajuato IRAPUATO UNEME EC IRAPUATO GTSSA017250 GuIRUN6045 Mujer
## 4 Guanajuato IRAPUATO UNEME EC IRAPUATO GTSSA017250 GuIRUN6091 Mujer
## 5 Guanajuato IRAPUATO UNEME EC IRAPUATO GTSSA017250 GuIRUN6138 Mujer
## 6 Guanajuato IRAPUATO UNEME EC IRAPUATO GTSSA017250 GuIRUN5706 Hombre
## Cve.Diagnóstico Diagnóstico Fecha.Diagnótico
## 1 E78.2 Dislipidemias 02/01/2018
## 2 E78.2 Dislipidemias 02/01/2018
## 3 E78.2 Dislipidemias 02/01/2018
## 4 E78.2 Dislipidemias 02/01/2018
## 5 E78.2 Dislipidemias 02/01/2018
## 6 E78.2 Dislipidemias 02/01/2018
Formateo de datos
Seleccionar los datos para Sonora
SonoraS <- t(datos2[datos2$Estado == "Sonora", ])
SonoraS <- (datos2[datos2$Estado == "Sonora", ])Graficacion
Dada a la comparativa de diferentes grupos de datos con características en común se realiza un tipo de grafico de barras que organice dichos datos con respecto a Sonora
#Gráfico agrupado
ggplot(SonoraS, aes(fill=Jurisdicción, y=Diagnóstico)) +
geom_bar(position = "dodge", stat = "count") +
xlab ("Numero de casos") +
ylab ("Diagnóstico") +
ggtitle("Enfermedades cronicas en Sonora, 2018 (CENAPRECE)")Conclusión
Por medio de la aplicación de herramientas de estadistica y ciencia de datos podemos analizar detalladamente un conjunto de información importante y relevante para las condiciones actuales, siendo en este caso el de la pandemia y enfermedades pudiendo por lo tanto representarla de una manera mucho más facil de reconocer además de reproducir para los diferentes grupos de personas interesadas en dichos temas, sin mencionar la sencillez con la que se puede crear una imagen de los datos utilizando esta clase de recursos.