TALLER DE CIENCIA DE DATOS APLICADA A SALUD PÚBLICA Y EPIDOMIOLOGÍA

En base a la presente situación de pandemia debido al virus del covid-19 que esta afectando a México y el mundo se realizo un analisis descriptivo de los datos oficiales de manera organizada y representativa que pueda lograr un mejor entendimiento por medio del uso de metodologias y herramientas de estadistica.

Ejercicios

En el presente trabajo se veran 3 tipos de ejercicios

  • Datos globales de JOhns Hopkins University para México.

  • Datos de coronavirus.gob.mx para Sonora y Sinaloa

  • Datos de enfermedades crónicas en Sonora.

Importación de paquetes / Bibliotecas

setwd("~/Reynaldo Rstudio")
library("pacman")
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2","plotly", "gganimate","gifski","scales")
library(readxl)

Datos globales de John Hopkins University para México

De lo general a lo particular, una manera de organizar datos obteniendo un flujo de trabajo reproducible y representativo de la informacion que se presenta.

Datos obtenidos de: “Coronavirus COVID-19 Global Cases by the Center for Systems Science and Engineering (CSSE) at Johns Hopkins University (JHU)” https://coronavirus.jhu.edu/map.html

Importar datos de JHU

#Analisis de bases de datos provenientes de multiples URL como datos crudos de confirmados, decesos, recuperados
url_conf <- "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv"

url_decesos <- "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_deaths_global.csv"

url_recuperados <- "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_recovered_global.csv"

#Lectura de los url
datos_conf <- read.csv(url_conf)
datos_decesos <- read.csv(url_decesos)
datos_recuperados <- read.csv(url_recuperados)

#Definir parametros de variables 
conf_mex <- t(datos_conf[datos_conf$Country.Region=="Mexico" ,])
dec_mex  <- t(datos_decesos[datos_decesos$Country.Region=="Mexico" ,])
rec_mex  <- t(datos_recuperados[datos_recuperados$Country.Region=="Mexico" ,])

Formatear Datos

Para lograr una mayor reproducibilidad de datos

  • Eliminar campos no utilizables

  • Formatear las fechas

  • Crear un marco de datos(Data Frame)

#vector de fecha
Fecha <- seq(from = as.Date("2020/01/22"), to = as.Date("2021/02/15"), by = "day"   )

#casos confirmados 
vec1 <- as.vector(conf_mex)
vec2 <- vec1[5:395]
num1 <- as.numeric(vec2)
Confirmados <- as.vector(num1)

#decesos 
vec1 <- as.vector(dec_mex)
vec2 <- vec1[5:395]
num1 <- as.numeric(vec2)
Decesos <- as.vector(num1)

#recuperados
vec1 <- as.vector(rec_mex)
vec2 <- vec1[5:395]
num1 <- as.numeric(vec2)
Recuperados <- as.vector(num1)

#generación de un marco de datos (data frame)

datos1 <- data.frame(Fecha, Confirmados, Decesos, Recuperados)

Graficación de datos

La graficación es una manera de representar datos de manera que se puede identificar un comportamiento o una tendencia. A continuación se presentan visualizaciones que presenten los datos confirmados, decesos y recuperados para México.

Gráfica estática

Este grafico permite ver de manera fija el comportamiento de los datos.

gcov <- ggplot(data = datos1) + 
  geom_line(aes(Fecha, Confirmados, colour = "Confirmados")) +
  geom_line(aes(Fecha, Decesos, colour = "Decesos")) +
  geom_line(aes(Fecha, Recuperados, colour="Recuperados")) +
  xlab("Fecha") +
  ylab("COVID-19 en México") +
  labs(colour="casos") +
  ggtitle("Casos de COVID-19 en México (Fuente: JHU CSSE") +
  scale_y_continuous(labels = comma)
gcov

Gráfico Interactivo

Este tipo de gráfico permite la lozalizacion de datos especificos respectivos a ciertas fechas por medio de la interacción con las diferentes lineas de variables utilizadas en este caso sobre los confirmados, Decesos y Recuperados. Esto es posible utilizando el paquete plotly.

ggplotly(gcov)

Gráfica Interactiva

Con una gráfica de esta clase podemos analizar de manera evolutiva el comportamiento de nuestros datos entre un intervalo de tiempo en el que existan registros de ellos.

ggplot(data = datos1) +
  geom_line(aes(Fecha, Confirmados, colour="Confirmados")) +
  geom_line(aes(Fecha, Decesos, colour="Decesos")) +
  geom_line(aes(Fecha, Recuperados, colour="Recuperados")) +
  xlab("Fecha") +
  ylab("COVID-19 en México") +
  labs(colour="casos")+
  ggtitle("Casos de COVID-19 en México (Fuente: JHU CSSE") +
  scale_y_continuous(labels = comma) +
  transition_reveal(Fecha)

Datos de enfermedades crónicas en Sonora

Expediente Clínico Electronico UNEMES (Unidades de Especialidades Médicas) Enfermedades Crónicas 2018

  • El Centro Nacional de Programas Preventivos y Control de Enfermedades (CENAPRECE), es el órgano desconcentrado de la Secretaría de Salud responsable de conducir e implementar los programas sustantivos para la prevención y control de enfermedades, para reducir la morbilidad y mortalidad en la población mexicana.

Importar Datos

datos2 <- read.csv("Diagnosticos18.csv.html", encoding = "latin1")
class(datos2)
## [1] "data.frame"
head(datos2)
##       Estado Jurisdicción             Uneme        CLUES Cve.Persona Genero
## 1 Guanajuato     IRAPUATO UNEME EC IRAPUATO GTSSA017250   GuIRUN5910  Mujer
## 2 Guanajuato     IRAPUATO UNEME EC IRAPUATO GTSSA017250   GuIRUN5953  Mujer
## 3 Guanajuato     IRAPUATO UNEME EC IRAPUATO GTSSA017250   GuIRUN6045  Mujer
## 4 Guanajuato     IRAPUATO UNEME EC IRAPUATO GTSSA017250   GuIRUN6091  Mujer
## 5 Guanajuato     IRAPUATO UNEME EC IRAPUATO GTSSA017250   GuIRUN6138  Mujer
## 6 Guanajuato     IRAPUATO UNEME EC IRAPUATO GTSSA017250   GuIRUN5706 Hombre
##   Cve.Diagnóstico   Diagnóstico Fecha.Diagnótico
## 1           E78.2 Dislipidemias       02/01/2018
## 2           E78.2 Dislipidemias       02/01/2018
## 3           E78.2 Dislipidemias       02/01/2018
## 4           E78.2 Dislipidemias       02/01/2018
## 5           E78.2 Dislipidemias       02/01/2018
## 6           E78.2 Dislipidemias       02/01/2018

Formateo de datos

Seleccionar los datos para Sonora

SonoraS <- t(datos2[datos2$Estado == "Sonora", ])
SonoraS <- (datos2[datos2$Estado == "Sonora", ])

Graficacion

Dada a la comparativa de diferentes grupos de datos con características en común se realiza un tipo de grafico de barras que organice dichos datos con respecto a Sonora

#Gráfico agrupado
ggplot(SonoraS, aes(fill=Jurisdicción, y=Diagnóstico)) +
  geom_bar(position = "dodge", stat = "count") +
  xlab ("Numero de casos") +
  ylab ("Diagnóstico") +
  ggtitle("Enfermedades cronicas en Sonora, 2018 (CENAPRECE)")

Conclusión

Por medio de la aplicación de herramientas de estadistica y ciencia de datos podemos analizar detalladamente un conjunto de información importante y relevante para las condiciones actuales, siendo en este caso el de la pandemia y enfermedades pudiendo por lo tanto representarla de una manera mucho más facil de reconocer además de reproducir para los diferentes grupos de personas interesadas en dichos temas, sin mencionar la sencillez con la que se puede crear una imagen de los datos utilizando esta clase de recursos.