U1A5

Juan Valenzuela

17/2/2021

En esta actividad se modelarĆ”n y analizaran los datos de ā€œJOHNS HOPKINS university of medicineā€ acerca de los casos de infección, recuperación y muertes ocasionadas por COVID-19

Para descargar este código

Debido a que esta es una actividad de uso libre, se deja a disposición de quien guste usar este código.

xfun::embed_file("U1A5.Rmd")
Download U1A5.Rmd

En esta actividad se harÔn recolecciones de datos libres y modelación de los mismos de:

  1. Datos de COVID-19 JOHNS HOPKINS university of medicine
  2. Datos de enfermedades crónicas en Sonora.

Importación de librerias

setwd("~/EA9") # Este es mi directorio de trabajo, en caso de replicar el código se deberÔ de cambiar el propio.
# pacman ayuda a importar paquetes de manera mas fÔcil, en caso de que no se cuente con esta librería utilizar el código install.packages('pacman')
library(pacman) # Se importa pacman
p_load('htmltools','mime','prettydoc','xfun','readr','DT','dplyr','ggplot2','plotly','gganimate','gifski','scales') # Esta función instala e importa paquetes con ayuda de pacman

Recolección y Modelación de datos de COVID-19 JOHNS HOPKINS university of medicine para México

Datos obtenidos de la universidad de JOHNS HOPKINS

Importación de datos de JHONS HOPKINS

Importación y filtrado de los datos en R

Se guardan los datos crudos en varaibles para su posterior manipulación
url_confimados <- 'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv'

url_decesos <- 'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_deaths_global.csv'

url_recuperados <- 'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_recovered_global.csv'
Leer los datos de las urls
confirmados <- read.csv(url_confimados) # Datos de personas confirmadas de covid-19

decesos <- read.csv(url_decesos) # Datos de personas fallecidas de covid-19

recuperados <- read.csv(url_recuperados) # Datos de personas recuperadas de covid-19
Declaración de variables para México
confirmadosMX <- t(confirmados[confirmados$Country.Region=='Mexico' ,])
decesosMX <- t(decesos[decesos$Country.Region=='Mexico' ,])
recuperadosMX <- t(recuperados[recuperados$Country.Region=='Mexico' ,])
Declaración de una fecha personalizada mas adecuada al formato utilizado en México
# Formato: YYYY/MM/DD
Fecha <- seq(from = as.Date('2020/01/22'), to = as.Date('2021/02/13'), by = 'day')
Filtrado y formateo de datos
# Confirmados
confirmadosMX <- as.vector(confirmadosMX)
confirmadosMX <- confirmadosMX[5:393]
confirmadosMX <- as.numeric(confirmadosMX)

# Recuperados
recuperadosMX <- as.vector(recuperadosMX)
recuperadosMX <- recuperadosMX[5:393]
recuperadosMX <- as.numeric(recuperadosMX)

# Decesos
decesosMX <- as.vector(decesosMX)
decesosMX <- decesosMX[5:393]
decesosMX <- as.numeric(decesosMX)
Creación de un data frame
# Es esta apartado se crea un data frame, de esta manera se trabajarƔ de una manera mas organizada, ademas de la facilidad de manipulas y visualizar los datos, ya que estƔn dentro de una misma "matriz"
covid <- data.frame(Fecha,confirmadosMX,recuperadosMX,decesosMX)

Visualización de datos en una tabla

El data frame creado anteriormente contienes todos los datos en una tabla, a continuación se podrÔn visualizar los datos en una tabla, esto es solamente ilustrativo.

datatable(covid)

GrƔfica estatica

graficaCovid <- ggplot(data = covid)+
    geom_line(aes(x = Fecha, y = confirmadosMX, colour="Confirmados"))+
    geom_line(aes(x = Fecha, y = decesosMX, colour="Decesos"))+
    geom_line(aes(x = Fecha, y = recuperadosMX, colour="Recuperados"))+
    labs(title="Casos de COVID-19 en MƩxico", subtitle="Fuente: JHU CSSE", x="Fecha",y="COVID-19 en MƩxico",colour="Casos")+
    scale_y_continuous(labels=comma)
graficaCovid

GrƔfica interactiva sobre los datos de covid-19 en MƩxico

ggplotly(graficaCovid)

La grÔfica interactiva es muy interesante porque permite ver números especificos con solo poner el cursor sobre la linea

GrƔfica animada

La grƔfica animada sirve para poder observar como los casos van en aumento basƔndose en el aumento de la fecha

graficaCovid + transition_reveal(Fecha)

Como se puede apreciar la grƔfica animada muestra en base a la fecha como han ido aumentado los casos de confirmados, recuperados y fallecidos debido al COVID-19

Recolección y Modelación de datos de enfermedades crónicas en Sonora.

Importanción de datos del Gobierno federal sobre Enfermedades cronicas para el estado de Sonora

setwd("~/EA9")
enfermedades <- read.csv("Diagnosticos18.csv", encoding = "UTF-8")

Visualización de datos en una tabla

datatable(enfermedades) # El archivo es demasiado grande es complicado para R poder cargarlo todo para visualizarlo, por ende en este caso se usarĆ” la sentencia head para poder ver el tipo de datos de los encabezado
## Warning in instance$preRenderHook(instance): It seems your data is too big
## for client-side DataTables. You may consider server-side processing: https://
## rstudio.github.io/DT/server.html
head(enfermedades)
##       Estado Jurisdiccion             Uneme        CLUES Cve.Persona Genero
## 1 Guanajuato     IRAPUATO UNEME EC IRAPUATO GTSSA017250   GuIRUN5910  Mujer
## 2 Guanajuato     IRAPUATO UNEME EC IRAPUATO GTSSA017250   GuIRUN5953  Mujer
## 3 Guanajuato     IRAPUATO UNEME EC IRAPUATO GTSSA017250   GuIRUN6045  Mujer
## 4 Guanajuato     IRAPUATO UNEME EC IRAPUATO GTSSA017250   GuIRUN6091  Mujer
## 5 Guanajuato     IRAPUATO UNEME EC IRAPUATO GTSSA017250   GuIRUN6138  Mujer
## 6 Guanajuato     IRAPUATO UNEME EC IRAPUATO GTSSA017250   GuIRUN5706 Hombre
##   Cve.Diagnostico   Diagnostico Fecha.Diagnotico
## 1           E78.2 Dislipidemias       02/01/2018
## 2           E78.2 Dislipidemias       02/01/2018
## 3           E78.2 Dislipidemias       02/01/2018
## 4           E78.2 Dislipidemias       02/01/2018
## 5           E78.2 Dislipidemias       02/01/2018
## 6           E78.2 Dislipidemias       02/01/2018

Formateo de datos

enfermedadesS <- t(enfermedades[enfermedades$Estado == "Sonora", ])
enfermedadesS <- (enfermedades[enfermedades$Estado == "Sonora", ])

GrÔficación de los datos de las enfermedades en sonora

GrÔfico de agrupación

enfermedadesG <- ggplot(enfermedadesS, aes(fill=Jurisdiccion, y=Diagnostico))+
    geom_bar(position = "dodge", stat="count")+
    labs(title="Enfermedades cronicas en Sonora, 2018",subtitle = "Fuente: CENAPRECE",x="NĆŗmero de casos",y="Diagnostico")
enfermedadesG

GrƔfica interactiva sobre las enfermedades cronicas en Sonora

ggplotly(enfermedadesG)

Visualización de las enfermedades en sonora

datatable(enfermedadesS)
## Warning in instance$preRenderHook(instance): It seems your data is too big
## for client-side DataTables. You may consider server-side processing: https://
## rstudio.github.io/DT/server.html

Conclusión

Me parece que R es una herramienta capaz de generar trabajos muy profesionales con la capacidad de transmitir mensajes a traves de los datos como lo vimos con este caso de estudio.