U1A6

Erick

15/9/2020

Análisis comparativo de datos de Salud Y COVID-19 en Durango y Coahuila

  • Folder de trabajo
setwd("~/PyE")

IMPORTAR

Importar paquetes

library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "knitr", "DT", "tidyverse", "scales", "gridExtra",  "modeest", "fdth"  )

Importar datos

Se importan desde un archivo local .csv los datos diarios de casos confirmados de COVID-19 para todo México desde la URL oficial: https://coronavirus.gob.mx/datos/#DownZCSV

datos <- read.csv("Casos_Diarios_Estado_Nacional_Confirmados_20200913.csv")

TRANSFORMAR

Se realiza primeramente una extracción de los datos desde el data frame para sonora y sinaloa para juntarlos en un data frame junto con un vector de Fecha

#DATOS DIARIOS CONFIRMADOS PARA DURANGO
durango <- t(datos[datos$nombre == "DURANGO" ,])
durango <- as.vector(durango) 
durango <- durango[4:248]
durango <- as.numeric(durango)
durango<- as.vector(durango) #datos absolutos diarios
adurango <- cumsum(durango) #datos acumulados

#DATOS DIARIOS CONFIRMADOS PARA COAHUILA
coahuila<- t(datos[datos$nombre == "COAHUILA" ,])
coahuila <- as.vector(coahuila)
coahuila<- coahuila[4:248]
coahuila <- as.numeric(coahuila)
coahuila<- as.vector(coahuila) #datos absolutos diarios
acoahuila<- cumsum(coahuila) #datos acumulados

#Generar un vector de Fecha

Fecha <- seq(from = as.Date("2020-01-12"), to = as.Date("2020-09-12"), by = "day" )

#Estructurar los datos en un marco de datos (data frame)

durcoa <- data.frame(Fecha, durango, coahuila)
adurcoa <- data.frame(Fecha, adurango, acoahuila)

VISUALIZAR

Visualizar datos en forma de tabla interactiva

# Tabla de datos absolutos
datatable(durcoa)
#Tabla de datos acumulados
datatable(adurcoa)

Visualizar los datos con gráficas usando ggplot2

  • Gráfica de datos absolutos (datos diarios de casos confirmados de COVID-19 en Durango y Coahuila (desde el 12 de Enero al 12 de Septiembre de 2020))
ggplot(data=durcoa) +
  geom_line(aes(Fecha, durango, colour = "Durango")) +
  geom_line(aes(Fecha, coahuila, colour = "Coahuila")) +
  xlab("Fecha") +
  ylab("Casos diarios absolutos") + 
  labs (colour = "Estados") +
  ggtitle("Casos diarios confirmados de COVID-19 en Durango y Coahuila") +
  scale_y_continuous(labels=comma)

  • Gráfica de datos acumulados (datos diarios de casos confirmados de COVID-19 en Durango y Coahuila (desde el 12 de Enero al 12 de Septiembre de 2020))
ggplot(data=adurcoa) +
  geom_line(aes(Fecha, adurango, colour = "Durango")) +
  geom_line(aes(Fecha, acoahuila, colour = "Coahuila")) +
  xlab("Fecha") +
  ylab("Casos diarios acumulados") + 
  labs (colour = "Estados") +
  ggtitle("Casos diarios confirmados de COVID-19 en Sonora y Sinaloa") +
  scale_y_continuous(labels=comma)

  • Gráfica combinada de datos acumulados y absolutos
durango1 <- data.frame(Fecha,durango,adurango)

g2 <- ggplot(data=durango1) +
  geom_col(aes(Fecha,adurango)) +
  xlab("Fecha") +
  ylab("Casos acumulados") +
  ggtitle("A) Confirmados de COVID-19 en Durango (Acumulados)"   ) +
  scale_y_continuous(labels=comma)

g3 <- ggplot(data=durango1) +
  geom_line(aes(Fecha,durango)) +
  xlab("Fecha") +
  ylab("Casos diarios") +
  ggtitle("B) Confirmados de COVID-19 en Durango (Absolutos)"   ) +
  scale_y_continuous(labels=comma)

grid.arrange(g2,g3)

coahuila1 <- data.frame(Fecha,coahuila,acoahuila)

g2 <- ggplot(data=coahuila1) +
  geom_col(aes(Fecha,acoahuila)) +
  xlab("Fecha") +
  ylab("Casos acumulados") +
  ggtitle("A) Confirmados de COVID-19 en Coahuila (Acumulados)"   ) +
  scale_y_continuous(labels=comma)

g3 <- ggplot(data=coahuila1) +
  geom_line(aes(Fecha,coahuila)) +
  xlab("Fecha") +
  ylab("Casos diarios") +
  ggtitle("B) Confirmados de COVID-19 en Coahuila (Absolutos)"   ) +
  scale_y_continuous(labels=comma)

grid.arrange(g2,g3)

# En este ejercicio se realizo una comparacion 

Medidas de posición central

Durango

Cálculo individual de las medidas principales de valores absolutos de casos confirmados para Durango (MMM)

mean(durango) #Media aritmética (promedio)
## [1] 31.52245
median(durango) #mediana
## [1] 8
mfv(durango) #Moda (most frequent value) valores más frecuentes
## [1] 0

Resumen estadístico

summary(durango)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00    8.00   31.52   66.00  144.00

Gráfico de caja y bigote

boxplot (durango)

Medidas de dispersión

  • Varianza
var(durango)
## [1] 1636.759
  • Desviación estándar
sd(durango)
## [1] 40.45687
plot(durango)

Tabla de distribuciones

dist <-fdt(durango, breaks = "Sturges")
dist
##     Class limits   f   rf rf(%)  cf  cf(%)
##        [0,16.16) 137 0.56 55.92 137  55.92
##    [16.16,32.32)  27 0.11 11.02 164  66.94
##    [32.32,48.48)   9 0.04  3.67 173  70.61
##    [48.48,64.64)  10 0.04  4.08 183  74.69
##     [64.64,80.8)  17 0.07  6.94 200  81.63
##     [80.8,96.96)  16 0.07  6.53 216  88.16
##   [96.96,113.12)  19 0.08  7.76 235  95.92
##  [113.12,129.28)   7 0.03  2.86 242  98.78
##  [129.28,145.44)   3 0.01  1.22 245 100.00

Histogramas y polígonos de frecuencia

plot(dist, type= "fh") # Histograma de frecuencias absolutas

plot(dist, type= "cfh") # Histograma de frecuencias acumuladas

plot(dist, type= "rfh") # Histograma de frecuencias relativas

plot(dist, type= "fp") # Polígono de frecuencias absolutas

plot(dist, type= "cfp") # Poligono de frecuencias acumuladas

plot(dist, type= "rfp") # Poligono de frecuencias relativas

Medidas de posición central

Coahuila

Cálculo individual de las medidas principales de valores absolutos de casos confirmados para Sonora(MMM)

mean(coahuila) #Media aritmética (promedio)
## [1] 98.13469
median(coahuila) #mediana
## [1] 26
mfv(coahuila) #Moda (most frequent value) valores más frecuentes
## [1] 0

Resumen estadístico

summary(coahuila)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   26.00   98.13  187.00  424.00

Gráfico de caja y bigote

boxplot (coahuila)

Medidas de dispersión

  • Varianza
var(coahuila)
## [1] 15370.71
  • Desviación estándar
sd(coahuila)
## [1] 123.9787
plot(coahuila)

Tabla de distribuciones

dist2 <-fdt(coahuila, breaks = "Sturges")
dist2
##       Class limits   f   rf rf(%)  cf  cf(%)
##        [0,47.5822) 137 0.56 55.92 137  55.92
##  [47.5822,95.1644)  23 0.09  9.39 160  65.31
##  [95.1644,142.747)  15 0.06  6.12 175  71.43
##  [142.747,190.329)  11 0.04  4.49 186  75.92
##  [190.329,237.911)  10 0.04  4.08 196  80.00
##  [237.911,285.493)  12 0.05  4.90 208  84.90
##  [285.493,333.076)  23 0.09  9.39 231  94.29
##  [333.076,380.658)   9 0.04  3.67 240  97.96
##   [380.658,428.24)   5 0.02  2.04 245 100.00

Histogramas y polígonos de frecuencia

plot(dist, type= "fh") # Histograma de frecuencias absolutas

plot(dist, type= "cfh") # Histograma de frecuencias acumuladas

plot(dist, type= "rfh") # Histograma de frecuencias relativas

plot(dist, type= "fp") # Polígono de frecuencias absolutas

plot(dist, type= "cfp") # Histograma de frecuencias acumuladas

plot(dist, type= "rfp") # Histograma de frecuencias relativas

En este ejercicio se realizo una tabla, graficas comparacion de 2 Estados que son Durango y Coahuila de de los casos confirmados de COVID-19, donde en las graficas y tablas se logra apreciar que en el estado de coahuila despunto mas rapido que Durango y se mantuvo siemore en un % de contagios mas elevados. Mientras que cuahuila llegaba a 25000 aprox. Durango apenas sobrepasaba los 15000 casos positivos.