U1A6

VictorCarvajalRomán

14/9/2020

Análisis comparativo de datos de Salud y COVID-19 en el Noroeste de México (sin BC y BCS)

Noroeste de México

  • Folder de trabajo
setwd("~/PYE1112ITSON")

Semáforo Epidemiológico 14/Sep/2020

IMPORTAR

Importar paquetes

library(pacman)
p_load("base64enc","htmltools","mime","xfun","prettydoc","readr","knitr","DT","tidyverse","scales","gridExtra","modeest","fdth")

Importar datos

Se importan desde un archivo local .csv los datos diarios de casos confirmados de COVID-19 para todo México desde la URL oficial: https://coronavirus.gob.mx/datos/#DownZCSV

datos <- read.csv("Casos_Diarios_Estado_Nacional_Confirmados_20200913.csv")

TRANSFORMAR

Se realiza primeramente una extracción de los datos desde el data frame para las entidades seleccionadas para juntarlos en un data frame junto con un vector de Fecha

#DATOS DIARIOS CONFIRMADOS PARA SONORA
sonora <- t(datos[datos$nombre== "SONORA", ]) #t transponer, datos de horizontal a vertical
sonora <- as.vector(sonora) # a vector
sonora <- sonora[4:248]  #eliminar datos no útiles
sonora <- as.numeric(sonora)  #transformar de caracteres a datos numéricos
sonora <- as.vector(sonora) # a vector numérico, datos absolutos diarios
asonora <- cumsum(sonora) #datos acumulados, asonora (acumulado)

#DATOS DIARIOS CONFIRMADOS PARA SINALOA
sinaloa <- t(datos[datos$nombre== "SINALOA", ]) #t transponer, datos de horizontal a vertical
sinaloa <- as.vector(sinaloa) # a vector
sinaloa <- sinaloa[4:248]  #eliminar datos no útiles
sinaloa <- as.numeric(sinaloa)  #transformar de caracteres a datos numéricos
sinaloa <- as.vector(sinaloa) # a vector numérico, datos absolutos diarios
asinaloa <- cumsum(sinaloa) #datos acumulados, asonora (acumulado)

#DATOS DIARIOS CONFIRMADOS PARA CHIHUAHUA
chihuahua <- t(datos[datos$nombre== "CHIHUAHUA", ]) #t transponer, datos de horizontal a vertical
chihuahua <- as.vector(chihuahua) # a vector
chihuahua <- chihuahua[4:248]  #eliminar datos no útiles
chihuahua <- as.numeric(chihuahua)  #transformar de caracteres a datos numéricos
chihuahua <- as.vector(chihuahua) # a vector numérico, datos absolutos diarios
achihuahua <- cumsum(chihuahua) #datos acumulados, asonora (acumulado)

#DATOS DIARIOS CONFIRMADOS PARA DURANGO
durango <- t(datos[datos$nombre== "DURANGO", ]) #t transponer, datos de horizontal a vertical
durango <- as.vector(durango) # a vector
durango <- durango[4:248]  #eliminar datos no útiles
durango <- as.numeric(durango)  #transformar de caracteres a datos numéricos
durango <- as.vector(durango) # a vector numérico, datos absolutos diarios
adurango <- cumsum(durango) #datos acumulados, asonora (acumulado)


#Generar un vector de Fecha
Fecha <- seq(from= as.Date("2020-01-12"), to=as.Date("2020-09-12"), by="day")

#Estructurar los datos en un marco de datos (data frame)

sonsin <- data.frame(Fecha,sonora,sinaloa)
asonsin <- data.frame(Fecha,asonora,asinaloa)

chidur <- data.frame(Fecha,chihuahua,durango)
achidur <- data.frame(Fecha,achihuahua,adurango)

noroestemex <- data.frame(Fecha,sonora,sinaloa,chihuahua,durango)
anoroestemex <- data.frame(Fecha,asonora,asinaloa,achihuahua,adurango)

VISUALIZAR

Visualizar datos en forma de tabla interactiva

Datos en Chihuahua y Durango

# Tabla de datos absolutos
datatable(chidur)
#Tabla de datos acumulados
datatable(achidur)

Datos en Sonora y Sinaloa

# Tabla de datos absolutos
datatable(sonsin)
#Tabla de datos acumulados
datatable(asonsin)

Datos en el Noroeste de México (sin BC y BCS)

# Tabla de datos absolutos
datatable(noroestemex)
#Tabla de datos acumulados
datatable(anoroestemex)

Visualizar los datos con gráficas usando ggplot2

Gravedad COVID-19

Datos de confirmados diarios de COVID-19 en Chihuahua y Durango

  • Gráfica de datos absolutos (datos diarios de casos confirmados de COVID-19 en Chihuahua y Durango (desde el 12 de Enero al 12 de Septiembre de 2020)
ggplot(data=chidur) +
  geom_line(aes(Fecha,chihuahua, colour="Chihuahua")) +
  geom_line(aes(Fecha, durango, colour = "Durango ")) +
  xlab("Fecha") +
  ylab("Casos diarios absolutos") +
  labs(colour = "Estados") +
  ggtitle("Casos diarios confirmados de COVID-19 en Chihuahua y Durango") +
  scale_y_continuous(labels=comma)

  • Gráfica de datos acumulados (datos diarios de casos confirmados de COVID-19 en Chihuahua y Durango (desde el 12 de Enero al 12 de Septiembre de 2020)
ggplot(data=achidur) +
  geom_line(aes(Fecha,achihuahua, colour="Chihuahua")) +
  geom_line(aes(Fecha, adurango, colour = "Durango ")) +
  xlab("Fecha") +
  ylab("Casos diarios acumulados") +
  labs(colour = "Estados") +
  ggtitle("Casos diarios confirmados de COVID-19 en Chihuahua y Durango") +
  scale_y_continuous(labels=comma)

  • Gráfica combinada de datos acumulados y absolutos Chihuahua
chihuahua1 <- data.frame(Fecha,chihuahua,achihuahua)

#Gráfica 3
g3 <- ggplot(data=chihuahua1) +
  geom_line(aes(Fecha,achihuahua)) +
  xlab("Fecha") +
  ylab("Casos acumulados") +
  ggtitle("A) Confirmados de COVID-19 en Chihuahua (Acumulados)") +
  scale_y_continuous(labels=comma)

#Gráfica 4
g4 <- ggplot(data=chihuahua1) +
  geom_line(aes(Fecha,chihuahua)) +
  xlab("Fecha") +
  ylab("Casos diarios") +
  ggtitle("B) Confirmados de COVID-19 en Chihuahua (Absolutos)") +
  scale_y_continuous(labels=comma)

grid.arrange(g3,g4)

  • Gráfica combinada de datos acumulados y absolutos Durango
durango1 <- data.frame(Fecha,durango,adurango)

#Gráfica 5
g5 <- ggplot(data=durango1) +
  geom_line(aes(Fecha,adurango)) +
  xlab("Fecha") +
  ylab("Casos acumulados") +
  ggtitle("A) Confirmados de COVID-19 en Durango (Acumulados)") +
  scale_y_continuous(labels=comma)

#Gráfica 6
g6 <- ggplot(data=durango1) +
  geom_line(aes(Fecha,durango)) +
  xlab("Fecha") +
  ylab("Casos diarios") +
  ggtitle("B) Confirmados de COVID-19 en Durango (Absolutos)") +
  scale_y_continuous(labels=comma)

grid.arrange(g5,g6)

Datos de confirmados diarios de COVID-19 en Sonora y Sinaloa

  • Gráfica de datos absolutos (datos diarios de casos confirmados de COVID-19 en Sonora y Sinaloa (desde el 12 de Enero al 12 de Septiembre de 2020)
ggplot(data=sonsin) +
  geom_line(aes(Fecha,sonora, colour="Sonora")) +
  geom_line(aes(Fecha, sinaloa, colour = "Sinaloa ")) +
  xlab("Fecha") +
  ylab("Casos diarios absolutos") +
  labs(colour = "Estados") +
  ggtitle("Casos diarios confirmados de COVID-19 en Sonora y Sinaloa") +
  scale_y_continuous(labels=comma)

  • Gráfica de datos acumulados (datos diarios de casos confirmados de COVID-19 en Sonora y Sinaloa (desde el 12 de Enero al 12 de Septiembre de 2020)
ggplot(data=asonsin) +
  geom_line(aes(Fecha,asonora, colour="Sonora")) +
  geom_line(aes(Fecha, asinaloa, colour = "Sinaloa ")) +
  xlab("Fecha") +
  ylab("Casos diarios acumulados") +
  labs(colour = "Estados") +
  ggtitle("Casos diarios confirmados de COVID-19 en Sonora y Sinaloa") +
  scale_y_continuous(labels=comma)

  • Gráfica combinada de datos acumulados y absolutos Sonora
sonora1 <- data.frame(Fecha,sonora,asonora)

#Gráfica 9
g9 <- ggplot(data=sonora1) +
  geom_line(aes(Fecha,asonora)) +
  xlab("Fecha") +
  ylab("Casos acumulados") +
  ggtitle("A) Confirmados de COVID-19 en Sonora (Acumulados)") +
  scale_y_continuous(labels=comma)

#Gráfica 10
g10 <- ggplot(data=sonora1) +
  geom_line(aes(Fecha,sonora)) +
  xlab("Fecha") +
  ylab("Casos diarios") +
  ggtitle("B) Confirmados de COVID-19 en Sonora (Absolutos)") +
  scale_y_continuous(labels=comma)

grid.arrange(g9,g10)

  • Gráfica combinada de datos acumulados y absolutos Sinaloa
sinaloa1 <- data.frame(Fecha,sinaloa,asinaloa)

#Gráfica 11
g11 <- ggplot(data=sinaloa1) +
  geom_line(aes(Fecha,asinaloa)) +
  xlab("Fecha") +
  ylab("Casos acumulados") +
  ggtitle("A) Confirmados de COVID-19 en Sinaloa (Acumulados)") +
  scale_y_continuous(labels=comma)

#Gráfica 12
g12 <- ggplot(data=sinaloa1) +
  geom_line(aes(Fecha,sinaloa)) +
  xlab("Fecha") +
  ylab("Casos diarios") +
  ggtitle("B) Confirmados de COVID-19 en Sinaloa (Absolutos)") +
  scale_y_continuous(labels=comma)

grid.arrange(g11,g12)

Datos de confirmados diarios de COVID-19 en el Noroeste de México (sin BC y BCS)

  • Gráfica de datos absolutos (datos diarios de casos confirmados de COVID-19 en el Noroeste de México (sin BC y BCS) (desde el 12 de Enero al 12 de Septiembre de 2020)
ggplot(data=noroestemex) +
  geom_line(aes(Fecha,sonora, colour="Sonora")) +
  geom_line(aes(Fecha,sinaloa, colour = "Sinaloa")) +
  geom_line(aes(Fecha,chihuahua, colour="Chihuahua")) +
  geom_line(aes(Fecha,durango, colour="Durango")) +
  xlab("Fecha") +
  ylab("Casos diarios absolutos") +
  labs(colour = "Estados") +
  ggtitle("Casos diarios confirmados de COVID-19 en el Noroeste de México (sin BC y BCS)") +
  scale_y_continuous(labels=comma)

  • Gráfica de datos acumulados (datos diarios de casos confirmados de COVID-19 en el Noroeste de México (sin BC y BCS) (desde el 12 de Enero al 12 de Septiembre de 2020)
ggplot(data=asonsin) +
  geom_line(aes(Fecha,asonora, colour="Sonora")) +
  geom_line(aes(Fecha,asinaloa, colour = "Sinaloa")) +
  geom_line(aes(Fecha,achihuahua, colour="Chihuahua")) +
  geom_line(aes(Fecha,adurango, colour="Durango")) +
  xlab("Fecha") +
  ylab("Casos diarios acumulados") +
  labs(colour = "Estados") +
  ggtitle("Casos diarios confirmados de COVID-19 en el Noroeste de México (sin BC y BCS)") +
  scale_y_continuous(labels=comma)

Medidas de posición central

Cálculo individual de las medidas principales de valores absolutos de casos confirmados de COVID-19 para el noroeste mexicano (sin BC Y BCS) (MMM) (Media-Mediana-Moda)

#CHIHUAHUA
mean(chihuahua) #Media aritmética (Promedio)
## [1] 36.65714
median(chihuahua) #Mediana
## [1] 31
mfv(chihuahua) #Moda (most frequent value, mfv) valor más frecuente
## [1] 0
#DURANGO
mean(durango) #Media aritmética (Promedio)
## [1] 31.52245
median(durango) #Mediana
## [1] 8
mfv(durango) #Moda (most frequent value, mfv) valor más frecuente
## [1] 0
#SONORA
mean(sonora) #Media aritmética (Promedio)
## [1] 94.53061
median(sonora) #Mediana
## [1] 45
mfv(sonora) #Moda (most frequent value, mfv) valor más frecuente
## [1] 0
#SINALOA
mean(sinaloa) #Media aritmética (Promedio)
## [1] 70.73469
median(sinaloa) #Mediana
## [1] 55
mfv(sinaloa) #Moda (most frequent value, mfv) valor más frecuente
## [1] 0

Resúmenes estadísticos

#CHIHUAHUA
summary(chihuahua)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   31.00   36.66   68.00  114.00
#DURANGO
summary(durango)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00    8.00   31.52   66.00  144.00
#SONORA
summary(sonora)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   45.00   94.53  154.00  482.00
#SINALOA
summary(sinaloa)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   55.00   70.73  122.00  291.00

Gráficos de caja y bigote

#CHIHUAHUA
boxplot(chihuahua)

#DURANGO
boxplot(durango)

#SONORA
boxplot(sonora)

#SINALOA
boxplot(sinaloa)

Medidas de dispersión

  • Varianza
#CHIHUAHUA
var(chihuahua)
## [1] 1175.57
#DURANGO
var(durango)
## [1] 1636.759
#SONORA
var(sonora)
## [1] 13317.47
#SINALOA
var(sinaloa)
## [1] 4742.007

*Desviación estándar

#CHIHUAHUA
sd(chihuahua)
## [1] 34.28659
#DURANGO
sd(durango)
## [1] 40.45687
#SONORA
sd(sonora)
## [1] 115.4013
#SINALOA
sd(sinaloa)
## [1] 68.86223

Gráficos de distribuciones

#CHIHUAHUA
plot(chihuahua)

#DURANGO
plot(durango)

#SONORA
plot(sonora)

#SINALOA
plot(sinaloa)

Tablas de distribuciones

#CHIHUAHUA
distchi <- fdt(chihuahua, breaks = "Sturges") #frequency distribution table (tabla de distribución de frecuencias)
distchi
##       Class limits  f   rf rf(%)  cf  cf(%)
##        [0,12.7933) 95 0.39 38.78  95  38.78
##  [12.7933,25.5867) 17 0.07  6.94 112  45.71
##    [25.5867,38.38) 21 0.09  8.57 133  54.29
##    [38.38,51.1733) 21 0.09  8.57 154  62.86
##  [51.1733,63.9667) 23 0.09  9.39 177  72.24
##    [63.9667,76.76) 33 0.13 13.47 210  85.71
##    [76.76,89.5533) 15 0.06  6.12 225  91.84
##  [89.5533,102.347) 12 0.05  4.90 237  96.73
##   [102.347,115.14)  8 0.03  3.27 245 100.00
#DURANGO
distdur <- fdt(durango, breaks = "Sturges") #frequency distribution table (tabla de distribución de frecuencias)
distdur
##     Class limits   f   rf rf(%)  cf  cf(%)
##        [0,16.16) 137 0.56 55.92 137  55.92
##    [16.16,32.32)  27 0.11 11.02 164  66.94
##    [32.32,48.48)   9 0.04  3.67 173  70.61
##    [48.48,64.64)  10 0.04  4.08 183  74.69
##     [64.64,80.8)  17 0.07  6.94 200  81.63
##     [80.8,96.96)  16 0.07  6.53 216  88.16
##   [96.96,113.12)  19 0.08  7.76 235  95.92
##  [113.12,129.28)   7 0.03  2.86 242  98.78
##  [129.28,145.44)   3 0.01  1.22 245 100.00
#SONORA
distson <- fdt(sonora, breaks = "Sturges") #frequency distribution table (tabla de distribución de frecuencias)
distson
##       Class limits   f   rf rf(%)  cf  cf(%)
##        [0,54.0911) 126 0.51 51.43 126  51.43
##  [54.0911,108.182)  30 0.12 12.24 156  63.67
##  [108.182,162.273)  31 0.13 12.65 187  76.33
##  [162.273,216.364)  19 0.08  7.76 206  84.08
##  [216.364,270.456)  13 0.05  5.31 219  89.39
##  [270.456,324.547)   9 0.04  3.67 228  93.06
##  [324.547,378.638)  10 0.04  4.08 238  97.14
##  [378.638,432.729)   5 0.02  2.04 243  99.18
##   [432.729,486.82)   2 0.01  0.82 245 100.00
#SINALOA
distsin <- fdt(sinaloa, breaks = "Sturges") #frequency distribution table (tabla de distribución de frecuencias)
distsin
##       Class limits  f   rf rf(%)  cf  cf(%)
##        [0,32.6567) 98 0.40 40.00  98  40.00
##  [32.6567,65.3133) 34 0.14 13.88 132  53.88
##    [65.3133,97.97) 28 0.11 11.43 160  65.31
##    [97.97,130.627) 32 0.13 13.06 192  78.37
##  [130.627,163.283) 23 0.09  9.39 215  87.76
##   [163.283,195.94) 18 0.07  7.35 233  95.10
##   [195.94,228.597)  9 0.04  3.67 242  98.78
##  [228.597,261.253)  2 0.01  0.82 244  99.59
##   [261.253,293.91)  1 0.00  0.41 245 100.00

Histogramas y polígonos de frecuencia

CHIHUAHUA

#Histograma de frecuencias absolutas
plot(distchi, type= "fh") #frequency histogram

#Histograma de frecuencias acumuladas
plot(distchi, type= "cfh") #cumulative frequency histogram

#Histograma de frecuencias relativas
plot(distchi, type= "rfh") #relative frequency histogram

#Polígono de frecuencias absolutas
plot(distchi, type= "fp")

#Polígono de frecuencias acumuladas
plot(distchi, type= "cfp") #cumulative frequency histogram

#Polígono de frecuencias relativas
plot(distchi, type= "rfp")

DURANGO

#Histograma de frecuencias absolutas
plot(distdur, type= "fh") #frequency histogram

#Histograma de frecuencias acumuladas
plot(distdur, type= "cfh") #cumulative frequency histogram

#Histograma de frecuencias relativas
plot(distdur, type= "rfh") #relative frequency histogram

#Polígono de frecuencias absolutas
plot(distdur, type= "fp")

#Polígono de frecuencias acumuladas
plot(distdur, type= "cfp") #cumulative frequency histogram

#Polígono de frecuencias relativas
plot(distdur, type= "rfp")

SONORA

#Histograma de frecuencias absolutas
plot(distson, type= "fh") #frequency histogram

#Histograma de frecuencias acumuladas
plot(distson, type= "cfh") #cumulative frequency histogram

#Histograma de frecuencias relativas
plot(distson, type= "rfh") #relative frequency histogram

#Polígono de frecuencias absolutas
plot(distson, type= "fp")

#Polígono de frecuencias acumuladas
plot(distson, type= "cfp") #cumulative frequency histogram

#Polígono de frecuencias relativas
plot(distson, type= "rfp")

SINALOA

#Histograma de frecuencias absolutas
plot(distsin, type= "fh") #frequency histogram

#Histograma de frecuencias acumuladas
plot(distsin, type= "cfh") #cumulative frequency histogram

#Histograma de frecuencias relativas
plot(distsin, type= "rfh") #relative frequency histogram

#Polígono de frecuencias absolutas
plot(distsin, type= "fp")

#Polígono de frecuencias acumuladas
plot(distsin, type= "cfp") #cumulative frequency histogram

#Polígono de frecuencias relativas
plot(distsin, type= "rfp")

Conclusión personal del ejercicio

Conclusión

  • En esta clase de PYE ITSON1112, se repasaron temas vistos en actividades anteriores, tales como: descargar archivos .csv de repositorios públicos, en este caso una dependencia del gobierno dedicada al tema COVID-19 en el país. Posteriormente se trabajó con los datos descargados, leyendos y guardándolos en una variable “datos”; se extrajeron de esta última los datos de cuatro entidades federativas ubicadas en el noroeste del país, se transpusieron y guardaron en cuatro variables distintas. Luego, se transformaron esos datos a vectores y eliminaron los elementos no útiles, después se transformaron los datos restantes de caracteres a valores númericos, y seguido a vectores númericos (que guardan los datos absolutos diarios de confirmados de COVID-19 en la entidad). El siguiente paso fue crear cuatro variables que guardasen los datos acumulados de cada entidad con la función “cumsum”; crear un vector Fecha, los Data Frames (marcos de datos); y finalmente hacer uso de las bibliotecas instaladas para crear tablas interactivas de los vectores de datos numéricos obtenidos. Se agregaron imágenes y se le dió un formato al documento con prettydoc.

  • Actualización: Se crearon gráficas utilizando ggplot2 que muestran los datos de confirmados diarios COVID-19 (absolutos y acumulados) en el noroeste mexicano (sin BC Y BCS), se le dió un pequeño formato a estas para hacerlas más fáciles de leer: nombres a los ejes de las gráficas, y un color distintivo a cada estado. También, se crearon nuevos marcos de datos para la elaboración de gráficas combinadas de datos absolutos y acumulados de confirmados diarios de COVID-19 para cada entidad.

  • Actualización II: Se analizaron los conceptos de medidas de posición central, y con ello se calcularon la Media Aritmética, Mediana y Moda, de las entidades en el noroeste de México (sin BC y BCS), también, se hizo lo mismo con las medidas de dispersión, varianza y desviación estándar. Se crearon resúmenes estadísticos, gráficos de caja y bigote, tablas y gráficas de distribuciones, e histogramas y polígonos de frecuencias absolutas, acumuladas y relativas para cada entidad en RMarkdown.

  • Con respecto a la interpretación de los datos, podemos observar diferentes dinámicas de contagio de COVID-19 en cada estado. Sinaloa fue el primer estado que comenzó a registrar una alza en el número de casos confirmados de coronavirus en el noroeste mexicano, seguido de Chihuahua y de Sonora; Durango había controlado el número de contagiados en una fase temprana, pero poco tiempo después registró también una alza en los números. Sinaloa y Sonora, estados colindantes, registraron un crecimiento exponencial en el número de contagiados en un par de semanas, esto puede deberse a que los estados mantuvieron sus fronteras abiertas entre sí, sumado a una reapertura económica o cuarentena mal controlada. (En México, más de la mitad de la población tiene empleos informales y vive al día, de ahí la necesidad de salir todos los días a laborar, pues es morir a causa de COVID-19 o de hambre, al menos en el primer caso, hay probabilidad de sobrevivir). Mientras tanto en Chihuahua, la curva de contagios comenzaba a aplanarse, pero después hubo un pequeño rebrote, y nuevamente la curva se aplanó. En Durango, los casos confirmados aumentaron poco a poco, pero hasta la fecha sigue en aumento. Sonora y Sinaloa registran un decreciemiento en el número de contagios diarios. Sonora fue el estado que mayor número de contagios presentó, esto se debe a que posee un mayor número de habitantes, en cambio, en proporción, Sinaloa es el estado más afectado.

  • Actualización: Se puede observar que las gráficas o polígonos de frecuencias absolutas de los datos de confirmados de COVID-19 para las cuatro entidades, son sesgadas a la derecha (positivamente), ya que la media es mayor que la mediana, y la moda es cero en todos los estados; esto último se debe a que cuando los registros comenzaron, los estados no registraron ningún caso confirmado de COVID-19, sino hasta semanas después. Los estados que más dispersión presentaron en sus datos, fueron aquellos cuyos números de contagiados era más elevado, es decir, Sonora y Sinaloa.