U1A6

Marijose González

14/Sep/2020

COVID-19 en México

Análisis comparativo de datos de Salud y COVID-19 en el Norte de México (Baja California, Baja California Sur, Sonora y Sinaloa)

  • Folder de trabajo
setwd("~/PYE1112AD")

IMPORTAR

IMPORTAR PAQUETES

library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "knitr", "DT", "tidyverse", "scales", "gridExtra", "modeest", "fdth")

Se importan datos desde un archivo local .csv los datos diarios de casos confirmados de COVID-19 para todo México desde la URL oficial: https://coronavirus.gob.mx/datos/#downzcsv

datos <- read.csv("Casos_Diarios_Estado_Nacional_Confirmados_20200913.csv")

TRANSFORMAR

Se realiza una extracción de los datos desde el data frame para Baja California, Baja California Sur, Sonora y Sinaloa para juntarlos en un data frame junto con un vector de Fecha

#DATOS DIARIOS CONFIRMADOS PARA BAJA CALIFORNIA
bc <- t(datos[datos$nombre == "BAJA CALIFORNIA", ])
bc <- as.vector(bc)
bc <- bc[4:248]
bc <- as.numeric(bc)
bc <- as.vector(bc) #datos absolutos diarios
abc <- cumsum(bc) #datos acumulados

#DATOS DIARIOS CONFIRMADOS PARA BAJA CALIFORNIA SUR
bcs <- t(datos[datos$nombre == "BAJA CALIFORNIA SUR", ])
bcs <- as.vector(bcs)
bcs <- bcs[4:248]
bcs <- as.numeric(bcs)
bcs <- as.vector(bcs) #datos absolutos diarios
abcs <- cumsum(bcs) #datos acumulados

#DATOS DIARIOS CONFIRMADOS PARA SONORA
sonora <- t(datos[datos$nombre == "SONORA", ])
sonora <- as.vector(sonora)
sonora <- sonora[4:248]
sonora <- as.numeric(sonora)
sonora <- as.vector(sonora) #datos absolutos diarios
asonora <- cumsum(sonora) #datos acumulados

#DATOS DIARIOS CONFIRMADOS PARA SINALOA
sinaloa <- t(datos[datos$nombre == "SINALOA", ])
sinaloa <- as.vector(sinaloa)
sinaloa <- sinaloa[4:248]
sinaloa <- as.numeric(sinaloa)
sinaloa <- as.vector(sinaloa) #datos absolutos diarios
asinaloa <- cumsum(sinaloa) #datos acumulados

#Generar un vector de fecha

Fecha <- seq(from =as.Date("2020-01-12"), to= as.Date("2020-09-12"), by = "day")

#Estructurar los datos en un marco de datos (data frame)

norte <- data.frame(Fecha, bc, bcs, sonora, sinaloa)
anorte <- data.frame(Fecha, abc, abcs, asonora, asinaloa)
sonsin <- data.frame(Fecha, sonora, sinaloa)
asonsin <- data.frame(Fecha, asonora, asinaloa)
bcbcs <- data.frame(Fecha, bc, bcs)
abcbcs <- data.frame(Fecha, abc, abcs)

VISUALIZAR

VISUALIZAR DATOS EN FORMA DE TABLA

#Tabla de datos absolutos
datatable(norte)
#Tabla de datos acumulados
datatable(anorte)

Visualizar los datos con gráficas usando ggplot2

  • Gráfica de datos absolutos (datos diarios de casos confirmados COVID-19 en el norte de México (desde el 12 de enero al 12 de septiembre de 2020))
ggplot(data=norte) +
  geom_line(aes(Fecha, sonora, colour = "Sonora")) +
  geom_line(aes(Fecha, sinaloa, colour = "Sinaloa")) +
  geom_line(aes(Fecha, bc, colour = "Baja California")) +
  geom_line(aes(Fecha, bcs, colour = "Baja California Sur")) +
  xlab("Fecha") +
  ylab("Casos diarios absolutos") +
  labs(colour = "Estados") +
  ggtitle("Casos diarios confirmados de COVID-19 en el norte de México") +
  scale_y_continuous(labels=comma)

  • Gráfica de datos acumulados (datos diarios de casos confirmados COVID-19 en el norte de México (desde el 12 de enero al 12 de septiembre de 2020))
ggplot(data=anorte) +
  geom_line(aes(Fecha, asonora, colour = "Sonora")) +
  geom_line(aes(Fecha, asinaloa, colour = "Sinaloa")) +
  geom_line(aes(Fecha, abc, colour = "Baja California")) +
  geom_line(aes(Fecha, abcs, colour = "Baja California Sur")) +
  xlab("Fecha") +
  ylab("Casos diarios acumulados") +
  labs(colour = "Estados") +
  ggtitle("Casos diarios confirmados de COVID-19 en el norte de México") +
  scale_y_continuous(labels=comma)

  • Gráfica de datos absolutos (datos diarios de casos confirmados COVID-19 en Sonora y Sinaloa (desde el 12 de enero al 12 de septiembre de 2020))
ggplot(data=sonsin) +
  geom_line(aes(Fecha, sonora, colour = "Sonora")) +
  geom_line(aes(Fecha, sinaloa, colour = "Sinaloa")) +
  xlab("Fecha") +
  ylab("Casos diarios absolutos") +
  labs(colour = "Estados") +
  ggtitle("Casos diarios confirmados de COVID-19 en Sonora y Sinaloa") +
  scale_y_continuous(labels=comma)

  • Gráfica de datos acumulados (datos diarios de casos confirmados COVID-19 en Sonora y Sinaloa (desde el 12 de enero al 12 de septiembre de 2020))
ggplot(data=asonsin) +
  geom_line(aes(Fecha, asonora, colour = "Sonora")) +
  geom_line(aes(Fecha, asinaloa, colour = "Sinaloa")) +
  xlab("Fecha") +
  ylab("Casos diarios acumulados") +
  labs(colour = "Estados") +
  ggtitle("Casos diarios confirmados de COVID-19 en Sonora y Sinaloa") +
  scale_y_continuous(labels=comma)

  • Gráfica de datos absolutos (datos diarios de casos confirmados COVID-19 en Baja California y Baja California Sur (desde el 12 de enero al 12 de septiembre de 2020))
ggplot(data=bcbcs) +
  geom_line(aes(Fecha, bc, colour = "Baja California")) +
  geom_line(aes(Fecha, bcs, colour = "Baja California Sur")) +
  xlab("Fecha") +
  ylab("Casos diarios absolutos") +
  labs(colour = "Estados") +
  ggtitle("Casos diarios confirmados de COVID-19 en Baja California y Baja California Sur") +
  scale_y_continuous(labels=comma)

  • Gráfica de datos acumulados (datos diarios de casos confirmados COVID-19 en Baja California y Baja California Sur (desde el 12 de enero al 12 de septiembre de 2020))
ggplot(data=abcbcs) +
  geom_line(aes(Fecha, abc, colour = "Baja California")) +
  geom_line(aes(Fecha, abcs, colour = "Baja California Sur")) +
  xlab("Fecha") +
  ylab("Casos diarios acumulados") +
  labs(colour = "Estados") +
  ggtitle("Casos diarios confirmados de COVID-19 en Baja California y Baja California Sur") +
  scale_y_continuous(labels=comma)

  • Gráfica combinada de datos acumulados y absolutos
sonora1 <- data.frame(Fecha, sonora, asonora)

g2 <- ggplot(data=sonora1) +
  geom_col(aes(Fecha, asonora)) +
  xlab("Fecha") +
  ylab("Casos acumulados") +
  ggtitle("A) Confirmados de COVID-19 en Sonora (Acumulados)") +
  scale_y_continuous(labels=comma)

g3 <- ggplot(data=sonora1) +
  geom_col(aes(Fecha, sonora)) +
  xlab("Fecha") +
  ylab("Casos absolutos") +
  ggtitle("B) Confirmados de COVID-19 en Sonora (Absolutos)") +
  scale_y_continuous(labels=comma)

grid.arrange(g2,g3)

sinaloa1 <- data.frame(Fecha, sinaloa, asinaloa)

g4 <- ggplot(data=sinaloa1) +
  geom_col(aes(Fecha, asinaloa)) +
  xlab("Fecha") +
  ylab("Casos acumulados") +
  ggtitle("A) Confirmados de COVID-19 en Sinaloa (Acumulados)") +
  scale_y_continuous(labels=comma)

g5 <- ggplot(data=sinaloa1) +
  geom_col(aes(Fecha, sinaloa)) +
  xlab("Fecha") +
  ylab("Casos absolutos") +
  ggtitle("B) Confirmados de COVID-19 en Sinaloa (Absolutos)") +
  scale_y_continuous(labels=comma)

grid.arrange(g4,g5)

bc1 <- data.frame(Fecha, bc, abc)

g6 <- ggplot(data=bc1) +
  geom_col(aes(Fecha, abc)) +
  xlab("Fecha") +
  ylab("Casos acumulados") +
  ggtitle("A) Confirmados de COVID-19 en Baja California (Acumulados)") +
  scale_y_continuous(labels=comma)

g7 <- ggplot(data=bc1) +
  geom_col(aes(Fecha, bc)) +
  xlab("Fecha") +
  ylab("Casos absolutos") +
  ggtitle("B) Confirmados de COVID-19 en Baja California (Absolutos)") +
  scale_y_continuous(labels=comma)

grid.arrange(g6,g7)

bcs1 <- data.frame(Fecha, bcs, abcs)

g8 <- ggplot(data=bcs1) +
  geom_col(aes(Fecha, abcs)) +
  xlab("Fecha") +
  ylab("Casos acumulados") +
  ggtitle("A) Confirmados de COVID-19 en Baja California Sur (Acumulados)") +
  scale_y_continuous(labels=comma)

g9 <- ggplot(data=bcs1) +
  geom_col(aes(Fecha, bcs)) +
  xlab("Fecha") +
  ylab("Casos absolutos") +
  ggtitle("B) Confirmados de COVID-19 en Baja California Sur (Absolutos)") +
  scale_y_continuous(labels=comma)

grid.arrange(g8,g9)

### Sonora

Medidas de posición central

  • Cálculo individual de las medidas principales de valores absolutos de casos confirmados para Sonora
mean(sonora) #Media aritmética (promedio)
## [1] 94.53061
median(sonora) #Mediana
## [1] 45
mfv(sonora) #Moda (most frequent value) Valores más frecuentes
## [1] 0

Resumen estadístico

summary(sonora)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   45.00   94.53  154.00  482.00

Gráfico de caja y bigote

boxplot(sonora)

Medida de dispersión

  • Varianza
var(sonora)
## [1] 13317.47
  • Desviación estándar
sd(sonora)
## [1] 115.4013
plot(sonora)

Tabla de distribuciones

dist <- fdt(sonora, breaks = "Sturges")
dist
##       Class limits   f   rf rf(%)  cf  cf(%)
##        [0,54.0911) 126 0.51 51.43 126  51.43
##  [54.0911,108.182)  30 0.12 12.24 156  63.67
##  [108.182,162.273)  31 0.13 12.65 187  76.33
##  [162.273,216.364)  19 0.08  7.76 206  84.08
##  [216.364,270.456)  13 0.05  5.31 219  89.39
##  [270.456,324.547)   9 0.04  3.67 228  93.06
##  [324.547,378.638)  10 0.04  4.08 238  97.14
##  [378.638,432.729)   5 0.02  2.04 243  99.18
##   [432.729,486.82)   2 0.01  0.82 245 100.00

Histogramas y polígonos de frecuencia

plot(dist, type="fh") #Histograma de frecuencias absolutas

plot(dist, type="cfh") #Histograma de frecuencias acumuladas

plot(dist, type="rfh") #Histograma de frecuencias relativas

plot(dist, type="fp") #Polígono de frecuencias absolutas

plot(dist, type="cfp") #Polígono de frecuencias acumuladas

plot(dist, type="rfp") #Polígono de frecuencias relativas

Sinaloa

Medidas de posición central

  • Cálculo individual de las medidas principales de valores absolutos de casos confirmados para Sinaloa
mean(sinaloa) #Media aritmética (promedio)
## [1] 70.73469
median(sinaloa) #Mediana
## [1] 55
mfv(sinaloa) #Moda (most frequent value) Valores más frecuentes
## [1] 0

Resumen estadístico

summary(sinaloa)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   55.00   70.73  122.00  291.00

Gráfico de caja y bigote

boxplot(sinaloa)

Medida de dispersión

  • Varianza
var(sinaloa)
## [1] 4742.007
  • Desviación estándar
sd(sinaloa)
## [1] 68.86223
plot(sinaloa)

Tabla de distribuciones

dist <- fdt(sinaloa, breaks = "Sturges")
dist
##       Class limits  f   rf rf(%)  cf  cf(%)
##        [0,32.6567) 98 0.40 40.00  98  40.00
##  [32.6567,65.3133) 34 0.14 13.88 132  53.88
##    [65.3133,97.97) 28 0.11 11.43 160  65.31
##    [97.97,130.627) 32 0.13 13.06 192  78.37
##  [130.627,163.283) 23 0.09  9.39 215  87.76
##   [163.283,195.94) 18 0.07  7.35 233  95.10
##   [195.94,228.597)  9 0.04  3.67 242  98.78
##  [228.597,261.253)  2 0.01  0.82 244  99.59
##   [261.253,293.91)  1 0.00  0.41 245 100.00

Histogramas y polígonos de frecuencia

plot(dist, type="fh") #Histograma de frecuencias absolutas

plot(dist, type="cfh") #Histograma de frecuencias acumuladas

plot(dist, type="rfh") #Histograma de frecuencias relativas

plot(dist, type="fp") #Polígono de frecuencias absolutas

plot(dist, type="cfp") #Polígono de frecuencias acumuladas

plot(dist, type="rfp") #Polígono de frecuencias relativas

Baja California

Medidas de posición central

  • Cálculo individual de las medidas principales de valores absolutos de casos confirmados para Baja California
mean(bc) #Media aritmética (promedio)
## [1] 74.80816
median(bc) #Mediana
## [1] 71
mfv(bc) #Moda (most frequent value) Valores más frecuentes
## [1] 0

Resumen estadístico

summary(bc)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   71.00   74.81  129.00  230.00

Gráfico de caja y bigote

boxplot(bc)

Medida de dispersión

  • Varianza
var(bc)
## [1] 4279.369
  • Desviación estándar
sd(bc)
## [1] 65.41688
plot(bc)

Tabla de distribuciones

dist <- fdt(bc, breaks = "Sturges")
dist
##     Class limits  f   rf rf(%)  cf  cf(%)
##       [0,25.811) 83 0.34 33.88  83  33.88
##  [25.811,51.622) 22 0.09  8.98 105  42.86
##  [51.622,77.433) 23 0.09  9.39 128  52.24
##  [77.433,103.24) 25 0.10 10.20 153  62.45
##  [103.24,129.06) 31 0.13 12.65 184  75.10
##  [129.06,154.87) 29 0.12 11.84 213  86.94
##  [154.87,180.68) 20 0.08  8.16 233  95.10
##  [180.68,206.49)  5 0.02  2.04 238  97.14
##   [206.49,232.3)  7 0.03  2.86 245 100.00

Histogramas y polígonos de frecuencia

plot(dist, type="fh") #Histograma de frecuencias absolutas

plot(dist, type="cfh") #Histograma de frecuencias acumuladas

plot(dist, type="rfh") #Histograma de frecuencias relativas

plot(dist, type="fp") #Polígono de frecuencias absolutas

plot(dist, type="cfp") #Polígono de frecuencias acumuladas

plot(dist, type="rfp") #Polígono de frecuencias relativas

Baja California Sur

Medidas de posición central

  • Cálculo individual de las medidas principales de valores absolutos de casos confirmados para Baja California Sur
mean(bcs) #Media aritmética (promedio)
## [1] 36.51429
median(bcs) #Mediana
## [1] 13
mfv(bcs) #Moda (most frequent value) Valores más frecuentes
## [1] 0

Resumen estadístico

summary(bcs)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   13.00   36.51   57.00  173.00

Gráfico de caja y bigote

boxplot(bcs)

Medida de dispersión

  • Varianza
var(bcs)
## [1] 2206.062
  • Desviación estándar
sd(bcs)
## [1] 46.96874
plot(bcs)

Tabla de distribuciones

dist <- fdt(bcs, breaks = "Sturges")
dist
##       Class limits   f   rf rf(%)  cf  cf(%)
##        [0,19.4144) 141 0.58 57.55 141  57.55
##  [19.4144,38.8289)  22 0.09  8.98 163  66.53
##  [38.8289,58.2433)  23 0.09  9.39 186  75.92
##  [58.2433,77.6578)  12 0.05  4.90 198  80.82
##  [77.6578,97.0722)   7 0.03  2.86 205  83.67
##  [97.0722,116.487)  10 0.04  4.08 215  87.76
##  [116.487,135.901)  17 0.07  6.94 232  94.69
##  [135.901,155.316)  11 0.04  4.49 243  99.18
##   [155.316,174.73)   2 0.01  0.82 245 100.00

Histogramas y polígonos de frecuencia

plot(dist, type="fh") #Histograma de frecuencias absolutas

plot(dist, type="cfh") #Histograma de frecuencias acumuladas

plot(dist, type="rfh") #Histograma de frecuencias relativas

plot(dist, type="fp") #Polígono de frecuencias absolutas

plot(dist, type="cfp") #Polígono de frecuencias acumuladas

plot(dist, type="rfp") #Polígono de frecuencias relativas

Conclusiones

En esta actividad se hizo uso de datos de casos confirmados por COVID-19 en México. Sin embargo, se realizó la extracción correspondiente para utilizar únicamente los valores de algunos estados del norte del país, tales como, Baja California, Baja California Sur, Sonora y Sinaloa. Además se puede realizar la comparación de casos confirmados acumulados en los estados, siendo que Sonora cuenta con el número mayor y Baja California Sur con el número menor de casos hasta el día 12 de septiembre de 2020. En adición a esto, se puede decir que sea muy probable que Baja California y Sonora tengan más casos que Baja California Sur y Sinaloa, debido a que son estados con frontera a Estados Unidos. No obstante, se pueden comparar los estados Baja California y Baja California Sur y analizar que al final tuvieron un comportamiento muy similar entre ellos, esto podría ser por el hecho de que son estados pegados. Por otra parte, se tiene la misma situación en Sonora y Sinaloa, ya que al final se asemejan mucho entre ellos y también son estados pegados. Observando más a detalle tomando en cuenta la hipótesis anterior de los estados cercanos, si comparamos todos los estados juntos, podemos analizar que el estado con el comportamiento más diferente a los otros es el de Baja California Sur, siendo que también es el más alejado entre ellos.

Finalmente se hizo un análisis estadístico entre los estados y se observaron medidas de posición central y de desviación, en las cuales se encontró que Sonora cuenta con el promedio más alto de casos confirmados, además de contar con una dispersión muy alta entre sus datos, después Sinaloa y Baja California obtuvieron una media muy similar con dispersiones un poco altas pero similares y Baja California Sur fue el que tuvo menor media, menor varianza y desviación estándar,es decir, sus datos son los que se presentan menos dispersos. Por otra parte, todos los estados presentaron una moda de 0, puesto que se tomaron datos desde días antes en que se presentaran los primeros casos de COVID-19 en esos estados.

#AltoAlCoronavirus