COVID-19 en México
Análisis comparativo de datos de Salud y COVID-19 en el Norte de México (Baja California, Baja California Sur, Sonora y Sinaloa)
- Folder de trabajo
IMPORTAR
IMPORTAR PAQUETES
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "knitr", "DT", "tidyverse", "scales", "gridExtra", "modeest", "fdth")Se importan datos desde un archivo local .csv los datos diarios de casos confirmados de COVID-19 para todo México desde la URL oficial: https://coronavirus.gob.mx/datos/#downzcsv
TRANSFORMAR
Se realiza una extracción de los datos desde el data frame para Baja California, Baja California Sur, Sonora y Sinaloa para juntarlos en un data frame junto con un vector de Fecha
#DATOS DIARIOS CONFIRMADOS PARA BAJA CALIFORNIA
bc <- t(datos[datos$nombre == "BAJA CALIFORNIA", ])
bc <- as.vector(bc)
bc <- bc[4:248]
bc <- as.numeric(bc)
bc <- as.vector(bc) #datos absolutos diarios
abc <- cumsum(bc) #datos acumulados
#DATOS DIARIOS CONFIRMADOS PARA BAJA CALIFORNIA SUR
bcs <- t(datos[datos$nombre == "BAJA CALIFORNIA SUR", ])
bcs <- as.vector(bcs)
bcs <- bcs[4:248]
bcs <- as.numeric(bcs)
bcs <- as.vector(bcs) #datos absolutos diarios
abcs <- cumsum(bcs) #datos acumulados
#DATOS DIARIOS CONFIRMADOS PARA SONORA
sonora <- t(datos[datos$nombre == "SONORA", ])
sonora <- as.vector(sonora)
sonora <- sonora[4:248]
sonora <- as.numeric(sonora)
sonora <- as.vector(sonora) #datos absolutos diarios
asonora <- cumsum(sonora) #datos acumulados
#DATOS DIARIOS CONFIRMADOS PARA SINALOA
sinaloa <- t(datos[datos$nombre == "SINALOA", ])
sinaloa <- as.vector(sinaloa)
sinaloa <- sinaloa[4:248]
sinaloa <- as.numeric(sinaloa)
sinaloa <- as.vector(sinaloa) #datos absolutos diarios
asinaloa <- cumsum(sinaloa) #datos acumulados
#Generar un vector de fecha
Fecha <- seq(from =as.Date("2020-01-12"), to= as.Date("2020-09-12"), by = "day")
#Estructurar los datos en un marco de datos (data frame)
norte <- data.frame(Fecha, bc, bcs, sonora, sinaloa)
anorte <- data.frame(Fecha, abc, abcs, asonora, asinaloa)
sonsin <- data.frame(Fecha, sonora, sinaloa)
asonsin <- data.frame(Fecha, asonora, asinaloa)
bcbcs <- data.frame(Fecha, bc, bcs)
abcbcs <- data.frame(Fecha, abc, abcs)VISUALIZAR
VISUALIZAR DATOS EN FORMA DE TABLA
Visualizar los datos con gráficas usando ggplot2
- Gráfica de datos absolutos (datos diarios de casos confirmados COVID-19 en el norte de México (desde el 12 de enero al 12 de septiembre de 2020))
ggplot(data=norte) +
geom_line(aes(Fecha, sonora, colour = "Sonora")) +
geom_line(aes(Fecha, sinaloa, colour = "Sinaloa")) +
geom_line(aes(Fecha, bc, colour = "Baja California")) +
geom_line(aes(Fecha, bcs, colour = "Baja California Sur")) +
xlab("Fecha") +
ylab("Casos diarios absolutos") +
labs(colour = "Estados") +
ggtitle("Casos diarios confirmados de COVID-19 en el norte de México") +
scale_y_continuous(labels=comma)- Gráfica de datos acumulados (datos diarios de casos confirmados COVID-19 en el norte de México (desde el 12 de enero al 12 de septiembre de 2020))
ggplot(data=anorte) +
geom_line(aes(Fecha, asonora, colour = "Sonora")) +
geom_line(aes(Fecha, asinaloa, colour = "Sinaloa")) +
geom_line(aes(Fecha, abc, colour = "Baja California")) +
geom_line(aes(Fecha, abcs, colour = "Baja California Sur")) +
xlab("Fecha") +
ylab("Casos diarios acumulados") +
labs(colour = "Estados") +
ggtitle("Casos diarios confirmados de COVID-19 en el norte de México") +
scale_y_continuous(labels=comma)- Gráfica de datos absolutos (datos diarios de casos confirmados COVID-19 en Sonora y Sinaloa (desde el 12 de enero al 12 de septiembre de 2020))
ggplot(data=sonsin) +
geom_line(aes(Fecha, sonora, colour = "Sonora")) +
geom_line(aes(Fecha, sinaloa, colour = "Sinaloa")) +
xlab("Fecha") +
ylab("Casos diarios absolutos") +
labs(colour = "Estados") +
ggtitle("Casos diarios confirmados de COVID-19 en Sonora y Sinaloa") +
scale_y_continuous(labels=comma)- Gráfica de datos acumulados (datos diarios de casos confirmados COVID-19 en Sonora y Sinaloa (desde el 12 de enero al 12 de septiembre de 2020))
ggplot(data=asonsin) +
geom_line(aes(Fecha, asonora, colour = "Sonora")) +
geom_line(aes(Fecha, asinaloa, colour = "Sinaloa")) +
xlab("Fecha") +
ylab("Casos diarios acumulados") +
labs(colour = "Estados") +
ggtitle("Casos diarios confirmados de COVID-19 en Sonora y Sinaloa") +
scale_y_continuous(labels=comma)- Gráfica de datos absolutos (datos diarios de casos confirmados COVID-19 en Baja California y Baja California Sur (desde el 12 de enero al 12 de septiembre de 2020))
ggplot(data=bcbcs) +
geom_line(aes(Fecha, bc, colour = "Baja California")) +
geom_line(aes(Fecha, bcs, colour = "Baja California Sur")) +
xlab("Fecha") +
ylab("Casos diarios absolutos") +
labs(colour = "Estados") +
ggtitle("Casos diarios confirmados de COVID-19 en Baja California y Baja California Sur") +
scale_y_continuous(labels=comma)- Gráfica de datos acumulados (datos diarios de casos confirmados COVID-19 en Baja California y Baja California Sur (desde el 12 de enero al 12 de septiembre de 2020))
ggplot(data=abcbcs) +
geom_line(aes(Fecha, abc, colour = "Baja California")) +
geom_line(aes(Fecha, abcs, colour = "Baja California Sur")) +
xlab("Fecha") +
ylab("Casos diarios acumulados") +
labs(colour = "Estados") +
ggtitle("Casos diarios confirmados de COVID-19 en Baja California y Baja California Sur") +
scale_y_continuous(labels=comma)- Gráfica combinada de datos acumulados y absolutos
sonora1 <- data.frame(Fecha, sonora, asonora)
g2 <- ggplot(data=sonora1) +
geom_col(aes(Fecha, asonora)) +
xlab("Fecha") +
ylab("Casos acumulados") +
ggtitle("A) Confirmados de COVID-19 en Sonora (Acumulados)") +
scale_y_continuous(labels=comma)
g3 <- ggplot(data=sonora1) +
geom_col(aes(Fecha, sonora)) +
xlab("Fecha") +
ylab("Casos absolutos") +
ggtitle("B) Confirmados de COVID-19 en Sonora (Absolutos)") +
scale_y_continuous(labels=comma)
grid.arrange(g2,g3)sinaloa1 <- data.frame(Fecha, sinaloa, asinaloa)
g4 <- ggplot(data=sinaloa1) +
geom_col(aes(Fecha, asinaloa)) +
xlab("Fecha") +
ylab("Casos acumulados") +
ggtitle("A) Confirmados de COVID-19 en Sinaloa (Acumulados)") +
scale_y_continuous(labels=comma)
g5 <- ggplot(data=sinaloa1) +
geom_col(aes(Fecha, sinaloa)) +
xlab("Fecha") +
ylab("Casos absolutos") +
ggtitle("B) Confirmados de COVID-19 en Sinaloa (Absolutos)") +
scale_y_continuous(labels=comma)
grid.arrange(g4,g5)bc1 <- data.frame(Fecha, bc, abc)
g6 <- ggplot(data=bc1) +
geom_col(aes(Fecha, abc)) +
xlab("Fecha") +
ylab("Casos acumulados") +
ggtitle("A) Confirmados de COVID-19 en Baja California (Acumulados)") +
scale_y_continuous(labels=comma)
g7 <- ggplot(data=bc1) +
geom_col(aes(Fecha, bc)) +
xlab("Fecha") +
ylab("Casos absolutos") +
ggtitle("B) Confirmados de COVID-19 en Baja California (Absolutos)") +
scale_y_continuous(labels=comma)
grid.arrange(g6,g7)bcs1 <- data.frame(Fecha, bcs, abcs)
g8 <- ggplot(data=bcs1) +
geom_col(aes(Fecha, abcs)) +
xlab("Fecha") +
ylab("Casos acumulados") +
ggtitle("A) Confirmados de COVID-19 en Baja California Sur (Acumulados)") +
scale_y_continuous(labels=comma)
g9 <- ggplot(data=bcs1) +
geom_col(aes(Fecha, bcs)) +
xlab("Fecha") +
ylab("Casos absolutos") +
ggtitle("B) Confirmados de COVID-19 en Baja California Sur (Absolutos)") +
scale_y_continuous(labels=comma)
grid.arrange(g8,g9) ### Sonora
Medidas de posición central
- Cálculo individual de las medidas principales de valores absolutos de casos confirmados para Sonora
## [1] 94.53061
## [1] 45
## [1] 0
Resumen estadístico
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 0.00 45.00 94.53 154.00 482.00
Medida de dispersión
- Varianza
## [1] 13317.47
- Desviación estándar
## [1] 115.4013
Tabla de distribuciones
## Class limits f rf rf(%) cf cf(%)
## [0,54.0911) 126 0.51 51.43 126 51.43
## [54.0911,108.182) 30 0.12 12.24 156 63.67
## [108.182,162.273) 31 0.13 12.65 187 76.33
## [162.273,216.364) 19 0.08 7.76 206 84.08
## [216.364,270.456) 13 0.05 5.31 219 89.39
## [270.456,324.547) 9 0.04 3.67 228 93.06
## [324.547,378.638) 10 0.04 4.08 238 97.14
## [378.638,432.729) 5 0.02 2.04 243 99.18
## [432.729,486.82) 2 0.01 0.82 245 100.00
Histogramas y polígonos de frecuencia
Sinaloa
Medidas de posición central
- Cálculo individual de las medidas principales de valores absolutos de casos confirmados para Sinaloa
## [1] 70.73469
## [1] 55
## [1] 0
Resumen estadístico
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 0.00 55.00 70.73 122.00 291.00
Medida de dispersión
- Varianza
## [1] 4742.007
- Desviación estándar
## [1] 68.86223
Tabla de distribuciones
## Class limits f rf rf(%) cf cf(%)
## [0,32.6567) 98 0.40 40.00 98 40.00
## [32.6567,65.3133) 34 0.14 13.88 132 53.88
## [65.3133,97.97) 28 0.11 11.43 160 65.31
## [97.97,130.627) 32 0.13 13.06 192 78.37
## [130.627,163.283) 23 0.09 9.39 215 87.76
## [163.283,195.94) 18 0.07 7.35 233 95.10
## [195.94,228.597) 9 0.04 3.67 242 98.78
## [228.597,261.253) 2 0.01 0.82 244 99.59
## [261.253,293.91) 1 0.00 0.41 245 100.00
Histogramas y polígonos de frecuencia
Baja California
Medidas de posición central
- Cálculo individual de las medidas principales de valores absolutos de casos confirmados para Baja California
## [1] 74.80816
## [1] 71
## [1] 0
Resumen estadístico
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 0.00 71.00 74.81 129.00 230.00
Medida de dispersión
- Varianza
## [1] 4279.369
- Desviación estándar
## [1] 65.41688
Tabla de distribuciones
## Class limits f rf rf(%) cf cf(%)
## [0,25.811) 83 0.34 33.88 83 33.88
## [25.811,51.622) 22 0.09 8.98 105 42.86
## [51.622,77.433) 23 0.09 9.39 128 52.24
## [77.433,103.24) 25 0.10 10.20 153 62.45
## [103.24,129.06) 31 0.13 12.65 184 75.10
## [129.06,154.87) 29 0.12 11.84 213 86.94
## [154.87,180.68) 20 0.08 8.16 233 95.10
## [180.68,206.49) 5 0.02 2.04 238 97.14
## [206.49,232.3) 7 0.03 2.86 245 100.00
Histogramas y polígonos de frecuencia
Baja California Sur
Medidas de posición central
- Cálculo individual de las medidas principales de valores absolutos de casos confirmados para Baja California Sur
## [1] 36.51429
## [1] 13
## [1] 0
Resumen estadístico
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 0.00 13.00 36.51 57.00 173.00
Medida de dispersión
- Varianza
## [1] 2206.062
- Desviación estándar
## [1] 46.96874
Tabla de distribuciones
## Class limits f rf rf(%) cf cf(%)
## [0,19.4144) 141 0.58 57.55 141 57.55
## [19.4144,38.8289) 22 0.09 8.98 163 66.53
## [38.8289,58.2433) 23 0.09 9.39 186 75.92
## [58.2433,77.6578) 12 0.05 4.90 198 80.82
## [77.6578,97.0722) 7 0.03 2.86 205 83.67
## [97.0722,116.487) 10 0.04 4.08 215 87.76
## [116.487,135.901) 17 0.07 6.94 232 94.69
## [135.901,155.316) 11 0.04 4.49 243 99.18
## [155.316,174.73) 2 0.01 0.82 245 100.00
Histogramas y polígonos de frecuencia
Conclusiones
En esta actividad se hizo uso de datos de casos confirmados por COVID-19 en México. Sin embargo, se realizó la extracción correspondiente para utilizar únicamente los valores de algunos estados del norte del país, tales como, Baja California, Baja California Sur, Sonora y Sinaloa. Además se puede realizar la comparación de casos confirmados acumulados en los estados, siendo que Sonora cuenta con el número mayor y Baja California Sur con el número menor de casos hasta el día 12 de septiembre de 2020. En adición a esto, se puede decir que sea muy probable que Baja California y Sonora tengan más casos que Baja California Sur y Sinaloa, debido a que son estados con frontera a Estados Unidos. No obstante, se pueden comparar los estados Baja California y Baja California Sur y analizar que al final tuvieron un comportamiento muy similar entre ellos, esto podría ser por el hecho de que son estados pegados. Por otra parte, se tiene la misma situación en Sonora y Sinaloa, ya que al final se asemejan mucho entre ellos y también son estados pegados. Observando más a detalle tomando en cuenta la hipótesis anterior de los estados cercanos, si comparamos todos los estados juntos, podemos analizar que el estado con el comportamiento más diferente a los otros es el de Baja California Sur, siendo que también es el más alejado entre ellos.
Finalmente se hizo un análisis estadístico entre los estados y se observaron medidas de posición central y de desviación, en las cuales se encontró que Sonora cuenta con el promedio más alto de casos confirmados, además de contar con una dispersión muy alta entre sus datos, después Sinaloa y Baja California obtuvieron una media muy similar con dispersiones un poco altas pero similares y Baja California Sur fue el que tuvo menor media, menor varianza y desviación estándar,es decir, sus datos son los que se presentan menos dispersos. Por otra parte, todos los estados presentaron una moda de 0, puesto que se tomaron datos desde días antes en que se presentaran los primeros casos de COVID-19 en esos estados.
#AltoAlCoronavirus