Análisis comparativo de datos de Salud y COVID-19 en el Noroeste de México (sin BC y BCS)
Noroeste de México
- Folder de trabajo
Semáforo Epidemiológico 14/Sep/2020
IMPORTAR
Importar paquetes
Importar datos
Se importan desde un archivo local .csv los datos diarios de casos confirmados de COVID-19 para todo México desde la URL oficial: https://coronavirus.gob.mx/datos/#DownZCSV
TRANSFORMAR
Se realiza primeramente una extracción de los datos desde el data frame para las entidades seleccionadas para juntarlos en un data frame junto con un vector de Fecha
#DATOS DIARIOS CONFIRMADOS PARA SONORA
sonora <- t(datos[datos$nombre== "SONORA", ]) #t transponer, datos de horizontal a vertical
sonora <- as.vector(sonora) # a vector
sonora <- sonora[4:248] #eliminar datos no útiles
sonora <- as.numeric(sonora) #transformar de caracteres a datos numéricos
sonora <- as.vector(sonora) # a vector numérico, datos absolutos diarios
asonora <- cumsum(sonora) #datos acumulados, asonora (acumulado)
#DATOS DIARIOS CONFIRMADOS PARA SINALOA
sinaloa <- t(datos[datos$nombre== "SINALOA", ]) #t transponer, datos de horizontal a vertical
sinaloa <- as.vector(sinaloa) # a vector
sinaloa <- sinaloa[4:248] #eliminar datos no útiles
sinaloa <- as.numeric(sinaloa) #transformar de caracteres a datos numéricos
sinaloa <- as.vector(sinaloa) # a vector numérico, datos absolutos diarios
asinaloa <- cumsum(sinaloa) #datos acumulados, asonora (acumulado)
#DATOS DIARIOS CONFIRMADOS PARA CHIHUAHUA
chihuahua <- t(datos[datos$nombre== "CHIHUAHUA", ]) #t transponer, datos de horizontal a vertical
chihuahua <- as.vector(chihuahua) # a vector
chihuahua <- chihuahua[4:248] #eliminar datos no útiles
chihuahua <- as.numeric(chihuahua) #transformar de caracteres a datos numéricos
chihuahua <- as.vector(chihuahua) # a vector numérico, datos absolutos diarios
achihuahua <- cumsum(chihuahua) #datos acumulados, asonora (acumulado)
#DATOS DIARIOS CONFIRMADOS PARA DURANGO
durango <- t(datos[datos$nombre== "DURANGO", ]) #t transponer, datos de horizontal a vertical
durango <- as.vector(durango) # a vector
durango <- durango[4:248] #eliminar datos no útiles
durango <- as.numeric(durango) #transformar de caracteres a datos numéricos
durango <- as.vector(durango) # a vector numérico, datos absolutos diarios
adurango <- cumsum(durango) #datos acumulados, asonora (acumulado)
#Generar un vector de Fecha
Fecha <- seq(from= as.Date("2020-01-12"), to=as.Date("2020-09-12"), by="day")
#Estructurar los datos en un marco de datos (data frame)
sonsin <- data.frame(Fecha,sonora,sinaloa)
asonsin <- data.frame(Fecha,asonora,asinaloa)
chidur <- data.frame(Fecha,chihuahua,durango)
achidur <- data.frame(Fecha,achihuahua,adurango)
noroestemex <- data.frame(Fecha,sonora,sinaloa,chihuahua,durango)
anoroestemex <- data.frame(Fecha,asonora,asinaloa,achihuahua,adurango)VISUALIZAR
Visualizar datos en forma de tabla interactiva
Datos en Chihuahua y Durango
Datos en Sonora y Sinaloa
Visualizar los datos con gráficas usando ggplot2
Gravedad COVID-19
Datos de confirmados diarios de COVID-19 en Chihuahua y Durango
- Gráfica de datos absolutos (datos diarios de casos confirmados de COVID-19 en Chihuahua y Durango (desde el 12 de Enero al 12 de Septiembre de 2020)
ggplot(data=chidur) +
geom_line(aes(Fecha,chihuahua, colour="Chihuahua")) +
geom_line(aes(Fecha, durango, colour = "Durango ")) +
xlab("Fecha") +
ylab("Casos diarios absolutos") +
labs(colour = "Estados") +
ggtitle("Casos diarios confirmados de COVID-19 en Chihuahua y Durango") +
scale_y_continuous(labels=comma)- Gráfica de datos acumulados (datos diarios de casos confirmados de COVID-19 en Chihuahua y Durango (desde el 12 de Enero al 12 de Septiembre de 2020)
ggplot(data=achidur) +
geom_line(aes(Fecha,achihuahua, colour="Chihuahua")) +
geom_line(aes(Fecha, adurango, colour = "Durango ")) +
xlab("Fecha") +
ylab("Casos diarios acumulados") +
labs(colour = "Estados") +
ggtitle("Casos diarios confirmados de COVID-19 en Chihuahua y Durango") +
scale_y_continuous(labels=comma)- Gráfica combinada de datos acumulados y absolutos Chihuahua
chihuahua1 <- data.frame(Fecha,chihuahua,achihuahua)
#Gráfica 3
g3 <- ggplot(data=chihuahua1) +
geom_line(aes(Fecha,achihuahua)) +
xlab("Fecha") +
ylab("Casos acumulados") +
ggtitle("A) Confirmados de COVID-19 en Chihuahua (Acumulados)") +
scale_y_continuous(labels=comma)
#Gráfica 4
g4 <- ggplot(data=chihuahua1) +
geom_line(aes(Fecha,chihuahua)) +
xlab("Fecha") +
ylab("Casos diarios") +
ggtitle("B) Confirmados de COVID-19 en Chihuahua (Absolutos)") +
scale_y_continuous(labels=comma)
grid.arrange(g3,g4)- Gráfica combinada de datos acumulados y absolutos Durango
durango1 <- data.frame(Fecha,durango,adurango)
#Gráfica 5
g5 <- ggplot(data=durango1) +
geom_line(aes(Fecha,adurango)) +
xlab("Fecha") +
ylab("Casos acumulados") +
ggtitle("A) Confirmados de COVID-19 en Durango (Acumulados)") +
scale_y_continuous(labels=comma)
#Gráfica 6
g6 <- ggplot(data=durango1) +
geom_line(aes(Fecha,durango)) +
xlab("Fecha") +
ylab("Casos diarios") +
ggtitle("B) Confirmados de COVID-19 en Durango (Absolutos)") +
scale_y_continuous(labels=comma)
grid.arrange(g5,g6)Datos de confirmados diarios de COVID-19 en Sonora y Sinaloa
- Gráfica de datos absolutos (datos diarios de casos confirmados de COVID-19 en Sonora y Sinaloa (desde el 12 de Enero al 12 de Septiembre de 2020)
ggplot(data=sonsin) +
geom_line(aes(Fecha,sonora, colour="Sonora")) +
geom_line(aes(Fecha, sinaloa, colour = "Sinaloa ")) +
xlab("Fecha") +
ylab("Casos diarios absolutos") +
labs(colour = "Estados") +
ggtitle("Casos diarios confirmados de COVID-19 en Sonora y Sinaloa") +
scale_y_continuous(labels=comma)- Gráfica de datos acumulados (datos diarios de casos confirmados de COVID-19 en Sonora y Sinaloa (desde el 12 de Enero al 12 de Septiembre de 2020)
ggplot(data=asonsin) +
geom_line(aes(Fecha,asonora, colour="Sonora")) +
geom_line(aes(Fecha, asinaloa, colour = "Sinaloa ")) +
xlab("Fecha") +
ylab("Casos diarios acumulados") +
labs(colour = "Estados") +
ggtitle("Casos diarios confirmados de COVID-19 en Sonora y Sinaloa") +
scale_y_continuous(labels=comma)- Gráfica combinada de datos acumulados y absolutos Sonora
sonora1 <- data.frame(Fecha,sonora,asonora)
#Gráfica 9
g9 <- ggplot(data=sonora1) +
geom_line(aes(Fecha,asonora)) +
xlab("Fecha") +
ylab("Casos acumulados") +
ggtitle("A) Confirmados de COVID-19 en Sonora (Acumulados)") +
scale_y_continuous(labels=comma)
#Gráfica 10
g10 <- ggplot(data=sonora1) +
geom_line(aes(Fecha,sonora)) +
xlab("Fecha") +
ylab("Casos diarios") +
ggtitle("B) Confirmados de COVID-19 en Sonora (Absolutos)") +
scale_y_continuous(labels=comma)
grid.arrange(g9,g10)- Gráfica combinada de datos acumulados y absolutos Sinaloa
sinaloa1 <- data.frame(Fecha,sinaloa,asinaloa)
#Gráfica 11
g11 <- ggplot(data=sinaloa1) +
geom_line(aes(Fecha,asinaloa)) +
xlab("Fecha") +
ylab("Casos acumulados") +
ggtitle("A) Confirmados de COVID-19 en Sinaloa (Acumulados)") +
scale_y_continuous(labels=comma)
#Gráfica 12
g12 <- ggplot(data=sinaloa1) +
geom_line(aes(Fecha,sinaloa)) +
xlab("Fecha") +
ylab("Casos diarios") +
ggtitle("B) Confirmados de COVID-19 en Sinaloa (Absolutos)") +
scale_y_continuous(labels=comma)
grid.arrange(g11,g12)Datos de confirmados diarios de COVID-19 en el Noroeste de México (sin BC y BCS)
- Gráfica de datos absolutos (datos diarios de casos confirmados de COVID-19 en el Noroeste de México (sin BC y BCS) (desde el 12 de Enero al 12 de Septiembre de 2020)
ggplot(data=noroestemex) +
geom_line(aes(Fecha,sonora, colour="Sonora")) +
geom_line(aes(Fecha,sinaloa, colour = "Sinaloa")) +
geom_line(aes(Fecha,chihuahua, colour="Chihuahua")) +
geom_line(aes(Fecha,durango, colour="Durango")) +
xlab("Fecha") +
ylab("Casos diarios absolutos") +
labs(colour = "Estados") +
ggtitle("Casos diarios confirmados de COVID-19 en el Noroeste de México (sin BC y BCS)") +
scale_y_continuous(labels=comma)- Gráfica de datos acumulados (datos diarios de casos confirmados de COVID-19 en el Noroeste de México (sin BC y BCS) (desde el 12 de Enero al 12 de Septiembre de 2020)
ggplot(data=asonsin) +
geom_line(aes(Fecha,asonora, colour="Sonora")) +
geom_line(aes(Fecha,asinaloa, colour = "Sinaloa")) +
geom_line(aes(Fecha,achihuahua, colour="Chihuahua")) +
geom_line(aes(Fecha,adurango, colour="Durango")) +
xlab("Fecha") +
ylab("Casos diarios acumulados") +
labs(colour = "Estados") +
ggtitle("Casos diarios confirmados de COVID-19 en el Noroeste de México (sin BC y BCS)") +
scale_y_continuous(labels=comma)Medidas de posición central
Cálculo individual de las medidas principales de valores absolutos de casos confirmados de COVID-19 para el noroeste mexicano (sin BC Y BCS) (MMM) (Media-Mediana-Moda)
## [1] 36.65714
## [1] 31
## [1] 0
## [1] 31.52245
## [1] 8
## [1] 0
## [1] 94.53061
## [1] 45
## [1] 0
## [1] 70.73469
## [1] 55
## [1] 0
Resúmenes estadísticos
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 0.00 31.00 36.66 68.00 114.00
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 0.00 8.00 31.52 66.00 144.00
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 0.00 45.00 94.53 154.00 482.00
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 0.00 55.00 70.73 122.00 291.00
Medidas de dispersión
- Varianza
## [1] 1175.57
## [1] 1636.759
## [1] 13317.47
## [1] 4742.007
*Desviación estándar
## [1] 34.28659
## [1] 40.45687
## [1] 115.4013
## [1] 68.86223
Gráficos de distribuciones
Tablas de distribuciones
#CHIHUAHUA
distchi <- fdt(chihuahua, breaks = "Sturges") #frequency distribution table (tabla de distribución de frecuencias)
distchi## Class limits f rf rf(%) cf cf(%)
## [0,12.7933) 95 0.39 38.78 95 38.78
## [12.7933,25.5867) 17 0.07 6.94 112 45.71
## [25.5867,38.38) 21 0.09 8.57 133 54.29
## [38.38,51.1733) 21 0.09 8.57 154 62.86
## [51.1733,63.9667) 23 0.09 9.39 177 72.24
## [63.9667,76.76) 33 0.13 13.47 210 85.71
## [76.76,89.5533) 15 0.06 6.12 225 91.84
## [89.5533,102.347) 12 0.05 4.90 237 96.73
## [102.347,115.14) 8 0.03 3.27 245 100.00
#DURANGO
distdur <- fdt(durango, breaks = "Sturges") #frequency distribution table (tabla de distribución de frecuencias)
distdur## Class limits f rf rf(%) cf cf(%)
## [0,16.16) 137 0.56 55.92 137 55.92
## [16.16,32.32) 27 0.11 11.02 164 66.94
## [32.32,48.48) 9 0.04 3.67 173 70.61
## [48.48,64.64) 10 0.04 4.08 183 74.69
## [64.64,80.8) 17 0.07 6.94 200 81.63
## [80.8,96.96) 16 0.07 6.53 216 88.16
## [96.96,113.12) 19 0.08 7.76 235 95.92
## [113.12,129.28) 7 0.03 2.86 242 98.78
## [129.28,145.44) 3 0.01 1.22 245 100.00
#SONORA
distson <- fdt(sonora, breaks = "Sturges") #frequency distribution table (tabla de distribución de frecuencias)
distson## Class limits f rf rf(%) cf cf(%)
## [0,54.0911) 126 0.51 51.43 126 51.43
## [54.0911,108.182) 30 0.12 12.24 156 63.67
## [108.182,162.273) 31 0.13 12.65 187 76.33
## [162.273,216.364) 19 0.08 7.76 206 84.08
## [216.364,270.456) 13 0.05 5.31 219 89.39
## [270.456,324.547) 9 0.04 3.67 228 93.06
## [324.547,378.638) 10 0.04 4.08 238 97.14
## [378.638,432.729) 5 0.02 2.04 243 99.18
## [432.729,486.82) 2 0.01 0.82 245 100.00
#SINALOA
distsin <- fdt(sinaloa, breaks = "Sturges") #frequency distribution table (tabla de distribución de frecuencias)
distsin## Class limits f rf rf(%) cf cf(%)
## [0,32.6567) 98 0.40 40.00 98 40.00
## [32.6567,65.3133) 34 0.14 13.88 132 53.88
## [65.3133,97.97) 28 0.11 11.43 160 65.31
## [97.97,130.627) 32 0.13 13.06 192 78.37
## [130.627,163.283) 23 0.09 9.39 215 87.76
## [163.283,195.94) 18 0.07 7.35 233 95.10
## [195.94,228.597) 9 0.04 3.67 242 98.78
## [228.597,261.253) 2 0.01 0.82 244 99.59
## [261.253,293.91) 1 0.00 0.41 245 100.00
Histogramas y polígonos de frecuencia
CHIHUAHUA
DURANGO
SONORA
SINALOA
Conclusión personal del ejercicio
Conclusión
En esta clase de PYE ITSON1112, se repasaron temas vistos en actividades anteriores, tales como: descargar archivos .csv de repositorios públicos, en este caso una dependencia del gobierno dedicada al tema COVID-19 en el país. Posteriormente se trabajó con los datos descargados, leyendos y guardándolos en una variable “datos”; se extrajeron de esta última los datos de cuatro entidades federativas ubicadas en el noroeste del país, se transpusieron y guardaron en cuatro variables distintas. Luego, se transformaron esos datos a vectores y eliminaron los elementos no útiles, después se transformaron los datos restantes de caracteres a valores númericos, y seguido a vectores númericos (que guardan los datos absolutos diarios de confirmados de COVID-19 en la entidad). El siguiente paso fue crear cuatro variables que guardasen los datos acumulados de cada entidad con la función “cumsum”; crear un vector Fecha, los Data Frames (marcos de datos); y finalmente hacer uso de las bibliotecas instaladas para crear tablas interactivas de los vectores de datos numéricos obtenidos. Se agregaron imágenes y se le dió un formato al documento con prettydoc.
Actualización: Se crearon gráficas utilizando ggplot2 que muestran los datos de confirmados diarios COVID-19 (absolutos y acumulados) en el noroeste mexicano (sin BC Y BCS), se le dió un pequeño formato a estas para hacerlas más fáciles de leer: nombres a los ejes de las gráficas, y un color distintivo a cada estado. También, se crearon nuevos marcos de datos para la elaboración de gráficas combinadas de datos absolutos y acumulados de confirmados diarios de COVID-19 para cada entidad.
Actualización II: Se analizaron los conceptos de medidas de posición central, y con ello se calcularon la Media Aritmética, Mediana y Moda, de las entidades en el noroeste de México (sin BC y BCS), también, se hizo lo mismo con las medidas de dispersión, varianza y desviación estándar. Se crearon resúmenes estadísticos, gráficos de caja y bigote, tablas y gráficas de distribuciones, e histogramas y polígonos de frecuencias absolutas, acumuladas y relativas para cada entidad en RMarkdown.
Con respecto a la interpretación de los datos, podemos observar diferentes dinámicas de contagio de COVID-19 en cada estado. Sinaloa fue el primer estado que comenzó a registrar una alza en el número de casos confirmados de coronavirus en el noroeste mexicano, seguido de Chihuahua y de Sonora; Durango había controlado el número de contagiados en una fase temprana, pero poco tiempo después registró también una alza en los números. Sinaloa y Sonora, estados colindantes, registraron un crecimiento exponencial en el número de contagiados en un par de semanas, esto puede deberse a que los estados mantuvieron sus fronteras abiertas entre sí, sumado a una reapertura económica o cuarentena mal controlada. (En México, más de la mitad de la población tiene empleos informales y vive al día, de ahí la necesidad de salir todos los días a laborar, pues es morir a causa de COVID-19 o de hambre, al menos en el primer caso, hay probabilidad de sobrevivir). Mientras tanto en Chihuahua, la curva de contagios comenzaba a aplanarse, pero después hubo un pequeño rebrote, y nuevamente la curva se aplanó. En Durango, los casos confirmados aumentaron poco a poco, pero hasta la fecha sigue en aumento. Sonora y Sinaloa registran un decreciemiento en el número de contagios diarios. Sonora fue el estado que mayor número de contagios presentó, esto se debe a que posee un mayor número de habitantes, en cambio, en proporción, Sinaloa es el estado más afectado.
Actualización: Se puede observar que las gráficas o polígonos de frecuencias absolutas de los datos de confirmados de COVID-19 para las cuatro entidades, son sesgadas a la derecha (positivamente), ya que la media es mayor que la mediana, y la moda es cero en todos los estados; esto último se debe a que cuando los registros comenzaron, los estados no registraron ningún caso confirmado de COVID-19, sino hasta semanas después. Los estados que más dispersión presentaron en sus datos, fueron aquellos cuyos números de contagiados era más elevado, es decir, Sonora y Sinaloa.