Análisis comparativo de datos de Salud Y COVID-19 en Nuevo León
- Folder de trabajo
IMPORTAR
Importar paquetes
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "knitr", "DT", "tidyverse", "scales", "gridExtra", "modeest", "fdth" )Se importan desde un archivo local .csv los datos diarios de casos confirmados de COVID-19 para todo México desde la URL oficial: https://coronavirus.gob.mx/datos/#DownZCSV
TRANSFORMAR
Se realiza primeramente una extracción de los datos desde el data frame para Nuevo León y Chiapas para juntarlos en un data frame junto con un vector de Fecha
#DATOS DIARIOS CONFIRMADOS PARA Nuevo León
nuevo_leon<- t(datos[datos$nombre == "NUEVO LEON",])
nuevo_leona <- as.vector(nuevo_leon)
nuevo_leon <- nuevo_leon[4:248]
nuevo_leon <- as.numeric(nuevo_leon)
nuevo_leon <- as.vector(nuevo_leon)
anuevo_leon <- cumsum(nuevo_leon)
chiapas <- t(datos[datos$nombre == "CHIAPAS",])
chiapas <- as.vector(chiapas)
chiapas <- chiapas[4:248]
chiapas <- as.numeric(chiapas)
chiapas <- as.vector(chiapas)
achiapas <- cumsum(chiapas)
#Generar un vector de Fecha
Fecha <- seq(from = as.Date("2020-01-12"), to = as.Date("2020-09-12"), by = "day" )
#Estructurar los datos en un marco de datos (data frame)
leon_chiapas <- data.frame(Fecha, nuevo_leon, chiapas )
aleon_chiapas <- data.frame(Fecha, anuevo_leon, achiapas )VISUALIZAR
Visualizar datos en forma de tabla interactiva
Visualizar los datos con gráficas usando ggplot2
- Gráfica de datos absolutos (datos diarios de casos confirmados de COVID-19 en Nuevo León y Chiapas (desde el 12 de Enero al 12 de Septiembre de 2020))
ggplot(data=leon_chiapas) +
geom_line(aes(Fecha, nuevo_leon, colour = "Nuevo León")) +
geom_line(aes(Fecha, chiapas, colour = "Chiapas")) +
xlab("Fecha") +
ylab("Casos diarios absolutos") +
labs (colour = "Estados") +
ggtitle("Casos diarios confirmados de COVID-19 en Nuevo León y Chiapas") +
scale_y_continuous(labels=comma)- Gráfica de datos acumulados (datos diarios de casos confirmados de COVID-19 en Nuevo León y Chiapas (desde el 12 de Enero al 12 de Septiembre de 2020))
ggplot(data=aleon_chiapas) +
geom_line(aes(Fecha, anuevo_leon, colour = "Nuevo León")) +
geom_line(aes(Fecha, achiapas, colour = "Chiapas")) +
xlab("Fecha") +
ylab("Casos diarios acumulados") +
labs (colour = "Estados") +
ggtitle("Casos diarios confirmados de COVID-19 en Nuevo León y Chiapas") +
scale_y_continuous(labels=comma)- Gráfica combinada de datos acumulados y absolutos
nuevo_leon1 <- data.frame(Fecha,nuevo_leon,anuevo_leon)
g2 <- ggplot(data=nuevo_leon1) +
geom_col(aes(Fecha,anuevo_leon)) +
xlab("Fecha") +
ylab("Casos acumulados") +
ggtitle("A) Confirmados de COVID-19 en Nuevo Leon (Acumulados)" ) +
scale_y_continuous(labels=comma)
g3 <- ggplot(data=nuevo_leon1) +
geom_line(aes(Fecha,nuevo_leon)) +
xlab("Fecha") +
ylab("Casos diarios") +
ggtitle("B) Confirmados de COVID-19 en Nuevo Leon (Absolutos)" ) +
scale_y_continuous(labels=comma)
grid.arrange(g2,g3)chiapas1 <- data.frame(Fecha,chiapas,achiapas)
g2 <- ggplot(data=chiapas1) +
geom_col(aes(Fecha,achiapas)) +
xlab("Fecha") +
ylab("Casos acumulados") +
ggtitle("A) Confirmados de COVID-19 en Chiapas (Acumulados)" ) +
scale_y_continuous(labels=comma)
g3 <- ggplot(data=chiapas1) +
geom_line(aes(Fecha,chiapas)) +
xlab("Fecha") +
ylab("Casos diarios") +
ggtitle("B) Confirmados de COVID-19 en Chiapas (Absolutos)" ) +
scale_y_continuous(labels=comma)
grid.arrange(g2,g3)Nuevo leon
Medidas de posicion central
- Calculo individual de las medidas
## [1] 138.4735
## [1] 30
## [1] 0
resumen estadistico
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0 0.0 30.0 138.5 244.0 603.0
Medidas de dispersión
- Varianza
## [1] 31265.5
- Desviación estándar
## [1] 176.8205
Tabla de distribuciones
## Class limits f rf rf(%) cf cf(%)
## [0,67.67) 137 0.56 55.92 137 55.92
## [67.67,135.34) 19 0.08 7.76 156 63.67
## [135.34,203.01) 17 0.07 6.94 173 70.61
## [203.01,270.68) 13 0.05 5.31 186 75.92
## [270.68,338.35) 10 0.04 4.08 196 80.00
## [338.35,406.02) 22 0.09 8.98 218 88.98
## [406.02,473.69) 10 0.04 4.08 228 93.06
## [473.69,541.36) 9 0.04 3.67 237 96.73
## [541.36,609.03) 8 0.03 3.27 245 100.00
Histogramas y polígonos de frecuencia
Chiapas
Medidas de posicion central
- Calculo induvudual de las medidas
## [1] 26.04082
## [1] 10
## [1] 0
resumen estadistico
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 0.00 10.00 26.04 33.00 146.00
Medidas de dispersión
- Varianza
## [1] 1327.375
- Desviación estándar
## [1] 36.43316
### resumen estadistico
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0 0.0 30.0 138.5 244.0 603.0
Tabla de distribuciones
## Class limits f rf rf(%) cf cf(%)
## [0,67.67) 137 0.56 55.92 137 55.92
## [67.67,135.34) 19 0.08 7.76 156 63.67
## [135.34,203.01) 17 0.07 6.94 173 70.61
## [203.01,270.68) 13 0.05 5.31 186 75.92
## [270.68,338.35) 10 0.04 4.08 196 80.00
## [338.35,406.02) 22 0.09 8.98 218 88.98
## [406.02,473.69) 10 0.04 4.08 228 93.06
## [473.69,541.36) 9 0.04 3.67 237 96.73
## [541.36,609.03) 8 0.03 3.27 245 100.00
Histogramas y polígonos de frecuencia
Redacción
En este ejercicio agarramos los datos nacionales diarios de confirmados de COVID – 19 en el link https://coronavirus.gob.mx/datos/#DownZCSV. Hicimos el análisis comparativo de nuevo león y Chiapas. También aprendimos una manera más eficiente de importar las bibliotecas usando el comando “library(pacman)” el cual consistia en poner “p_load()” y adentro de los paréntesis las bibliotecas que necesitábamos y también las descargaba si era necesario. Con la ayuda de todas las bibliotecas que descargamos elaboramos una tabla interactiva de los datos de Nuevo Neón y Chiapas, la cual nos proporcionaba la información de una manera un poco mas clara. Después, visualizamos los datos gráficamente usando ggplot2 des pues de elaborar la grafica de los datos absolutos pudimos observar que Nuevo león tiene más casos diarios de coronavirus que Chiapas por enormes cantidades. En la grafica de los datos acumulados se puede ver con mas claridad este comportamiento. También aprendimos como hacer una gráfica combinada de datos acumulados y absolutos. En cada uno de los estados elaboramos las medidas principales siendo la media aritmética, mediana y la moda. Después, hicimos un resumen estadístico, grafico de caja y bigote. El resumen estadístico nos da lo que viene siendo el mínimo, primer cuartil, la mediana, media aritmética, tercer cuartil y el máximo. También, obtuvimos la varianza, desviación estándar, tabla de distribuciones, histogramas y polígonos de frecuencia. Gracias a estos datos podemos obtener un mejor análisis de los datos de los casos diarios de los estados seleccionados.