U1A6

Jose Ibarra

9/14/2020

Análisis comparativo de datos de Salud Y COVID-19 en Nuevo León

  • Folder de trabajo
setwd("~/PyE")

IMPORTAR

Importar paquetes

library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "knitr", "DT", "tidyverse", "scales", "gridExtra", "modeest", "fdth"  )

Se importan desde un archivo local .csv los datos diarios de casos confirmados de COVID-19 para todo México desde la URL oficial: https://coronavirus.gob.mx/datos/#DownZCSV

datos <- read.csv("Casos_Diarios_Estado_Nacional_Confirmados_20200913.csv")

TRANSFORMAR

Se realiza primeramente una extracción de los datos desde el data frame para Nuevo León y Chiapas para juntarlos en un data frame junto con un vector de Fecha

#DATOS DIARIOS CONFIRMADOS PARA Nuevo León 

nuevo_leon<- t(datos[datos$nombre == "NUEVO LEON",])
nuevo_leona <- as.vector(nuevo_leon)
nuevo_leon <- nuevo_leon[4:248]
nuevo_leon <- as.numeric(nuevo_leon)
nuevo_leon <- as.vector(nuevo_leon)
anuevo_leon <- cumsum(nuevo_leon)


chiapas <- t(datos[datos$nombre == "CHIAPAS",])
chiapas <- as.vector(chiapas)
chiapas <- chiapas[4:248]
chiapas <- as.numeric(chiapas)
chiapas <- as.vector(chiapas)
achiapas <- cumsum(chiapas)


#Generar un vector de Fecha

Fecha <- seq(from = as.Date("2020-01-12"), to = as.Date("2020-09-12"), by = "day" )

#Estructurar los datos en un marco de datos (data frame)

leon_chiapas <- data.frame(Fecha, nuevo_leon, chiapas )
aleon_chiapas <- data.frame(Fecha, anuevo_leon, achiapas )

VISUALIZAR

Visualizar datos en forma de tabla interactiva

# Tabla de datos absolutos
datatable(leon_chiapas)
#Tabla de datos acumulados
datatable(aleon_chiapas)

Visualizar los datos con gráficas usando ggplot2

  • Gráfica de datos absolutos (datos diarios de casos confirmados de COVID-19 en Nuevo León y Chiapas (desde el 12 de Enero al 12 de Septiembre de 2020))
ggplot(data=leon_chiapas) +
  geom_line(aes(Fecha, nuevo_leon, colour = "Nuevo León")) +
  geom_line(aes(Fecha, chiapas, colour = "Chiapas")) +
  xlab("Fecha") +
  ylab("Casos diarios absolutos") + 
  labs (colour = "Estados") +
  ggtitle("Casos diarios confirmados de COVID-19 en Nuevo León y Chiapas") +
  scale_y_continuous(labels=comma)

  • Gráfica de datos acumulados (datos diarios de casos confirmados de COVID-19 en Nuevo León y Chiapas (desde el 12 de Enero al 12 de Septiembre de 2020))
ggplot(data=aleon_chiapas) +
  geom_line(aes(Fecha, anuevo_leon, colour = "Nuevo León")) +
  geom_line(aes(Fecha, achiapas, colour = "Chiapas")) +
  xlab("Fecha") +
  ylab("Casos diarios acumulados") + 
  labs (colour = "Estados") +
  ggtitle("Casos diarios confirmados de COVID-19 en Nuevo León y Chiapas") +
  scale_y_continuous(labels=comma)

  • Gráfica combinada de datos acumulados y absolutos
nuevo_leon1 <- data.frame(Fecha,nuevo_leon,anuevo_leon)

g2 <- ggplot(data=nuevo_leon1) +
  geom_col(aes(Fecha,anuevo_leon)) +
  xlab("Fecha") +
  ylab("Casos acumulados") +
  ggtitle("A) Confirmados de COVID-19 en Nuevo Leon (Acumulados)"   ) +
  scale_y_continuous(labels=comma)

g3 <- ggplot(data=nuevo_leon1) +
  geom_line(aes(Fecha,nuevo_leon)) +
  xlab("Fecha") +
  ylab("Casos diarios") +
  ggtitle("B) Confirmados de COVID-19 en Nuevo Leon (Absolutos)"   ) +
  scale_y_continuous(labels=comma)

grid.arrange(g2,g3)

chiapas1 <- data.frame(Fecha,chiapas,achiapas)

g2 <- ggplot(data=chiapas1) +
  geom_col(aes(Fecha,achiapas)) +
  xlab("Fecha") +
  ylab("Casos acumulados") +
  ggtitle("A) Confirmados de COVID-19 en Chiapas (Acumulados)"   ) +
  scale_y_continuous(labels=comma)

g3 <- ggplot(data=chiapas1) +
  geom_line(aes(Fecha,chiapas)) +
  xlab("Fecha") +
  ylab("Casos diarios") +
  ggtitle("B) Confirmados de COVID-19 en Chiapas (Absolutos)"   ) +
  scale_y_continuous(labels=comma)

grid.arrange(g2,g3)

Nuevo leon

Medidas de posicion central

  • Calculo individual de las medidas
mean(nuevo_leon) #promdedio
## [1] 138.4735
median(nuevo_leon) #mediana
## [1] 30
mfv(nuevo_leon) #moda (most frequent value)
## [1] 0

resumen estadistico

summary(nuevo_leon)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0     0.0    30.0   138.5   244.0   603.0

Grafico de caja y bigote

boxplot(nuevo_leon)

Medidas de dispersión

  • Varianza
var(nuevo_leon)
## [1] 31265.5
  • Desviación estándar
sd(nuevo_leon)
## [1] 176.8205
plot(nuevo_leon)

Tabla de distribuciones

dist <-fdt(nuevo_leon, breaks = "Sturges")
dist
##     Class limits   f   rf rf(%)  cf  cf(%)
##        [0,67.67) 137 0.56 55.92 137  55.92
##   [67.67,135.34)  19 0.08  7.76 156  63.67
##  [135.34,203.01)  17 0.07  6.94 173  70.61
##  [203.01,270.68)  13 0.05  5.31 186  75.92
##  [270.68,338.35)  10 0.04  4.08 196  80.00
##  [338.35,406.02)  22 0.09  8.98 218  88.98
##  [406.02,473.69)  10 0.04  4.08 228  93.06
##  [473.69,541.36)   9 0.04  3.67 237  96.73
##  [541.36,609.03)   8 0.03  3.27 245 100.00

Histogramas y polígonos de frecuencia

plot(dist, type= "fh") # Histograma de frecuencias absolutas

plot(dist, type= "cfh") # Histograma de frecuencias acumuladas

plot(dist, type= "rfh") # Histograma de frecuencias relativas

plot(dist, type= "fp") # Polígono de frecuencias absolutas

plot(dist, type= "cfp") # Histograma de frecuencias acumuladas

plot(dist, type= "rfp") # Histograma de frecuencias relativas

Chiapas

Medidas de posicion central

  • Calculo induvudual de las medidas
mean(chiapas) #promdedio
## [1] 26.04082
median(chiapas) #mediana
## [1] 10
mfv(chiapas) #moda (most frequent value)
## [1] 0

resumen estadistico

summary(chiapas)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   10.00   26.04   33.00  146.00

Grafico de caja y bigote

boxplot(chiapas)

Medidas de dispersión

  • Varianza
var(chiapas)
## [1] 1327.375
  • Desviación estándar
sd(chiapas)
## [1] 36.43316
plot(chiapas)

### resumen estadistico

summary(nuevo_leon)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0     0.0    30.0   138.5   244.0   603.0

Tabla de distribuciones

dist1 <-fdt(chiapas, breaks = "Sturges")
dist
##     Class limits   f   rf rf(%)  cf  cf(%)
##        [0,67.67) 137 0.56 55.92 137  55.92
##   [67.67,135.34)  19 0.08  7.76 156  63.67
##  [135.34,203.01)  17 0.07  6.94 173  70.61
##  [203.01,270.68)  13 0.05  5.31 186  75.92
##  [270.68,338.35)  10 0.04  4.08 196  80.00
##  [338.35,406.02)  22 0.09  8.98 218  88.98
##  [406.02,473.69)  10 0.04  4.08 228  93.06
##  [473.69,541.36)   9 0.04  3.67 237  96.73
##  [541.36,609.03)   8 0.03  3.27 245 100.00

Histogramas y polígonos de frecuencia

plot(dist1, type= "fh") # Histograma de frecuencias absolutas

plot(dist1, type= "cfh") # Histograma de frecuencias acumuladas

plot(dist1, type= "rfh") # Histograma de frecuencias relativas

plot(dist1, type= "fp") # Polígono de frecuencias absolutas

plot(dist1, type= "cfp") # Histograma de frecuencias acumuladas

plot(dist1, type= "rfp") # Histograma de frecuencias relativas

Redacción

En este ejercicio agarramos los datos nacionales diarios de confirmados de COVID – 19 en el link https://coronavirus.gob.mx/datos/#DownZCSV. Hicimos el análisis comparativo de nuevo león y Chiapas. También aprendimos una manera más eficiente de importar las bibliotecas usando el comando “library(pacman)” el cual consistia en poner “p_load()” y adentro de los paréntesis las bibliotecas que necesitábamos y también las descargaba si era necesario. Con la ayuda de todas las bibliotecas que descargamos elaboramos una tabla interactiva de los datos de Nuevo Neón y Chiapas, la cual nos proporcionaba la información de una manera un poco mas clara. Después, visualizamos los datos gráficamente usando ggplot2 des pues de elaborar la grafica de los datos absolutos pudimos observar que Nuevo león tiene más casos diarios de coronavirus que Chiapas por enormes cantidades. En la grafica de los datos acumulados se puede ver con mas claridad este comportamiento. También aprendimos como hacer una gráfica combinada de datos acumulados y absolutos. En cada uno de los estados elaboramos las medidas principales siendo la media aritmética, mediana y la moda. Después, hicimos un resumen estadístico, grafico de caja y bigote. El resumen estadístico nos da lo que viene siendo el mínimo, primer cuartil, la mediana, media aritmética, tercer cuartil y el máximo. También, obtuvimos la varianza, desviación estándar, tabla de distribuciones, histogramas y polígonos de frecuencia. Gracias a estos datos podemos obtener un mejor análisis de los datos de los casos diarios de los estados seleccionados.