Análisis de datos diarios de COVID-19 y salud para Sonora

IMPORTAR

  • Importar paquetes
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "knitr", "DT", "tidyverse", "scales", "gridExtra", "modeest", "fdth")
library(readr)
datos <- read_csv("Casos_Diarios_Estado_Nacional_Confirmados_20200913.csv")
## Parsed with column specification:
## cols(
##   .default = col_double(),
##   cve_ent = col_character(),
##   nombre = col_character()
## )
## See spec(...) for full column specifications.
View(datos)

#Leer datos del archivo local descargado #Tuve problemas para poder importar datos como el ejemplo que usted hizo maestro. por eso importe datos directamente desde Import Dateset….

TRANSFORMAR

#Datos confirmados para Sonora (absolutos y acumulados)
sonora <- t(datos[datos$nombre == "SONORA" ,])
sonora <- as.vector(sonora)
sonora <- sonora[4:248]
sonora <- as.numeric(sonora)
sonora <- as.vector(sonora)
asonora <- cumsum(sonora)

#Datos confirmados para Sinaloa (absolutos y acumulados)
sinaloa <- t(datos[datos$nombre == "SINALOA" ,])
sinaloa <- as.vector(sinaloa)
sinaloa <- sinaloa[4:248]
sinaloa <- as.numeric(sinaloa)
sinaloa <- as.vector(sinaloa)
asinaloa <- cumsum(sinaloa)

#Vector de Fecha

Fecha <- seq(from = as.Date("2020-01-12"), to = as.Date("2020-09-12"), by = "day" )
#Datos confirmados para Sonora (absolutos y acumulados)
zacatecas <- t(datos[datos$nombre == "ZACATECAS" ,])
zacatecas <- as.vector(zacatecas)
zacatecas <- zacatecas[4:248]
zacatecas <- as.numeric(zacatecas)
zacatecas <- as.vector(zacatecas)
azacatecas <- cumsum(zacatecas)

#Datos confirmados para Sinaloa (absolutos y acumulados)
puebla <- t(datos[datos$nombre == "PUEBLA" ,])
puebla <- as.vector(puebla)
puebla <- puebla[4:248]
puebla <- as.numeric(puebla)
puebla <- as.vector(puebla)
apuebla <- cumsum(puebla)

#Vector de Fecha

Fecha <- seq(from = as.Date("2020-01-12"), to = as.Date("2020-09-12"), by = "day" )

#Estructura de datos en un data frame
zacpue <- data.frame(Fecha, zacatecas, puebla) #datos diarios absolutos
azacpue <- data.frame(Fecha, azacatecas, apuebla) #datos acumulados

##Visualizar

###Vizualización en tabla

Para esyo se utilizara una tabla interactiva

#Tabla de datos Absolutos
datatable(zacpue)
#Tabla de datos Acomulados
datatable(azacpue)

###Vizualización en gráficas Utilizando ggplot2

#Datos absolutos
ggplot(data=zacpue) + 
  geom_line(aes(Fecha, zacatecas, colour="zacatecas")) +
  geom_line(aes(Fecha, puebla, colour="puebla")) +
  xlab("Mes del año 2020") +
  ylab ("Casos diarios Confirmados") +
  ggtitle("Casos de COVID-19 en zacatecas y puebla") +
  scale_y_continuous(labels = comma)

#Datos acumulados
ggplot(data=azacpue) + 
  geom_line(aes(Fecha, azacatecas, colour="zacatecas")) +
  geom_line(aes(Fecha, apuebla, colour="puebla")) +
  xlab("Mes del año 2020") +
  ylab ("Casos diarios acumulados") +
  ggtitle("Casos de COVID-19 en zacagtecas y puebla") +
  scale_y_continuous(labels = comma)

##Medidas de tendencia central

###media

mean(zacatecas)
## [1] 25.99184
mean(puebla)
## [1] 118.8939

###Mediana

median(zacatecas)
## [1] 7
median(puebla)
## [1] 61

###Moda

mfv(zacatecas)
## [1] 0
mfv(puebla)
## [1] 0

###Resumen de tendencia central

summary(zacatecas)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00    7.00   25.99   45.00  172.00
summary(puebla)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0     2.0    61.0   118.9   194.0   503.0

###Gráfico de caja de bigote

boxplot(zacatecas)

boxplot(puebla)

Medidas de dispersión

Amplitud

Varianza

var(zacatecas)
## [1] 1268.615
var(puebla)
## [1] 18116.68

Desviación estándar

sd(zacatecas)
## [1] 35.61762
sd(puebla)
## [1] 134.5982

Gráfico de dispersión

plot(zacatecas)

#Tarea: Completar este análisis comparativo para sonora y sinaloa, incluyendo:

##* Distribución de frecuencia en tabla

dist <- fdt(zacatecas,breaks="Sturges") 
dist
##       Class limits   f   rf rf(%)  cf  cf(%)
##        [0,19.3022) 156 0.64 63.67 156  63.67
##  [19.3022,38.6044)  22 0.09  8.98 178  72.65
##  [38.6044,57.9067)  19 0.08  7.76 197  80.41
##  [57.9067,77.2089)  13 0.05  5.31 210  85.71
##  [77.2089,96.5111)  21 0.09  8.57 231  94.29
##  [96.5111,115.813)  10 0.04  4.08 241  98.37
##  [115.813,135.116)   3 0.01  1.22 244  99.59
##  [135.116,154.418)   0 0.00  0.00 244  99.59
##   [154.418,173.72)   1 0.00  0.41 245 100.00
dist <- fdt(puebla,breaks="Sturges") 
dist
##       Class limits   f   rf rf(%)  cf  cf(%)
##        [0,56.4478) 121 0.49 49.39 121  49.39
##  [56.4478,112.896)  22 0.09  8.98 143  58.37
##  [112.896,169.343)  24 0.10  9.80 167  68.16
##  [169.343,225.791)  27 0.11 11.02 194  79.18
##  [225.791,282.239)  11 0.04  4.49 205  83.67
##  [282.239,338.687)  19 0.08  7.76 224  91.43
##  [338.687,395.134)   8 0.03  3.27 232  94.69
##  [395.134,451.582)  10 0.04  4.08 242  98.78
##   [451.582,508.03)   3 0.01  1.22 245 100.00

##* Histogramas y polígonos para sonora y sinaloa

##para zacatecas 

#Histograma de frecuencias absolutas
hist(zacatecas)

#Histogramas de frecuencias absolutas
plot(dist, type="fh")

#poligono de frecuencias absolutas
plot(dist, type="fp")

#Histogramas de frecuencias relativo
plot(dist, type="rfh")

#poligono de frecuencias relativo
plot(dist, type="rfp")

#Histogramas de frecuencias acumulado
plot(dist, type="cfh")

#poligono de frecuencias acumulado
plot(dist, type="cfp")

#Histograma de frecuencias absolutas
hist(puebla)

##* conclusión

En el presente trabajo se llevo acabo en clase con una serie de operaciones, como el calculo de histogramas, la media, moda, promedio,y tambien la utilización de nuevos paquetes.Los estados que decidi observar son los estados de Zacatecas y puebla. donde iniciamos con una comparación de datos de casos confirmados de covid19, con el apoyo de tablas y graficos de frecuencia. Como se puede ver en el histograma de Zacatecas su contagio inicial fue mayor que el de puebla y ahora es menor al de puebla. Esto se puede deber a que el estado de Zacatecas este implementando mas la norma de sana distancia que el estado de Puebla.