U1A6-

Jaime Corral R.

14/9/2020

Análisis de datos diarios de COVID-19 y salud para Sonora

  • Folder de trabajo setwd(“~/EA1011”)

IMPORTAR

  • Importar paquetes
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "knitr", "DT", "tidyverse", "scales", "gridExtra", "modeest", "fdth")
#Leer datos del archivo local descargado
datos <- read.csv("Casos_Diarios_Estado_Nacional_Confirmados_20200921.csv")

TRANSFORMAR

#Datos confirmados para Baja California (absolutos y acumulados)
BajaCalifornia <- t(datos[datos$nombre == "BAJA CALIFORNIA" ,])
BajaCalifornia <- as.vector(BajaCalifornia)
BajaCalifornia <- BajaCalifornia[4:248]
BajaCalifornia <- as.numeric(BajaCalifornia)
BajaCalifornia <- as.vector(BajaCalifornia)
aBajaCalifornia <- cumsum(BajaCalifornia)

##Datos confirmados para Baja California Sur (absolutos y acumulados)
BajaCaliforniaSur <- t(datos[datos$nombre == "BAJA CALIFORNIA SUR" ,])
BajaCaliforniaSur <- as.vector(BajaCaliforniaSur)
BajaCaliforniaSur <- BajaCaliforniaSur[4:248]
BajaCaliforniaSur <- as.numeric(BajaCaliforniaSur)
BajaCaliforniaSur <- as.vector(BajaCaliforniaSur)
aBajaCaliforniaSur <- cumsum(BajaCaliforniaSur)

#Vector de Fecha

Fecha <- seq(from = as.Date("2020-01-12"), to = as.Date("2020-09-12"), by = "day" )

#Estructura de datos en un data frame 

bcbs <- data.frame(Fecha, BajaCalifornia, BajaCaliforniaSur) #datos diarios absolutos
abcbs <- data.frame(Fecha, aBajaCalifornia, aBajaCaliforniaSur) #datos acumulados 

Visualizar

Visualización en Tablas

Para esto se usará una tabla interactiva

#Tabla de datos absolutos
datatable(bcbs)
#Tabla de datos acumulados
datatable(bcbs)

Visualización en gráficas

Utilizando ggplot2

# Datos absolutos
ggplot(data=bcbs) + 
  geom_line(aes(Fecha, BajaCalifornia, colour="Baja California")) +
  geom_line(aes(Fecha, BajaCaliforniaSur, colour="Baja California Sur")) +
  xlab("Mes del año 2020") +
  ylab ("Casos diarios Confirmados") +
  ggtitle("Casos de COVID-19 en Baja California y Baja California Sur") +
  scale_y_continuous(labels = comma)

#Datos acumulados
ggplot(data=abcbs) + 
  geom_line(aes(Fecha, aBajaCalifornia, colour="Baja California")) +
  geom_line(aes(Fecha, aBajaCaliforniaSur, colour="Baja California Sur")) +
  xlab("Mes del año 2020") +
  ylab ("Casos diarios acumulados") +
  ggtitle("Casos de COVID-19 en Baja California y Baja California Sur") +
  scale_y_continuous(labels = comma)

Medidas de tendencia central

Media

mean(BajaCalifornia)
## [1] 75.21224
mean(BajaCaliforniaSur)
## [1] 37.14286

Mediana

median(BajaCalifornia)
## [1] 71
median(BajaCaliforniaSur)
## [1] 13

Moda

mfv(BajaCalifornia)
## [1] 0
mfv(BajaCaliforniaSur)
## [1] 0

Resumen de tendencia central

summary(BajaCalifornia)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   71.00   75.21  129.00  230.00
summary(BajaCaliforniaSur)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   13.00   37.14   57.00  173.00

Gráfico de caja y bigote

boxplot(BajaCalifornia)

boxplot(BajaCaliforniaSur)

Medidas de dispersión

Amplitud

Varianza

var(BajaCalifornia)
## [1] 4259.233
var(BajaCaliforniaSur)
## [1] 2243.754

Desviación estándar

sd(BajaCalifornia)
## [1] 65.2628
sd(BajaCaliforniaSur)
## [1] 47.36828

Gráfico de dispersión

plot(BajaCalifornia)

Tarea

Completar este análisis comparativo para B. California y B. California Sur, incluyendo

Distribución de frecuencia en tabla

dist <- fdt(BajaCalifornia, breaks = "Sturges")
dist1 <- fdt(BajaCaliforniaSur, breaks = "Sturges")
dist
##     Class limits  f   rf rf(%)  cf  cf(%)
##       [0,25.811) 82 0.33 33.47  82  33.47
##  [25.811,51.622) 22 0.09  8.98 104  42.45
##  [51.622,77.433) 24 0.10  9.80 128  52.24
##  [77.433,103.24) 24 0.10  9.80 152  62.04
##  [103.24,129.06) 32 0.13 13.06 184  75.10
##  [129.06,154.87) 29 0.12 11.84 213  86.94
##  [154.87,180.68) 19 0.08  7.76 232  94.69
##  [180.68,206.49)  6 0.02  2.45 238  97.14
##   [206.49,232.3)  7 0.03  2.86 245 100.00
dist1
##       Class limits   f   rf rf(%)  cf  cf(%)
##        [0,19.4144) 140 0.57 57.14 140  57.14
##  [19.4144,38.8289)  22 0.09  8.98 162  66.12
##  [38.8289,58.2433)  22 0.09  8.98 184  75.10
##  [58.2433,77.6578)  12 0.05  4.90 196  80.00
##  [77.6578,97.0722)   8 0.03  3.27 204  83.27
##  [97.0722,116.487)  11 0.04  4.49 215  87.76
##  [116.487,135.901)  16 0.07  6.53 231  94.29
##  [135.901,155.316)  12 0.05  4.90 243  99.18
##   [155.316,174.73)   2 0.01  0.82 245 100.00

Histogramas y polígonos para Baja California y B. California Sur

# Histograma

hist(BajaCalifornia)

# Histograma de frecuancias absolutas
plot(dist, type = "fh")

# Polígono de frecuencias absolutas
plot(dist, type = "fp")

# Histograma de frecuencias relativas
plot(dist, type = "rfh")

# Polígono de frecuencias relativas
plot(dist, type = "rfp")

# Histograma de frecuencias acumulado
plot(dist, type = "cfh")

# Polígono de frecuencias acumulado
plot(dist, type = "cfp")

# Histograma

hist(BajaCaliforniaSur)

# Histograma de frecuancias absolutas
plot(dist1, type = "fh")

# Polígono de frecuencias absolutas
plot(dist1, type = "fp")

# Histograma de frecuencias relativas
plot(dist1, type = "rfh")

# Polígono de frecuencias relativas
plot(dist1, type = "rfp")

# Histograma de frecuencias acumulado
plot(dist1, type = "cfh")

# Polígono de frecuencias acumulado
plot(dist1, type = "cfp")

Conclusión

  • No es sorpresa el darse cuenta que la curva es mas plana en Baja California Sur que en Baja California, ya que esta mas alejado de otros lugares que su hermano del norte, por lo que su aislamiento es mayor, todo esto lo pudimos ver gracias a las formas visuales aprendidas en clase.