Análisis comparativo de datos de Salud Y COVID-19 en Baja California y Baja California Sur

setwd("~/PyE 11 AM")

IMPORTAR

Importar paquetes

library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "knitr", "DT", "tidyverse", "scales", "gridExtra", "modeest", "fdth")

Importar datos

Se importan desde un archivo local .csv los datos diarios de casos confirmados de COVID-19 para todo México desde la URL oficial: https://coronavirus.gob.mx/datos/#DownZCSV

datos <- read.csv("Casos_Diarios_Estado_Nacional_Confirmados_20200916.csv")

TRANSFORMAR

Se realiza primeramente una extracción de los datos desde el data frame para Baja California y Baja California Sur para juntarlos en un data frame junto con un vector de Fecha

#DATOS DIARIOS CONFIRMADOS PARA BAJA CALIFORNIA 
bcalifornia <- t(datos[datos$nombre == "BAJA CALIFORNIA" ,])
bcalifornia <- as.vector(bcalifornia)
bcalifornia <- bcalifornia[4:248]
bcalifornia<- as.numeric(bcalifornia)
bcalifornia <- as.vector(bcalifornia) #datos absolutos diarios
abcalifornia <- cumsum(bcalifornia) #datos acumulados

#DATOS DIARIOS CONFIRMADOS PARA BAJA CALIFORNIA SUR
bcalifornias<- t(datos[datos$nombre == "BAJA CALIFORNIA SUR" ,])
bcalifornias <- as.vector(bcalifornias)
bcalifornias <- bcalifornias[4:248]
bcalifornias <- as.numeric(bcalifornias)
bcalifornias <- as.vector(bcalifornias) #datos absolutos diarios
abcalifornias <- cumsum(bcalifornias) #datos acumulados
#Generar un vector de Fecha

Fecha <- seq(from = as.Date("2020-01-12"), to = as.Date("2020-09-12"), by = "day" )

#Estructurar los datos en un marco de datos (data frame)

bcalsur <- data.frame(Fecha, bcalifornia, bcalifornias)
abcalsur <- data.frame(Fecha, abcalifornia, abcalifornias)

VISUALIZAR

Visualizar datos en forma de tabla interactiva

Este tipo de tabla resulta muy útil si es necesario recolectar datos de una fecha en específico, pudiendose realizar análisis en caso de ser necesario.

# Tabla de datos absolutos
datatable(bcalsur)
#Tabla de datos acumulados
datatable(abcalsur)

Visualizar los datos con gráficas usando ggplot2

  • Gráfica de datos absolutos (datos diarios de casos confirmados de COVID-19 en Baja California y Baja California Sur (desde el 12 de Enero al 12 de Septiembre de 2020))

Esta gráfica, permite que se pueda visualizar el día o el momento en que la pandemia alcanza su mayor momento, pues toma en cuenta valores absoluto e individuales.

ggplot(data=bcalsur) +
  geom_line(aes(Fecha, bcalifornia, colour = "Baja California")) +
  geom_line(aes(Fecha, bcalifornias, colour = "Baja California Sur")) +
  xlab("Fecha") +
  ylab("Casos diarios absolutos") + 
  labs (colour = "Estados") +
  ggtitle("Casos diarios confirmados de COVID-19 en Baja California y Baja California Sur") +
  scale_y_continuous(labels=comma)

  • Gráfica de datos acumulados (datos diarios de casos acumulados de COVID-19 en Baja California y Baja California Sur (desde el 12 de Enero al 12 de Septiembre de 2020))

Por otra parte, este gráfica es útil si se quiere saber cuál es la cantidad máxima de infectados que existen, además del saber como ha ido evolucionando la situación de la pandemia, es decir los casos de infectados con relación al tiempo.

ggplot(data=abcalsur) +
  geom_line(aes(Fecha, abcalifornia, colour = "Baja California")) +
  geom_line(aes(Fecha, abcalifornias, colour = "Baja California Sur")) +
  xlab("Fecha") +
  ylab("Casos diarios acumulados") + 
  labs (colour = "Estados") +
  ggtitle("Casos diarios confirmados de COVID-19 en Baja California y Baja California Sur") +
  scale_y_continuous(labels=comma)

  • Gráfica combinada de datos acumulados y absolutos

Estas gráficas son útiles para contrastar ambos tipos de una manera más sencilla y práctica, de la manera en que se hizo anteriormente.

bcalifornia1 <- data.frame(Fecha,bcalifornia,abcalifornia)

g2 <- ggplot(data=bcalifornia1) +
  geom_col(aes(Fecha,abcalifornia)) +
  xlab("Fecha") +
  ylab("Casos acumulados") +
  ggtitle("A) Confirmados de COVID-19 en Baja California (Acumulados)"   ) +
  scale_y_continuous(labels=comma)

g3 <- ggplot(data=bcalifornia1) +
  geom_line(aes(Fecha,bcalifornia)) +
  xlab("Fecha") +
  ylab("Casos diarios") +
  ggtitle("B) Confirmados de COVID-19 en Baja California (Absolutos)"   ) +
  scale_y_continuous(labels=comma)

grid.arrange(g2,g3)

bcalifornias1 <- data.frame(Fecha,bcalifornias,abcalifornias)

g4 <- ggplot(data=bcalifornias1) +
  geom_col(aes(Fecha,abcalifornias)) +
  xlab("Fecha") +
  ylab("Casos acumulados") +
  ggtitle("A) Confirmados de COVID-19 en Baja California Sur (Acumulados)"   ) +
  scale_y_continuous(labels=comma)

g5 <- ggplot(data=bcalifornias1) +
  geom_line(aes(Fecha,bcalifornias)) +
  xlab("Fecha") +
  ylab("Casos diarios") +
  ggtitle("B) Confirmados de COVID-19 en Baja California Sur (Absolutos)"   ) +
  scale_y_continuous(labels=comma)

grid.arrange(g4,g5)

Medidas de posición central

  • Cálculo inidividual de las medidas principales de los valores absolutos de casos confirmados
mean(bcalifornia)
## [1] 74.98776
median(bcalifornia)
## [1] 71
mfv(bcalifornia)
## [1] 0
mean(bcalifornias)
## [1] 37.01224
median(bcalifornias)
## [1] 13
mfv(bcalifornias)
## [1] 0

Resumen estadístico

summary(bcalifornia)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   71.00   74.99  129.00  230.00
summary(bcalifornias)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   13.00   37.01   57.00  173.00

Gráfico de caja y bigote para Baja California

boxplot (bcalifornia)

boxplot (bcalifornias)

Medidas de dispersión

plot (bcalifornia)

plot (bcalifornias)

  • Varianza
var(bcalifornia)
## [1] 4271.75
var(bcalifornias)
## [1] 2231.52
  • Desviación estándar
sd(bcalifornia)
## [1] 65.35862
sd(bcalifornias)
## [1] 47.23897

Tabla de distribuciones

dist <- fdt(bcalifornia, breaks = "Sturges")
dist
##     Class limits  f   rf rf(%)  cf  cf(%)
##       [0,25.811) 83 0.34 33.88  83  33.88
##  [25.811,51.622) 21 0.09  8.57 104  42.45
##  [51.622,77.433) 24 0.10  9.80 128  52.24
##  [77.433,103.24) 24 0.10  9.80 152  62.04
##  [103.24,129.06) 32 0.13 13.06 184  75.10
##  [129.06,154.87) 29 0.12 11.84 213  86.94
##  [154.87,180.68) 19 0.08  7.76 232  94.69
##  [180.68,206.49)  6 0.02  2.45 238  97.14
##   [206.49,232.3)  7 0.03  2.86 245 100.00
dist1 <- fdt(bcalifornias, breaks = "Sturges")
dist1
##       Class limits   f   rf rf(%)  cf  cf(%)
##        [0,19.4144) 140 0.57 57.14 140  57.14
##  [19.4144,38.8289)  22 0.09  8.98 162  66.12
##  [38.8289,58.2433)  23 0.09  9.39 185  75.51
##  [58.2433,77.6578)  11 0.04  4.49 196  80.00
##  [77.6578,97.0722)   8 0.03  3.27 204  83.27
##  [97.0722,116.487)  11 0.04  4.49 215  87.76
##  [116.487,135.901)  17 0.07  6.94 232  94.69
##  [135.901,155.316)  11 0.04  4.49 243  99.18
##   [155.316,174.73)   2 0.01  0.82 245 100.00

Histogramas y polígonos de frecuencia

Este último tipo de representaciones gráficas, tanto el histograma como el polígono de frecuencia, tienen como función, mostrar que tan dispersos se encuentran las variables entre sí, es decir, la varianza.

#Histogramas de Baja California
plot(dist, type ="fh")

plot(dist, type ="cfh")

plot(dist, type ="rfh")

#Polígonos Baja California
plot(dist, type ="fp")

plot(dist, type ="cfp")

plot(dist, type ="rfp")

#Histogramas Baja California Sur
plot(dist1, type ="fh")

plot(dist1, type ="cfh")

plot(dist1, type ="rfh")

#Polígonos Baja California Sur
plot(dist1, type ="fp")

plot(dist1, type ="cfp")

plot(dist1, type ="rfp")

Redacción Personal

Claramente se puede notar como a pesar de tener climas similares y estar literalmente uno al lado del otro, la cantidad de casos ha habido por día se muestra muchísima más grande en Baja California que en Baja California Sur, además del hecho de que en este último tiene hasta la fecha indicada, un aproximado de la mitad de casos acumulados. Aunque hay que hacer notar que muchos de los datos se encuentran más dispersos entre sí en el estado con mayor cantidad casos. Probablemente la mayor cantidad de casos se daba a que Baja California se trata de un estado fronterizo tanto con Estados Unidos como con el estado de Sonora, territorios donde se han presentado grandes cantidades de casos confirmados, por lo que muchos de sus habitantes tendrían más oportunidades para entrar en contacto con personas infectados. Sin embargo, lo anterior solo se trata de una suposición.