U1A6

Javier Salgueiro

15/09/2020

Análisis comparativo de datos de salud y COVID-19 en Baja California Norte y Sur

  • Folder de trabajo
setwd("~/PYE1112ADITSON")

IMPORTAR

Importar paquetes

library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "knitr", "DT", "tidyverse", "scales", "gridExtra", "modeest", "fdth")

Importar datos

Se importa desde un archivo local .csv los datos diarios de casos confirmados de COVID-19 paea todo México desde la URL oficial :https://meet.google.com/linkredirect?authuser=1&dest=https%3A%2F%2Fcoronavirus.gob.mx%2Fdatos%2F%23DownZCSV

datos <- read.csv("Casos_Diarios_Estado_Nacional_Confirmados_20200913.csv")

TRANSFORMAR

Se realiza primeramente una extracción de los datos desde la data frame para Baja California Norte y Sur para juntarlos en un data frame junto con un vector de Fecha

#DATOS DIARIOS CONFIRMADOS PARA BAJA CALIFORNIA
baja_california <- t(datos[datos$nombre == "BAJA CALIFORNIA" ,])
baja_california <- as.vector(baja_california)
baja_california <- baja_california[4:248]
baja_california <- as.numeric(baja_california)
baja_california <- as.vector(baja_california) #datos absolutos diarios 
abaja_california <- cumsum(baja_california) #datos acumulados

#DATOS DIARIOS CONFIRMADOS PARA BAJA CALIFORNIA SUR
baja_california_sur <- t(datos[datos$nombre == "BAJA CALIFORNIA SUR" ,])
baja_california_sur <- as.vector(baja_california_sur)
baja_california_sur <- baja_california_sur[4:248]
baja_california_sur <- as.numeric(baja_california_sur)
baja_california_sur <- as.vector(baja_california_sur) #datos absolutos diarios 
abaja_california_sur <- cumsum(baja_california_sur) #datos acumulados

#Genarar un vector de Feccha

Fecha <- seq(from = as.Date("2020-01-12"), to = as.Date("2020-09-12"), by = "day")

#Estructurar  los datos  en un marco de datos (data frame)

bajans <- data.frame(Fecha, baja_california, baja_california_sur)
abajans<- data.frame(Fecha, abaja_california, abaja_california_sur)

VISUALIZAR

Visualizar datos en forma de tabla interactiva

#Tabla de datos absolutos
datatable(bajans)
#Tabla de datos acumulados
datatable(abajans)

Visualizar los datos con gráficas usando ggplot2

  • Gráfica de datos absolutos (datos diarios de casos confirmados de COVID-19 en Baja California Norte y Sur (desde el 12 de Enero al 12 de Septiembre de 2020))
ggplot(data=bajans) +
  geom_line(aes(Fecha, baja_california, colour = "Baja California")) +
  geom_line(aes(Fecha, baja_california_sur, colour = "Baja California Sur")) +
  xlab("Fecha") +
  ylab("Casos diarios absolutos") + 
  labs (colour = "Estados") +
  ggtitle("Casos diarios confirmados de COVID-19 en Baja California Norte y Sur") +
  scale_y_continuous(labels=comma)

  • Gráfica de datos acumulados (datos diarios de casos confirmados de COVID-19 en Baja California Norte y Sur (desde el 12 de Enero al 12 de Septiembre de 2020))
ggplot(data=abajans) +
  geom_line(aes(Fecha, abaja_california, colour = "Baja California")) +
  geom_line(aes(Fecha, abaja_california_sur, colour = "Baja California Sur")) +
  xlab("Fecha") +
  ylab("Casos diarios acumulados") + 
  labs (colour = "Estados") +
  ggtitle("Casos diarios confirmados de COVID-19 en Baja California Norte y Sur") +
  scale_y_continuous(labels=comma)

  • Gráfica combinada de datos acumulados y absolutos para Baja California
baja1 <- data.frame(Fecha,baja_california,abaja_california)

g2 <- ggplot(data=baja1) +
  geom_col(aes(Fecha,abaja_california)) +
  xlab("Fecha") +
  ylab("Casos acumulados") +
  ggtitle("A) Confirmados de COVID-19 en Baja California (Acumulados)"   ) +
  scale_y_continuous(labels=comma)

g3 <- ggplot(data=baja1) +
  geom_line(aes(Fecha,baja_california)) +
  xlab("Fecha") +
  ylab("Casos diarios") +
  ggtitle("B) Confirmados de COVID-19 en Baja California (Absolutos)"   ) +
  scale_y_continuous(labels=comma)

grid.arrange(g2,g3)

  • Gráfica combinada de datos acumulados y absolutos para Baja California Sur
baja2 <- data.frame(Fecha,baja_california_sur,abaja_california_sur)

g2 <- ggplot(data=baja2) +
  geom_col(aes(Fecha,abaja_california_sur)) +
  xlab("Fecha") +
  ylab("Casos acumulados") +
  ggtitle("A) Confirmados de COVID-19 en Baja California Sur (Acumulados)"   ) +
  scale_y_continuous(labels=comma)

g3 <- ggplot(data=baja2) +
  geom_line(aes(Fecha,baja_california_sur)) +
  xlab("Fecha") +
  ylab("Casos diarios") +
  ggtitle("B) Confirmados de COVID-19 en Baja California Sur (Absolutos)"   ) +
  scale_y_continuous(labels=comma)

grid.arrange(g2,g3)

## MEDIDAS DE POSICIÓN CENTRAL

Cálculo individual de las medidas principales de valores absolutos de casos confirmados para Baja Califronia (MMM)

mean(baja_california) #Media aritmética (promedio)
## [1] 74.80816
median(baja_california) #mediana
## [1] 71
mfv(baja_california) #Moda (most frequent value) valores más frecuentes
## [1] 0

Resumen estadístico

summary(baja_california)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   71.00   74.81  129.00  230.00

Gráfico de caja y bigote

boxplot (baja_california)

Medidas de dispersión para Baja California

  • Varianza
var(baja_california)
## [1] 4279.369
  • Desviación estándar
sd(baja_california)
## [1] 65.41688
plot(baja_california)

Tabla de distribuciones

dist <-fdt(baja_california, breaks = "Sturges")
dist
##     Class limits  f   rf rf(%)  cf  cf(%)
##       [0,25.811) 83 0.34 33.88  83  33.88
##  [25.811,51.622) 22 0.09  8.98 105  42.86
##  [51.622,77.433) 23 0.09  9.39 128  52.24
##  [77.433,103.24) 25 0.10 10.20 153  62.45
##  [103.24,129.06) 31 0.13 12.65 184  75.10
##  [129.06,154.87) 29 0.12 11.84 213  86.94
##  [154.87,180.68) 20 0.08  8.16 233  95.10
##  [180.68,206.49)  5 0.02  2.04 238  97.14
##   [206.49,232.3)  7 0.03  2.86 245 100.00

Histogramas y polígonos de frecuencia

plot(dist, type= "fh") # Histograma de frecuencias absolutas

plot(dist, type= "cfh") # Histograma de frecuencias acumuladas

plot(dist, type= "rfh") # Histograma de frecuencias relativas

plot(dist, type= "fp") # Polígono de frecuencias absolutas

plot(dist, type= "cfp") # Polígono de frecuencias acumuladas

plot(dist, type= "rfp") # Polígono de frecuencias relativas

Cálculo individual de las medidas principales de valores absolutos de casos confirmados para Baja Califronia Sur (MMM)

mean(baja_california_sur) #Media aritmética (promedio)
## [1] 36.51429
median(baja_california_sur) #mediana
## [1] 13
mfv(baja_california_sur) #Moda (most frequent value) valores más frecuentes
## [1] 0

Resumen estadístico

summary(baja_california_sur)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   13.00   36.51   57.00  173.00

Gráfico de caja y bigote

boxplot(baja_california_sur)

Medidas de dispersión para Baja California Sur

  • Varianza
var(baja_california_sur)
## [1] 2206.062
  • Desviación estándar
sd(baja_california_sur)
## [1] 46.96874
plot(baja_california_sur)

Tabla de distribuciones

dist1 <-fdt(baja_california_sur, breaks = "Sturges")
dist
##     Class limits  f   rf rf(%)  cf  cf(%)
##       [0,25.811) 83 0.34 33.88  83  33.88
##  [25.811,51.622) 22 0.09  8.98 105  42.86
##  [51.622,77.433) 23 0.09  9.39 128  52.24
##  [77.433,103.24) 25 0.10 10.20 153  62.45
##  [103.24,129.06) 31 0.13 12.65 184  75.10
##  [129.06,154.87) 29 0.12 11.84 213  86.94
##  [154.87,180.68) 20 0.08  8.16 233  95.10
##  [180.68,206.49)  5 0.02  2.04 238  97.14
##   [206.49,232.3)  7 0.03  2.86 245 100.00

Histogramas y polígonos de frecuencia

plot(dist1, type= "fh") # Histograma de frecuencias absolutas

plot(dist1, type= "cfh") # Histograma de frecuencias acumuladas

plot(dist1, type= "rfh") # Histograma de frecuencias relativas

plot(dist1, type= "fp") # Polígono de frecuencias absolutas

plot(dist1, type= "cfp") # Polígono de frecuencias acumuladas

plot(dist1, type= "rfp") # Polígono de frecuencias relativas

CONCLUSION

Aprendimos una nueva herramienta que nos ayuda a agilizar la activación y/o instalación de los paquetes que nos fue muy útil para llevar a cabo la realización de todo lo que contiene este trabajo.

En este ejercicio comparamos los datos acumulados y absolutos de casos confirmados de COVID-19 en los estados de Baja California Norte y Sur, ya que al ser colindantes los datos se deben de comportar casi de la misma manera. Con las tablas y graficas pudimos obersar que hay muchos más casos confrimados en Baja California y eso indica que en este estado no siguen las medidas de seguridad y salubridad tanto como en Baja California Sur. Además complementamos el trabajo con las medidadas de posición central donde pudimos obersvar el promedio, la mediana y la moda de os datos de cado uno de los estados, y al realizar un resumen estadístico pudimos visualizar de mejor forma lo que nos muestra el diagrama de caja y bigote. También aprendimos a calcular las medidas de dispersión, la varianza, que mide la distancia existente entre los valores existentes y la madia, y la desviación estándar es la raiz cuadrada de la varianza y al final representamos los datos de la tabla de frecuencia en histogramas y polígonos.