U1A6

Jorge Valenzuela Parra

17/9/2020

Análisis comparativo de datos de salud y COVID-19 en Tlaxcala y Colima

  • Folder de trabajo
setwd("~/PyE3")

IMPORTAR

Importar paquetes

library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "knitr", "DT", "tidyverse", "scales", "gridExtra", "modeest", "fdth")

Se importan desde un archivo local .csv los datos diarios de casos confimados de COVID-19 para todo México desde la URL oficial: https://coronavirus.gob.mx/datos/#DOView

datos <- read.csv("Casos_Diarios_Estado_Nacional_Confirmados_20200916.csv")

TRANSFORMAR

Se realiza primeramente una extracción de los datros desde el data frame para Tlaxcala y Colima para juntarlos en un data frame junto con un vector de Fecha

#DATOS DIARIOS CONFIRMADOS PARA COLIMA
tla <- t(datos[datos$nombre == "TLAXCALA",])
tla <- as.vector(tla)
tla <- tla[4:251]
tla <- as.numeric(tla)
tla <- as.vector(tla) #datos absolutos diarios
atla <- cumsum(tla) #datos acumulados

#DATOS DIARIOS CONFIRMADOS PARA COLIMA
colima <- t(datos[datos$nombre == "COLIMA",])
colima <- as.vector(colima)
colima <- colima[4:251]
colima <- as.numeric(colima)
colima <- as.vector(colima) #datos absolutos diarios
acolima <- cumsum(colima) #datos acumulados

#Generar un vector de fecha

Fecha <- seq(from = as.Date("2020-01-12"), to = as.Date("2020-09-15"), by = "day")

#Estructurar los datos en un marco de datos (data frame)

tlacol <- data.frame(Fecha, tla, colima)
atlacol <- data.frame(Fecha, atla, acolima)

VISUALIZAR

Visualizar datos en forma interactiva

#tabla de datos absolutos
datatable(tlacol)
#tabla de datos acumulados
datatable(atlacol)

### Visualizar los datos con gráficas usando ggplot2

  • Gráfica de datos absolutos (datos diarios de casos confirmados del 01/12/2020 hasta 09/15/2020)
ggplot(data=tlacol) +
  geom_line(aes(Fecha, tla, colour = "Tlaxcala"))+
  geom_line(aes(Fecha, colima, colour = "Colima"))+
  xlab("Fecha")+
  ylab("Casos diarios acumulados")+
  labs (colour = "Estados")+
  ggtitle("Casos diarios confirmados absolutos de COVID-19 en Tlaxcala y Colima")

scale_y_continuous(labels=comma)
## <ScaleContinuousPosition>
##  Range:  
##  Limits:    0 --    1
  • Gráfica de datos acumulados (datos diarios de casos confirmados del 01/12/2020 hasta 09/15/2020)
ggplot(data=tlacol) +
  geom_line(aes(Fecha, atla, colour = "Tlaxcala"))+
  geom_line(aes(Fecha, acolima, colour = "Colima"))+
  xlab("Fecha")+
  ylab("Casos diarios acumuladosabsolutos")+
  labs (colour = "Estados")+
  ggtitle("Casos diarios confirmados acumulados de COVID-19 en Tlaxcala y Colima")

scale_y_continuous(labels=comma)
## <ScaleContinuousPosition>
##  Range:  
##  Limits:    0 --    1

gridExtra

tla1 <- data.frame(Fecha, tla, atla)

g2 <- ggplot(data=tla1)+
  geom_col(aes(Fecha, atla))+
  xlab("Fecha")+
  ylab("Casos acumulados")+
  ggtitle("A) Confirmados de COVID-19 en Tlaxcala (Acumulados)")+
  scale_y_continuous(labels=comma)

g3 <- ggplot(data=tla1)+
  geom_col(aes(Fecha, tla))+
  xlab("Fecha")+
  ylab("Casos diarios")+
  ggtitle("A) Confirmados de COVID-19 en Tlaxcala (Absolutos)")+
  scale_y_continuous(labels=comma)

grid.arrange(g2, g3)

colima1 <- data.frame(Fecha, acolima, acolima)

g4 <- ggplot(data=colima1)+
  geom_col(aes(Fecha, acolima))+
  xlab("Fecha")+
  ylab("Casos acumulados")+
  ggtitle("A) Confirmados de COVID-19 en Colima (Acumulados)")+
  scale_y_continuous(labels=comma)

g5 <- ggplot(data=colima1)+
  geom_col(aes(Fecha, colima))+
  xlab("Fecha")+
  ylab("Casos diarios")+
  ggtitle("A) Confirmados de COVID-19 en Colima (Absolutos)")+
  scale_y_continuous(labels=comma)

grid.arrange(g4, g5)

Medidas de posición central

  • Cálculo individual de las medidas principales de valores absolutos de casos confirmados para Tlaxcala
mean(tla) #Media aritmética
## [1] 28.36694
median(tla) #Mediana
## [1] 18
mfv(tla) #Moda (most frequence value)
## [1] 0

Resumen estadístico

summary(tla)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   18.00   28.37   50.25  105.00

Gráfico de caja y bigote

boxplot(tla)

## Medidas de dispersión

plot(tla)

* Varianza

var(tla)
## [1] 898.9863
  • Desviación estándar
sd(tla)
## [1] 29.9831

Tabla de distribuciones

dist <- fdt(tla, breaks = "Sturges")
dist
##       Class limits   f   rf rf(%)  cf  cf(%)
##        [0,11.7833) 108 0.44 43.55 108  43.55
##  [11.7833,23.5667)  25 0.10 10.08 133  53.63
##    [23.5667,35.35)  23 0.09  9.27 156  62.90
##    [35.35,47.1333)  24 0.10  9.68 180  72.58
##  [47.1333,58.9167)  19 0.08  7.66 199  80.24
##     [58.9167,70.7)  16 0.06  6.45 215  86.69
##     [70.7,82.4833)  15 0.06  6.05 230  92.74
##  [82.4833,94.2667)  14 0.06  5.65 244  98.39
##   [94.2667,106.05)   4 0.02  1.61 248 100.00

Histogramas y polígonos de frecuencia

plot(dist, type = "fh") #Histograma de frecuencias 

plot(dist, type = "cfh") #Histograma de frecuencias acumuladas

plot(dist, type = "rfh") #Histograma de frecuencias relativas

plot(dist, type = "fp") #Polígono de frecuencias 

plot(dist, type = "cfp") #Polígono de frecuencias acumuladas

plot(dist, type = "rfp") #Polígono de frecuencias relativas

* Cálculo individual de las medidas principales de valores absolutos de casos confirmados para Colima

mean(colima) #Media aritmética
## [1] 17.25403
median(colima) #Mediana
## [1] 4
mfv(colima) #Moda (most frequence value)
## [1] 0

Resumen estadístico

summary(colima)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00    4.00   17.25   32.00   80.00

Gráfico de caja y bigote

boxplot(colima)

## Medidas de dispersión

plot(colima)

* Varianza

var(colima)
## [1] 558.4818
  • Desviación estándar
sd(colima)
## [1] 23.63222

Tabla de distribuciones

dist1 <- fdt(colima, breaks = "Sturges")
dist1
##   Class limits   f   rf rf(%)  cf  cf(%)
##      [0,8.978) 144 0.58 58.06 144  58.06
##  [8.978,17.96)  21 0.08  8.47 165  66.53
##  [17.96,26.93)  15 0.06  6.05 180  72.58
##  [26.93,35.91)  15 0.06  6.05 195  78.63
##  [35.91,44.89)  17 0.07  6.85 212  85.48
##  [44.89,53.87)   5 0.02  2.02 217  87.50
##  [53.87,62.84)  10 0.04  4.03 227  91.53
##  [62.84,71.82)   9 0.04  3.63 236  95.16
##   [71.82,80.8)  12 0.05  4.84 248 100.00

Histogramas y polígonos de frecuencia

plot(dist1, type = "fh") #Histograma de frecuencias 

plot(dist1, type = "cfh") #Histograma de frecuencias acumuladas

plot(dist1, type = "rfh") #Histograma de frecuencias relativas

plot(dist1, type = "fp") #Polígono de frecuencias 

plot(dist1, type = "cfp") #Polígono de frecuencias acumuladas

plot(dist1, type = "rfp") #Polígono de frecuencias relativas

Redacción Personal

Se aplica lo antes visto en la U1A3 para hacer la comparativa entre dos estados de la república, en esta ocasión, que bien puede ser aplicable a cuales quiera dos o más muestras de las cuales se necesite o se requiera analizar, todo con las bibliotecas disponibles para R que hace que esta sea una herramienta muy práctica para llevar a cabo todos estos análisis.

Se puede notar claramente que aunque son estados bastante pequeños y con poca población se nota mucho que en Tlaxcala hay más contagios de COVID-19 aunque en Colima haya empezado a haber contagios antes, pues hay factores como el de la densidad de población, que es mayor en tlaxcala (el doble que en Colima), la ubicación de Tlaxcala que está muy cercano a Veracruz y a la Ciudad de México las cuales tienen mucha más población y un sector de esta son originarios de Tlaxcala además Colima tiene un desarrollo um poco mejor, y es más turístico, por lo tanto emplearon medidas de sanidad más a tiempo que en Tlaxcala, por lo tanto afecta en mayor medida a Tlaxcala esta situación más que a Colima a pesar de sus tamaños territorial y de población parecidos.