Analisis de datos diarios de COVID-19 y salud para Sonora

setwd(“~/Estadistica aplicada 10-11am”)

Importar

  • Importar paquete
#la libreria pacman permite instalar varios paquetes a la vez
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "knitr", "DT", "tidyverse", "scales", "gridExtra", "modeest", "fdth")

Importar datos

Se utilizaran datos abiertos del portal de coronavirus del gobierno de México, que se pueden encontrar en: https://datos.gob.mx/busca/dataset/expediente-clinico-electronico-unemes-enfermedades-cronicas--2018

#Leer datos del archivo local descargado
datos <- read.csv("Casos_Diarios_Estado_Nacional_Confirmados_20200913.csv")

Transformar

datos de Sinaloa y Sonora

#Datos confimados para Sonora (absolutos y acumulados)
sonora <- t(datos[datos$nombre == "SONORA" ,])
sonora <- as.vector(sonora)
sonora <- sonora[4:248]
sonora <- as.numeric(sonora)
sonora <- as.vector(sonora)
asonora <- cumsum(sonora)

#Datos confimados para Sinaloa (absolutos y acumulados)
sinaloa <- t(datos[datos$nombre == "SINALOA" ,])
sinaloa <- as.vector(sinaloa)
sinaloa<- sinaloa[4:248]
sinaloa <- as.numeric(sinaloa)
sinaloa <- as.vector(sinaloa)
asinaloa <- cumsum(sinaloa)

#Vector de Fecha
Fecha <- seq(from = as.Date("2020-01-12"), to = as.Date("2020-09-12"), by = "day" )

#estructura de datos en un data frame
sonsin <- data.frame(Fecha, sonora, sinaloa) #datos diarios absolutos
asonsin <- data.frame(Fecha, asonora, asinaloa) #datos acumulados 

Datos de Baja california y Baja california sur

##Datos confimados para Baja california (absolutos y acumulados)
baja_california <- t(datos[datos$nombre == "BAJA CALIFORNIA" ,])
baja_california <- as.vector(baja_california)
baja_california <- baja_california[4:248]
baja_california <- as.numeric(baja_california)
baja_california <- as.vector(baja_california)
abaja_california <- cumsum(baja_california)



##Datos confirmados para Baja california sur (absolutas y acumulados)
b_california_sur <- t(datos[datos$nombre == "BAJA CALIFORNIA SUR" ,])
b_california_sur <- as.vector(b_california_sur)
b_california_sur <- b_california_sur[4:248]
b_california_sur <- as.numeric(b_california_sur)
b_california_sur <- as.vector(b_california_sur)
ab_california_sur <- cumsum(b_california_sur)

#vector de fecha
Fecha <- seq(from = as.Date("2020-01-12"), to = as.Date("2020-09-12"), by = "day" )

#estructura de datos en un data frame
bCalifSur <- data.frame(Fecha, baja_california, b_california_sur) #datos diarios absolutos
AbCalifSur <- data.frame(Fecha, abaja_california, ab_california_sur) #datos acumulados

visualizar

visualizar en tablas

Para esto se usará una tabla interactiva

##Tabla de datos para Sonoroa y Sinaloa
#tabla de datos absolutos
datatable(sonsin)
#tabla de datos acumulados
datatable(asonsin)
##Tabla de datos para Baja California y Baja California Sur
#tabla de datos absolutos
datatable(bCalifSur)
#tabla de datos acumulativos
datatable(AbCalifSur)

visualización en graficas

visualizacion utliziando ggplot2

#Datos de Sonora y Sinaloa
#datos absolutos
#ggplot(data=sonsin) + 
#  geom_lie(aes(Fecha, sonora, colour="sonora")) +
 # geom_lie(aes(Fecha, sinaloa, colour="sinaloa")) +
  #xlab("Mes del año 2020") + 
  #ylab("casos diarios confirmados") +
  #ggtitle("COVID-19 en sonora y sinaloa") +
  #scale_y_continuous(labels = comma)

#datos acumulados
#ggplot(data=asonsin) + 
 # geom_lie(aes(Fecha, asonora, colour="sonora")) +
  #geom_lie(aes(Fecha, asinaloa, colour="sinaloa")) +
  #xlab("Mes del año 2020") + 
  #ylab("casos diarios acumulados") +
  #ggtitle("COVID-19 en sonora y sinaloa") +
  #scale_y_continuous(labels = comma)

#Datos de Baja California y Baja California Sur
#datos absolutos
#ggplot(data=bCalifSur) +
 # geom_lie(aes(Fecha, abaja_california, colour="Baja Califonria")) +
  #geom_lie(aes(Fecha, ab_california_sur, colour= "Baja California Sur")) +
  #xlab("Mes del año 2020") +
  #ylab("Casos diarios confirmados") +
  #ggtitle("COVID-19 en Baja California y Baja California Sur") +
  #scale_y_continuous(labels = comma)

#datos absolutos
#ggplot(data=AbCalifSur) +
  #geom_lie(aes(Fecha, baja_california, colour="Baja Califonria")) +
  #geom_lie(aes(Fecha, b_california_sur, colour= "Baja California Sur")) +
  #xlab("Mes del año 2020") +
  #ylab("Casos diarios confirmados") +
  #ggtitle("COVID-19 en Baja California y Baja California Sur") +
  #scale_y_continuous(labels = comma)

##todo comentado ya que ggplot no se instala por nada del mundo, gracias Rstudio

medidas de tendencia central

media

#media de Baja California y Baja California Sur
#aqui le asigno variables para mas comodidad y acceder mas facil a los datos
mediaBc <- mean(baja_california)
mediaBc
## [1] 74.80816
mediaBcS <- mean(b_california_sur)
mediaBcS
## [1] 36.51429

mediana

#mediana de Baja California y Baja California Sur
medianaBc <- median(baja_california)
medianaBc
## [1] 71
medianaBcS <- median(b_california_sur)
medianaBcS
## [1] 13

moda

mfv(baja_california)
## [1] 0
mfv(b_california_sur)
## [1] 0

resumen de tentendia central

summary(baja_california)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   71.00   74.81  129.00  230.00
summary(b_california_sur)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   13.00   36.51   57.00  173.00

gráfico de caja y bigote

boxplot(baja_california)

boxplot(b_california_sur)

medidas de dispersion

amplitud

varianza

var(baja_california)
## [1] 4279.369
var(b_california_sur)   
## [1] 2206.062

desviacián estándar

sd(baja_california)
## [1] 65.41688
sd(b_california_sur)
## [1] 46.96874

Grafico de dispersión

plot(Fecha,baja_california)

plot(Fecha,b_california_sur)

## distribucion de frecuencias en tabla

#tabla de datos para baja california
table(baja_california)
## baja_california
##   0   1   2   3   4   5   6   7   9  10  11  13  16  20  21  25  27  29  30  31 
##  63   2   2   2   1   1   2   2   1   1   1   1   1   1   1   1   1   1   1   1 
##  32  35  37  38  39  41  42  44  46  49  51  55  57  58  59  60  62  66  68  69 
##   2   1   1   1   2   1   1   5   2   1   1   1   1   2   1   1   3   2   1   2 
##  70  71  72  75  77  78  80  81  84  87  89  91  92  93  96  98  99 102 103 104 
##   2   2   2   1   2   1   1   1   3   3   2   3   1   3   1   1   2   1   2   2 
## 106 108 109 110 111 112 113 115 118 119 122 124 125 126 127 129 130 131 132 133 
##   1   2   4   3   2   2   2   2   2   2   1   1   2   1   1   1   4   1   1   1 
## 134 136 138 141 142 143 145 147 148 149 150 151 152 155 156 158 162 163 166 169 
##   1   1   1   1   1   2   5   2   1   3   1   1   2   1   1   2   2   1   1   1 
## 170 171 172 173 175 176 177 178 179 180 187 191 194 195 206 208 209 215 230 
##   2   1   1   1   1   1   1   1   1   1   1   1   1   1   1   3   2   1   1
#tabla de datos para baja california sur
table(b_california_sur)
## b_california_sur
##   0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19 
##  68   5   3   2   5   9   3   7   4   6   3   4   2   3   5   2   4   3   2   1 
##  20  21  22  23  24  25  29  30  33  35  36  37  38  39  40  41  45  47  48  49 
##   1   1   6   1   2   1   1   1   1   3   1   1   2   1   2   1   2   4   1   3 
##  52  53  54  57  59  62  63  64  65  66  67  68  70  73  80  82  85  89  90  93 
##   3   2   1   3   1   1   1   1   1   1   1   2   1   2   1   1   1   1   1   1 
##  96 100 101 104 106 108 111 112 113 115 117 118 120 121 122 123 126 128 130 131 
##   1   1   1   1   1   1   2   1   1   1   1   1   2   1   3   1   1   1   2   1 
## 132 134 140 141 143 144 146 152 153 155 163 173 
##   2   1   1   2   1   2   1   2   1   1   1   1

##Histograma de datos

#histograma 
hist(baja_california)

hist(b_california_sur)

Tarea: completar este analisis comparativo para sonora y sinaloa incluyendo: * distribucion de frecuencia en tabla * histogramas y poligonos para sonora y sinaloa * conclusion