Práctica 1.

Análisis decriptivo de datos confirmados COVID19 en México.

Las librerías

library(readr) # Para utilizar read, importar datos
library(dplyr) # Para opearciones con datos, select, filter, pipes, arrange()...

library(knitr) # Para ver conjunto de datos más amigable

#install.packages("modeest") 
library(modeest)

Los datos

# ruta <- "C:/Users/Usuario/Documents/Modulo 3 Curso Titulacion/Datos/covid19-mx/casos_confirmados.csv"

#datos <- read.csv("../Datos/covid19-mx/casos_confirmados.csv", encoding = "UTF-8")

#datos <- read_csv("Datos/covid19-mx/casos_confirmados.csv")

datos <- read.csv("~/Modulo 3 Curso Titulacion/Datos/covid19-mx/casos_confirmados.csv", encoding = "UTF-8")

#datos <- read.csv(ruta, encoding = "UTF-8")

kable(head(datos, 10))
X State Sex Age Date Confirmed
0 méxico FEMENINO 75 2020-04-09 1
3 tamaulipas MASCULINO 22 2020-04-06 1
15 distrito federal MASCULINO 40 2020-03-28 1
16 distrito federal FEMENINO 29 2020-04-01 1
17 yucatán MASCULINO 71 2020-04-15 1
22 michoacán FEMENINO 29 2020-04-23 1
27 guerrero FEMENINO 61 2020-04-07 1
28 distrito federal MASCULINO 33 2020-04-08 1
31 méxico FEMENINO 77 2020-04-08 1
32 méxico FEMENINO 84 2020-04-02 1
kable(tail(datos, 10))
X State Sex Age Date Confirmed
19215 87334 michoacán MASCULINO 22 2020-04-14 1
19216 87344 distrito federal FEMENINO 52 2020-04-26 1
19217 87349 tabasco MASCULINO 36 2020-04-28 1
19218 87353 distrito federal FEMENINO 30 2020-04-21 1
19219 87354 tabasco FEMENINO 47 2020-04-21 1
19220 87356 méxico FEMENINO 28 2020-04-13 1
19221 87358 distrito federal FEMENINO 39 2020-04-28 1
19222 87360 méxico MASCULINO 48 2020-04-22 1
19223 87361 tabasco MASCULINO 48 2020-04-25 1
19224 87365 méxico FEMENINO 62 2020-04-07 1

La estructura de los datos

str(datos)
## 'data.frame':    19224 obs. of  6 variables:
##  $ X        : int  0 3 15 16 17 22 27 28 31 32 ...
##  $ State    : Factor w/ 32 levels "aguascalientes",..: 15 28 9 9 31 16 12 9 15 15 ...
##  $ Sex      : Factor w/ 2 levels "FEMENINO","MASCULINO": 1 2 2 1 2 1 1 2 1 1 ...
##  $ Age      : int  75 22 40 29 71 29 61 33 77 84 ...
##  $ Date     : Factor w/ 66 levels "2020-01-06","2020-01-08",..: 45 42 33 37 51 59 43 44 44 38 ...
##  $ Confirmed: int  1 1 1 1 1 1 1 1 1 1 ...

Summary de los datos

summary(datos)
##        X                      State             Sex             Age        
##  Min.   :    0   distrito federal:5209   FEMENINO : 8039   Min.   :  0.00  
##  1st Qu.:22523   méxico          :3130   MASCULINO:11185   1st Qu.: 35.00  
##  Median :44009   baja california :1557                     Median : 46.00  
##  Mean   :44045   tabasco         : 984                     Mean   : 46.59  
##  3rd Qu.:65793   sinaloa         : 865                     3rd Qu.: 57.00  
##  Max.   :87365   quintana roo    : 788                     Max.   :113.00  
##                  (Other)         :6691                                     
##          Date         Confirmed
##  2020-04-20: 1144   Min.   :1  
##  2020-04-21: 1100   1st Qu.:1  
##  2020-04-24: 1049   Median :1  
##  2020-04-22: 1016   Mean   :1  
##  2020-04-23: 1006   3rd Qu.:1  
##  2020-04-17:  937   Max.   :1  
##  (Other)   :12972

La media de age

mean(datos$Age)
## [1] 46.58526

La mediana de age

median(datos$Age)
## [1] 46

La moda

sort(table(datos$Age))
## 
##  96  98 102 113  97  99 100  94  93  95  92   8   3   5  91   6   7   9   4  10 
##   1   1   1   1   2   2   2   3   5   6   7   9  11  11  12  13  14  14  15  15 
##  12  14  90   2  88  89  11  16  15   1  85   0  13  86  17  87  83  18  81  82 
##  17  17  17  18  18  18  20  21  22  24  25  26  26  27  33  33  41  42  44  52 
##  20  80  84  19  79  77  76  78  21  74  75  22  72  73  71  70  23  69  64  24 
##  56  56  56  57  74  91  93  94  99 113 114 115 124 130 136 155 161 178 192 196 
##  68  25  67  66  63  65  61  62  26  59  60  27  58  28  57  30  32  55  29  54 
## 197 215 215 220 249 261 283 287 299 322 322 324 333 336 362 369 372 376 384 393 
##  31  56  53  33  34  36  51  40  50  37  42  39  35  48  38  43  41  45  44  52 
## 398 402 412 416 417 425 428 429 429 434 436 437 442 450 453 455 456 459 462 465 
##  47  49  46 
## 466 475 483
moda <- mlv(datos$Age) 
moda
## [1] 46

Valores máximos y mínimos

max(datos$Age)
## [1] 113
min(datos$Age)
## [1] 0

Cuartiles al 25%, 50%, y 75%

quantile(datos$Age, 0.25)
## 25% 
##  35
quantile(datos$Age, 0.50)
## 50% 
##  46
quantile(datos$Age, 0.75)
## 75% 
##  57

Rango de la variable age de los datos

range(datos$Age)
## [1]   0 113

boxplot de age

boxplot(datos$Age, main = "Estadísticos de la edad (age)")

Medidas de dispersión

var(datos$Age)
## [1] 243.3138
sd(datos$Age)
## [1] 15.59852

Tabla de distribión

Frecuencia Frecuencia es el numero de veces que un valor aaparece en los datos Frecuencia relativa es la relación de la frecuencia con respecto al total de los datos Frecuenia porcentual igual a la frecuenia relativa representada en % Frecuencia acumulada, es la acumulación

#unique(datos$State)
datos$State <- toupper(datos$State)
#sort(unique(datos$State))


# Freuencia pro cada estado
tabla.Estados <- as.data.frame(table(datos$State))

colnames(tabla.Estados) <- c("Estados", "Frecuencia")

tabla.Estados <- arrange(tabla.Estados, desc(Frecuencia))

kable(head(tabla.Estados, 5))
Estados Frecuencia
DISTRITO FEDERAL 5209
MÉXICO 3130
BAJA CALIFORNIA 1557
TABASCO 984
SINALOA 865
kable(tail(tabla.Estados, 5))
Estados Frecuencia
28 CAMPECHE 93
29 NAYARIT 93
30 ZACATECAS 77
31 DURANGO 66
32 COLIMA 27

Graficar datos

  • Gráfica de barra top(5)
barplot(head(tabla.Estados$Frecuencia, 5), names.arg = head(tabla.Estados$Estados,5))