Práctica 1: Analisis descriptivo de los casos confirmados COVID19 en México

Librerías

library(readr) 

library(dplyr)

library(knitr)

library(modeest)

Los datos

datos<- read.csv("../Datos/casos_confirmados.csv", fileEncoding = "UTF-8")
kable(head(datos, 10))
X State Sex Age Date Confirmed
0 méxico FEMENINO 75 2020-04-09 1
3 tamaulipas MASCULINO 22 2020-04-06 1
15 distrito federal MASCULINO 40 2020-03-28 1
16 distrito federal FEMENINO 29 2020-04-01 1
17 yucatán MASCULINO 71 2020-04-15 1
22 michoacán FEMENINO 29 2020-04-23 1
27 guerrero FEMENINO 61 2020-04-07 1
28 distrito federal MASCULINO 33 2020-04-08 1
31 méxico FEMENINO 77 2020-04-08 1
32 méxico FEMENINO 84 2020-04-02 1
kable(tail(datos, 10))
X State Sex Age Date Confirmed
19215 87334 michoacán MASCULINO 22 2020-04-14 1
19216 87344 distrito federal FEMENINO 52 2020-04-26 1
19217 87349 tabasco MASCULINO 36 2020-04-28 1
19218 87353 distrito federal FEMENINO 30 2020-04-21 1
19219 87354 tabasco FEMENINO 47 2020-04-21 1
19220 87356 méxico FEMENINO 28 2020-04-13 1
19221 87358 distrito federal FEMENINO 39 2020-04-28 1
19222 87360 méxico MASCULINO 48 2020-04-22 1
19223 87361 tabasco MASCULINO 48 2020-04-25 1
19224 87365 méxico FEMENINO 62 2020-04-07 1
#### Est ructura de los datos
str(datos)
## 'data.frame':    19224 obs. of  6 variables:
##  $ X        : int  0 3 15 16 17 22 27 28 31 32 ...
##  $ State    : Factor w/ 32 levels "aguascalientes",..: 15 28 9 9 31 16 12 9 15 15 ...
##  $ Sex      : Factor w/ 2 levels "FEMENINO","MASCULINO": 1 2 2 1 2 1 1 2 1 1 ...
##  $ Age      : int  75 22 40 29 71 29 61 33 77 84 ...
##  $ Date     : Factor w/ 66 levels "2020-01-06","2020-01-08",..: 45 42 33 37 51 59 43 44 44 38 ...
##  $ Confirmed: int  1 1 1 1 1 1 1 1 1 1 ...

Summary de los datos

summary(datos)
##        X                      State             Sex             Age        
##  Min.   :    0   distrito federal:5209   FEMENINO : 8039   Min.   :  0.00  
##  1st Qu.:22523   méxico          :3130   MASCULINO:11185   1st Qu.: 35.00  
##  Median :44009   baja california :1557                     Median : 46.00  
##  Mean   :44045   tabasco         : 984                     Mean   : 46.59  
##  3rd Qu.:65793   sinaloa         : 865                     3rd Qu.: 57.00  
##  Max.   :87365   quintana roo    : 788                     Max.   :113.00  
##                  (Other)         :6691                                     
##          Date         Confirmed
##  2020-04-20: 1144   Min.   :1  
##  2020-04-21: 1100   1st Qu.:1  
##  2020-04-24: 1049   Median :1  
##  2020-04-22: 1016   Mean   :1  
##  2020-04-23: 1006   3rd Qu.:1  
##  2020-04-17:  937   Max.   :1  
##  (Other)   :12972

Obtener la Media de Edad

mean(datos$Age)
## [1] 46.58526

Obtener la Mediana de Edad

median(datos$Age)
## [1] 46

Obtener la Moda de Edad

sort(table(datos$Age))
## 
##  96  98 102 113  97  99 100  94  93  95  92   8   3   5  91   6   7   9   4  10 
##   1   1   1   1   2   2   2   3   5   6   7   9  11  11  12  13  14  14  15  15 
##  12  14  90   2  88  89  11  16  15   1  85   0  13  86  17  87  83  18  81  82 
##  17  17  17  18  18  18  20  21  22  24  25  26  26  27  33  33  41  42  44  52 
##  20  80  84  19  79  77  76  78  21  74  75  22  72  73  71  70  23  69  64  24 
##  56  56  56  57  74  91  93  94  99 113 114 115 124 130 136 155 161 178 192 196 
##  68  25  67  66  63  65  61  62  26  59  60  27  58  28  57  30  32  55  29  54 
## 197 215 215 220 249 261 283 287 299 322 322 324 333 336 362 369 372 376 384 393 
##  31  56  53  33  34  36  51  40  50  37  42  39  35  48  38  43  41  45  44  52 
## 398 402 412 416 417 425 428 429 429 434 436 437 442 450 453 455 456 459 462 465 
##  47  49  46 
## 466 475 483
mlv(datos$Age)
## [1] 46

Obtener los valores Máximo y Mínimo

max(datos$Age)
## [1] 113
min(datos$Age)
## [1] 0

Cuartiles al 25% , 50% , 75%

al 25%
quantile(datos$Age,0.25)
## 25% 
##  35
al 50%
quantile(datos$Age,0.50)
## 50% 
##  46
al 75%
quantile(datos$Age,0.75)
## 75% 
##  57

Rango de la variable de Edad

range(datos$Age)
## [1]   0 113

Boxplot de Edad

boxplot(datos$Age)

Medidas de dispersion

Varianza y Dispersion

var(datos$Age)
## [1] 243.3138
sd(datos$Age)
## [1] 15.59852