Practica 1

Analisis descriptivo de datos confirmados covid 19 en Mexico

librerias

library(readr)
library(dplyr)
library(knitr) 
library(modeest)

Los Datos

datos <- read.csv("~/modulo3/Datos/casos_confirmados.csv", encoding = "UTF-8")

kable(head(datos, 10))
X State Sex Age Date Confirmed
0 méxico FEMENINO 75 2020-04-09 1
3 tamaulipas MASCULINO 22 2020-04-06 1
15 distrito federal MASCULINO 40 2020-03-28 1
16 distrito federal FEMENINO 29 2020-04-01 1
17 yucatán MASCULINO 71 2020-04-15 1
22 michoacán FEMENINO 29 2020-04-23 1
27 guerrero FEMENINO 61 2020-04-07 1
28 distrito federal MASCULINO 33 2020-04-08 1
31 méxico FEMENINO 77 2020-04-08 1
32 méxico FEMENINO 84 2020-04-02 1
kable(tail(datos, 10))
X State Sex Age Date Confirmed
19215 87334 michoacán MASCULINO 22 2020-04-14 1
19216 87344 distrito federal FEMENINO 52 2020-04-26 1
19217 87349 tabasco MASCULINO 36 2020-04-28 1
19218 87353 distrito federal FEMENINO 30 2020-04-21 1
19219 87354 tabasco FEMENINO 47 2020-04-21 1
19220 87356 méxico FEMENINO 28 2020-04-13 1
19221 87358 distrito federal FEMENINO 39 2020-04-28 1
19222 87360 méxico MASCULINO 48 2020-04-22 1
19223 87361 tabasco MASCULINO 48 2020-04-25 1
19224 87365 méxico FEMENINO 62 2020-04-07 1

Estructura de datos

str(datos)
## 'data.frame':    19224 obs. of  6 variables:
##  $ X        : int  0 3 15 16 17 22 27 28 31 32 ...
##  $ State    : Factor w/ 32 levels "aguascalientes",..: 15 28 9 9 31 16 12 9 15 15 ...
##  $ Sex      : Factor w/ 2 levels "FEMENINO","MASCULINO": 1 2 2 1 2 1 1 2 1 1 ...
##  $ Age      : int  75 22 40 29 71 29 61 33 77 84 ...
##  $ Date     : Factor w/ 66 levels "2020-01-06","2020-01-08",..: 45 42 33 37 51 59 43 44 44 38 ...
##  $ Confirmed: int  1 1 1 1 1 1 1 1 1 1 ...

Resumen de datos

summary(datos)
##        X                      State             Sex             Age        
##  Min.   :    0   distrito federal:5209   FEMENINO : 8039   Min.   :  0.00  
##  1st Qu.:22523   méxico          :3130   MASCULINO:11185   1st Qu.: 35.00  
##  Median :44009   baja california :1557                     Median : 46.00  
##  Mean   :44045   tabasco         : 984                     Mean   : 46.59  
##  3rd Qu.:65793   sinaloa         : 865                     3rd Qu.: 57.00  
##  Max.   :87365   quintana roo    : 788                     Max.   :113.00  
##                  (Other)         :6691                                     
##          Date         Confirmed
##  2020-04-20: 1144   Min.   :1  
##  2020-04-21: 1100   1st Qu.:1  
##  2020-04-24: 1049   Median :1  
##  2020-04-22: 1016   Mean   :1  
##  2020-04-23: 1006   3rd Qu.:1  
##  2020-04-17:  937   Max.   :1  
##  (Other)   :12972

La media de age

La medida de localización más importante es la media, o valor promedio, de una variable. La media proporciona una medida de localización central de los datos. Si los datos son datos de una muestra, la media se denota como x¯x¯=∑x=N/N

mean(datos$Age)
## [1] 46.58526

Mediana de age

La mediana es otra medida de localización central. Es el valor de enmedio en los datos ordenados de menor a mayor ##(en forma ascendente).Si el número de observaciones es impar, la mediana es el valor de enmedio.Si el número de observaciones es par, la mediana es el promedio de las dos observaciones de enmedio.

Ejemplo de mediana con edades

median(datos$Age)
## [1] 46

La moda es el valor que se presenta con mayor frecuencia. Ejemplo de edades, La moda

sort(table(datos$Age))
## 
##  96  98 102 113  97  99 100  94  93  95  92   8   3   5  91   6   7   9   4  10 
##   1   1   1   1   2   2   2   3   5   6   7   9  11  11  12  13  14  14  15  15 
##  12  14  90   2  88  89  11  16  15   1  85   0  13  86  17  87  83  18  81  82 
##  17  17  17  18  18  18  20  21  22  24  25  26  26  27  33  33  41  42  44  52 
##  20  80  84  19  79  77  76  78  21  74  75  22  72  73  71  70  23  69  64  24 
##  56  56  56  57  74  91  93  94  99 113 114 115 124 130 136 155 161 178 192 196 
##  68  25  67  66  63  65  61  62  26  59  60  27  58  28  57  30  32  55  29  54 
## 197 215 215 220 249 261 283 287 299 322 322 324 333 336 362 369 372 376 384 393 
##  31  56  53  33  34  36  51  40  50  37  42  39  35  48  38  43  41  45  44  52 
## 398 402 412 416 417 425 428 429 429 434 436 437 442 450 453 455 456 459 462 465 
##  47  49  46 
## 466 475 483

Generando la moda de EDAD de COVID19

moda<-mlv(datos$Age)
moda
## [1] 46

Valores Maximos y minimos

min(datos$Age)
## [1] 0
max(datos$Age)
## [1] 113

Cuartiles al 25%, 50% y 75%

quantile(datos$Age, 0.25)
## 25% 
##  35
quantile(datos$Age, 0.50)
## 50% 
##  46
quantile(datos$Age, 0.75)
## 75% 
##  57

Rango de la Variable age(edades) datos

range(datos$Age)
## [1]   0 113

boxplot de el campo age(edades)

boxplot(datos$Age, main = "Estadísticos de la edad (age)")

Medidas de dispersion

Varianza var() Dispersion sd()

varianza <- var(datos$Age)
desvstd <- sd(datos$Age)

mean(datos$Age)
## [1] 46.58526
varianza
## [1] 243.3138
desvstd
## [1] 15.59852

Tabla de distribucion

Frecuencia es el numero de veces que un valor aparece en los datos ##Frecuencia relativa es la relacion de la frecuenciacon respecto al total de los datos Frecuencia porcentual igual a la frecuanci relativa representada en % Frecuencia acumulada, es la acumulacion

datos$State <- toupper(datos$State)
tabla.Estados <- as.data.frame(table(datos$State))

colnames(tabla.Estados) <- c("Estados", "Frecuencia")

tabla.Estados <- arrange(tabla.Estados, desc(Frecuencia))

kable(head(tabla.Estados, 5))
Estados Frecuencia
DISTRITO FEDERAL 5209
MÉXICO 3130
BAJA CALIFORNIA 1557
TABASCO 984
SINALOA 865
kable(tail(tabla.Estados, 5))
Estados Frecuencia
28 CAMPECHE 93
29 NAYARIT 93
30 ZACATECAS 77
31 DURANGO 66
32 COLIMA 27

Graficar Datos

barplot(head(tabla.Estados$Frecuencia, 5), names.arg = head(tabla.Estados$Estados,5))