Práctica 1.
Análisis decriptivo de datos confirmados COVID19 en México.
Las librerías
library(readr) # Para utilizar read, importar datos
library(dplyr) # Para opearciones con datos, select, filter, pipes, arrange()...
library(knitr) # Para ver conjunto de datos más amigable
#install.packages("modeest")
library(modeest)
Los datos
# ruta <- "C:/Users/Usuario/Documents/Modulo 3 Curso Titulacion/Datos/covid19-mx/casos_confirmados.csv"
#datos <- read.csv("../Datos/covid19-mx/casos_confirmados.csv", encoding = "UTF-8")
#datos <- read_csv("Datos/covid19-mx/casos_confirmados.csv")
datos <- read.csv("~/Modulo 3 Curso Titulacion/Datos/covid19-mx/casos_confirmados.csv", encoding = "UTF-8")
#datos <- read.csv(ruta, encoding = "UTF-8")
kable(head(datos, 10))
| 0 |
méxico |
FEMENINO |
75 |
2020-04-09 |
1 |
| 3 |
tamaulipas |
MASCULINO |
22 |
2020-04-06 |
1 |
| 15 |
distrito federal |
MASCULINO |
40 |
2020-03-28 |
1 |
| 16 |
distrito federal |
FEMENINO |
29 |
2020-04-01 |
1 |
| 17 |
yucatán |
MASCULINO |
71 |
2020-04-15 |
1 |
| 22 |
michoacán |
FEMENINO |
29 |
2020-04-23 |
1 |
| 27 |
guerrero |
FEMENINO |
61 |
2020-04-07 |
1 |
| 28 |
distrito federal |
MASCULINO |
33 |
2020-04-08 |
1 |
| 31 |
méxico |
FEMENINO |
77 |
2020-04-08 |
1 |
| 32 |
méxico |
FEMENINO |
84 |
2020-04-02 |
1 |
kable(tail(datos, 10))
| 19215 |
87334 |
michoacán |
MASCULINO |
22 |
2020-04-14 |
1 |
| 19216 |
87344 |
distrito federal |
FEMENINO |
52 |
2020-04-26 |
1 |
| 19217 |
87349 |
tabasco |
MASCULINO |
36 |
2020-04-28 |
1 |
| 19218 |
87353 |
distrito federal |
FEMENINO |
30 |
2020-04-21 |
1 |
| 19219 |
87354 |
tabasco |
FEMENINO |
47 |
2020-04-21 |
1 |
| 19220 |
87356 |
méxico |
FEMENINO |
28 |
2020-04-13 |
1 |
| 19221 |
87358 |
distrito federal |
FEMENINO |
39 |
2020-04-28 |
1 |
| 19222 |
87360 |
méxico |
MASCULINO |
48 |
2020-04-22 |
1 |
| 19223 |
87361 |
tabasco |
MASCULINO |
48 |
2020-04-25 |
1 |
| 19224 |
87365 |
méxico |
FEMENINO |
62 |
2020-04-07 |
1 |
La estructura de los datos
str(datos)
## 'data.frame': 19224 obs. of 6 variables:
## $ X : int 0 3 15 16 17 22 27 28 31 32 ...
## $ State : Factor w/ 32 levels "aguascalientes",..: 15 28 9 9 31 16 12 9 15 15 ...
## $ Sex : Factor w/ 2 levels "FEMENINO","MASCULINO": 1 2 2 1 2 1 1 2 1 1 ...
## $ Age : int 75 22 40 29 71 29 61 33 77 84 ...
## $ Date : Factor w/ 66 levels "2020-01-06","2020-01-08",..: 45 42 33 37 51 59 43 44 44 38 ...
## $ Confirmed: int 1 1 1 1 1 1 1 1 1 1 ...
Summary de los datos
summary(datos)
## X State Sex Age
## Min. : 0 distrito federal:5209 FEMENINO : 8039 Min. : 0.00
## 1st Qu.:22523 méxico :3130 MASCULINO:11185 1st Qu.: 35.00
## Median :44009 baja california :1557 Median : 46.00
## Mean :44045 tabasco : 984 Mean : 46.59
## 3rd Qu.:65793 sinaloa : 865 3rd Qu.: 57.00
## Max. :87365 quintana roo : 788 Max. :113.00
## (Other) :6691
## Date Confirmed
## 2020-04-20: 1144 Min. :1
## 2020-04-21: 1100 1st Qu.:1
## 2020-04-24: 1049 Median :1
## 2020-04-22: 1016 Mean :1
## 2020-04-23: 1006 3rd Qu.:1
## 2020-04-17: 937 Max. :1
## (Other) :12972
La moda
- con table() se generan las frecuencias de cada valor
sort(table(datos$Age))
##
## 96 98 102 113 97 99 100 94 93 95 92 8 3 5 91 6 7 9 4 10
## 1 1 1 1 2 2 2 3 5 6 7 9 11 11 12 13 14 14 15 15
## 12 14 90 2 88 89 11 16 15 1 85 0 13 86 17 87 83 18 81 82
## 17 17 17 18 18 18 20 21 22 24 25 26 26 27 33 33 41 42 44 52
## 20 80 84 19 79 77 76 78 21 74 75 22 72 73 71 70 23 69 64 24
## 56 56 56 57 74 91 93 94 99 113 114 115 124 130 136 155 161 178 192 196
## 68 25 67 66 63 65 61 62 26 59 60 27 58 28 57 30 32 55 29 54
## 197 215 215 220 249 261 283 287 299 322 322 324 333 336 362 369 372 376 384 393
## 31 56 53 33 34 36 51 40 50 37 42 39 35 48 38 43 41 45 44 52
## 398 402 412 416 417 425 428 429 429 434 436 437 442 450 453 455 456 459 462 465
## 47 49 46
## 466 475 483
moda <- mlv(datos$Age)
moda
## [1] 46
Valores máximos y mínimos
max(datos$Age)
## [1] 113
min(datos$Age)
## [1] 0
Cuartiles al 25%, 50%, y 75%
- Caurtil al 25%
- Caurtil al 50%
- Caurtil al 75%
quantile(datos$Age, 0.25)
## 25%
## 35
quantile(datos$Age, 0.50)
## 50%
## 46
quantile(datos$Age, 0.75)
## 75%
## 57
Rango de la variable age de los datos
range(datos$Age)
## [1] 0 113
boxplot de age
boxplot(datos$Age, main = "Estadísticos de la edad (age)")

Medidas de dispersión
var(datos$Age)
## [1] 243.3138
sd(datos$Age)
## [1] 15.59852
Tabla de distribión
Frecuencia Frecuencia es el numero de veces que un valor aaparece en los datos Frecuencia relativa es la relación de la frecuencia con respecto al total de los datos Frecuenia porcentual igual a la frecuenia relativa representada en % Frecuencia acumulada, es la acumulación
#unique(datos$State)
datos$State <- toupper(datos$State)
#sort(unique(datos$State))
# Freuencia pro cada estado
tabla.Estados <- as.data.frame(table(datos$State))
colnames(tabla.Estados) <- c("Estados", "Frecuencia")
tabla.Estados <- arrange(tabla.Estados, desc(Frecuencia))
kable(head(tabla.Estados, 5))
| DISTRITO FEDERAL |
5209 |
| MÉXICO |
3130 |
| BAJA CALIFORNIA |
1557 |
| TABASCO |
984 |
| SINALOA |
865 |
kable(tail(tabla.Estados, 5))
| 28 |
CAMPECHE |
93 |
| 29 |
NAYARIT |
93 |
| 30 |
ZACATECAS |
77 |
| 31 |
DURANGO |
66 |
| 32 |
COLIMA |
27 |
Graficar datos
barplot(head(tabla.Estados$Frecuencia, 5), names.arg = head(tabla.Estados$Estados,5))
