Practica 1
Analisis descriptivo de datos confirmados covid 19 en Mexico
librerias
library(readr)
library(dplyr)
library(knitr)
library(modeest)
Los Datos
datos <- read.csv("~/modulo3/Datos/casos_confirmados.csv", encoding = "UTF-8")
kable(head(datos, 10))
| 0 |
méxico |
FEMENINO |
75 |
2020-04-09 |
1 |
| 3 |
tamaulipas |
MASCULINO |
22 |
2020-04-06 |
1 |
| 15 |
distrito federal |
MASCULINO |
40 |
2020-03-28 |
1 |
| 16 |
distrito federal |
FEMENINO |
29 |
2020-04-01 |
1 |
| 17 |
yucatán |
MASCULINO |
71 |
2020-04-15 |
1 |
| 22 |
michoacán |
FEMENINO |
29 |
2020-04-23 |
1 |
| 27 |
guerrero |
FEMENINO |
61 |
2020-04-07 |
1 |
| 28 |
distrito federal |
MASCULINO |
33 |
2020-04-08 |
1 |
| 31 |
méxico |
FEMENINO |
77 |
2020-04-08 |
1 |
| 32 |
méxico |
FEMENINO |
84 |
2020-04-02 |
1 |
kable(tail(datos, 10))
| 19215 |
87334 |
michoacán |
MASCULINO |
22 |
2020-04-14 |
1 |
| 19216 |
87344 |
distrito federal |
FEMENINO |
52 |
2020-04-26 |
1 |
| 19217 |
87349 |
tabasco |
MASCULINO |
36 |
2020-04-28 |
1 |
| 19218 |
87353 |
distrito federal |
FEMENINO |
30 |
2020-04-21 |
1 |
| 19219 |
87354 |
tabasco |
FEMENINO |
47 |
2020-04-21 |
1 |
| 19220 |
87356 |
méxico |
FEMENINO |
28 |
2020-04-13 |
1 |
| 19221 |
87358 |
distrito federal |
FEMENINO |
39 |
2020-04-28 |
1 |
| 19222 |
87360 |
méxico |
MASCULINO |
48 |
2020-04-22 |
1 |
| 19223 |
87361 |
tabasco |
MASCULINO |
48 |
2020-04-25 |
1 |
| 19224 |
87365 |
méxico |
FEMENINO |
62 |
2020-04-07 |
1 |
Estructura de datos
str(datos)
## 'data.frame': 19224 obs. of 6 variables:
## $ X : int 0 3 15 16 17 22 27 28 31 32 ...
## $ State : Factor w/ 32 levels "aguascalientes",..: 15 28 9 9 31 16 12 9 15 15 ...
## $ Sex : Factor w/ 2 levels "FEMENINO","MASCULINO": 1 2 2 1 2 1 1 2 1 1 ...
## $ Age : int 75 22 40 29 71 29 61 33 77 84 ...
## $ Date : Factor w/ 66 levels "2020-01-06","2020-01-08",..: 45 42 33 37 51 59 43 44 44 38 ...
## $ Confirmed: int 1 1 1 1 1 1 1 1 1 1 ...
Resumen de datos
summary(datos)
## X State Sex Age
## Min. : 0 distrito federal:5209 FEMENINO : 8039 Min. : 0.00
## 1st Qu.:22523 méxico :3130 MASCULINO:11185 1st Qu.: 35.00
## Median :44009 baja california :1557 Median : 46.00
## Mean :44045 tabasco : 984 Mean : 46.59
## 3rd Qu.:65793 sinaloa : 865 3rd Qu.: 57.00
## Max. :87365 quintana roo : 788 Max. :113.00
## (Other) :6691
## Date Confirmed
## 2020-04-20: 1144 Min. :1
## 2020-04-21: 1100 1st Qu.:1
## 2020-04-24: 1049 Median :1
## 2020-04-22: 1016 Mean :1
## 2020-04-23: 1006 3rd Qu.:1
## 2020-04-17: 937 Max. :1
## (Other) :12972
La media de age
Mediana de age
La mediana es otra medida de localización central. Es el valor de enmedio en los datos ordenados de menor a mayor ##(en forma ascendente).Si el número de observaciones es impar, la mediana es el valor de enmedio.Si el número de observaciones es par, la mediana es el promedio de las dos observaciones de enmedio.
La moda es el valor que se presenta con mayor frecuencia. Ejemplo de edades, La moda
sort(table(datos$Age))
##
## 96 98 102 113 97 99 100 94 93 95 92 8 3 5 91 6 7 9 4 10
## 1 1 1 1 2 2 2 3 5 6 7 9 11 11 12 13 14 14 15 15
## 12 14 90 2 88 89 11 16 15 1 85 0 13 86 17 87 83 18 81 82
## 17 17 17 18 18 18 20 21 22 24 25 26 26 27 33 33 41 42 44 52
## 20 80 84 19 79 77 76 78 21 74 75 22 72 73 71 70 23 69 64 24
## 56 56 56 57 74 91 93 94 99 113 114 115 124 130 136 155 161 178 192 196
## 68 25 67 66 63 65 61 62 26 59 60 27 58 28 57 30 32 55 29 54
## 197 215 215 220 249 261 283 287 299 322 322 324 333 336 362 369 372 376 384 393
## 31 56 53 33 34 36 51 40 50 37 42 39 35 48 38 43 41 45 44 52
## 398 402 412 416 417 425 428 429 429 434 436 437 442 450 453 455 456 459 462 465
## 47 49 46
## 466 475 483
Generando la moda de EDAD de COVID19
moda<-mlv(datos$Age)
moda
## [1] 46
Valores Maximos y minimos
min(datos$Age)
## [1] 0
max(datos$Age)
## [1] 113
Cuartiles al 25%, 50% y 75%
quantile(datos$Age, 0.25)
## 25%
## 35
quantile(datos$Age, 0.50)
## 50%
## 46
quantile(datos$Age, 0.75)
## 75%
## 57
Rango de la Variable age(edades) datos
range(datos$Age)
## [1] 0 113
boxplot de el campo age(edades)
boxplot(datos$Age, main = "Estadísticos de la edad (age)")

Medidas de dispersion
Varianza var() Dispersion sd()
varianza <- var(datos$Age)
desvstd <- sd(datos$Age)
mean(datos$Age)
## [1] 46.58526
varianza
## [1] 243.3138
desvstd
## [1] 15.59852
Tabla de distribucion
Frecuencia es el numero de veces que un valor aparece en los datos ##Frecuencia relativa es la relacion de la frecuenciacon respecto al total de los datos Frecuencia porcentual igual a la frecuanci relativa representada en % Frecuencia acumulada, es la acumulacion
datos$State <- toupper(datos$State)
tabla.Estados <- as.data.frame(table(datos$State))
colnames(tabla.Estados) <- c("Estados", "Frecuencia")
tabla.Estados <- arrange(tabla.Estados, desc(Frecuencia))
kable(head(tabla.Estados, 5))
| DISTRITO FEDERAL |
5209 |
| MÉXICO |
3130 |
| BAJA CALIFORNIA |
1557 |
| TABASCO |
984 |
| SINALOA |
865 |
kable(tail(tabla.Estados, 5))
| 28 |
CAMPECHE |
93 |
| 29 |
NAYARIT |
93 |
| 30 |
ZACATECAS |
77 |
| 31 |
DURANGO |
66 |
| 32 |
COLIMA |
27 |
Graficar Datos
barplot(head(tabla.Estados$Frecuencia, 5), names.arg = head(tabla.Estados$Estados,5))
