Practica 1.
Analisis descriptivo de datos confirmados COVID19 en Mexico (Usar el archivo ‘casos_confirmados.csv’)
Las librerias
library(readr) # para utilizar read, importar datos
library(dplyr) # para operaciones con datos,select, filter, pipes...
library(knitr) # para ver conjunto de datos mas amigable
library(modeest)
Los datos
datos <- read.csv("../Datos/casos_confirmados.csv", encoding = "UTF-8")
kable(head(datos,10))
| 0 |
méxico |
FEMENINO |
75 |
2020-04-09 |
1 |
| 3 |
tamaulipas |
MASCULINO |
22 |
2020-04-06 |
1 |
| 15 |
distrito federal |
MASCULINO |
40 |
2020-03-28 |
1 |
| 16 |
distrito federal |
FEMENINO |
29 |
2020-04-01 |
1 |
| 17 |
yucatán |
MASCULINO |
71 |
2020-04-15 |
1 |
| 22 |
michoacán |
FEMENINO |
29 |
2020-04-23 |
1 |
| 27 |
guerrero |
FEMENINO |
61 |
2020-04-07 |
1 |
| 28 |
distrito federal |
MASCULINO |
33 |
2020-04-08 |
1 |
| 31 |
méxico |
FEMENINO |
77 |
2020-04-08 |
1 |
| 32 |
méxico |
FEMENINO |
84 |
2020-04-02 |
1 |
kable(tail(datos,10))
| 19215 |
87334 |
michoacán |
MASCULINO |
22 |
2020-04-14 |
1 |
| 19216 |
87344 |
distrito federal |
FEMENINO |
52 |
2020-04-26 |
1 |
| 19217 |
87349 |
tabasco |
MASCULINO |
36 |
2020-04-28 |
1 |
| 19218 |
87353 |
distrito federal |
FEMENINO |
30 |
2020-04-21 |
1 |
| 19219 |
87354 |
tabasco |
FEMENINO |
47 |
2020-04-21 |
1 |
| 19220 |
87356 |
méxico |
FEMENINO |
28 |
2020-04-13 |
1 |
| 19221 |
87358 |
distrito federal |
FEMENINO |
39 |
2020-04-28 |
1 |
| 19222 |
87360 |
méxico |
MASCULINO |
48 |
2020-04-22 |
1 |
| 19223 |
87361 |
tabasco |
MASCULINO |
48 |
2020-04-25 |
1 |
| 19224 |
87365 |
méxico |
FEMENINO |
62 |
2020-04-07 |
1 |
La moda de age
mlv(datos$Age)
## [1] 46
Valores maximos y minimos
min(datos$Age)
## [1] 0
max(datos$Age)
## [1] 113
Cuartiles al 25%, 50%, 75%
cuartile25 <- quantile(datos$Age,0.25)
cuartile25
## 25%
## 35
cuartile50 <- quantile(datos$Age,0.50)
cuartile50
## 50%
## 46
cuartile75 <- quantile(datos$Age,0.75)
cuartile75
## 75%
## 57
Rangos de la variable age de los datos
range(datos$Age)
## [1] 0 113
boxplot de age
boxplot(datos$Age)

Medidas de dispersion
var(datos$Age)
## [1] 243.3138
sd(datos$Age)
## [1] 15.59852
Tablas de distribucion
Frecuencia es el numero de veces que un valor aaparece en los datos Frecuencia relativa es la relación de la frecuencia con respecto al total de los datos Frecuenia porcentual igual a la frecuenia relativa representada en % Frecuencia acumulada, es la acumulación
#unique(datos$State)
datos$State <- toupper(datos$State)
#sort(unique(datos$State))
# Freuencia pro cada estado
tabla.Estados <- as.data.frame(table(datos$State))
colnames(tabla.Estados) <- c("Estados", "Frecuencia")
tabla.Estados <- arrange(tabla.Estados, desc(Frecuencia))
kable(head(tabla.Estados, 5))
| DISTRITO FEDERAL |
5209 |
| MÉXICO |
3130 |
| BAJA CALIFORNIA |
1557 |
| TABASCO |
984 |
| SINALOA |
865 |
kable(tail(tabla.Estados, 5))
| 28 |
CAMPECHE |
93 |
| 29 |
NAYARIT |
93 |
| 30 |
ZACATECAS |
77 |
| 31 |
DURANGO |
66 |
| 32 |
COLIMA |
27 |
Graficas datos
barplot(head(tabla.Estados$Frecuencia, 5), names.arg = head(tabla.Estados$Estados,5))
