Practica 1.

Analisis descriptivo de datos confirmados COVID19 en Mexico (Usar el archivo ‘casos_confirmados.csv’)

Las librerias

library(readr) # para utilizar read, importar datos
library(dplyr) # para operaciones con datos,select, filter, pipes...

library(knitr) # para ver conjunto de datos mas amigable
library(modeest)

Los datos

datos <- read.csv("../Datos/casos_confirmados.csv", encoding = "UTF-8")

kable(head(datos,10))
X State Sex Age Date Confirmed
0 méxico FEMENINO 75 2020-04-09 1
3 tamaulipas MASCULINO 22 2020-04-06 1
15 distrito federal MASCULINO 40 2020-03-28 1
16 distrito federal FEMENINO 29 2020-04-01 1
17 yucatán MASCULINO 71 2020-04-15 1
22 michoacán FEMENINO 29 2020-04-23 1
27 guerrero FEMENINO 61 2020-04-07 1
28 distrito federal MASCULINO 33 2020-04-08 1
31 méxico FEMENINO 77 2020-04-08 1
32 méxico FEMENINO 84 2020-04-02 1
kable(tail(datos,10))
X State Sex Age Date Confirmed
19215 87334 michoacán MASCULINO 22 2020-04-14 1
19216 87344 distrito federal FEMENINO 52 2020-04-26 1
19217 87349 tabasco MASCULINO 36 2020-04-28 1
19218 87353 distrito federal FEMENINO 30 2020-04-21 1
19219 87354 tabasco FEMENINO 47 2020-04-21 1
19220 87356 méxico FEMENINO 28 2020-04-13 1
19221 87358 distrito federal FEMENINO 39 2020-04-28 1
19222 87360 méxico MASCULINO 48 2020-04-22 1
19223 87361 tabasco MASCULINO 48 2020-04-25 1
19224 87365 méxico FEMENINO 62 2020-04-07 1

La media de age

mean(datos$Age)
## [1] 46.58526

La mediana de age

median(datos$Age)
## [1] 46

La moda de age

mlv(datos$Age)
## [1] 46

Valores maximos y minimos

min(datos$Age)
## [1] 0
max(datos$Age)
## [1] 113

Cuartiles al 25%, 50%, 75%

cuartile25 <- quantile(datos$Age,0.25)
cuartile25
## 25% 
##  35
cuartile50 <- quantile(datos$Age,0.50)
cuartile50
## 50% 
##  46
cuartile75 <- quantile(datos$Age,0.75)
cuartile75
## 75% 
##  57

Rangos de la variable age de los datos

range(datos$Age)
## [1]   0 113

boxplot de age

boxplot(datos$Age)

Medidas de dispersion

  • Varianza}
  • Dispersion
var(datos$Age)
## [1] 243.3138
sd(datos$Age)
## [1] 15.59852

Tablas de distribucion

Frecuencia es el numero de veces que un valor aaparece en los datos Frecuencia relativa es la relación de la frecuencia con respecto al total de los datos Frecuenia porcentual igual a la frecuenia relativa representada en % Frecuencia acumulada, es la acumulación

#unique(datos$State)
datos$State <- toupper(datos$State)
#sort(unique(datos$State))


# Freuencia pro cada estado
tabla.Estados <- as.data.frame(table(datos$State))

colnames(tabla.Estados) <- c("Estados", "Frecuencia")

tabla.Estados <- arrange(tabla.Estados, desc(Frecuencia))

kable(head(tabla.Estados, 5))
Estados Frecuencia
DISTRITO FEDERAL 5209
MÉXICO 3130
BAJA CALIFORNIA 1557
TABASCO 984
SINALOA 865
kable(tail(tabla.Estados, 5))
Estados Frecuencia
28 CAMPECHE 93
29 NAYARIT 93
30 ZACATECAS 77
31 DURANGO 66
32 COLIMA 27

Graficas datos

  • Gráfica de barra top(5)
barplot(head(tabla.Estados$Frecuencia, 5), names.arg = head(tabla.Estados$Estados,5))