Identificamos las varaibles
glimpse(covid)
## Rows: 721,892
## Columns: 20
## $ Caso <dbl> 683898, 690264, 466454, 583033, 516377, 67318...
## $ `Fecha Not` <dttm> 2020-08-28, 2020-08-29, 2020-08-01, 2020-08-...
## $ Departamento <chr> "13", "23", "47", "66", "50", "25", "19", "68...
## $ nombre_depa <chr> "Cartagena D.T. y C.", "Córdoba", "Santa Mart...
## $ Ciudad_municipio <chr> "13001", "23815", "47001", "66170", "50001", ...
## $ Ciudad <chr> "Cartagena de Indias", "Tuchín", "Santa Marta...
## $ Edad <dbl> 115, 112, 110, 110, 108, 108, 107, 107, 106, ...
## $ Sexo <chr> "Hombres", "Mujeres", "Mujeres", "Mujeres", "...
## $ Fuente <chr> "En estudio", "En estudio", "En estudio", "En...
## $ Estatus <chr> "Casa", "Casa", "Fallecido", "Recuperado", "R...
## $ Estado <chr> "Leve", "Leve", "Fallecido", "Leve", "Leve", ...
## $ Pais_viajo_1_cod <lgl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, N...
## $ Pais_viajo_1_nom <lgl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, N...
## $ Fecha_inicio_sintomas <dttm> 2020-08-25, 2020-08-26, 2020-07-23, 2020-08-...
## $ Fecha_muerte <dttm> NA, NA, 2020-07-23, NA, NA, NA, 2020-07-22, ...
## $ Fecha_diagnostico <dttm> 2020-09-08, 2020-09-09, 2020-08-12, 2020-08-...
## $ Fecha_recuperado <dttm> NA, NA, NA, 2020-09-10, 2020-09-02, 2020-09-...
## $ `Fecha cargue web` <dttm> 2020-09-09, 2020-09-10, 2020-08-16, 2020-08-...
## $ Tipo_recuperacion <chr> NA, NA, NA, "Tiempo", "Tiempo", "Tiempo", NA,...
## $ per_etn_2 <chr> "Otro", "Indígena", "Otro", "Otro", "Otro", "...
dim(covid)
## [1] 721892 20
head(covid)
## # A tibble: 6 x 20
## Caso `Fecha Not` Departamento nombre_depa Ciudad_municipio Ciudad
## <dbl> <dttm> <chr> <chr> <chr> <chr>
## 1 683898 2020-08-28 00:00:00 13 Cartagena ~ 13001 Carta~
## 2 690264 2020-08-29 00:00:00 23 Córdoba 23815 Tuchín
## 3 466454 2020-08-01 00:00:00 47 Santa Mart~ 47001 Santa~
## 4 583033 2020-08-23 00:00:00 66 Risaralda 66170 Dosqu~
## 5 516377 2020-08-15 00:00:00 50 Meta 50001 Villa~
## 6 673181 2020-08-27 00:00:00 25 Cundinamar~ 25269 Facat~
## # ... with 14 more variables: Edad <dbl>, Sexo <chr>, Fuente <chr>,
## # Estatus <chr>, Estado <chr>, Pais_viajo_1_cod <lgl>,
## # Pais_viajo_1_nom <lgl>, Fecha_inicio_sintomas <dttm>, Fecha_muerte <dttm>,
## # Fecha_diagnostico <dttm>, Fecha_recuperado <dttm>, `Fecha cargue
## # web` <dttm>, Tipo_recuperacion <chr>, per_etn_2 <chr>
names(covid)
## [1] "Caso" "Fecha Not" "Departamento"
## [4] "nombre_depa" "Ciudad_municipio" "Ciudad"
## [7] "Edad" "Sexo" "Fuente"
## [10] "Estatus" "Estado" "Pais_viajo_1_cod"
## [13] "Pais_viajo_1_nom" "Fecha_inicio_sintomas" "Fecha_muerte"
## [16] "Fecha_diagnostico" "Fecha_recuperado" "Fecha cargue web"
## [19] "Tipo_recuperacion" "per_etn_2"
Distribución de las edades según sexo
ggplot(data = covid, mapping = aes(x = Sexo, y = Edad)) +
geom_boxplot()
Edad media de las personas que se contagian
media <- round(mean(Edad),2)
paste("La media de la variable edad es", media)
## [1] "La media de la variable edad es 39.7"
Moda
frecuenciasEdad <- data.frame(table(covid$Edad))
moda <- frecuenciasEdad[which.max(frecuenciasEdad$Freq),1]
moda
## [1] 30
## 112 Levels: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 ... 115
paste("La moda de la variable edad es", moda)
## [1] "La moda de la variable edad es 30"
Proporción de contagios por ciudades
CiudadFrecuencia<-data.frame(table(Ciudad)); head(CiudadFrecuencia,10)
## Ciudad Freq
## 1 Abejorral 26
## 2 Ábrego 65
## 3 Abriaquí 16
## 4 Acacías 661
## 5 Acandí 74
## 6 Acevedo 19
## 7 Achí 60
## 8 Agrado 16
## 9 Agua de Dios 49
## 10 Aguachica 811
max(CiudadFrecuencia$Freq)
## [1] 242007
min(CiudadFrecuencia$Freq)
## [1] 1
tabla1=cbind(CiudadFrecuencia,frecuencia=round(CiudadFrecuencia$Freq/sum(CiudadFrecuencia$Freq)*100,4))
Orden=tabla1[order(tabla1$frecuencia, decreasing = TRUE), ]
pastel=Orden[1:5,]; pastel
## Ciudad Freq frecuencia
## 95 Bogotá D.C. 242007 33.5240
## 486 Medellín 56111 7.7728
## 126 Cali 42089 5.8304
## 81 Barranquilla 37108 5.1404
## 148 Cartagena de Indias 21938 3.0390
resto=sum(tabla1$Freq)-sum(pastel$Freq);resto
## [1] 322639
resto=resto/sum(tabla1$Freq); resto
## [1] 0.4469353
fix(pastel)
## Warning in edit.data.frame(get(subx, envir = parent), title = subx, ...): added
## factor levels in 'Ciudad'
pastel
## Ciudad Freq frecuencia
## 95 Bogotá D.C. 242007 33.5240
## 486 Medellín 56111 7.7728
## 126 Cali 42089 5.8304
## 81 Barranquilla 37108 5.1404
## 148 Cartagena de Indias 21938 3.0390
## 0 Resto del pais 322639 44.6900
serie1 = paste(pastel$Ciudad,pastel$frecuencia,"%", sep = " ")
serie1
## [1] "Bogotá D.C. 33.524 %" "Medellín 7.7728 %"
## [3] "Cali 5.8304 %" "Barranquilla 5.1404 %"
## [5] "Cartagena de Indias 3.039 %" "Resto del pais 44.69 %"
pie(pastel$frecuencia, labels = serie1, col=rainbow(n=6, s =1, v=1, start=0, end=0.9, alpha=1))
hombres=covid[covid$Sexo=="Hombres",]
dim(hombres)
## [1] 368297 20
mean(hombres$Edad)
## [1] 39.77556
mujeres=covid[covid$Sexo=="Mujeres",]
dim(mujeres)
## [1] 353595 20
mean(mujeres$Edad)
## [1] 39.6189
Estado de los hombres y mujeres contagiados
Estado=table(covid$Sexo,covid$Estado); Estado
##
## Asintomático Fallecido Grave Leve Moderado N/A
## Hombres 45234 14840 1417 293325 12528 953
## Mujeres 44561 8283 717 289955 9332 747
Distribución por etnias
Etnias=table(covid$per_etn_2,covid$Sexo); Etnias
##
## Hombres Mujeres
## Indígena 8109 7436
## Negro 11422 10522
## Otro 335734 321413
## Rom 14 9