Identificamos las varaibles

glimpse(covid) 
## Rows: 721,892
## Columns: 20
## $ Caso                  <dbl> 683898, 690264, 466454, 583033, 516377, 67318...
## $ `Fecha Not`           <dttm> 2020-08-28, 2020-08-29, 2020-08-01, 2020-08-...
## $ Departamento          <chr> "13", "23", "47", "66", "50", "25", "19", "68...
## $ nombre_depa           <chr> "Cartagena D.T. y C.", "Córdoba", "Santa Mart...
## $ Ciudad_municipio      <chr> "13001", "23815", "47001", "66170", "50001", ...
## $ Ciudad                <chr> "Cartagena de Indias", "Tuchín", "Santa Marta...
## $ Edad                  <dbl> 115, 112, 110, 110, 108, 108, 107, 107, 106, ...
## $ Sexo                  <chr> "Hombres", "Mujeres", "Mujeres", "Mujeres", "...
## $ Fuente                <chr> "En estudio", "En estudio", "En estudio", "En...
## $ Estatus               <chr> "Casa", "Casa", "Fallecido", "Recuperado", "R...
## $ Estado                <chr> "Leve", "Leve", "Fallecido", "Leve", "Leve", ...
## $ Pais_viajo_1_cod      <lgl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, N...
## $ Pais_viajo_1_nom      <lgl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, N...
## $ Fecha_inicio_sintomas <dttm> 2020-08-25, 2020-08-26, 2020-07-23, 2020-08-...
## $ Fecha_muerte          <dttm> NA, NA, 2020-07-23, NA, NA, NA, 2020-07-22, ...
## $ Fecha_diagnostico     <dttm> 2020-09-08, 2020-09-09, 2020-08-12, 2020-08-...
## $ Fecha_recuperado      <dttm> NA, NA, NA, 2020-09-10, 2020-09-02, 2020-09-...
## $ `Fecha cargue web`    <dttm> 2020-09-09, 2020-09-10, 2020-08-16, 2020-08-...
## $ Tipo_recuperacion     <chr> NA, NA, NA, "Tiempo", "Tiempo", "Tiempo", NA,...
## $ per_etn_2             <chr> "Otro", "Indígena", "Otro", "Otro", "Otro", "...
dim(covid)
## [1] 721892     20
head(covid)
## # A tibble: 6 x 20
##     Caso `Fecha Not`         Departamento nombre_depa Ciudad_municipio Ciudad
##    <dbl> <dttm>              <chr>        <chr>       <chr>            <chr> 
## 1 683898 2020-08-28 00:00:00 13           Cartagena ~ 13001            Carta~
## 2 690264 2020-08-29 00:00:00 23           Córdoba     23815            Tuchín
## 3 466454 2020-08-01 00:00:00 47           Santa Mart~ 47001            Santa~
## 4 583033 2020-08-23 00:00:00 66           Risaralda   66170            Dosqu~
## 5 516377 2020-08-15 00:00:00 50           Meta        50001            Villa~
## 6 673181 2020-08-27 00:00:00 25           Cundinamar~ 25269            Facat~
## # ... with 14 more variables: Edad <dbl>, Sexo <chr>, Fuente <chr>,
## #   Estatus <chr>, Estado <chr>, Pais_viajo_1_cod <lgl>,
## #   Pais_viajo_1_nom <lgl>, Fecha_inicio_sintomas <dttm>, Fecha_muerte <dttm>,
## #   Fecha_diagnostico <dttm>, Fecha_recuperado <dttm>, `Fecha cargue
## #   web` <dttm>, Tipo_recuperacion <chr>, per_etn_2 <chr>
names(covid)
##  [1] "Caso"                  "Fecha Not"             "Departamento"         
##  [4] "nombre_depa"           "Ciudad_municipio"      "Ciudad"               
##  [7] "Edad"                  "Sexo"                  "Fuente"               
## [10] "Estatus"               "Estado"                "Pais_viajo_1_cod"     
## [13] "Pais_viajo_1_nom"      "Fecha_inicio_sintomas" "Fecha_muerte"         
## [16] "Fecha_diagnostico"     "Fecha_recuperado"      "Fecha cargue web"     
## [19] "Tipo_recuperacion"     "per_etn_2"

Distribución de las edades según sexo

ggplot(data = covid, mapping = aes(x = Sexo, y = Edad)) +
  geom_boxplot()

Edad media de las personas que se contagian

media <- round(mean(Edad),2)
paste("La media de la variable edad es", media)
## [1] "La media de la variable edad es 39.7"

Moda

frecuenciasEdad <- data.frame(table(covid$Edad))
moda <- frecuenciasEdad[which.max(frecuenciasEdad$Freq),1]
moda
## [1] 30
## 112 Levels: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 ... 115
paste("La moda de la variable edad es", moda)
## [1] "La moda de la variable edad es 30"

Proporción de contagios por ciudades

CiudadFrecuencia<-data.frame(table(Ciudad)); head(CiudadFrecuencia,10)
##          Ciudad Freq
## 1     Abejorral   26
## 2        Ábrego   65
## 3      Abriaquí   16
## 4       Acacías  661
## 5        Acandí   74
## 6       Acevedo   19
## 7          Achí   60
## 8        Agrado   16
## 9  Agua de Dios   49
## 10    Aguachica  811
max(CiudadFrecuencia$Freq)
## [1] 242007
min(CiudadFrecuencia$Freq)
## [1] 1
tabla1=cbind(CiudadFrecuencia,frecuencia=round(CiudadFrecuencia$Freq/sum(CiudadFrecuencia$Freq)*100,4))
Orden=tabla1[order(tabla1$frecuencia, decreasing = TRUE), ]
pastel=Orden[1:5,]; pastel
##                  Ciudad   Freq frecuencia
## 95          Bogotá D.C. 242007    33.5240
## 486            Medellín  56111     7.7728
## 126                Cali  42089     5.8304
## 81         Barranquilla  37108     5.1404
## 148 Cartagena de Indias  21938     3.0390
resto=sum(tabla1$Freq)-sum(pastel$Freq);resto
## [1] 322639
resto=resto/sum(tabla1$Freq); resto
## [1] 0.4469353
fix(pastel)
## Warning in edit.data.frame(get(subx, envir = parent), title = subx, ...): added
## factor levels in 'Ciudad'
pastel
##                  Ciudad   Freq frecuencia
## 95          Bogotá D.C. 242007    33.5240
## 486            Medellín  56111     7.7728
## 126                Cali  42089     5.8304
## 81         Barranquilla  37108     5.1404
## 148 Cartagena de Indias  21938     3.0390
## 0        Resto del pais 322639    44.6900
serie1 = paste(pastel$Ciudad,pastel$frecuencia,"%", sep = " ")
serie1
## [1] "Bogotá D.C. 33.524 %"        "Medellín 7.7728 %"          
## [3] "Cali 5.8304 %"               "Barranquilla 5.1404 %"      
## [5] "Cartagena de Indias 3.039 %" "Resto del pais 44.69 %"
pie(pastel$frecuencia, labels = serie1,  col=rainbow(n=6, s =1, v=1, start=0, end=0.9, alpha=1))

hombres=covid[covid$Sexo=="Hombres",]
dim(hombres)
## [1] 368297     20
mean(hombres$Edad)
## [1] 39.77556
mujeres=covid[covid$Sexo=="Mujeres",]
dim(mujeres)
## [1] 353595     20
mean(mujeres$Edad)
## [1] 39.6189

Estado de los hombres y mujeres contagiados

Estado=table(covid$Sexo,covid$Estado); Estado
##          
##           Asintomático Fallecido  Grave   Leve Moderado    N/A
##   Hombres        45234     14840   1417 293325    12528    953
##   Mujeres        44561      8283    717 289955     9332    747

Distribución por etnias

Etnias=table(covid$per_etn_2,covid$Sexo); Etnias
##           
##            Hombres Mujeres
##   Indígena    8109    7436
##   Negro      11422   10522
##   Otro      335734  321413
##   Rom           14       9