Actividad:

Utilice los datos CovidMuestra.xlsx, los cuales tienen una muestra de 1500 casos de covid.

  1. Genere las siguientes estadísticas por grupo, tenga presente si debe recodificar valores:
  • Promedio de edad por departamento.
  • Promedio de edad por sexo.
  • Promedio de edad por departamento y sexo.
  1. Realizar lo mismo del punto 1 para la desviación estandar y mediana.

Desarrollo:

Cargar los datos:

Primero necesitamos instalar las librerias necesarias para en análisis, después cargar la base de datos en formato Excel.

library(readxl)
library(dplyr)
library(ggplot2)

#Cargar los datos desde Excel
covid <- read_excel("CovidMuestra.xlsx")

covid %>% 
  head()
## # A tibble: 6 × 6
##   Divipola Departamento Municipio  Edad Sexo  Fecha     
##   <chr>    <chr>        <chr>     <dbl> <chr> <chr>     
## 1 76       VALLE        CALI         25 M     2020-05-30
## 2 11       BOGOTA       BOGOTA       20 F     2020-09-02
## 3 15       BOYACA       GUATEQUE     37 M     2021-06-22
## 4 11       BOGOTA       BOGOTA       29 M     2020-12-22
## 5 05       ANTIOQUIA    MEDELLIN     27 F     2020-09-22
## 6 76       VALLE        CALI         62 M     2021-01-24

1.1. Promedio de edad por departamento:

 Prom_edadD <- covid %>% 
  group_by(Departamento) %>% 
   summarize(Prom_edadD = mean(Edad, na.rm = TRUE)) %>%
  print()
## # A tibble: 32 × 2
##    Departamento Prom_edadD
##    <chr>             <dbl>
##  1 AMAZONAS           58.5
##  2 ANTIOQUIA          40.9
##  3 ARAUCA             29  
##  4 ATLANTICO          41.8
##  5 BOGOTA             38.7
##  6 BOLIVAR            41.5
##  7 BOYACA             39.2
##  8 CALDAS             43.7
##  9 CAQUETA            36.9
## 10 CASANARE           30.6
## # ℹ 22 more rows

1.2. Promedio de edad por sexo:

 Prom_edadS <- covid %>% 
   group_by(Sexo) %>% 
   summarize(Prom_edadS = mean(Edad, na.rm = TRUE)) %>% 
  print()
## # A tibble: 2 × 2
##   Sexo  Prom_edadS
##   <chr>      <dbl>
## 1 F           41.1
## 2 M           37.8

1.3. Promedio de edad por departamento y sexo:

 Prom_edadSD <- covid %>% 
   group_by(Departamento, Sexo) %>% 
   summarize(Prom_edadSD = mean(Edad, na.rm = TRUE)) %>% 
  print()
## # A tibble: 60 × 3
## # Groups:   Departamento [32]
##    Departamento Sexo  Prom_edadSD
##    <chr>        <chr>       <dbl>
##  1 AMAZONAS     F            59.7
##  2 AMAZONAS     M            55  
##  3 ANTIOQUIA    F            42.2
##  4 ANTIOQUIA    M            39.4
##  5 ARAUCA       F            29  
##  6 ATLANTICO    F            40.9
##  7 ATLANTICO    M            43.2
##  8 BOGOTA       F            40.8
##  9 BOGOTA       M            36.3
## 10 BOLIVAR      F            38.8
## # ℹ 50 more rows

2.1. Desviación estandar y mediana de la edad por Departamento:

sdM_edadD <- covid %>% 
   group_by(Departamento) %>% 
   summarize(sd_edadD = sd(Edad, na.rm = TRUE),
             M_edadD = median(Edad, na.rm = TRUE)) %>% 
  print()
## # A tibble: 32 × 3
##    Departamento sd_edadD M_edadD
##    <chr>           <dbl>   <dbl>
##  1 AMAZONAS         2.89    58.5
##  2 ANTIOQUIA       18.1     38  
##  3 ARAUCA          14.1     29  
##  4 ATLANTICO       19.9     41  
##  5 BOGOTA          16.9     37  
##  6 BOLIVAR         13.4     39.5
##  7 BOYACA          16.7     35  
##  8 CALDAS          20.1     40  
##  9 CAQUETA         15.1     32  
## 10 CASANARE        14.3     29  
## # ℹ 22 more rows

2.2. Desviación estandar y mediana de la edad por Sexo:

sdM_edadS <- covid %>% 
  group_by(Sexo) %>% 
  summarize(sd_edadS = sd(Edad, na.rm = TRUE),
            M_edadS = median(Edad, na.rm = TRUE)) %>% 
  print()
## # A tibble: 2 × 3
##   Sexo  sd_edadS M_edadS
##   <chr>    <dbl>   <dbl>
## 1 F         17.4    39  
## 2 M         16.9    35.5

2.3. Desviación estandar y mediana de la edad por Sexo y Departamento:

sdM_edadSD <- covid %>% 
  group_by(Departamento, Sexo) %>% 
  summarize(sd_edadSD = sd(Edad, na.rm = TRUE),
            M_edadSD = median(Edad, na.rm = TRUE)) %>% 
  print()
## # A tibble: 60 × 4
## # Groups:   Departamento [32]
##    Departamento Sexo  sd_edadSD M_edadSD
##    <chr>        <chr>     <dbl>    <dbl>
##  1 AMAZONAS     F          2.08     59  
##  2 AMAZONAS     M         NA        55  
##  3 ANTIOQUIA    F         19.0      39.5
##  4 ANTIOQUIA    M         16.9      36.5
##  5 ARAUCA       F         14.1      29  
##  6 ATLANTICO    F         19.9      41  
##  7 ATLANTICO    M         20.8      42  
##  8 BOGOTA       F         16.6      39  
##  9 BOGOTA       M         16.8      36  
## 10 BOLIVAR      F          9.88     41  
## # ℹ 50 more rows

3. Visualización de los resultados:

Generemos un gráfico de barras para poder visualizar los datos optenidos:

Prom_edadSD %>% 
  ggplot( aes(x = Departamento, y = Prom_edadSD, fill = Sexo)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Promedio de edad por departamento y sexo",
       x = "Departamento",
       y = "Promedio de Edad") +
  theme(axis.text.x = element_text(angle = 90, hjust = 1))

Según los datos obtenidos, algunos departamentos mostraron una tendencia hacia una población de mayor edad entre las personas infectadas por COVID-19. Un ejemplo de esto es el departamento del Amazonas, donde el promedio de edad es de 60 años en mujeres y 55 años en hombres.

Por otro lado, departamentos como Caquetá presentan una mayor dispersión en los promedios de edad por sexo, con 42 años para los hombres y 28 años para las mujeres. Una situación similar se observa en Putumayo, donde los promedios son de 40 años para los hombres y 23 años para las mujeres.

Estos datos evidencian tendencias en la edad de los contagiados según el género en cada región.

Ahora bien, la mediana nos indica el valor central de la edad en cada grupo.

  • Si la mediana es menor que el promedio, significa que hay una mayor proporción de personas jóvenes afectadas, como en los casos de Bolívar, Chocó y Guaviare, entre otros.

  • Por el contrario, si la mediana es mayor que el promedio, sugiere que hay más personas mayores afectadas, como ocurre en Valle y La Guajira.