Utilice los datos CovidMuestra.xlsx, los cuales tienen una muestra de 1500 casos de covid.
Primero necesitamos instalar las librerias necesarias para en análisis, después cargar la base de datos en formato Excel.
library(readxl)
library(dplyr)
library(ggplot2)
#Cargar los datos desde Excel
covid <- read_excel("CovidMuestra.xlsx")
covid %>%
head()
## # A tibble: 6 × 6
## Divipola Departamento Municipio Edad Sexo Fecha
## <chr> <chr> <chr> <dbl> <chr> <chr>
## 1 76 VALLE CALI 25 M 2020-05-30
## 2 11 BOGOTA BOGOTA 20 F 2020-09-02
## 3 15 BOYACA GUATEQUE 37 M 2021-06-22
## 4 11 BOGOTA BOGOTA 29 M 2020-12-22
## 5 05 ANTIOQUIA MEDELLIN 27 F 2020-09-22
## 6 76 VALLE CALI 62 M 2021-01-24
Prom_edadD <- covid %>%
group_by(Departamento) %>%
summarize(Prom_edadD = mean(Edad, na.rm = TRUE)) %>%
print()
## # A tibble: 32 × 2
## Departamento Prom_edadD
## <chr> <dbl>
## 1 AMAZONAS 58.5
## 2 ANTIOQUIA 40.9
## 3 ARAUCA 29
## 4 ATLANTICO 41.8
## 5 BOGOTA 38.7
## 6 BOLIVAR 41.5
## 7 BOYACA 39.2
## 8 CALDAS 43.7
## 9 CAQUETA 36.9
## 10 CASANARE 30.6
## # ℹ 22 more rows
Prom_edadS <- covid %>%
group_by(Sexo) %>%
summarize(Prom_edadS = mean(Edad, na.rm = TRUE)) %>%
print()
## # A tibble: 2 × 2
## Sexo Prom_edadS
## <chr> <dbl>
## 1 F 41.1
## 2 M 37.8
Prom_edadSD <- covid %>%
group_by(Departamento, Sexo) %>%
summarize(Prom_edadSD = mean(Edad, na.rm = TRUE)) %>%
print()
## # A tibble: 60 × 3
## # Groups: Departamento [32]
## Departamento Sexo Prom_edadSD
## <chr> <chr> <dbl>
## 1 AMAZONAS F 59.7
## 2 AMAZONAS M 55
## 3 ANTIOQUIA F 42.2
## 4 ANTIOQUIA M 39.4
## 5 ARAUCA F 29
## 6 ATLANTICO F 40.9
## 7 ATLANTICO M 43.2
## 8 BOGOTA F 40.8
## 9 BOGOTA M 36.3
## 10 BOLIVAR F 38.8
## # ℹ 50 more rows
sdM_edadD <- covid %>%
group_by(Departamento) %>%
summarize(sd_edadD = sd(Edad, na.rm = TRUE),
M_edadD = median(Edad, na.rm = TRUE)) %>%
print()
## # A tibble: 32 × 3
## Departamento sd_edadD M_edadD
## <chr> <dbl> <dbl>
## 1 AMAZONAS 2.89 58.5
## 2 ANTIOQUIA 18.1 38
## 3 ARAUCA 14.1 29
## 4 ATLANTICO 19.9 41
## 5 BOGOTA 16.9 37
## 6 BOLIVAR 13.4 39.5
## 7 BOYACA 16.7 35
## 8 CALDAS 20.1 40
## 9 CAQUETA 15.1 32
## 10 CASANARE 14.3 29
## # ℹ 22 more rows
sdM_edadS <- covid %>%
group_by(Sexo) %>%
summarize(sd_edadS = sd(Edad, na.rm = TRUE),
M_edadS = median(Edad, na.rm = TRUE)) %>%
print()
## # A tibble: 2 × 3
## Sexo sd_edadS M_edadS
## <chr> <dbl> <dbl>
## 1 F 17.4 39
## 2 M 16.9 35.5
sdM_edadSD <- covid %>%
group_by(Departamento, Sexo) %>%
summarize(sd_edadSD = sd(Edad, na.rm = TRUE),
M_edadSD = median(Edad, na.rm = TRUE)) %>%
print()
## # A tibble: 60 × 4
## # Groups: Departamento [32]
## Departamento Sexo sd_edadSD M_edadSD
## <chr> <chr> <dbl> <dbl>
## 1 AMAZONAS F 2.08 59
## 2 AMAZONAS M NA 55
## 3 ANTIOQUIA F 19.0 39.5
## 4 ANTIOQUIA M 16.9 36.5
## 5 ARAUCA F 14.1 29
## 6 ATLANTICO F 19.9 41
## 7 ATLANTICO M 20.8 42
## 8 BOGOTA F 16.6 39
## 9 BOGOTA M 16.8 36
## 10 BOLIVAR F 9.88 41
## # ℹ 50 more rows
Generemos un gráfico de barras para poder visualizar los datos optenidos:
Prom_edadSD %>%
ggplot( aes(x = Departamento, y = Prom_edadSD, fill = Sexo)) +
geom_bar(stat = "identity", position = "dodge") +
labs(title = "Promedio de edad por departamento y sexo",
x = "Departamento",
y = "Promedio de Edad") +
theme(axis.text.x = element_text(angle = 90, hjust = 1))
Según los datos obtenidos, algunos departamentos mostraron una tendencia hacia una población de mayor edad entre las personas infectadas por COVID-19. Un ejemplo de esto es el departamento del Amazonas, donde el promedio de edad es de 60 años en mujeres y 55 años en hombres.
Por otro lado, departamentos como Caquetá presentan una mayor dispersión en los promedios de edad por sexo, con 42 años para los hombres y 28 años para las mujeres. Una situación similar se observa en Putumayo, donde los promedios son de 40 años para los hombres y 23 años para las mujeres.
Estos datos evidencian tendencias en la edad de los contagiados según el género en cada región.
Ahora bien, la mediana nos indica el valor central de la edad en cada grupo.
Si la mediana es menor que el promedio, significa que hay una mayor proporción de personas jóvenes afectadas, como en los casos de Bolívar, Chocó y Guaviare, entre otros.
Por el contrario, si la mediana es mayor que el promedio, sugiere que hay más personas mayores afectadas, como ocurre en Valle y La Guajira.