Usando el set de datos “sida_mujeres_peru.csv”:
Convertir el dataset a un formato tidy
library(tidyverse)
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.1 ──
## ✓ ggplot2 3.3.3 ✓ purrr 0.3.4
## ✓ tibble 3.1.1 ✓ dplyr 1.0.6
## ✓ tidyr 1.1.3 ✓ stringr 1.4.0
## ✓ readr 1.4.0 ✓ forcats 0.5.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
library(readxl)
sida_mujeres <- read_csv ("data/sida_mujeres_peru.csv", col_types = "cccccc")
sida_mujeres
## # A tibble: 29 x 6
## año `De 0 a 14 años` `De 15 a 24 años` `De 25 a 49 años` `De 50 a 59 años`
## <chr> <chr> <chr> <chr> <chr>
## 1 1990 2 9 19 1
## 2 1991 3 13 31 -
## 3 1992 4 26 57 7
## 4 1993 15 32 51 5
## 5 1994 14 44 84 4
## 6 1995 16 49 143 16
## 7 1996 22 69 176 16
## 8 1997 19 60 175 15
## 9 1998 18 95 207 6
## 10 1999 17 78 205 20
## # … with 19 more rows, and 1 more variable: De 60 años y más <chr>
sida_mujeres %>%
pivot_longer(c(`De 0 a 14 años`, `De 15 a 24 años`, `De 25 a 49 años`,`De 50 a 59 años`, `De 60 años y más`), names_to = "gruposdedad", values_to = "cases")
## # A tibble: 145 x 3
## año gruposdedad cases
## <chr> <chr> <chr>
## 1 1990 De 0 a 14 años 2
## 2 1990 De 15 a 24 años 9
## 3 1990 De 25 a 49 años 19
## 4 1990 De 50 a 59 años 1
## 5 1990 De 60 años y más 1
## 6 1991 De 0 a 14 años 3
## 7 1991 De 15 a 24 años 13
## 8 1991 De 25 a 49 años 31
## 9 1991 De 50 a 59 años -
## 10 1991 De 60 años y más -
## # … with 135 more rows
fallecidos_covid <- read_csv("data/fallecidos_covid.csv")
##
## ── Column specification ────────────────────────────────────────────────────────
## cols(
## FECHA_CORTE = col_character(),
## UUID = col_character(),
## FECHA_FALLECIMIENTO = col_character(),
## EDAD_DECLARADA = col_double(),
## SEXO = col_character(),
## FECHA_NAC = col_character(),
## DEPARTAMENTO = col_character(),
## PROVINCIA = col_character(),
## DISTRITO = col_character()
## )
fallecidos_covid
## # A tibble: 41,181 x 9
## FECHA_CORTE UUID FECHA_FALLECIMIE… EDAD_DECLARADA SEXO FECHA_NAC
## <chr> <chr> <chr> <dbl> <chr> <chr>
## 1 2021.01.31 7320cabdc1aaca… 2020.03.19 78 MASCU… 1941.10.…
## 2 2021.01.31 e81602051997ac… 2020.03.19 69 MASCU… 1951.03.…
## 3 2021.01.31 cecdbf10074dbc… 2020.03.21 83 MASCU… 1939.08.…
## 4 2021.01.31 71ecb6bccb248b… 2020.03.24 65 FEMEN… 1954.01.…
## 5 2021.01.31 566af4276cbe93… 2020.03.24 76 MASCU… <NA>
## 6 2021.01.31 027561e9d126e7… 2020.03.24 94 MASCU… 1925.12.…
## 7 2021.01.31 f016889b9ba5bd… 2020.03.26 53 MASCU… 1966.05.…
## 8 2021.01.31 971f8e12955837… 2020.03.26 65 MASCU… 1955.02.…
## 9 2021.01.31 bc45b71b005a96… 2020.03.26 43 MASCU… 1977.01.…
## 10 2021.01.31 0e2a1928ddd07d… 2020.03.26 66 MASCU… 1953.12.…
## # … with 41,171 more rows, and 3 more variables: DEPARTAMENTO <chr>,
## # PROVINCIA <chr>, DISTRITO <chr>
fallecidos_tidy <- fallecidos_covid %>%
separate(FECHA_NAC, into = c("year","month","day"), convert = TRUE)
filter(fallecidos_tidy, year == 1960)
## # A tibble: 765 x 11
## FECHA_CORTE UUID FECHA_FALLECIMI… EDAD_DECLARADA SEXO year month day
## <chr> <chr> <chr> <dbl> <chr> <int> <int> <int>
## 1 2021.01.31 65fd15ea… 2020.03.31 59 MASC… 1960 9 14
## 2 2021.01.31 8b2adda2… 2020.04.05 59 MASC… 1960 12 15
## 3 2021.01.31 66d84a8c… 2020.04.08 59 MASC… 1960 9 4
## 4 2021.01.31 34bb46c7… 2020.04.10 59 MASC… 1960 5 8
## 5 2021.01.31 7fab4db5… 2020.04.08 60 MASC… 1960 3 8
## 6 2021.01.31 4e87b895… 2020.04.10 59 MASC… 1960 6 20
## 7 2021.01.31 c1e407b4… 2020.04.09 59 MASC… 1960 6 28
## 8 2021.01.31 832e5f24… 2020.04.15 60 FEME… 1960 2 2
## 9 2021.01.31 aa146906… 2020.04.18 60 MASC… 1960 3 13
## 10 2021.01.31 f81212ce… 2020.04.17 59 MASC… 1960 7 20
## # … with 755 more rows, and 3 more variables: DEPARTAMENTO <chr>,
## # PROVINCIA <chr>, DISTRITO <chr>
765 fallecidos