library(tidyverse)
## ── Attaching packages ───────────────────────────────────────────────────────── tidyverse 1.2.1 ──
## ✔ ggplot2 3.1.1 ✔ purrr 0.3.2
## ✔ tibble 2.1.1 ✔ dplyr 0.8.1
## ✔ tidyr 0.8.3 ✔ stringr 1.4.0
## ✔ readr 1.3.1 ✔ forcats 0.4.0
## ── Conflicts ──────────────────────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
library(pdftools)
library(dslabs)
library(stringr)
options(digits = 3)
path <- system.file("extdata", package = "dslabs")
list.files(path)
## [1] "2010_bigfive_regents.xls"
## [2] "carbon_emissions.csv"
## [3] "fertility-two-countries-example.csv"
## [4] "HRlist2.txt"
## [5] "life-expectancy-and-fertility-two-countries-example.csv"
## [6] "murders.csv"
## [7] "olive.csv"
## [8] "RD-Mortality-Report_2015-18-180531.pdf"
## [9] "ssa-death-probability.csv"
We need the file: “RD-Mortality-Report_2015-18-180531.pdf”
filename <- system.file("extdata", "RD-Mortality-Report_2015-18-180531.pdf", package="dslabs")
system2("open", args = filename)
info <- filename %>% pdf_info()
info
## $version
## [1] "1.5"
##
## $pages
## [1] 12
##
## $encrypted
## [1] FALSE
##
## $linearized
## [1] FALSE
##
## $keys
## $keys$Author
## [1] "Maria M. Juiz Gallego"
##
## $keys$Producer
## [1] "Microsoft® Excel® 2010"
##
## $keys$Creator
## [1] "Microsoft® Excel® 2010"
##
##
## $created
## [1] "2018-06-04 13:34:53 PDT"
##
## $modified
## [1] "2018-06-04 13:34:53 PDT"
##
## $metadata
## [1] ""
##
## $locked
## [1] FALSE
##
## $attachments
## [1] FALSE
##
## $layout
## [1] "no_layout"
txt <- filename %>% pdf_text()
head(txt)
## [1] "6/4/2018 Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales\n JAN 2015 2016 2017 2018\n 1 107 89 107 95\n 2 101 88 108 107 Defunciones Ocurridas en Enero por Día y Año\n 3 78 79 115 92\n 140\n 4 121 90 81 108\n 5 99 80 79 94\n 120\n 6 104 96 90 87\n 7 79 92 116 97\n 100\n 8 73 77 108 85\n 9 90 86 81 91\n 80\n 10 75 90 85 89\n 11 88 86 77 94\n 60\n 12 85 81 75 92\n 13 74 79 84 107\n 40\n 14 98 87 103 90\n 15 88 94 104 93\n 20\n 16 111 99 103 103\n 17 92 92 85 83\n 0\n 18 90 83 94 96\n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31\n 19 101 81 91 75\n 20 98 100 88 99 Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales 2015 2016 2017 2018\n 21 105 81 102 91\n 22 71 87 90 95\n 23 82 92 95 67\n 24 84 100 87 93\n 25 83 92 96 86\n 26 83 98 94 93\n 27 73 91 81 86\n 28 87 98 99 91\n 29 73 92 97 88\n 30 78 90 97 82\n 31 73 72 82 72\nTotal 2744 2742 2894 2821\nAvg 89 88 93 91\nMax 121 100 116 108 NOTA:\nMin 71 77 75 67 * Año 2017 - Datos preliminares; archivo final en proceso operacional de revisión de calidad y validación.\nMed 88 90 94 92 ** Año 2018 - Datos preliminares; Certificados de Defunción registrados en sistema hasta 5/31/2018.\n"
## [2] "6/4/2018 Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales\n FEB 2015 2016 2017 2018\n 1 66 111 93 82\n 2 114 95 88 113 Defunciones Ocurridas en Febrero por Día y Año\n 3 95 119 68 93\n 140\n 4 87 89 76 76\n 5 84 109 71 67\n 120\n 6 93 87 81 90\n 7 79 94 94 79\n 100\n 8 94 94 82 81\n 9 80 79 105 104\n 80\n 10 77 102 79 99\n 11 109 92 89 86\n 60\n 12 93 88 86 85\n 13 86 97 67 89\n 40\n 14 67 84 86 91\n 15 79 93 85 86\n 20\n 16 101 78 73 83\n 17 81 85 86 78\n 0\n 18 75 79 87 76\n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29\n 19 94 107 89 87\n 20 79 72 84 71 Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales 2015 2016 2017 2018\n 21 71 83 78 85\n 22 90 83 81 89\n 23 85 83 79 81\n 24 95 102 82 96\n 25 93 73 75 97\n 26 77 82 76 95\n 27 66 93 91 99\n 28 93 69 84 90\n 29 70\nTotal 2403 2592 2315 2448\nAvg 86 89 83 87\nMax 114 119 105 113 NOTA:\nMin 66 69 67 67 * Año 2017 - Datos preliminares; archivo final en proceso operacional de revisión de calidad y validación.\nMed 86 88 83 87 ** Año 2018 - Datos preliminares; Certificados de Defunción registrados en sistema hasta 5/31/2018.\n"
## [3] "6/4/2018 Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales\n MAR 2015 2016 2017 2018\n 1 82 73 73 110\n 2 92 69 89 95 Defunciones Ocurridas en Marzo por Día y Año\n 3 95 67 57 103\n 140\n 4 77 88 90 85\n 5 75 77 92 94\n 120\n 6 90 69 78 90\n 7 76 85 78 80\n 100\n 8 80 80 81 79\n 9 68 69 93 79\n 80\n 10 80 77 97 84\n 11 79 84 95 96\n 60\n 12 72 72 81 94\n 13 80 85 89 99\n 40\n 14 67 83 69 94\n 15 71 77 69 85\n 20\n 16 89 80 82 92\n 17 75 69 91 63\n 0\n 18 82 77 70 78\n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31\n 19 92 95 82 81\n 20 76 94 82 79 Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales 2015 2016 2017 2018\n 21 81 90 76 85\n 22 62 83 89 80\n 23 79 82 73 95\n 24 64 81 78 79\n 25 75 86 88 81\n 26 77 82 80 66\n 27 73 78 88 83\n 28 76 70 67 80\n 29 86 78 73 65\n 30 94 77 72 89\n 31 62 81 72 80\nTotal 2427 2458 2494 2643\nAvg 78 79 80 85\nMax 95 95 97 110 NOTA:\nMin 62 67 57 63 * Año 2017 - Datos preliminares; archivo final en proceso operacional de revisión de calidad y validación.\nMed 78 79 81 85 ** Año 2018 - Datos preliminares; Certificados de Defunción registrados en sistema hasta 5/31/2018.\n"
## [4] "6/4/2018 Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales\n APR 2015 2016 2017 2018\n 1 70 79 89 87\n 2 85 53 94 65 Defunciones Ocurridas en Abril por Día y Año\n 3 80 77 81 67\n 140\n 4 88 92 92 88\n 5 84 75 57 93\n 120\n 6 82 68 72 84\n 7 66 84 80 76\n 100\n 8 57 88 88 67\n 9 73 65 86 78\n 80\n 10 66 73 88 68\n 11 80 83 86 75\n 60\n 12 93 65 82 77\n 13 74 68 74 78\n 40\n 14 71 84 77 67\n 15 86 74 74 75\n 20\n 16 79 80 80 66\n 17 74 77 79 70\n 0\n 18 71 82 73 80\n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30\n 19 74 62 82 72\n 20 66 75 84 67 Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales 2015 2016 2017 2018\n 21 73 73 70 70\n 22 71 64 71 71\n 23 70 88 84 67\n 24 67 73 73 53\n 25 80 81 90 77\n 26 72 68 81 77\n 27 69 76 65 69\n 28 87 73 64 80\n 29 67 77 97 82\n 30 84 64 79 72\nTotal 2259 2241 2392 2218\nAvg 75 75 80 74\nMax 93 92 97 93 NOTA:\nMin 57 53 57 53 * Año 2017 - Datos preliminares; archivo final en proceso operacional de revisión de calidad y validación.\nMed 74 75 81 74 ** Año 2018 - Datos preliminares; Certificados de Defunción registrados en sistema hasta 5/31/2018.\n"
## [5] "6/4/2018 Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales\n MAY 2015 2016 2017 2018\n 1 66 74 62 83\n 2 87 59 93 65 Defunciones Ocurridas en Mayo por Día y Año\n 3 77 74 73 71\n 140\n 4 70 53 80 67\n 5 81 84 62 82\n 120\n 6 89 68 59 82\n 7 82 71 87 78\n 100\n 8 79 79 70 83\n 9 85 80 87 66\n 80\n 10 84 81 57 80\n 11 78 68 69 80\n 60\n 12 64 85 78 81\n 13 66 69 86 74\n 40\n 14 74 62 81 68\n 15 81 76 85 73\n 20\n 16 71 67 94 59\n 17 78 67 85 72\n 0\n 18 70 83 74 73\n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31\n 19 71 72 77 62\n 20 78 89 70 65 Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales 2015 2016 2017 2018\n 21 88 78 83 63\n 22 64 81 84 57\n 23 65 87 68 61\n 24 87 85 81 38\n 25 57 82 83 60\n 26 90 67 91 46\n 27 65 80 88 47\n 28 64 69 62 29\n 29 79 77 72 19\n 30 66 69 71 8\n 31 84 76 78 0\nTotal 2340 2312 2390 1892\nAvg 75 75 77 61\nMax 90 89 94 119 NOTA:\nMin 57 53 57 119 * Año 2017 - Datos preliminares; archivo final en proceso operacional de revisión de calidad y validación.\nMed 78 75 79 121 ** Año 2018 - Datos preliminares; Certificados de Defunción registrados en sistema hasta 5/31/2018.\n"
## [6] "6/4/2018 Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales\n JUN 2015 2016 2017 2018\n 1 68 74 75 0\n 2 76 71 75 0 Defunciones Ocurridas en Junio por Día y Año\n 3 62 70 82 0\n 140\n 4 65 102 83 0\n 5 82 80 78 0\n 120\n 6 79 84 70 0\n 7 59 74 96 0\n 100\n 8 65 77 65 0\n 9 66 76 61 0\n 80\n 10 80 77 72 0\n 11 58 97 79 0\n 60\n 12 74 70 95 0\n 13 76 81 80 0\n 40\n 14 61 90 82 0\n 15 78 66 77 0\n 20\n 16 69 93 97 0\n 17 87 68 80 0\n 0\n 18 71 90 74 0\n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30\n 19 81 77 79 0\n 20 65 83 76 0 Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales 2015 2016 2017 2018\n 21 79 70 75 0\n 22 82 76 77 0\n 23 73 67 83 0\n 24 81 77 86 0\n 25 66 77 88 0\n 26 84 71 82 0\n 27 69 85 74 0\n 28 64 82 88 0\n 29 61 77 62 0\n 30 64 73 78 0\nTotal 2145 2355 2369 0\nAvg 72 79 79 NOTA:\nMax 87 102 97 * Año 2017 - Datos preliminares; archivo final en proceso operacional de revisión de calidad y validación.\nMin 58 66 61 ** Año 2018 - Datos preliminares; Certificados de Defunción registrados en sistema hasta 5/31/2018.\nMed 70 77 79\n"
txt[9]
## [1] "6/4/2018 Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales\nSEP 2015 2016 2017 2018\n 1 75 75 94 0\n 2 77 67 69 0 Defunciones Ocurridas en Septiembre por Día y Año\n 3 67 78 80 0\n 140\n 4 71 99 84 0\n 5 62 89 74 0\n 120\n 6 77 74 83 0\n 7 85 67 87 0\n 8 84 77 94 0 100\n 9 79 90 72 0\n 10 66 73 98 0 80\n 11 92 78 92 0\n 12 79 66 80 0 60\n 13 81 88 100 0\n 14 70 81 79 0 40\n 15 87 91 84 0\n 16 70 71 80 0 20\n 17 70 68 88 0\n 18 76 79 78 0 0\n 19 81 82 75 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30\n 20 69 79 106 0 Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales 2015 2016 2017 2018\n 21 70 67 124 0\n 22 68 97 110 0\n 23 70 71 109 0\n 24 78 79 122 0\n 25 60 75 137 0\n 26 76 82 132 0\n 27 78 82 122 0\n 28 84 81 112 0\n 29 83 70 131 0\n 30 73 91 132 0\nTotal 2258 2367 2928 0\nAvg 75 79 98 0\nMax 92 99 137 0 NOTA:\nMin 60 66 69 0 * Año 2017 - Datos preliminares; archivo final en proceso operacional de revisión de calidad y validación.\nMed 76 78.5 93 0 ** Año 2018 - Datos preliminares; Certificados de Defunción registrados en sistema hasta 5/31/2018.\n"
We are going to need element[9] only for the purpose of this analysis
x <- txt[9] %>% str_split(pattern = "\n")
x
## [[1]]
## [1] "6/4/2018 Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales"
## [2] "SEP 2015 2016 2017 2018"
## [3] " 1 75 75 94 0"
## [4] " 2 77 67 69 0 Defunciones Ocurridas en Septiembre por Día y Año"
## [5] " 3 67 78 80 0"
## [6] " 140"
## [7] " 4 71 99 84 0"
## [8] " 5 62 89 74 0"
## [9] " 120"
## [10] " 6 77 74 83 0"
## [11] " 7 85 67 87 0"
## [12] " 8 84 77 94 0 100"
## [13] " 9 79 90 72 0"
## [14] " 10 66 73 98 0 80"
## [15] " 11 92 78 92 0"
## [16] " 12 79 66 80 0 60"
## [17] " 13 81 88 100 0"
## [18] " 14 70 81 79 0 40"
## [19] " 15 87 91 84 0"
## [20] " 16 70 71 80 0 20"
## [21] " 17 70 68 88 0"
## [22] " 18 76 79 78 0 0"
## [23] " 19 81 82 75 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30"
## [24] " 20 69 79 106 0 Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales 2015 2016 2017 2018"
## [25] " 21 70 67 124 0"
## [26] " 22 68 97 110 0"
## [27] " 23 70 71 109 0"
## [28] " 24 78 79 122 0"
## [29] " 25 60 75 137 0"
## [30] " 26 76 82 132 0"
## [31] " 27 78 82 122 0"
## [32] " 28 84 81 112 0"
## [33] " 29 83 70 131 0"
## [34] " 30 73 91 132 0"
## [35] "Total 2258 2367 2928 0"
## [36] "Avg 75 79 98 0"
## [37] "Max 92 99 137 0 NOTA:"
## [38] "Min 60 66 69 0 * Año 2017 - Datos preliminares; archivo final en proceso operacional de revisión de calidad y validación."
## [39] "Med 76 78.5 93 0 ** Año 2018 - Datos preliminares; Certificados de Defunción registrados en sistema hasta 5/31/2018."
## [40] ""
s <- x[[1]]
s
## [1] "6/4/2018 Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales"
## [2] "SEP 2015 2016 2017 2018"
## [3] " 1 75 75 94 0"
## [4] " 2 77 67 69 0 Defunciones Ocurridas en Septiembre por Día y Año"
## [5] " 3 67 78 80 0"
## [6] " 140"
## [7] " 4 71 99 84 0"
## [8] " 5 62 89 74 0"
## [9] " 120"
## [10] " 6 77 74 83 0"
## [11] " 7 85 67 87 0"
## [12] " 8 84 77 94 0 100"
## [13] " 9 79 90 72 0"
## [14] " 10 66 73 98 0 80"
## [15] " 11 92 78 92 0"
## [16] " 12 79 66 80 0 60"
## [17] " 13 81 88 100 0"
## [18] " 14 70 81 79 0 40"
## [19] " 15 87 91 84 0"
## [20] " 16 70 71 80 0 20"
## [21] " 17 70 68 88 0"
## [22] " 18 76 79 78 0 0"
## [23] " 19 81 82 75 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30"
## [24] " 20 69 79 106 0 Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales 2015 2016 2017 2018"
## [25] " 21 70 67 124 0"
## [26] " 22 68 97 110 0"
## [27] " 23 70 71 109 0"
## [28] " 24 78 79 122 0"
## [29] " 25 60 75 137 0"
## [30] " 26 76 82 132 0"
## [31] " 27 78 82 122 0"
## [32] " 28 84 81 112 0"
## [33] " 29 83 70 131 0"
## [34] " 30 73 91 132 0"
## [35] "Total 2258 2367 2928 0"
## [36] "Avg 75 79 98 0"
## [37] "Max 92 99 137 0 NOTA:"
## [38] "Min 60 66 69 0 * Año 2017 - Datos preliminares; archivo final en proceso operacional de revisión de calidad y validación."
## [39] "Med 76 78.5 93 0 ** Año 2018 - Datos preliminares; Certificados de Defunción registrados en sistema hasta 5/31/2018."
## [40] ""
length(s)
## [1] 40
s <- s %>% str_trim(side = "both")
s[end(s[1])[1]]
## [1] "6/4/2018 Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales"
header_index <- s %>% str_which(pattern = "2015")
str(header_index)
## int [1:2] 2 24
header <- s[2]
#header
header <- gsub("\\s+", " ", header)
#header
header <- str_split(header, " ", simplify = TRUE)
#header
month <- header[1,1]
header <- header[,2:5]
month
## [1] "SEP"
header
## [1] "2015" "2016" "2017" "2018"
s
## [1] "6/4/2018 Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales"
## [2] "SEP 2015 2016 2017 2018"
## [3] "1 75 75 94 0"
## [4] "2 77 67 69 0 Defunciones Ocurridas en Septiembre por Día y Año"
## [5] "3 67 78 80 0"
## [6] "140"
## [7] "4 71 99 84 0"
## [8] "5 62 89 74 0"
## [9] "120"
## [10] "6 77 74 83 0"
## [11] "7 85 67 87 0"
## [12] "8 84 77 94 0 100"
## [13] "9 79 90 72 0"
## [14] "10 66 73 98 0 80"
## [15] "11 92 78 92 0"
## [16] "12 79 66 80 0 60"
## [17] "13 81 88 100 0"
## [18] "14 70 81 79 0 40"
## [19] "15 87 91 84 0"
## [20] "16 70 71 80 0 20"
## [21] "17 70 68 88 0"
## [22] "18 76 79 78 0 0"
## [23] "19 81 82 75 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30"
## [24] "20 69 79 106 0 Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales 2015 2016 2017 2018"
## [25] "21 70 67 124 0"
## [26] "22 68 97 110 0"
## [27] "23 70 71 109 0"
## [28] "24 78 79 122 0"
## [29] "25 60 75 137 0"
## [30] "26 76 82 132 0"
## [31] "27 78 82 122 0"
## [32] "28 84 81 112 0"
## [33] "29 83 70 131 0"
## [34] "30 73 91 132 0"
## [35] "Total 2258 2367 2928 0"
## [36] "Avg 75 79 98 0"
## [37] "Max 92 99 137 0 NOTA:"
## [38] "Min 60 66 69 0 * Año 2017 - Datos preliminares; archivo final en proceso operacional de revisión de calidad y validación."
## [39] "Med 76 78.5 93 0 ** Año 2018 - Datos preliminares; Certificados de Defunción registrados en sistema hasta 5/31/2018."
## [40] ""
tail_index <- s %>% str_which(pattern = "Total")
tail_index
## [1] 35
nn <- str_count(s, "\\d+")
nn
## [1] 3 4 5 5 5 1 5 5 1 5 5 6 5 6 5 6 5 6 5 6 5 6 35
## [24] 9 5 5 5 5 5 5 5 5 5 5 4 4 4 5 9 0
ind <- str_which(nn, "1")
ind
## [1] 6 9
n <- sum(str_count(nn, "1"))
n # number of rows that have a signle number in them
## [1] 2
Removing the rows we don’t need for analysis
# Q10
s
## [1] "6/4/2018 Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales"
## [2] "SEP 2015 2016 2017 2018"
## [3] "1 75 75 94 0"
## [4] "2 77 67 69 0 Defunciones Ocurridas en Septiembre por Día y Año"
## [5] "3 67 78 80 0"
## [6] "140"
## [7] "4 71 99 84 0"
## [8] "5 62 89 74 0"
## [9] "120"
## [10] "6 77 74 83 0"
## [11] "7 85 67 87 0"
## [12] "8 84 77 94 0 100"
## [13] "9 79 90 72 0"
## [14] "10 66 73 98 0 80"
## [15] "11 92 78 92 0"
## [16] "12 79 66 80 0 60"
## [17] "13 81 88 100 0"
## [18] "14 70 81 79 0 40"
## [19] "15 87 91 84 0"
## [20] "16 70 71 80 0 20"
## [21] "17 70 68 88 0"
## [22] "18 76 79 78 0 0"
## [23] "19 81 82 75 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30"
## [24] "20 69 79 106 0 Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales 2015 2016 2017 2018"
## [25] "21 70 67 124 0"
## [26] "22 68 97 110 0"
## [27] "23 70 71 109 0"
## [28] "24 78 79 122 0"
## [29] "25 60 75 137 0"
## [30] "26 76 82 132 0"
## [31] "27 78 82 122 0"
## [32] "28 84 81 112 0"
## [33] "29 83 70 131 0"
## [34] "30 73 91 132 0"
## [35] "Total 2258 2367 2928 0"
## [36] "Avg 75 79 98 0"
## [37] "Max 92 99 137 0 NOTA:"
## [38] "Min 60 66 69 0 * Año 2017 - Datos preliminares; archivo final en proceso operacional de revisión de calidad y validación."
## [39] "Med 76 78.5 93 0 ** Año 2018 - Datos preliminares; Certificados de Defunción registrados en sistema hasta 5/31/2018."
## [40] ""
s <- s[!s %in% c(s[1], s[2], s[tail_index:40], s[6], s[9])]
s
## [1] "1 75 75 94 0"
## [2] "2 77 67 69 0 Defunciones Ocurridas en Septiembre por Día y Año"
## [3] "3 67 78 80 0"
## [4] "4 71 99 84 0"
## [5] "5 62 89 74 0"
## [6] "6 77 74 83 0"
## [7] "7 85 67 87 0"
## [8] "8 84 77 94 0 100"
## [9] "9 79 90 72 0"
## [10] "10 66 73 98 0 80"
## [11] "11 92 78 92 0"
## [12] "12 79 66 80 0 60"
## [13] "13 81 88 100 0"
## [14] "14 70 81 79 0 40"
## [15] "15 87 91 84 0"
## [16] "16 70 71 80 0 20"
## [17] "17 70 68 88 0"
## [18] "18 76 79 78 0 0"
## [19] "19 81 82 75 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30"
## [20] "20 69 79 106 0 Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales 2015 2016 2017 2018"
## [21] "21 70 67 124 0"
## [22] "22 68 97 110 0"
## [23] "23 70 71 109 0"
## [24] "24 78 79 122 0"
## [25] "25 60 75 137 0"
## [26] "26 76 82 132 0"
## [27] "27 78 82 122 0"
## [28] "28 84 81 112 0"
## [29] "29 83 70 131 0"
## [30] "30 73 91 132 0"
s <- str_remove_all(s, "[^\\d\\s]")
s
## [1] "1 75 75 94 0"
## [2] "2 77 67 69 0 "
## [3] "3 67 78 80 0"
## [4] "4 71 99 84 0"
## [5] "5 62 89 74 0"
## [6] "6 77 74 83 0"
## [7] "7 85 67 87 0"
## [8] "8 84 77 94 0 100"
## [9] "9 79 90 72 0"
## [10] "10 66 73 98 0 80"
## [11] "11 92 78 92 0"
## [12] "12 79 66 80 0 60"
## [13] "13 81 88 100 0"
## [14] "14 70 81 79 0 40"
## [15] "15 87 91 84 0"
## [16] "16 70 71 80 0 20"
## [17] "17 70 68 88 0"
## [18] "18 76 79 78 0 0"
## [19] "19 81 82 75 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30"
## [20] "20 69 79 106 0 2015 2016 2017 2018"
## [21] "21 70 67 124 0"
## [22] "22 68 97 110 0"
## [23] "23 70 71 109 0"
## [24] "24 78 79 122 0"
## [25] "25 60 75 137 0"
## [26] "26 76 82 132 0"
## [27] "27 78 82 122 0"
## [28] "28 84 81 112 0"
## [29] "29 83 70 131 0"
## [30] "30 73 91 132 0"
s <- str_split_fixed(s, "\\s+", n = 6)[,1:5]
Change column names and convert values from factor to number
tab <- as.data.frame(s)
colnames(tab) <- c("day", "2015", "2016", "2017", "2018")
indx <- sapply(tab, is.factor)
tab[indx] <- lapply(tab[indx], function(x) as.numeric(as.character(x)))
tab
## day 2015 2016 2017 2018
## 1 1 75 75 94 0
## 2 2 77 67 69 0
## 3 3 67 78 80 0
## 4 4 71 99 84 0
## 5 5 62 89 74 0
## 6 6 77 74 83 0
## 7 7 85 67 87 0
## 8 8 84 77 94 0
## 9 9 79 90 72 0
## 10 10 66 73 98 0
## 11 11 92 78 92 0
## 12 12 79 66 80 0
## 13 13 81 88 100 0
## 14 14 70 81 79 0
## 15 15 87 91 84 0
## 16 16 70 71 80 0
## 17 17 70 68 88 0
## 18 18 76 79 78 0
## 19 19 81 82 75 0
## 20 20 69 79 106 0
## 21 21 70 67 124 0
## 22 22 68 97 110 0
## 23 23 70 71 109 0
## 24 24 78 79 122 0
## 25 25 60 75 137 0
## 26 26 76 82 132 0
## 27 27 78 82 122 0
## 28 28 84 81 112 0
## 29 29 83 70 131 0
## 30 30 73 91 132 0
Now we have a tidy data
# mean no of deaths per day in 2015
summarise_each(tab[2:4], funs(mean))
## Warning: funs() is soft deprecated as of dplyr 0.8.0
## please use list() instead
##
## # Before:
## funs(name = f(.))
##
## # After:
## list(name = ~ f(.))
## This warning is displayed once per session.
## 2015 2016 2017
## 1 75.3 78.9 97.6
avg2015 <- mean(tab$`2015`)
avg2015
## [1] 75.3
avg2016 <- mean(tab$`2016`)
avg2016
## [1] 78.9
avg2017beforeMaria <- mean(tab$`2017`[1:19])
avg2017beforeMaria
## [1] 83.7
avg2017afterMaria <- mean(tab$`2017`[20:30])
avg2017afterMaria
## [1] 122
The way we calculated the mean for 2017 is different than summarise_each() function, hence different results for 2017. We divided 2017 data into 2 pieces: rows 1:19 from before the hurricane and rows 20:30 from after hurricane.
Calculate the total number of deaths per day per year for the month of Sep
tab <- tab %>% gather(year, deaths, -day) %>%
mutate(deaths = as.numeric(deaths))
tab
## day year deaths
## 1 1 2015 75
## 2 2 2015 77
## 3 3 2015 67
## 4 4 2015 71
## 5 5 2015 62
## 6 6 2015 77
## 7 7 2015 85
## 8 8 2015 84
## 9 9 2015 79
## 10 10 2015 66
## 11 11 2015 92
## 12 12 2015 79
## 13 13 2015 81
## 14 14 2015 70
## 15 15 2015 87
## 16 16 2015 70
## 17 17 2015 70
## 18 18 2015 76
## 19 19 2015 81
## 20 20 2015 69
## 21 21 2015 70
## 22 22 2015 68
## 23 23 2015 70
## 24 24 2015 78
## 25 25 2015 60
## 26 26 2015 76
## 27 27 2015 78
## 28 28 2015 84
## 29 29 2015 83
## 30 30 2015 73
## 31 1 2016 75
## 32 2 2016 67
## 33 3 2016 78
## 34 4 2016 99
## 35 5 2016 89
## 36 6 2016 74
## 37 7 2016 67
## 38 8 2016 77
## 39 9 2016 90
## 40 10 2016 73
## 41 11 2016 78
## 42 12 2016 66
## 43 13 2016 88
## 44 14 2016 81
## 45 15 2016 91
## 46 16 2016 71
## 47 17 2016 68
## 48 18 2016 79
## 49 19 2016 82
## 50 20 2016 79
## 51 21 2016 67
## 52 22 2016 97
## 53 23 2016 71
## 54 24 2016 79
## 55 25 2016 75
## 56 26 2016 82
## 57 27 2016 82
## 58 28 2016 81
## 59 29 2016 70
## 60 30 2016 91
## 61 1 2017 94
## 62 2 2017 69
## 63 3 2017 80
## 64 4 2017 84
## 65 5 2017 74
## 66 6 2017 83
## 67 7 2017 87
## 68 8 2017 94
## 69 9 2017 72
## 70 10 2017 98
## 71 11 2017 92
## 72 12 2017 80
## 73 13 2017 100
## 74 14 2017 79
## 75 15 2017 84
## 76 16 2017 80
## 77 17 2017 88
## 78 18 2017 78
## 79 19 2017 75
## 80 20 2017 106
## 81 21 2017 124
## 82 22 2017 110
## 83 23 2017 109
## 84 24 2017 122
## 85 25 2017 137
## 86 26 2017 132
## 87 27 2017 122
## 88 28 2017 112
## 89 29 2017 131
## 90 30 2017 132
## 91 1 2018 0
## 92 2 2018 0
## 93 3 2018 0
## 94 4 2018 0
## 95 5 2018 0
## 96 6 2018 0
## 97 7 2018 0
## 98 8 2018 0
## 99 9 2018 0
## 100 10 2018 0
## 101 11 2018 0
## 102 12 2018 0
## 103 13 2018 0
## 104 14 2018 0
## 105 15 2018 0
## 106 16 2018 0
## 107 17 2018 0
## 108 18 2018 0
## 109 19 2018 0
## 110 20 2018 0
## 111 21 2018 0
## 112 22 2018 0
## 113 23 2018 0
## 114 24 2018 0
## 115 25 2018 0
## 116 26 2018 0
## 117 27 2018 0
## 118 28 2018 0
## 119 29 2018 0
## 120 30 2018 0
Plot the deaths
tab %>% ggplot(mapping = aes(day, deaths, color = year)) +
geom_point() +
geom_line() +
geom_vline(xintercept = 20)
From the plot you can tell: September 2015 and 2016 deaths by day are roughly equal to each other. After the hurricane in September 2017, there were over 100 deaths per day every day for the rest of the month. No days before September 20, 2017 have over 100 deaths per day.