library(tidyverse)
## ── Attaching packages ───────────────────────────────────────────────────────── tidyverse 1.2.1 ──
## ✔ ggplot2 3.1.1     ✔ purrr   0.3.2
## ✔ tibble  2.1.1     ✔ dplyr   0.8.1
## ✔ tidyr   0.8.3     ✔ stringr 1.4.0
## ✔ readr   1.3.1     ✔ forcats 0.4.0
## ── Conflicts ──────────────────────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
library(pdftools)
library(dslabs)
library(stringr)
options(digits = 3)
path <- system.file("extdata", package = "dslabs")
list.files(path)
## [1] "2010_bigfive_regents.xls"                               
## [2] "carbon_emissions.csv"                                   
## [3] "fertility-two-countries-example.csv"                    
## [4] "HRlist2.txt"                                            
## [5] "life-expectancy-and-fertility-two-countries-example.csv"
## [6] "murders.csv"                                            
## [7] "olive.csv"                                              
## [8] "RD-Mortality-Report_2015-18-180531.pdf"                 
## [9] "ssa-death-probability.csv"

We need the file: “RD-Mortality-Report_2015-18-180531.pdf”

filename <- system.file("extdata", "RD-Mortality-Report_2015-18-180531.pdf", package="dslabs")
system2("open", args = filename)
info <- filename %>% pdf_info()
info
## $version
## [1] "1.5"
## 
## $pages
## [1] 12
## 
## $encrypted
## [1] FALSE
## 
## $linearized
## [1] FALSE
## 
## $keys
## $keys$Author
## [1] "Maria M. Juiz Gallego"
## 
## $keys$Producer
## [1] "Microsoft® Excel® 2010"
## 
## $keys$Creator
## [1] "Microsoft® Excel® 2010"
## 
## 
## $created
## [1] "2018-06-04 13:34:53 PDT"
## 
## $modified
## [1] "2018-06-04 13:34:53 PDT"
## 
## $metadata
## [1] ""
## 
## $locked
## [1] FALSE
## 
## $attachments
## [1] FALSE
## 
## $layout
## [1] "no_layout"
txt <- filename %>% pdf_text()
head(txt)
## [1] "6/4/2018                       Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales\n JAN   2015  2016  2017  2018\n    1    107    89   107    95\n    2    101    88   108   107                                                                        Defunciones Ocurridas en Enero por Día y Año\n    3     78    79   115    92\n                                    140\n    4    121    90    81   108\n    5     99    80    79    94\n                                    120\n    6    104    96    90    87\n    7     79    92   116    97\n                                    100\n    8     73    77   108    85\n    9     90    86    81    91\n                                     80\n   10     75    90    85    89\n   11     88    86    77    94\n                                     60\n   12     85    81    75    92\n   13     74    79    84   107\n                                     40\n   14     98    87   103    90\n   15     88    94   104    93\n                                     20\n   16    111    99   103   103\n   17     92    92    85    83\n                                      0\n   18     90    83    94    96\n                                             1      2   3      4       5      6     7      8       9     10  11 12   13 14  15  16 17   18 19   20 21 22 23 24 25 26 27 28 29 30 31\n   19    101    81    91    75\n   20     98   100    88    99     Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales       2015    2016    2017      2018\n   21    105    81   102    91\n   22     71    87    90    95\n   23     82    92    95    67\n   24     84   100    87    93\n   25     83    92    96    86\n   26     83    98    94    93\n   27     73    91    81    86\n   28     87    98    99    91\n   29     73    92    97    88\n   30     78    90    97    82\n   31     73    72    82    72\nTotal   2744  2742  2894  2821\nAvg       89    88    93    91\nMax      121   100   116   108   NOTA:\nMin       71    77    75    67   * Año 2017 - Datos preliminares; archivo final en proceso operacional de revisión de calidad y validación.\nMed       88    90    94    92   ** Año 2018 - Datos preliminares; Certificados de Defunción registrados en sistema hasta 5/31/2018.\n"        
## [2] "6/4/2018                       Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales\n FEB   2015  2016  2017  2018\n    1     66   111    93    82\n    2    114    95    88   113                                                                      Defunciones Ocurridas en Febrero por Día y Año\n    3     95   119    68    93\n                                    140\n    4     87    89    76    76\n    5     84   109    71    67\n                                    120\n    6     93    87    81    90\n    7     79    94    94    79\n                                    100\n    8     94    94    82    81\n    9     80    79   105   104\n                                     80\n   10     77   102    79    99\n   11    109    92    89    86\n                                     60\n   12     93    88    86    85\n   13     86    97    67    89\n                                     40\n   14     67    84    86    91\n   15     79    93    85    86\n                                     20\n   16    101    78    73    83\n   17     81    85    86    78\n                                      0\n   18     75    79    87    76\n                                             1      2    3       4       5      6       7      8       9    10 11  12  13  14  15 16   17   18    19 20 21 22 23 24 25 26 27 28 29\n   19     94   107    89    87\n   20     79    72    84    71    Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales       2015    2016    2017       2018\n   21     71    83    78    85\n   22     90    83    81    89\n   23     85    83    79    81\n   24     95   102    82    96\n   25     93    73    75    97\n   26     77    82    76    95\n   27     66    93    91    99\n   28     93    69    84    90\n   29           70\nTotal   2403  2592  2315  2448\nAvg       86    89    83    87\nMax      114   119   105   113   NOTA:\nMin       66    69    67    67   * Año 2017 - Datos preliminares; archivo final en proceso operacional de revisión de calidad y validación.\nMed       86    88    83    87   ** Año 2018 - Datos preliminares; Certificados de Defunción registrados en sistema hasta 5/31/2018.\n"                                                                                     
## [3] "6/4/2018                       Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales\n MAR   2015  2016  2017  2018\n    1     82    73    73   110\n    2     92    69    89    95                                                                        Defunciones Ocurridas en Marzo por Día y Año\n    3     95    67    57   103\n                                    140\n    4     77    88    90    85\n    5     75    77    92    94\n                                    120\n    6     90    69    78    90\n    7     76    85    78    80\n                                    100\n    8     80    80    81    79\n    9     68    69    93    79\n                                      80\n   10     80    77    97    84\n   11     79    84    95    96\n                                      60\n   12     72    72    81    94\n   13     80    85    89    99\n                                      40\n   14     67    83    69    94\n   15     71    77    69    85\n                                      20\n   16     89    80    82    92\n   17     75    69    91    63\n                                       0\n   18     82    77    70    78\n                                             1      2    3      4       5     6      7      8      9      10 11 12   13 14  15  16 17    18 19   20 21 22 23 24 25 26 27 28 29 30 31\n   19     92    95    82    81\n   20     76    94    82    79     Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales       2015    2016     2017      2018\n   21     81    90    76    85\n   22     62    83    89    80\n   23     79    82    73    95\n   24     64    81    78    79\n   25     75    86    88    81\n   26     77    82    80    66\n   27     73    78    88    83\n   28     76    70    67    80\n   29     86    78    73    65\n   30     94    77    72    89\n   31     62    81    72    80\nTotal   2427  2458  2494  2643\nAvg       78    79    80    85\nMax       95    95    97   110   NOTA:\nMin       62    67    57    63   * Año 2017 - Datos preliminares; archivo final en proceso operacional de revisión de calidad y validación.\nMed       78    79    81    85   ** Año 2018 - Datos preliminares; Certificados de Defunción registrados en sistema hasta 5/31/2018.\n" 
## [4] "6/4/2018                       Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales\n APR   2015  2016  2017  2018\n    1     70    79    89    87\n    2     85    53    94    65                                                                         Defunciones Ocurridas en Abril por Día y Año\n    3     80    77    81    67\n                                   140\n    4     88    92    92    88\n    5     84    75    57    93\n                                   120\n    6     82    68    72    84\n    7     66    84    80    76\n                                   100\n    8     57    88    88    67\n    9     73    65    86    78\n                                    80\n   10     66    73    88    68\n   11     80    83    86    75\n                                    60\n   12     93    65    82    77\n   13     74    68    74    78\n                                    40\n   14     71    84    77    67\n   15     86    74    74    75\n                                    20\n   16     79    80    80    66\n   17     74    77    79    70\n                                     0\n   18     71    82    73    80\n                                            1      2    3       4       5     6      7      8       9     10 11 12    13 14   15 16   17 18  19  20 21 22 23 24 25 26 27 28 29 30\n   19     74    62    82    72\n   20     66    75    84    67    Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales      2015      2016     2017    2018\n   21     73    73    70    70\n   22     71    64    71    71\n   23     70    88    84    67\n   24     67    73    73    53\n   25     80    81    90    77\n   26     72    68    81    77\n   27     69    76    65    69\n   28     87    73    64    80\n   29     67    77    97    82\n   30     84    64    79    72\nTotal   2259  2241  2392  2218\nAvg       75    75    80    74\nMax       93    92    97    93   NOTA:\nMin       57    53    57    53   * Año 2017 - Datos preliminares; archivo final en proceso operacional de revisión de calidad y validación.\nMed       74    75    81    74   ** Año 2018 - Datos preliminares; Certificados de Defunción registrados en sistema hasta 5/31/2018.\n"                                                  
## [5] "6/4/2018                        Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales\n MAY   2015  2016  2017  2018\n    1     66    74    62    83\n    2     87    59    93    65                                                                         Defunciones Ocurridas en Mayo por Día y Año\n    3     77    74    73    71\n                                    140\n    4     70    53    80    67\n    5     81    84    62    82\n                                    120\n    6     89    68    59    82\n    7     82    71    87    78\n                                    100\n    8     79    79    70    83\n    9     85    80    87    66\n                                     80\n   10     84    81    57    80\n   11     78    68    69    80\n                                     60\n   12     64    85    78    81\n   13     66    69    86    74\n                                     40\n   14     74    62    81    68\n   15     81    76    85    73\n                                     20\n   16     71    67    94    59\n   17     78    67    85    72\n                                      0\n   18     70    83    74    73\n                                             1      2    3      4       5     6      7      8      9      10 11 12   13 14  15  16 17   18 19   20 21 22 23 24 25 26 27 28 29 30 31\n   19     71    72    77    62\n   20     78    89    70    65     Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales       2015    2016    2017      2018\n   21     88    78    83    63\n   22     64    81    84    57\n   23     65    87    68    61\n   24     87    85    81    38\n   25     57    82    83    60\n   26     90    67    91    46\n   27     65    80    88    47\n   28     64    69    62    29\n   29     79    77    72    19\n   30     66    69    71      8\n   31     84    76    78      0\nTotal   2340  2312  2390  1892\nAvg       75    75    77    61\nMax       90    89    94   119    NOTA:\nMin       57    53    57   119    * Año 2017 - Datos preliminares; archivo final en proceso operacional de revisión de calidad y validación.\nMed       78    75    79   121    ** Año 2018 - Datos preliminares; Certificados de Defunción registrados en sistema hasta 5/31/2018.\n"  
## [6] "6/4/2018                        Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales\n JUN   2015  2016  2017  2018\n    1     68    74    75      0\n    2     76    71    75      0                                                                         Defunciones Ocurridas en Junio por Día y Año\n    3     62    70    82      0\n                                     140\n    4     65   102    83      0\n    5     82    80    78      0\n                                     120\n    6     79    84    70      0\n    7     59    74    96      0\n                                     100\n    8     65    77    65      0\n    9     66    76    61      0\n                                      80\n   10     80    77    72      0\n   11     58    97    79      0\n                                      60\n   12     74    70    95      0\n   13     76    81    80      0\n                                      40\n   14     61    90    82      0\n   15     78    66    77      0\n                                      20\n   16     69    93    97      0\n   17     87    68    80      0\n                                       0\n   18     71    90    74      0\n                                             1       2    3       4      5      6      7      8      9       10 11 12    13 14   15 16   17 18  19  20 21 22 23 24 25 26 27 28 29 30\n   19     81    77    79      0\n   20     65    83    76      0    Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales        2015      2016     2017    2018\n   21     79    70    75      0\n   22     82    76    77      0\n   23     73    67    83      0\n   24     81    77    86      0\n   25     66    77    88      0\n   26     84    71    82      0\n   27     69    85    74      0\n   28     64    82    88      0\n   29     61    77    62      0\n   30     64    73    78      0\nTotal   2145  2355  2369      0\nAvg       72    79    79          NOTA:\nMax       87   102    97          * Año 2017 - Datos preliminares; archivo final en proceso operacional de revisión de calidad y validación.\nMin       58    66    61          ** Año 2018 - Datos preliminares; Certificados de Defunción registrados en sistema hasta 5/31/2018.\nMed       70    77    79\n"
txt[9]
## [1] "6/4/2018                               Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales\nSEP    2015  2016   2017  2018\n    1     75    75     94      0\n    2     77    67     69      0                                                                      Defunciones Ocurridas en Septiembre por Día y Año\n    3     67    78     80      0\n                                   140\n    4     71    99     84      0\n    5     62    89     74      0\n                                   120\n    6     77    74     83      0\n    7     85    67     87      0\n    8     84    77     94      0   100\n    9     79    90     72      0\n   10     66    73     98      0    80\n   11     92    78     92      0\n   12     79    66     80      0    60\n   13     81    88    100      0\n   14     70    81     79      0    40\n   15     87    91     84      0\n   16     70    71     80      0    20\n   17     70    68     88      0\n   18     76    79     78      0      0\n   19     81    82     75      0            1       2    3        4      5      6       7       8       9    10 11 12    13 14    15 16    17 18   19 20 21 22 23 24 25 26 27 28 29 30\n   20     69    79    106      0   Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales         2015      2016     2017     2018\n   21     70    67    124      0\n   22     68    97    110      0\n   23     70    71    109      0\n   24     78    79    122      0\n   25     60    75    137      0\n   26     76    82    132      0\n   27     78    82    122      0\n   28     84    81    112      0\n   29     83    70    131      0\n   30     73    91    132      0\nTotal   2258  2367   2928      0\nAvg       75    79     98      0\nMax       92    99    137      0 NOTA:\nMin       60    66     69      0 * Año 2017 - Datos preliminares; archivo final en proceso operacional de revisión de calidad y validación.\nMed       76   78.5    93      0 ** Año 2018 - Datos preliminares; Certificados de Defunción registrados en sistema hasta 5/31/2018.\n"

We are going to need element[9] only for the purpose of this analysis

x <- txt[9] %>% str_split(pattern = "\n")
x
## [[1]]
##  [1] "6/4/2018                               Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales"                                                      
##  [2] "SEP    2015  2016   2017  2018"                                                                                                                                                        
##  [3] "    1     75    75     94      0"                                                                                                                                                      
##  [4] "    2     77    67     69      0                                                                      Defunciones Ocurridas en Septiembre por Día y Año"                               
##  [5] "    3     67    78     80      0"                                                                                                                                                      
##  [6] "                                   140"                                                                                                                                                
##  [7] "    4     71    99     84      0"                                                                                                                                                      
##  [8] "    5     62    89     74      0"                                                                                                                                                      
##  [9] "                                   120"                                                                                                                                                
## [10] "    6     77    74     83      0"                                                                                                                                                      
## [11] "    7     85    67     87      0"                                                                                                                                                      
## [12] "    8     84    77     94      0   100"                                                                                                                                                
## [13] "    9     79    90     72      0"                                                                                                                                                      
## [14] "   10     66    73     98      0    80"                                                                                                                                                
## [15] "   11     92    78     92      0"                                                                                                                                                      
## [16] "   12     79    66     80      0    60"                                                                                                                                                
## [17] "   13     81    88    100      0"                                                                                                                                                      
## [18] "   14     70    81     79      0    40"                                                                                                                                                
## [19] "   15     87    91     84      0"                                                                                                                                                      
## [20] "   16     70    71     80      0    20"                                                                                                                                                
## [21] "   17     70    68     88      0"                                                                                                                                                      
## [22] "   18     76    79     78      0      0"                                                                                                                                               
## [23] "   19     81    82     75      0            1       2    3        4      5      6       7       8       9    10 11 12    13 14    15 16    17 18   19 20 21 22 23 24 25 26 27 28 29 30"
## [24] "   20     69    79    106      0   Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales         2015      2016     2017     2018"                                 
## [25] "   21     70    67    124      0"                                                                                                                                                      
## [26] "   22     68    97    110      0"                                                                                                                                                      
## [27] "   23     70    71    109      0"                                                                                                                                                      
## [28] "   24     78    79    122      0"                                                                                                                                                      
## [29] "   25     60    75    137      0"                                                                                                                                                      
## [30] "   26     76    82    132      0"                                                                                                                                                      
## [31] "   27     78    82    122      0"                                                                                                                                                      
## [32] "   28     84    81    112      0"                                                                                                                                                      
## [33] "   29     83    70    131      0"                                                                                                                                                      
## [34] "   30     73    91    132      0"                                                                                                                                                      
## [35] "Total   2258  2367   2928      0"                                                                                                                                                      
## [36] "Avg       75    79     98      0"                                                                                                                                                      
## [37] "Max       92    99    137      0 NOTA:"                                                                                                                                                
## [38] "Min       60    66     69      0 * Año 2017 - Datos preliminares; archivo final en proceso operacional de revisión de calidad y validación."                                           
## [39] "Med       76   78.5    93      0 ** Año 2018 - Datos preliminares; Certificados de Defunción registrados en sistema hasta 5/31/2018."                                                  
## [40] ""
s <- x[[1]]
s
##  [1] "6/4/2018                               Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales"                                                      
##  [2] "SEP    2015  2016   2017  2018"                                                                                                                                                        
##  [3] "    1     75    75     94      0"                                                                                                                                                      
##  [4] "    2     77    67     69      0                                                                      Defunciones Ocurridas en Septiembre por Día y Año"                               
##  [5] "    3     67    78     80      0"                                                                                                                                                      
##  [6] "                                   140"                                                                                                                                                
##  [7] "    4     71    99     84      0"                                                                                                                                                      
##  [8] "    5     62    89     74      0"                                                                                                                                                      
##  [9] "                                   120"                                                                                                                                                
## [10] "    6     77    74     83      0"                                                                                                                                                      
## [11] "    7     85    67     87      0"                                                                                                                                                      
## [12] "    8     84    77     94      0   100"                                                                                                                                                
## [13] "    9     79    90     72      0"                                                                                                                                                      
## [14] "   10     66    73     98      0    80"                                                                                                                                                
## [15] "   11     92    78     92      0"                                                                                                                                                      
## [16] "   12     79    66     80      0    60"                                                                                                                                                
## [17] "   13     81    88    100      0"                                                                                                                                                      
## [18] "   14     70    81     79      0    40"                                                                                                                                                
## [19] "   15     87    91     84      0"                                                                                                                                                      
## [20] "   16     70    71     80      0    20"                                                                                                                                                
## [21] "   17     70    68     88      0"                                                                                                                                                      
## [22] "   18     76    79     78      0      0"                                                                                                                                               
## [23] "   19     81    82     75      0            1       2    3        4      5      6       7       8       9    10 11 12    13 14    15 16    17 18   19 20 21 22 23 24 25 26 27 28 29 30"
## [24] "   20     69    79    106      0   Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales         2015      2016     2017     2018"                                 
## [25] "   21     70    67    124      0"                                                                                                                                                      
## [26] "   22     68    97    110      0"                                                                                                                                                      
## [27] "   23     70    71    109      0"                                                                                                                                                      
## [28] "   24     78    79    122      0"                                                                                                                                                      
## [29] "   25     60    75    137      0"                                                                                                                                                      
## [30] "   26     76    82    132      0"                                                                                                                                                      
## [31] "   27     78    82    122      0"                                                                                                                                                      
## [32] "   28     84    81    112      0"                                                                                                                                                      
## [33] "   29     83    70    131      0"                                                                                                                                                      
## [34] "   30     73    91    132      0"                                                                                                                                                      
## [35] "Total   2258  2367   2928      0"                                                                                                                                                      
## [36] "Avg       75    79     98      0"                                                                                                                                                      
## [37] "Max       92    99    137      0 NOTA:"                                                                                                                                                
## [38] "Min       60    66     69      0 * Año 2017 - Datos preliminares; archivo final en proceso operacional de revisión de calidad y validación."                                           
## [39] "Med       76   78.5    93      0 ** Año 2018 - Datos preliminares; Certificados de Defunción registrados en sistema hasta 5/31/2018."                                                  
## [40] ""
length(s)
## [1] 40
s <- s %>% str_trim(side = "both")
s[end(s[1])[1]]
## [1] "6/4/2018                               Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales"
header_index <- s %>% str_which(pattern = "2015")
str(header_index)
##  int [1:2] 2 24
header <- s[2]
#header
header <- gsub("\\s+", " ", header)
#header
header <- str_split(header, " ", simplify = TRUE) 
#header
month <- header[1,1]
header <- header[,2:5]
month
## [1] "SEP"
header
## [1] "2015" "2016" "2017" "2018"
s
##  [1] "6/4/2018                               Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales"                                                   
##  [2] "SEP    2015  2016   2017  2018"                                                                                                                                                     
##  [3] "1     75    75     94      0"                                                                                                                                                       
##  [4] "2     77    67     69      0                                                                      Defunciones Ocurridas en Septiembre por Día y Año"                                
##  [5] "3     67    78     80      0"                                                                                                                                                       
##  [6] "140"                                                                                                                                                                                
##  [7] "4     71    99     84      0"                                                                                                                                                       
##  [8] "5     62    89     74      0"                                                                                                                                                       
##  [9] "120"                                                                                                                                                                                
## [10] "6     77    74     83      0"                                                                                                                                                       
## [11] "7     85    67     87      0"                                                                                                                                                       
## [12] "8     84    77     94      0   100"                                                                                                                                                 
## [13] "9     79    90     72      0"                                                                                                                                                       
## [14] "10     66    73     98      0    80"                                                                                                                                                
## [15] "11     92    78     92      0"                                                                                                                                                      
## [16] "12     79    66     80      0    60"                                                                                                                                                
## [17] "13     81    88    100      0"                                                                                                                                                      
## [18] "14     70    81     79      0    40"                                                                                                                                                
## [19] "15     87    91     84      0"                                                                                                                                                      
## [20] "16     70    71     80      0    20"                                                                                                                                                
## [21] "17     70    68     88      0"                                                                                                                                                      
## [22] "18     76    79     78      0      0"                                                                                                                                               
## [23] "19     81    82     75      0            1       2    3        4      5      6       7       8       9    10 11 12    13 14    15 16    17 18   19 20 21 22 23 24 25 26 27 28 29 30"
## [24] "20     69    79    106      0   Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales         2015      2016     2017     2018"                                 
## [25] "21     70    67    124      0"                                                                                                                                                      
## [26] "22     68    97    110      0"                                                                                                                                                      
## [27] "23     70    71    109      0"                                                                                                                                                      
## [28] "24     78    79    122      0"                                                                                                                                                      
## [29] "25     60    75    137      0"                                                                                                                                                      
## [30] "26     76    82    132      0"                                                                                                                                                      
## [31] "27     78    82    122      0"                                                                                                                                                      
## [32] "28     84    81    112      0"                                                                                                                                                      
## [33] "29     83    70    131      0"                                                                                                                                                      
## [34] "30     73    91    132      0"                                                                                                                                                      
## [35] "Total   2258  2367   2928      0"                                                                                                                                                   
## [36] "Avg       75    79     98      0"                                                                                                                                                   
## [37] "Max       92    99    137      0 NOTA:"                                                                                                                                             
## [38] "Min       60    66     69      0 * Año 2017 - Datos preliminares; archivo final en proceso operacional de revisión de calidad y validación."                                        
## [39] "Med       76   78.5    93      0 ** Año 2018 - Datos preliminares; Certificados de Defunción registrados en sistema hasta 5/31/2018."                                               
## [40] ""
tail_index <- s %>% str_which(pattern = "Total")
tail_index
## [1] 35
nn <- str_count(s, "\\d+")
nn
##  [1]  3  4  5  5  5  1  5  5  1  5  5  6  5  6  5  6  5  6  5  6  5  6 35
## [24]  9  5  5  5  5  5  5  5  5  5  5  4  4  4  5  9  0
ind <- str_which(nn, "1")
ind
## [1] 6 9
n <- sum(str_count(nn, "1"))
n # number of rows that have a signle number in them
## [1] 2

Removing the rows we don’t need for analysis

# Q10
s
##  [1] "6/4/2018                               Departamento de Salud - Registro Demográfico - División de Calidad y Estadísticas Vitales"                                                   
##  [2] "SEP    2015  2016   2017  2018"                                                                                                                                                     
##  [3] "1     75    75     94      0"                                                                                                                                                       
##  [4] "2     77    67     69      0                                                                      Defunciones Ocurridas en Septiembre por Día y Año"                                
##  [5] "3     67    78     80      0"                                                                                                                                                       
##  [6] "140"                                                                                                                                                                                
##  [7] "4     71    99     84      0"                                                                                                                                                       
##  [8] "5     62    89     74      0"                                                                                                                                                       
##  [9] "120"                                                                                                                                                                                
## [10] "6     77    74     83      0"                                                                                                                                                       
## [11] "7     85    67     87      0"                                                                                                                                                       
## [12] "8     84    77     94      0   100"                                                                                                                                                 
## [13] "9     79    90     72      0"                                                                                                                                                       
## [14] "10     66    73     98      0    80"                                                                                                                                                
## [15] "11     92    78     92      0"                                                                                                                                                      
## [16] "12     79    66     80      0    60"                                                                                                                                                
## [17] "13     81    88    100      0"                                                                                                                                                      
## [18] "14     70    81     79      0    40"                                                                                                                                                
## [19] "15     87    91     84      0"                                                                                                                                                      
## [20] "16     70    71     80      0    20"                                                                                                                                                
## [21] "17     70    68     88      0"                                                                                                                                                      
## [22] "18     76    79     78      0      0"                                                                                                                                               
## [23] "19     81    82     75      0            1       2    3        4      5      6       7       8       9    10 11 12    13 14    15 16    17 18   19 20 21 22 23 24 25 26 27 28 29 30"
## [24] "20     69    79    106      0   Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales         2015      2016     2017     2018"                                 
## [25] "21     70    67    124      0"                                                                                                                                                      
## [26] "22     68    97    110      0"                                                                                                                                                      
## [27] "23     70    71    109      0"                                                                                                                                                      
## [28] "24     78    79    122      0"                                                                                                                                                      
## [29] "25     60    75    137      0"                                                                                                                                                      
## [30] "26     76    82    132      0"                                                                                                                                                      
## [31] "27     78    82    122      0"                                                                                                                                                      
## [32] "28     84    81    112      0"                                                                                                                                                      
## [33] "29     83    70    131      0"                                                                                                                                                      
## [34] "30     73    91    132      0"                                                                                                                                                      
## [35] "Total   2258  2367   2928      0"                                                                                                                                                   
## [36] "Avg       75    79     98      0"                                                                                                                                                   
## [37] "Max       92    99    137      0 NOTA:"                                                                                                                                             
## [38] "Min       60    66     69      0 * Año 2017 - Datos preliminares; archivo final en proceso operacional de revisión de calidad y validación."                                        
## [39] "Med       76   78.5    93      0 ** Año 2018 - Datos preliminares; Certificados de Defunción registrados en sistema hasta 5/31/2018."                                               
## [40] ""
s <- s[!s %in% c(s[1], s[2], s[tail_index:40], s[6], s[9])]
s 
##  [1] "1     75    75     94      0"                                                                                                                                                       
##  [2] "2     77    67     69      0                                                                      Defunciones Ocurridas en Septiembre por Día y Año"                                
##  [3] "3     67    78     80      0"                                                                                                                                                       
##  [4] "4     71    99     84      0"                                                                                                                                                       
##  [5] "5     62    89     74      0"                                                                                                                                                       
##  [6] "6     77    74     83      0"                                                                                                                                                       
##  [7] "7     85    67     87      0"                                                                                                                                                       
##  [8] "8     84    77     94      0   100"                                                                                                                                                 
##  [9] "9     79    90     72      0"                                                                                                                                                       
## [10] "10     66    73     98      0    80"                                                                                                                                                
## [11] "11     92    78     92      0"                                                                                                                                                      
## [12] "12     79    66     80      0    60"                                                                                                                                                
## [13] "13     81    88    100      0"                                                                                                                                                      
## [14] "14     70    81     79      0    40"                                                                                                                                                
## [15] "15     87    91     84      0"                                                                                                                                                      
## [16] "16     70    71     80      0    20"                                                                                                                                                
## [17] "17     70    68     88      0"                                                                                                                                                      
## [18] "18     76    79     78      0      0"                                                                                                                                               
## [19] "19     81    82     75      0            1       2    3        4      5      6       7       8       9    10 11 12    13 14    15 16    17 18   19 20 21 22 23 24 25 26 27 28 29 30"
## [20] "20     69    79    106      0   Fuente: Registro Demográfico - División de Calidad y Estadísticas Vitales         2015      2016     2017     2018"                                 
## [21] "21     70    67    124      0"                                                                                                                                                      
## [22] "22     68    97    110      0"                                                                                                                                                      
## [23] "23     70    71    109      0"                                                                                                                                                      
## [24] "24     78    79    122      0"                                                                                                                                                      
## [25] "25     60    75    137      0"                                                                                                                                                      
## [26] "26     76    82    132      0"                                                                                                                                                      
## [27] "27     78    82    122      0"                                                                                                                                                      
## [28] "28     84    81    112      0"                                                                                                                                                      
## [29] "29     83    70    131      0"                                                                                                                                                      
## [30] "30     73    91    132      0"
s <- str_remove_all(s, "[^\\d\\s]")
s
##  [1] "1     75    75     94      0"                                                                                                                                                       
##  [2] "2     77    67     69      0                                                                             "                                                                          
##  [3] "3     67    78     80      0"                                                                                                                                                       
##  [4] "4     71    99     84      0"                                                                                                                                                       
##  [5] "5     62    89     74      0"                                                                                                                                                       
##  [6] "6     77    74     83      0"                                                                                                                                                       
##  [7] "7     85    67     87      0"                                                                                                                                                       
##  [8] "8     84    77     94      0   100"                                                                                                                                                 
##  [9] "9     79    90     72      0"                                                                                                                                                       
## [10] "10     66    73     98      0    80"                                                                                                                                                
## [11] "11     92    78     92      0"                                                                                                                                                      
## [12] "12     79    66     80      0    60"                                                                                                                                                
## [13] "13     81    88    100      0"                                                                                                                                                      
## [14] "14     70    81     79      0    40"                                                                                                                                                
## [15] "15     87    91     84      0"                                                                                                                                                      
## [16] "16     70    71     80      0    20"                                                                                                                                                
## [17] "17     70    68     88      0"                                                                                                                                                      
## [18] "18     76    79     78      0      0"                                                                                                                                               
## [19] "19     81    82     75      0            1       2    3        4      5      6       7       8       9    10 11 12    13 14    15 16    17 18   19 20 21 22 23 24 25 26 27 28 29 30"
## [20] "20     69    79    106      0                     2015      2016     2017     2018"                                                                                                 
## [21] "21     70    67    124      0"                                                                                                                                                      
## [22] "22     68    97    110      0"                                                                                                                                                      
## [23] "23     70    71    109      0"                                                                                                                                                      
## [24] "24     78    79    122      0"                                                                                                                                                      
## [25] "25     60    75    137      0"                                                                                                                                                      
## [26] "26     76    82    132      0"                                                                                                                                                      
## [27] "27     78    82    122      0"                                                                                                                                                      
## [28] "28     84    81    112      0"                                                                                                                                                      
## [29] "29     83    70    131      0"                                                                                                                                                      
## [30] "30     73    91    132      0"
s <- str_split_fixed(s, "\\s+", n = 6)[,1:5]

Change column names and convert values from factor to number

tab <- as.data.frame(s)
colnames(tab) <- c("day", "2015", "2016", "2017", "2018")
indx <- sapply(tab, is.factor)
tab[indx] <- lapply(tab[indx], function(x) as.numeric(as.character(x)))
tab
##    day 2015 2016 2017 2018
## 1    1   75   75   94    0
## 2    2   77   67   69    0
## 3    3   67   78   80    0
## 4    4   71   99   84    0
## 5    5   62   89   74    0
## 6    6   77   74   83    0
## 7    7   85   67   87    0
## 8    8   84   77   94    0
## 9    9   79   90   72    0
## 10  10   66   73   98    0
## 11  11   92   78   92    0
## 12  12   79   66   80    0
## 13  13   81   88  100    0
## 14  14   70   81   79    0
## 15  15   87   91   84    0
## 16  16   70   71   80    0
## 17  17   70   68   88    0
## 18  18   76   79   78    0
## 19  19   81   82   75    0
## 20  20   69   79  106    0
## 21  21   70   67  124    0
## 22  22   68   97  110    0
## 23  23   70   71  109    0
## 24  24   78   79  122    0
## 25  25   60   75  137    0
## 26  26   76   82  132    0
## 27  27   78   82  122    0
## 28  28   84   81  112    0
## 29  29   83   70  131    0
## 30  30   73   91  132    0

Now we have a tidy data

# mean no of deaths per day in 2015
summarise_each(tab[2:4], funs(mean))
## Warning: funs() is soft deprecated as of dplyr 0.8.0
## please use list() instead
## 
##   # Before:
##   funs(name = f(.))
## 
##   # After: 
##   list(name = ~ f(.))
## This warning is displayed once per session.
##   2015 2016 2017
## 1 75.3 78.9 97.6
avg2015 <- mean(tab$`2015`)
avg2015
## [1] 75.3
avg2016 <- mean(tab$`2016`)
avg2016
## [1] 78.9
avg2017beforeMaria <- mean(tab$`2017`[1:19])
avg2017beforeMaria
## [1] 83.7
avg2017afterMaria <- mean(tab$`2017`[20:30])
avg2017afterMaria
## [1] 122

The way we calculated the mean for 2017 is different than summarise_each() function, hence different results for 2017. We divided 2017 data into 2 pieces: rows 1:19 from before the hurricane and rows 20:30 from after hurricane.

Calculate the total number of deaths per day per year for the month of Sep

tab <- tab %>% gather(year, deaths, -day) %>%
    mutate(deaths = as.numeric(deaths))
tab
##     day year deaths
## 1     1 2015     75
## 2     2 2015     77
## 3     3 2015     67
## 4     4 2015     71
## 5     5 2015     62
## 6     6 2015     77
## 7     7 2015     85
## 8     8 2015     84
## 9     9 2015     79
## 10   10 2015     66
## 11   11 2015     92
## 12   12 2015     79
## 13   13 2015     81
## 14   14 2015     70
## 15   15 2015     87
## 16   16 2015     70
## 17   17 2015     70
## 18   18 2015     76
## 19   19 2015     81
## 20   20 2015     69
## 21   21 2015     70
## 22   22 2015     68
## 23   23 2015     70
## 24   24 2015     78
## 25   25 2015     60
## 26   26 2015     76
## 27   27 2015     78
## 28   28 2015     84
## 29   29 2015     83
## 30   30 2015     73
## 31    1 2016     75
## 32    2 2016     67
## 33    3 2016     78
## 34    4 2016     99
## 35    5 2016     89
## 36    6 2016     74
## 37    7 2016     67
## 38    8 2016     77
## 39    9 2016     90
## 40   10 2016     73
## 41   11 2016     78
## 42   12 2016     66
## 43   13 2016     88
## 44   14 2016     81
## 45   15 2016     91
## 46   16 2016     71
## 47   17 2016     68
## 48   18 2016     79
## 49   19 2016     82
## 50   20 2016     79
## 51   21 2016     67
## 52   22 2016     97
## 53   23 2016     71
## 54   24 2016     79
## 55   25 2016     75
## 56   26 2016     82
## 57   27 2016     82
## 58   28 2016     81
## 59   29 2016     70
## 60   30 2016     91
## 61    1 2017     94
## 62    2 2017     69
## 63    3 2017     80
## 64    4 2017     84
## 65    5 2017     74
## 66    6 2017     83
## 67    7 2017     87
## 68    8 2017     94
## 69    9 2017     72
## 70   10 2017     98
## 71   11 2017     92
## 72   12 2017     80
## 73   13 2017    100
## 74   14 2017     79
## 75   15 2017     84
## 76   16 2017     80
## 77   17 2017     88
## 78   18 2017     78
## 79   19 2017     75
## 80   20 2017    106
## 81   21 2017    124
## 82   22 2017    110
## 83   23 2017    109
## 84   24 2017    122
## 85   25 2017    137
## 86   26 2017    132
## 87   27 2017    122
## 88   28 2017    112
## 89   29 2017    131
## 90   30 2017    132
## 91    1 2018      0
## 92    2 2018      0
## 93    3 2018      0
## 94    4 2018      0
## 95    5 2018      0
## 96    6 2018      0
## 97    7 2018      0
## 98    8 2018      0
## 99    9 2018      0
## 100  10 2018      0
## 101  11 2018      0
## 102  12 2018      0
## 103  13 2018      0
## 104  14 2018      0
## 105  15 2018      0
## 106  16 2018      0
## 107  17 2018      0
## 108  18 2018      0
## 109  19 2018      0
## 110  20 2018      0
## 111  21 2018      0
## 112  22 2018      0
## 113  23 2018      0
## 114  24 2018      0
## 115  25 2018      0
## 116  26 2018      0
## 117  27 2018      0
## 118  28 2018      0
## 119  29 2018      0
## 120  30 2018      0

Plot the deaths

tab %>% ggplot(mapping = aes(day, deaths, color = year)) + 
        geom_point() +
        geom_line() + 
        geom_vline(xintercept = 20)

From the plot you can tell: September 2015 and 2016 deaths by day are roughly equal to each other. After the hurricane in September 2017, there were over 100 deaths per day every day for the rest of the month. No days before September 20, 2017 have over 100 deaths per day.