作業三

從疫情中心的開放資料網站蒐集到「結核病-2003年起各地區、各年齡層、性別之病例數統計表」,資料如下:

library(readr)
tb <- read_csv("https://raw.githubusercontent.com/ywchiu/cdc_course/master/data/tb.csv")
## Parsed with column specification:
## cols(
##   確定病名 = col_character(),
##   建檔年份 = col_integer(),
##   建檔月份 = col_integer(),
##   縣市 = col_character(),
##   鄉鎮 = col_character(),
##   性別 = col_character(),
##   國籍 = col_character(),
##   年齡層 = col_character(),
##   確定病例數 = col_integer()
## )
head(tb)
## # A tibble: 6 x 9
##   確定病名 建檔年份 建檔月份   縣市   鄉鎮  性別   國籍 年齡層 確定病例數
##      <chr>    <int>    <int>  <chr>  <chr> <chr>  <chr>  <chr>      <int>
## 1   結核病     2005        1 台北市 大安區     F 本國籍  50-54          1
## 2   結核病     2005        1 台東縣 卑南鄉     M 本國籍    70+          1
## 3   結核病     2005        1 台南市 中西區     M 本國籍  55-59          1
## 4   結核病     2005        1 宜蘭縣 南澳鄉     M 本國籍  20-24          1
## 5   結核病     2005        1 桃園市 中壢區     F 本國籍  30-34          1
## 6   結核病     2005        1 桃園市 蘆竹區     M 本國籍    70+          3

從內政部戶政司蒐集到「歷月人口統計資料」,資料如下:

people <- read_csv('https://raw.githubusercontent.com/ywchiu/cdc_course/master/data/people.csv')
## Parsed with column specification:
## cols(
##   區域別 = col_character(),
##   總計 = col_number()
## )
head(people)
## # A tibble: 6 x 2
##   區域別    總計
##    <chr>   <dbl>
## 1 新北市 3986501
## 2 臺北市 2681375
## 3 桃園市 2193098
## 4 臺中市 2790381
## 5 臺南市 1886074
## 6 高雄市 2776366

請試用R 語言回答以下問題:

  1. 請回答該資料集有多少筆資料?
  2. 請計算在哪一年月(建檔年月),本國籍病患有最多病例數?
  3. 繼第3題,請問在有最多病例數的該年月,本國籍病患所處縣市前三名為?
  4. 請找出本國籍病患在哪一個性別及年齡層病例數最多?
  5. 請統計病例來源地(國籍/縣市/鄉鎮)一共有多少種不重複組合?
  6. 請合併tb表跟people表,並找出感染結核病比例最高的前三縣市?