測驗須知

補考原則

R語言基礎 (12題共60分)

首先先載入食藥署提供之「不符合食品資訊資料集」,資料如下:

library(readr)
exportDataList <- read_csv("https://data.fda.gov.tw/opendata/exportDataList.do?method=ExportData&InfoId=52&logType=2")
## Rows: 1780 Columns: 16
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (14): 產地, 主旨, 原因, 進口商名稱, 進口商地址, 貨品分類號列, 不合格原因暨檢出量詳細說明, 法規限量標準, 製造廠或出口商名稱...
## dbl  (2): 發布日期, 報驗受理日期
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
head(exportDataList)
## # A tibble: 6 × 16
##   產地     主旨     原因  進口商名稱  進口商地址  貨品分類號列 不合格原因暨檢出…
##   <chr>    <chr>    <chr> <chr>       <chr>       <chr>        <chr>            
## 1 西班牙   新鮮迷…  農藥… 聯馥食品股… 臺北市北投… 0709.70.00.… 檢出殘留農藥滅脫…
## 2 巴基斯坦 玫瑰花…  含非… 合盛發貿易… 高雄市小港… 1211.90.92.… 檢出蘇丹色素一號…
## 3 泰國     COCK 冷… 農藥… 御相企業有… 台北市內湖… 1211.90.91.… 檢出殘留農藥氟速…
## 4 加拿大   全素仿…  防腐… 弘谷實業有… 臺北市松山… 2106.90.99.… 檢出防腐劑己二烯…
## 5 塞內加爾 冷凍翻…  重金… 裕辰水產有… 高雄市前鎮… 0303.99.90.… 檢出鎘0.26 mg/kg 
## 6 中國大陸 勺(C_U… 容器… 中保無限家… 臺北市士林… 3924.10.00.… 案內產品以4%醋… 
## # … with 9 more variables: 法規限量標準 <chr>, 製造廠或出口商名稱 <chr>,
## #   製造商代碼 <chr>, 牌名 <chr>, 重量 <chr>, 處置情形 <chr>, 發布日期 <dbl>,
## #   報驗受理日期 <dbl>, 附圖 <chr>

請試用R 語言回答以下問題:

  1. 請計算該資料集(exportDataList)有多少筆資料 ? (5分)

  2. 請從資料集中篩選出產地、原因、進口商名稱的三個欄位的資訊,並將篩選過後的資料集放入名為df 的 data.frame 中? (5分)

  3. 請將該df資料集的產地、原因、進口商名稱重新命名為origin, reason, exporter? (5分)

  4. 請將產地(origin)與原因(reason)轉換成階層(factor)型態? (5分)

  5. 請計算不合格資訊資料集中有出現多少個不重複的產地(origin) ? (5分)

  6. 請計算在該資料集中各產地(origin)出現的次數 ? (5分)

  7. 請找出最多不合格資訊的產地(origin) ? (5分)

  8. 請將不合格資訊產地(origin)出現數量用大到小排序,列出前十名產地(origin) ? (5分)

  9. 繼上題,請利用長條圖呈現前十名產地(Origin)的排序? (5分)

  10. 請計算不合格產地的比例,並將比例資訊(命名為 ratio)放回df 中? (5分)

  11. 請統計各產地(origin)不合格原因(reason) 的數量? (5分)

  12. 繼上題,請列出日本前三名不合格原因? (5分)

R語言與統計 (8題共40分)

library(readr)
diabetes <- read_csv('https://raw.githubusercontent.com/ywchiu/fda_course/master/data/diabetes.csv')

有一糖尿病數據集,資料欄位敘述如下:

Number of times pregnant

  • 1.Plasma glucose concentration a 2 hours in an oral glucose tolerance test
  • 2.Diastolic blood pressure (mm Hg)
  • 3.Triceps skin fold thickness (mm)
  • 4.2-Hour serum insulin (mu U/ml)
  • 5.Body mass index (weight in kg/(height in m)^2)
  • 6.Diabetes pedigree function
  • 7.Age (years)
  • 8.Class variable (0 or 1)

請試用R 語言回答以下問題:

  1. 請計算除了 Class Variable 外所有欄位的相關性? (5分)

  2. 繼第13題, heatmap 繪製相關性圖? (5分)

  3. 請使用直方圖繪製該資料集的血壓分佈圖? (5分)

  4. 請使用boxplot 圖繪製否為糖尿病患者(Class 為0 或 1)與年紀(Age)的關係 (5分)

  5. 請使用chi-square test檢驗糖尿病患者(Class 為0 或 1)與年紀(Age) 是否相關 (5分)

  6. 請使用T test 檢驗是否為糖尿病患者(Class 為0 或 1)與血壓平均是否有顯著性差異? (5分)

  7. 請使用邏輯式迴歸建立一個糖尿病患者分類模型? (5分)

  8. 繼上題,請計算該模型的準確度? (5分)