首先先載入食藥署提供之「不符合食品資訊資料集」,資料如下:
library(readr)
exportDataList <- read_csv("https://data.fda.gov.tw/opendata/exportDataList.do?method=ExportData&InfoId=52&logType=2")
## Rows: 1780 Columns: 16
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (14): 產地, 主旨, 原因, 進口商名稱, 進口商地址, 貨品分類號列, 不合格原因暨檢出量詳細說明, 法規限量標準, 製造廠或出口商名稱...
## dbl (2): 發布日期, 報驗受理日期
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
head(exportDataList)
## # A tibble: 6 × 16
## 產地 主旨 原因 進口商名稱 進口商地址 貨品分類號列 不合格原因暨檢出…
## <chr> <chr> <chr> <chr> <chr> <chr> <chr>
## 1 西班牙 新鮮迷… 農藥… 聯馥食品股… 臺北市北投… 0709.70.00.… 檢出殘留農藥滅脫…
## 2 巴基斯坦 玫瑰花… 含非… 合盛發貿易… 高雄市小港… 1211.90.92.… 檢出蘇丹色素一號…
## 3 泰國 COCK 冷… 農藥… 御相企業有… 台北市內湖… 1211.90.91.… 檢出殘留農藥氟速…
## 4 加拿大 全素仿… 防腐… 弘谷實業有… 臺北市松山… 2106.90.99.… 檢出防腐劑己二烯…
## 5 塞內加爾 冷凍翻… 重金… 裕辰水產有… 高雄市前鎮… 0303.99.90.… 檢出鎘0.26 mg/kg
## 6 中國大陸 勺(C_U… 容器… 中保無限家… 臺北市士林… 3924.10.00.… 案內產品以4%醋…
## # … with 9 more variables: 法規限量標準 <chr>, 製造廠或出口商名稱 <chr>,
## # 製造商代碼 <chr>, 牌名 <chr>, 重量 <chr>, 處置情形 <chr>, 發布日期 <dbl>,
## # 報驗受理日期 <dbl>, 附圖 <chr>
請試用R 語言回答以下問題:
請計算該資料集(exportDataList)有多少筆資料 ? (5分)
請從資料集中篩選出產地、原因、進口商名稱的三個欄位的資訊,並將篩選過後的資料集放入名為df 的 data.frame 中? (5分)
請將該df資料集的產地、原因、進口商名稱重新命名為origin, reason, exporter? (5分)
請將產地(origin)與原因(reason)轉換成階層(factor)型態? (5分)
請計算不合格資訊資料集中有出現多少個不重複的產地(origin) ? (5分)
請計算在該資料集中各產地(origin)出現的次數 ? (5分)
請找出最多不合格資訊的產地(origin) ? (5分)
請將不合格資訊產地(origin)出現數量用大到小排序,列出前十名產地(origin) ? (5分)
繼上題,請利用長條圖呈現前十名產地(Origin)的排序? (5分)
請計算不合格產地的比例,並將比例資訊(命名為 ratio)放回df 中? (5分)
請統計各產地(origin)不合格原因(reason) 的數量? (5分)
繼上題,請列出日本前三名不合格原因? (5分)
library(readr)
diabetes <- read_csv('https://raw.githubusercontent.com/ywchiu/fda_course/master/data/diabetes.csv')
有一糖尿病數據集,資料欄位敘述如下:
Number of times pregnant
請試用R 語言回答以下問題:
請計算除了 Class Variable 外所有欄位的相關性? (5分)
繼第13題, heatmap 繪製相關性圖? (5分)
請使用直方圖繪製該資料集的血壓分佈圖? (5分)
請使用boxplot 圖繪製否為糖尿病患者(Class 為0 或 1)與年紀(Age)的關係 (5分)
請使用chi-square test檢驗糖尿病患者(Class 為0 或 1)與年紀(Age) 是否相關 (5分)
請使用T test 檢驗是否為糖尿病患者(Class 為0 或 1)與血壓平均是否有顯著性差異? (5分)
請使用邏輯式迴歸建立一個糖尿病患者分類模型? (5分)
繼上題,請計算該模型的準確度? (5分)