資料的取得

利用R語言做任何的資料分析前,最重要的就是資料如何取得,在先前的章結介紹所使用的資料有兩種途徑

自型宣告資料

mydata <- c(50,60,70,80,90,100)
sample(1:100,50)  #利用sample()宣告
##  [1] 61 62 90  5 63 34 68 45 65 77 20  9 67 29 35 48 66 47 15 49 80 82 84
## [24] 14 83 97 37 70 94 16 36 17 40 32 31 85 96 98 88 25 50 11 56 26 64  8
## [47] 59 33 95 27

第一種宣告方式不局限資料本身型態(integer,number,logic,character…),也不局限資料型式(list,matrix, data frame),詳細的使用方法可以參考R筆記 – (2) 基本資料型態

第二種利用sample()指令來宣告資料,先行使用?sample先查看說明後可以了解到在sample()指令中,第一個欄位擺放一個或多個正整數,在例子中1:100意指1到100的正整數,若我們只打上一個正整數會如何執行

sample(100,50)  #僅輸入一個正整數宣告
##  [1]  27  98  58  19 100   3  35  91  57  62  16  96   4  45  88  89  30
## [18]  60  41  50  67  72  43  97  90  83  21  75  52  15  73  51  61  87
## [35]  54  92  71  79   9   5  32  93  49   7  65  24  70  29  86  63

R語言內建指令會由最小正整數1作為起始位置,至於第二欄位即為多少樣本。

R語言本身內建資料構

data()               #查看R語言內建資料集

執行後會新開一個視窗左邊欄位為資料名稱,右邊欄位為簡述資料內容,若想知道更詳細說明,可以使用?查詢,以先前章節介紹過的iris資料來舉例

?iris                #查詢iris資料
## starting httpd help server ...
##  done
str(iris)            #檢視iris資料
## 'data.frame':    150 obs. of  5 variables:
##  $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
##  $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
##  $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
##  $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
##  $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

可以先從右下方視窗得知這是一筆鳶尾花的資料,裡頭有150個觀測值,5種變數分別為花萼長寬、花瓣長寬與鳶尾花品種,使用str()可以發現花萼長寬與花瓣長寬為實數(number)資料,種類為類別變數(factor)

csv檔

#http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finance_and_Actuarial_Studies/acst_docs/glms_for_insurance_data/data/car.csv

mydata <- read.csv("C:/Users/User/Downloads/car.csv")      #將資料存入mydata
## Warning in file(file, "rt"): 無法開啟檔案 'C:/Users/User/Downloads/car.csv'
## :No such file or directory
## Error in file(file, "rt"): 無法開啟連結

此筆資料為澳洲麥考瑞大學提供的汽車保險資料,在點選網址下載後,對應下載位置並注意斜線方向後輸入在read.csv()欄位中,並存入宣告變數裡