利用R語言做任何的資料分析前,最重要的就是資料如何取得,在先前的章結介紹所使用的資料有兩種途徑
mydata <- c(50,60,70,80,90,100)
sample(1:100,50) #利用sample()宣告
## [1] 78 42 48 73 82 87 11 36 54 98 89 37 59 92 63 32 6 70 68 40 81 18 77
## [24] 4 12 38 57 13 62 97 22 58 72 39 65 43 16 91 2 19 79 60 45 10 29 25
## [47] 71 64 53 5
第一種宣告方式不局限資料本身型態(integer,number,logic,character…),也不局限資料型式(list,matrix, data frame),詳細的使用方法可以參考R筆記 – (2) 基本資料型態
第二種利用sample()指令來宣告資料,先行使用?sample先查看說明後可以了解到在sample()指令中,第一個欄位擺放一個或多個正整數,在例子中1:100意指1到100的正整數,若我們只打上一個正整數會如何執行
sample(100,50) #僅輸入一個正整數宣告
## [1] 64 51 95 46 63 38 78 72 99 59 56 71 33 83 96 1 42 31 11 62 14 65 68
## [24] 75 15 44 40 73 6 3 28 69 54 37 10 2 47 55 86 9 21 7 35 93 85 87
## [47] 27 58 61 82
R語言內建指令會由最小正整數1作為起始位置,至於第二欄位即為多少樣本。
data() #查看R語言內建資料集
執行後會新開一個視窗左邊欄位為資料名稱,右邊欄位為簡述資料內容,若想知道更詳細說明,可以使用?查詢,以先前章節介紹過的iris資料來舉例
?iris #查詢iris資料
## starting httpd help server ...
## done
str(iris) #檢視iris資料
## 'data.frame': 150 obs. of 5 variables:
## $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
## $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
## $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
## $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
## $ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
可以先從右下方視窗得知這是一筆鳶尾花的資料,裡頭有150個觀測值,5種變數分別為花萼長寬、花瓣長寬與鳶尾花品種,使用str()可以發現花萼長寬與花瓣長寬為實數(number)資料,種類為類別變數(factor)
#http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finance_and_Actuarial_Studies/acst_docs/glms_for_insurance_data/data/car.csv
mydata <- read.csv("C:/Users/User/Downloads/car.csv") #將資料存入mydata
此筆資料為澳洲麥考瑞大學提供的汽車保險資料,在點選網址下載後,對應下載位置並注意斜線方向後輸入在read.csv()欄位中,並存入宣告變數裡