利用R語言做任何的資料分析前,最重要的就是資料如何取得,在先前的章結介紹所使用的資料有兩種途徑
mydata <- c(50,60,70,80,90,100)
sample(1:100,50) #利用sample()宣告
## [1] 61 62 90 5 63 34 68 45 65 77 20 9 67 29 35 48 66 47 15 49 80 82 84
## [24] 14 83 97 37 70 94 16 36 17 40 32 31 85 96 98 88 25 50 11 56 26 64 8
## [47] 59 33 95 27
第一種宣告方式不局限資料本身型態(integer,number,logic,character…),也不局限資料型式(list,matrix, data frame),詳細的使用方法可以參考R筆記 – (2) 基本資料型態
第二種利用sample()指令來宣告資料,先行使用?sample先查看說明後可以了解到在sample()指令中,第一個欄位擺放一個或多個正整數,在例子中1:100意指1到100的正整數,若我們只打上一個正整數會如何執行
sample(100,50) #僅輸入一個正整數宣告
## [1] 27 98 58 19 100 3 35 91 57 62 16 96 4 45 88 89 30
## [18] 60 41 50 67 72 43 97 90 83 21 75 52 15 73 51 61 87
## [35] 54 92 71 79 9 5 32 93 49 7 65 24 70 29 86 63
R語言內建指令會由最小正整數1作為起始位置,至於第二欄位即為多少樣本。
data() #查看R語言內建資料集
執行後會新開一個視窗左邊欄位為資料名稱,右邊欄位為簡述資料內容,若想知道更詳細說明,可以使用?查詢,以先前章節介紹過的iris資料來舉例
?iris #查詢iris資料
## starting httpd help server ...
## done
str(iris) #檢視iris資料
## 'data.frame': 150 obs. of 5 variables:
## $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
## $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
## $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
## $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
## $ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
可以先從右下方視窗得知這是一筆鳶尾花的資料,裡頭有150個觀測值,5種變數分別為花萼長寬、花瓣長寬與鳶尾花品種,使用str()可以發現花萼長寬與花瓣長寬為實數(number)資料,種類為類別變數(factor)
#http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finance_and_Actuarial_Studies/acst_docs/glms_for_insurance_data/data/car.csv
mydata <- read.csv("C:/Users/User/Downloads/car.csv") #將資料存入mydata
## Warning in file(file, "rt"): 無法開啟檔案 'C:/Users/User/Downloads/car.csv'
## :No such file or directory
## Error in file(file, "rt"): 無法開啟連結
此筆資料為澳洲麥考瑞大學提供的汽車保險資料,在點選網址下載後,對應下載位置並注意斜線方向後輸入在read.csv()欄位中,並存入宣告變數裡