#資料(data)、值(valus)、變數(varible)、物件(object)
##一、R語言資料集合: #1.向量(vector) #2.清單(list) #3.矩陣(matrix) #4.陣列(array) #5.因子(factor) #6.資料框(dataframe) # 資料分析基本上是 :產生資料物件、命名、使用函式對物件運算操作
#建立向量資料 id <- c(“001”, “002”, “003”, “004”, “005”) name <- c(“superman”, “batman”, “spiderman”, “wolverine”, “wonderwoman”) height <- c(190, 188, 178, 150, 183) weight <- c(102, 95, 76, 88, 59) gender <- c(“Male”, “Male”, “Male”, “Male”, “Female” )
#二、R 的最基本物件是向量, # 向量是由包含相同 “模式” 的元素 (element) 組成, # 向量物件的基本元素的類型(basic mode) 主要分成 # 六大向量(vector)類型
#用class()查詢資料類型
class(name) class(height) class(gender) class(id) class(height) q <- height > 170 q class(q) #str()查看資料結構 #summary()查看變數統計量 str( name) summary( height) #用[ ]取出向量資料 name name[2] name[3:5] name[-1] name[-c(1,3,5)] height height[height > 170] #將向量資料組合為data frame(數據框) heroes <- data.frame(id, gender, name, height, weight ) #顯示在console區 heroes #看資料結構 str(heroes) #看摘要 summary(heroes) #存成.RData格式 save(heroes, file = “heroes.RData”) #清空物件,然後再讀取一次.RData load(“heroes.RData”)
#用[ ] 取出data frame中的資料, 其中[ 列, 欄] heroes[2, ]#取出第二列資料 heroes[,2]#取出第二欄資料 heroes[2, 2]##取出第二列第二欄資料 heroes[5,] #用欄位名稱取出某欄的資料,有兩種方法: heroes[[“name”]] ##或是 heroes\(name #計算身高的平均數 heroes\)height mean(heroes\(height) heroes[1:3,] heroes[heroes\)name==“spiderman”,] heroes[heroes\(name!="spiderman",] heroes[heroes\)height>180,] #畫長條圖 heroes\(height #先排序(由大到小 decreasing = T) sort(heroes\)height, decreasing = T) #畫長條圖函數 barplot(sort(heroes\(height, decreasing = T)) barplot(sort(heroes\)height, decreasing = T), main =“HEROES”, sub =“Mishelltwo” , names.arg = c(“superman”, “batman”, “spiderman”, “wonderwoman”, “wolverine”), xlab = “name”, ylab = “height”, col = c(“blue”, “black”, “red”,“pink”,“gray”)) # 亞洲四小龍(Four Asian Tigers) # https://zh.wikipedia.org/wiki/%E4%BA%9A%E6%B4%B2%E5%9B%9B%E5%B0%8F%E9%BE%99 nation <- c(“Taiwan”,“south korea”,“singapore”,“Hongkong”) growth <- c(0.28,0.36,1.40,0.83) data <- data.frame(nation, growth ) barplot(sort(data$growth, decreasing = TRUE), main = “four Asian tigers”, sub = “by Johny”, names.arg = c(“Taiwan”,“south korea”,“singapore”,” Hongkong”), xlab = “Nation”, ylab = “NAtural Population Grouth”, col = c(15:59))