Rに組み込まれているTitanic
データの各変数の度数分布を見てみよう.
ただし,Titanic
データはクロス表化されたデータ形式なので,これをepitools
パッケージのexpand.table
を使って,データをtidy化する.そのために,初回はinstall.packages("epitools")
でパッケージをインストールしておく(すでに入っていれば必要ない).
library(epitools)
data<-expand.table(Titanic)
head(data)
## Class Sex Age Survived
## 1 1st Male Child Yes
## 2 1st Male Child Yes
## 3 1st Male Child Yes
## 4 1st Male Child Yes
## 5 1st Male Child Yes
## 6 1st Male Adult No
各変数の度数分布を見る.まずは等級の度数分布
## 等級の度数分布
table(data$Class)
##
## 1st 2nd 3rd Crew
## 325 285 706 885
## 等級の相対度数分布
table(data$Class)/sum(table(data$Class))
##
## 1st 2nd 3rd Crew
## 0.1476602 0.1294866 0.3207633 0.4020900
## 等級の度数分布の棒グラフ
barplot(table(data$Class),col="skyblue")
変数部分の指定を変えて,性別・年齢・生存の度数分布を見る.
## 性別の度数分布
table(data$Sex)
## 性別の相対度数分布
table(data$Sex)/sum(table(data$Sex))
## 性別の度数分布の棒グラフ
barplot(table(data$Sex),col="skyblue")
## 年齢の度数分布
table(data$Age)
## 年齢の相対度数分布
table(data$Age)/sum(table(data$Age))
## 年齢の度数分布の棒グラフ
barplot(table(data$Age),col="skyblue")
## 生存の度数分布
table(data$Survived)
## 生存の相対度数分布
table(data$Survived)/sum(table(data$Survived))
## 生存の度数分布の棒グラフ
barplot(table(data$Survived),col="skyblue")
それぞれのカテゴリーごとに生存・死亡の割合がどうなっているか確認する.
## 等級ごと生存の度数分布
table(data$Survived,data$Class)
##
## 1st 2nd 3rd Crew
## No 122 167 528 673
## Yes 203 118 178 212
## 等級ごと生存の相対度数分布
prop.table(table(data$Survived,data$Class),margin = 2)
##
## 1st 2nd 3rd Crew
## No 0.3753846 0.5859649 0.7478754 0.7604520
## Yes 0.6246154 0.4140351 0.2521246 0.2395480
## 等級ごと生存の度数分布の積み上げ棒グラフ
barplot(table(data$Survived,data$Class),col=c("darkgray","lightgreen"))
## 等級ごと生存の度数分布の相対積み上げ棒グラフ
barplot(prop.table(table(data$Survived,data$Class),margin = 2),col=c("darkgray","lightgreen"))
## 性別ごと生存の度数分布
table(data$Survived,data$Sex)
## 性別ごと生存の相対度数分布
prop.table(table(data$Survived,data$Sex),margin = 2)
## 性別ごと生存の度数分布の積み上げ棒グラフ
barplot(table(data$Survived,data$Sex),col=c("darkgray","lightgreen"))
## 性別ごと生存の度数分布の相対積み上げ棒グラフ
barplot(prop.table(table(data$Survived,data$Sex),margin = 2),col=c("darkgray","lightgreen"))
## 年齢ごと生存の度数分布
table(data$Survived,data$Age)
## 年齢ごと生存の相対度数分布
prop.table(table(data$Survived,data$Age),margin = 2)
## 年齢ごと生存の度数分布の積み上げ棒グラフ
barplot(table(data$Survived,data$Age),col=c("darkgray","lightgreen"))
## 年齢ごと生存の度数分布の相対積み上げ棒グラフ
barplot(prop.table(table(data$Survived,data$Age),margin = 2),col=c("darkgray","lightgreen"))