正規分布の特徴や関連する事項について紹介します。
正規分布は線形回帰など、多くの統計解析手法の前提となる重要な概念です。 正規分布の特徴として、①平均値、最頻値、中央値が同値、②平均値を中心にして左右対称があります。
まずはサンプル1000の標準正規分布を作成します。 (*標準正規分布=平均が0、分散が1の正規分布)
dist_norm <- rnorm(1000)
hist(dist_norm, breaks = 10)
上記のグラフより、①②の性質を概ね満たしている事がわかるかと思います。
続いてある分布がどれだけ正規分布に近いか(=正規性)の確認手法を以下に整理します。
正規分布に従っているかを確認する方法の1つとして、Shapiro-Wilk検定があります。 帰無仮説は「正規分布である」、対立仮説は「正規分布ではない」です。 よってp値が有意水準(今回は0.05)を下回る場合は「正規分布に従わない」となります。
まず検定に使用する分布を作成します。 歪みのない正規分布(dist_1)、やや歪みのある分布(dist_2)をそれぞれ作成します。
#歪みのない正規分布(上記の例から引用)
dist_1 <- rnorm(3000)
hist(dist_1, breaks = 20)
#歪みのある分布を作成
dist_2 <- c(0,0,1,1,2,2,2,2,3,3,3,4,4,4,5,7,8,9,10,10,12)
hist(dist_2, breaks = 20)
dist_1、dist_2をShapiro-Wilk検定にかけると以下の結果となります。
shapiro.test(x=dist_1)
##
## Shapiro-Wilk normality test
##
## data: dist_1
## W = 0.99938, p-value = 0.4384
shapiro.test(x=dist_2)
##
## Shapiro-Wilk normality test
##
## data: dist_2
## W = 0.89796, p-value = 0.03195
dist_1はp値が0.05以上のため、正規分布に従っているという判断ができます。 一方でdist_2はp値が0.05を下回るため、帰無仮設が棄却され、正規分布ではないと判断できます。
Shapiro-Wilk検定の他にも、分布の裾の一致性に注目しているAnderson–Darling検定があります。
正規分布の歪みを表す指標として、歪度と尖度があります。 歪度は分布の非対称性の度合いを指し、尖度は分布のピークの鋭さ(=データの集中度合い)を指します。
今回はe1071と言うパッケージを使用して歪度と尖度を確認します。 先ほどと同様にdist_1、dist_2を使用して比較します。まずは歪度から。
library(e1071)
skewness(dist_1, type=2)
## [1] 0.03031948
skewness(dist_2, type=2)
## [1] 0.8032202
歪度が0に近いほど、データが左右対称に分布していると解釈ができます。 中心よりも左に集中している場合は0より大きく、右に集中している場合は0より小さくなります。 上記の例では、標準正規分布であるdist_1の歪度は0に近く、dist_2は分布の左側にデータが集中していることから歪度が0より大きいです。
同様に、尖度も確認しましょう。
kurtosis(dist_1, type=2)
## [1] -0.004887783
kurtosis(dist_2, type=2)
## [1] -0.4790917
尖度が0に近いどほど、分布のピークに集中するデータが正規分布に近いと判断できます。 また、正規分布よりデータが集中している場合は0より大きく、データが集中していない場合は0より小さくなります。
上記の結果から、dist_1は0に近いため概ね正規分布の形状をしていると判断ができます。 一方で、dist_2は尖度が0より小さく、ピークに集中するデータが正規分布より少ないと判断できます。