正規分布の特徴や関連する事項について紹介します。

正規分布は線形回帰など、多くの統計解析手法の前提となる重要な概念です。 正規分布の特徴として、①平均値、最頻値、中央値が同値、②平均値を中心にして左右対称があります。

正規分布の作成

まずはサンプル1000の標準正規分布を作成します。 (*標準正規分布=平均が0、分散が1の正規分布)

dist_norm <- rnorm(1000)
hist(dist_norm, breaks = 10)

上記のグラフより、①②の性質を概ね満たしている事がわかるかと思います。

続いてある分布がどれだけ正規分布に近いか(=正規性)の確認手法を以下に整理します。

正規性の確認

正規分布に従っているかを確認する方法の1つとして、Shapiro-Wilk検定があります。 帰無仮説は「正規分布である」、対立仮説は「正規分布ではない」です。 よってp値が有意水準(今回は0.05)を下回る場合は「正規分布に従わない」となります。

まず検定に使用する分布を作成します。 歪みのない正規分布(dist_1)、やや歪みのある分布(dist_2)をそれぞれ作成します。

#歪みのない正規分布(上記の例から引用)
dist_1 <- rnorm(3000)
hist(dist_1, breaks = 20)

#歪みのある分布を作成
dist_2 <- c(0,0,1,1,2,2,2,2,3,3,3,4,4,4,5,7,8,9,10,10,12)
hist(dist_2, breaks = 20)

dist_1、dist_2をShapiro-Wilk検定にかけると以下の結果となります。

shapiro.test(x=dist_1)
## 
##  Shapiro-Wilk normality test
## 
## data:  dist_1
## W = 0.99938, p-value = 0.4384
shapiro.test(x=dist_2)
## 
##  Shapiro-Wilk normality test
## 
## data:  dist_2
## W = 0.89796, p-value = 0.03195

dist_1はp値が0.05以上のため、正規分布に従っているという判断ができます。 一方でdist_2はp値が0.05を下回るため、帰無仮設が棄却され、正規分布ではないと判断できます。

Shapiro-Wilk検定の他にも、分布の裾の一致性に注目しているAnderson–Darling検定があります。

歪度と尖度

正規分布の歪みを表す指標として、歪度と尖度があります。 歪度は分布の非対称性の度合いを指し、尖度は分布のピークの鋭さ(=データの集中度合い)を指します。

今回はe1071と言うパッケージを使用して歪度と尖度を確認します。 先ほどと同様にdist_1、dist_2を使用して比較します。まずは歪度から。

library(e1071)
skewness(dist_1, type=2)
## [1] 0.03031948
skewness(dist_2, type=2)
## [1] 0.8032202

歪度が0に近いほど、データが左右対称に分布していると解釈ができます。 中心よりも左に集中している場合は0より大きく、右に集中している場合は0より小さくなります。 上記の例では、標準正規分布であるdist_1の歪度は0に近く、dist_2は分布の左側にデータが集中していることから歪度が0より大きいです。

同様に、尖度も確認しましょう。

kurtosis(dist_1, type=2)
## [1] -0.004887783
kurtosis(dist_2, type=2)
## [1] -0.4790917

尖度が0に近いどほど、分布のピークに集中するデータが正規分布に近いと判断できます。 また、正規分布よりデータが集中している場合は0より大きく、データが集中していない場合は0より小さくなります。

上記の結果から、dist_1は0に近いため概ね正規分布の形状をしていると判断ができます。 一方で、dist_2は尖度が0より小さく、ピークに集中するデータが正規分布より少ないと判断できます。