正規分布

正規分布の特徴や関連する事項について紹介します。

正規分布は線形回帰など、多くの統計解析手法の前提となる重要な概念です。正規分布の特徴として、①平均値、最頻値、中央値が同値、②平均値を中心にして左右対称があります。

正規分布の作成

まずはサンプル1000の標準正規分布を作成します。（*標準正規分布=平均が0、分散が1の正規分布）

dist_norm <- rnorm(1000)
hist(dist_norm, breaks = 10)

上記のグラフより、①②の性質を概ね満たしている事がわかるかと思います。

続いてある分布がどれだけ正規分布に近いか（=正規性）の確認手法を以下に整理します。

正規分布に従っているかを確認する方法の１つとして、Shapiro-Wilk検定があります。帰無仮説は「正規分布である」、対立仮説は「正規分布ではない」です。よってp値が有意水準（今回は0.05）を下回る場合は「正規分布に従わない」となります。

まず検定に使用する分布を作成します。歪みのない正規分布（dist_1）、やや歪みのある分布（dist_2）をそれぞれ作成します。

#歪みのない正規分布（上記の例から引用）
dist_1 <- rnorm(3000)
hist(dist_1, breaks = 20)

#歪みのある分布を作成
dist_2 <- c(0,0,1,1,2,2,2,2,3,3,3,4,4,4,5,7,8,9,10,10,12)
hist(dist_2, breaks = 20)

dist_1、dist_2をShapiro-Wilk検定にかけると以下の結果となります。

shapiro.test(x=dist_1)

## 
##  Shapiro-Wilk normality test
## 
## data:  dist_1
## W = 0.99938, p-value = 0.4384

shapiro.test(x=dist_2)

## 
##  Shapiro-Wilk normality test
## 
## data:  dist_2
## W = 0.89796, p-value = 0.03195

dist_1はp値が0.05以上のため、正規分布に従っているという判断ができます。一方でdist_2はp値が0.05を下回るため、帰無仮設が棄却され、正規分布ではないと判断できます。

Shapiro-Wilk検定の他にも、分布の裾の一致性に注目しているAnderson–Darling検定があります。

正規分布の歪みを表す指標として、歪度と尖度があります。歪度は分布の非対称性の度合いを指し、尖度は分布のピークの鋭さ（=データの集中度合い）を指します。

今回はe1071と言うパッケージを使用して歪度と尖度を確認します。先ほどと同様にdist_1、dist_2を使用して比較します。まずは歪度から。

library(e1071)
skewness(dist_1, type=2)

## [1] 0.03031948

skewness(dist_2, type=2)

## [1] 0.8032202

歪度が0に近いほど、データが左右対称に分布していると解釈ができます。中心よりも左に集中している場合は0より大きく、右に集中している場合は0より小さくなります。上記の例では、標準正規分布であるdist_1の歪度は0に近く、dist_2は分布の左側にデータが集中していることから歪度が0より大きいです。

同様に、尖度も確認しましょう。

kurtosis(dist_1, type=2)

## [1] -0.004887783

kurtosis(dist_2, type=2)

## [1] -0.4790917

尖度が0に近いどほど、分布のピークに集中するデータが正規分布に近いと判断できます。また、正規分布よりデータが集中している場合は0より大きく、データが集中していない場合は0より小さくなります。

上記の結果から、dist_1は0に近いため概ね正規分布の形状をしていると判断ができます。一方で、dist_2は尖度が0より小さく、ピークに集中するデータが正規分布より少ないと判断できます。