確率変数\(original\)は\(N(5, 9)\)にしたがう。確率変数\(standarized\)は\(original\)を標準化した変数である。
をつくる。
original <- rnorm(n = 1000000, mean = 5, sd = 3)
standarized <- (original - mean(original)) / sd(original)
dfWide <- data.frame(original, standarized)
dfLong <- dfWide %>% pivot_longer(cols = 1:2, names_to = "type")
dfLong %>%
group_by(type) %>%
summarise(mean(value), sd(value), min(value), max(value))
## # A tibble: 2 x 5
## type `mean(value)` `sd(value)` `min(value)` `max(value)`
## * <chr> <dbl> <dbl> <dbl> <dbl>
## 1 original 5.00e+ 0 3.00 -9.99 19.9
## 2 standarized 1.95e-17 1 -5.01 4.96
\(standarized\)がほぼほぼ\(N(0, 1)\)に従っていることがわかる。
dfLong %>%
ggplot(mapping = aes(x = value, y = ..density.., fill = type)) +
geom_histogram(position = "dodge", bins = 50) +
scale_x_continuous(name = "x")
変換前と後でかなり形が変わっている。
p <- pnorm(q = -3, mean = 0, sd = 1)
p
## [1] 0.001349898
q <- qnorm(p = p, mean = 5, sd = 3)
q
## [1] -4
qPrime <- (q - 5)/3
qPrime
## [1] -3
ここで、上の図を見ながら考えてみると、\[|F(q\prime) - E(standarized)| = |-3 -0| = 3 \\ |G(q) - E(original)| = |-4 -3| = 7\]である。同じく標準正規分布に従う確率変数といえども、標準化したほうが期待値と下側確率が\(p\)となる値との差は狭まっている。つまりキュッと締まった形になっている。