中級統計学:復習テスト2
すべての質問に解答しなければ提出とは認めない.正答に修正した上で,復習テスト1〜8を順に重ねて左上でホチキス止めし,第1回中間試験実施日(10月24日の予定)に提出すること.
棒グラフとヒストグラム(柱状グラフ)の違いを説明しなさい.
ヒストグラムと累積相対度数グラフの長所・短所を説明しなさい.
データ (0,0,1,1,2,2,3,3,4,4) のローレンツ曲線を描きなさい.
(教科書 pp. 32–33 参照)データ (1,1,1,1,2,3,4,5,16,20) の平均・中位数・最頻値を求めなさい.
棒グラフは横軸が分類を表し,柱の高さで(相対)度数を表す.ヒストグラムは横軸が数値を表し,柱の面積で(相対)度数を表す.
- ヒストグラム
- 長所:度数の大小が把握しやすい.
- 短所:適切な階級の取り方が難しい.
- 累積相対度数グラフ
- 長所:分位数を読み取るのに適しており,階級が細かいほど滑らかなグラフとなる.
- 短所:度数の大小が把握しにくい.
- ヒストグラム
ローレンツ曲線をL(.)とすると
| 値 | 度数 | 累積度数 | 累積相対度数 | 観測値の和 | 観測値の累積和 | L(p) |
|---|---|---|---|---|---|---|
| 0 | 2 | 2 | 0.2 | 0 | 0 | 0.0 |
| 1 | 2 | 4 | 0.4 | 2 | 2 | 0.1 |
| 2 | 2 | 6 | 0.6 | 4 | 6 | 0.3 |
| 3 | 2 | 8 | 0.8 | 6 | 12 | 0.6 |
| 4 | 2 | 10 | 1.0 | 8 | 20 | 1.0 |
L(.)を図示すると
- 平均 5.4 ,中位数 2.5 ,最頻値 1
- (教科書 p. 38 参照)データを (x_1,\dots,x_n) とする.
y_i:=a+bx_i と一次変換すると, \begin{align*} \mu_y & =a+b\mu_x \\ \sigma_y^2 & =b^2\sigma_x^2 \end{align*} となることを示しなさい.ただし \mu_x,\mu_y は平均,\sigma_x^2,\sigma_y^2 は分散を表す.
上の結果を利用して,z_i:=(x_i-\mu_x)/\sigma_x と標準化すると,平均が 0 ,分散が 1 となることを示しなさい.(ヒント:z_i=-\mu_x/\sigma_x+(1/\sigma_x)x_i と書ける.)
\begin{align*} \mu_y & :=\frac{y_1+\dots+y_n}{n} \\ & =\frac{(a+bx_1)+\dots+(a+bx_n)}{n} \\ & =\frac{(a+\dots+a)+(bx_1+\dots+bx_n)}{n} \\ & =\frac{na+b(x_1+\dots+x_n)}{n} \\ & =a+b\frac{x_1+\dots+x_n}{n} \\ & =a+b\mu_x \\ \sigma_y^2 & :=\frac{(y_1-\mu_y)^2+\dots+(y_n-\mu_y)^2}{n} \\ & =\frac{[(a+bx_1)-(a+b\mu_x)]^2+\dots+[(a+bx_n)-(a+b\mu_x)]^2}{n} \\ & =\frac{(bx_1-b\mu_x)^2+\dots+(bx_n-b\mu_x)^2}{n} \\ & =\frac{[b(x_1-\mu_x)]^2+\dots+[b(x_n-\mu_x)]^2}{n} \\ & =\frac{b^2(x_1-\mu_x)^2+\dots+b^2(x_n-\mu_x)^2}{n} \\ & =b^2\frac{(x_1-\mu_x)^2+\dots+(x_n-\mu_x)^2}{n} \\ & =b^2\sigma_x^2 \end{align*}
- z_i:=(x_i-\mu_x)/\sigma_x=-\mu_x/\sigma_x+(1/\sigma_x)x_i と書けるから,a=-\mu_x/\sigma_x ,b=1/\sigma_x と置くと, \begin{align*} \mu_z & =a+b\mu_x \\ & =-\frac{\mu_x}{\sigma_x}+\frac{1}{\sigma_x}\mu_x \\ & =0 \\ \sigma_z^2 & =b^2\sigma_x^2 \\ & =\left(\frac{1}{\sigma_x}\right)^2\sigma_x^2 \\ & =1 \end{align*}