第2回 1変量データの整理(2)

作者

村澤 康友

公開

2025年9月28日

今日のポイント
  1. 変量の尺度(名義/順序/間隔/比)により,適切なデータ整理の方法は異なる.
  2. 度数分布(表/ヒストグラム)はデータ整理の基本.
  3. 記述統計量(位置/散らばり)でデータの特徴をみる.

1 変量の尺度(p. 27)

1.1 質的変量

変量の尺度により,適切なデータ整理の方法は異なる.

定義 1 順序がない類別を名義尺度という.

注釈. 「最大値」 「最小値」 「平均」は無意味.

例 1 婚姻状態(未婚・既婚・離別・死別).

定義 2 順序がある類別を順序尺度という.

注釈. 「平均」は無意味.

例 2 最終学歴(中卒・高卒・大卒).

1.2 量的変量

定義 3 間隔のみが意味をもつ量を間隔尺度という.

例 3 摂氏・華氏,時刻.

定義 4 比率が意味をもつ量を比尺度という.

例 4 身長,体重,時間,絶対(熱力学)温度.

2 度数分布(p. 18)

2.1 度数(p. 18)

まず最初に観測値の範囲をいくつかの階級に分割する.

定義 5 ある階級に含まれる観測値の数を,その階級の度数という.

定義 6 (度数)/(観測値の総数)を相対度数という.

例 5 某大学1年生の入試成績(英語)の度数分布(表 1).

表 1: 某大学1年生の入試成績(英語)の度数分布
階級 度数 相対度数
200〜250 2 .00
250〜300 11 .03
300〜350 15 .04
350〜400 30 .07
400〜450 63 .15
450〜500 95 .22
500〜550 92 .22
550〜600 67 .16
600〜650 33 .08
650〜700 19 .04
427 1.00

定義 7 横軸に値をとり,各階級の(相対)度数を柱の面積で表したグラフをヒストグラム(柱状グラフ)という.

注釈. 柱の高さで表す棒グラフとは異なる.階級分けしない離散変量は棒グラフでよい.

注釈. ヒストグラムの印象は階級の取り方により異なる.粗すぎても細かすぎてもダメ.

例 6 某大学1年生の入試成績(英語)のヒストグラム(図 1).

図 1: 某大学1年生の入試成績(英語)のヒストグラム

2.2 累積度数(p. 19)

定義 8 ある階級以下の度数の和を,その階級までの累積度数という.

注釈. 名義尺度なら無意味.

定義 9 (累積度数)/(観測値の総数)を累積相対度数という.

例 9 某大学1年生の入試成績(英語)の累積度数分布(表 2).

表 2: 某大学1年生の入試成績(英語)の累積度数分布
階級 累積度数 累積相対度数
200〜250 2 .00
250〜300 13 .03
300〜350 28 .07
350〜400 58 .14
400〜450 121 .28
450〜500 216 .51
500〜550 308 .72
550〜600 375 .88
600〜650 408 .96
650〜700 427 1.00

定義 10 累積(相対)度数の折れ線グラフを累積(相対)度数グラフという.

注釈. 階級が細かいほど滑らかなグラフとなる.

例 7 某大学1年生の入試成績(英語)の累積度数グラフ(図 2).

図 2: 某大学1年生の入試成績(英語)の累積度数グラフ

定義 11 横軸に累積相対度数, 縦軸に(その階級以下の観測値の総和)/(全観測値の総和)をとった 折れ線グラフをローレンツ曲線という.

注釈. 全観測値が等しければ45度線に一致.下に行くほど「不平等」な分布.

注釈. データの大きさに関わらず,累積相対度数分布が同じなら,ローレンツ曲線は同じになる.

例 8 某大学1年生の入試成績(英語)のローレンツ曲線(図 3).

図 3: 某大学1年生の入試成績(英語)のローレンツ曲線

練習 1 以下の3つのデータについて,それぞれローレンツ曲線を描きなさい.

  1. (2,2,2,2,2)
  2. (0,0,0,0,10)
  3. (0,1,2,3,4)

3 記述統計量(p. 28)

3.1 総和記号

定義 12 \sum_{i=1}^nx_i:=x_1+\dots+x_n

練習 2 以下の公式を示しなさい.

  1. \sum_{i=1}^n1=n
  2. \sum_{i=1}^nax_i=a\sum_{i=1}^nx_i
  3. \sum_{i=1}^n(x_i+y_i)=\sum_{i=1}^nx_i+\sum_{i=1}^ny_i

3.2 位置(p. 28)

定義 13 (観測値の総和)/(観測値の総数)を(算術)平均という.

注釈. 質的変量なら無意味.

注釈. 観測値を (x_1,\dots,x_n) とすると(とりあえず母集団と標本は区別しない) \mu:=\frac{x_1+\dots+x_n}{n}=\frac{1}{n}\sum_{i=1}^nx_i

定義 14 観測値を小さい方から順に並べたときの中央の値を中位数という.

注釈. データの総数が偶数で中央の値が存在しない場合は両隣の間をとる.

注釈. 順序尺度でも意味をもつ.

注釈. 対称な分布なら平均=中位数.

定義 15 観測値を小さい方から順に並べたときの \alpha n 番目の値を \alpha 分位数(点)という.

注釈. \alpha n 番目の値が存在しない場合は両隣の間をとる.

注釈. 中位数は0.5分位数.

定義 16 i/4 分位数をi 四分位数という.

定義 17 i/5 分位数をi 五分位数という.

定義 18 i/10 分位数をi 十分位数という.

定義 19 i/100 分位数をi 百分位数(パーセント点)という.

定義 20 度数が最大となる値を最頻値という.

注釈. 階級の取り方に依存する.

注釈. 名義尺度でも意味をもつ.

注釈. 対称で単峰な分布なら平均=中位数=最頻値.

3.3 散らばり(p. 35)

定義 21 (最大値)-(最小値)を範囲(レンジ)という.

定義 22 (第3四分位数)-(第1四分位数)を四分位範囲(interquartile range, IQR)という.

定義 23 IQR/2 を四分位偏差という.

定義 24 平均からの偏差の2乗の平均を分散という.

注釈. 式で表すと \sigma^2 :=\frac{(x_1-\mu)^2+\dots+(x_n-\mu)^2}{n} =\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2

定義 25 分散の平方根を標準偏差という.

定義 26 (標準偏差)/(平均)を変動係数という.

注釈. 変動係数は測定単位の影響を受けない.

注釈. 平均が正でないと(比尺度でないと)無意味.

定義 27 (ローレンツ曲線と45度線の間の面積)/(45度線の下の面積)をジニ係数という.

注釈. 45度線の下の面積は1/2.

注釈. 不平等度(格差)を表す.

まとめ

今日のキーワード

名義尺度, 順序尺度, 間隔尺度, 比尺度, 度数, 相対度数, ヒストグラム(柱状グラフ), 累積度数, 累積相対度数, 累積(相対)度数グラフ, ローレンツ曲線, (算術)平均, 中位数, 分位数(点), 四分位数, 五分位数, 十分位数, 百分位数(パーセント点), 最頻値, 範囲(レンジ), 四分位範囲(IQR), 四分位偏差, 分散, 標準偏差, 変動係数, ジニ係数

次回までの準備