記述統計

太郎丸 博

代表値と散らばりの尺度

概念 意味
代表値 分布の「中心」 中央値、平均値
散らばり 事例間の差異の大きさ 分散、範囲
  • 代表値と同じくらい散らばりの尺度も注意すべき
  • 代表値や散らばりの尺度のように、変数の分布の特徴を示す統計量を記述統計 descrptives、または要約統計という
  • 連続変数についてはテキストを参照

二値変数 の場合

  • 二値変数: yes/no のように、とりうる値が二つしかない変数 dichotomous variable, binary variable とも
  • 一方の比率を示せば十分:
  • 例えば 5 人の人に内閣を支持するか尋ねた結果が以下の通りだったら、yes が 60%
    • yes, no, no, yes, yes

二値変数の比率は平均値と見なせる

  • 一方のカテゴリに1, 他方に 0 を割り振って平均値を計算すると、1 を割り振ったカテゴリの比率に一致
  • 前の例で、yes に 1 、no に 0 を割り振ると、1, 0, 0, 1, 1 . 平均は 0.6, yes の比率と一致

3 カテゴリ以上ある離散変数

  • カテゴリが 3〜5 程度なら、度数分布表を示すのが良いと思う
  • それ以上だと、比率の高いカテゴリ、上位 5 つ程度の名前と比率を示すのが良いと思う
  • それ以外にも、最頻値、質的分散/エントロピーといった記述統計が用いられることも

最頻値 mode *

  • 比率の最も高いカテゴリのこと。離散変数でないと無意味。
  • 例:男性の場合、最頻値は工学部、女性は農学部、男女計では工学部
表1 2023年京大学部生数(医歯学部除く)京大HPより
 男   女 
総合人間学部 420 158 578
文学部 607 422 1029
教育学部 137 147 284
法学部 1037 397 1434
経済学部 877 194 1071
理学部 1299 112 1411
工学部 3758 420 4178
農学部 830 455 1285

多様性とは?

A, B, C, D を民族名とすると、下記で最も「多様」な地域は?

  • 甲:A 100%, B 0%, C 0%, D 0%
  • 乙:A 60%, B 40%, C 0%, D 0%
  • 丙:A 60%, B 30%, C 10%, D 0%
  • 丁:A 60%, B 20%, C 20%, D 0%
  • 戊:A 25%, B 25%, C 25%, D 25%

多様性の程度を比較する場合、多様性を数量化できると便利な場合も

質的分散 qualitative variance の定義

ある質的変数が \(i=1, \; \ldots\; , \; K\) のカテゴリをとるとき、\(i\) というカテゴリの比率を \(r_i\) とすると質的分散は、 \[ \frac{1 - \sum_{i=1}^{K}r_i^2}{2} \] である。全員が一つのカテゴリに属すときに質的分散はゼロ、無数のカテゴリに人々が分かれ、どのカテゴリも比率が 0 に近づくとき質的分散も 0.5 に近づく

質的分散の計算例

  • \(\frac{1 - (1^2 + 0^2 + 0^2 + 0^2)}{2} = 0\)
  • 乙:\(\frac{1 - (0.6^2 + 0.4^2 + 0^2 + 0^2)}{2} = 0.24\)
  • 丙:\(\frac{1 - (0.6^2 + 0.3^2 + 0.1^2 + 0^2)}{2} = 0.27\)
  • 丁:0.28
  • 戊: 0.375

視覚化の力: 多様性

  • 「適切」にグラフにできれば一目瞭然
  • 手間をかけて分かりやすく作るべし

連続変数の場合

  • 平均値、分散、標準偏差については省略
  • これらは推測統計で役立つのでよく使われるが、変数の分布の一面を要約するに過ぎない
  • 外れ値の影響を除去したい場合、中央値や四分位範囲などが用いられるし、
  • 分散/標準偏差は変数のスケールの影響を受けるので、変動係数やジニ係数が用いられることも

外れ値 outlier

  • 連続変数の値のうち他の値と「顕著に」異なるもの
  • 例:ある会社の新入社員 16 人の初任給(手取り、万円)が以下の通りだったとする
表 1 16 人の初任給
17, 17, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 19, 19, 19, 114
  • 最後の114万円が外れ値
  • 外れ値の数学的定義はいくつかあるが、四分位数を定義した後にそのうちの一つを説明する

外れ値は平均値への影響大

  • 前ページの初任給の平均は 24.1 万円だが、外れ値を除いた場合の平均は、18.1 万円
  • 他の事例を除いても、これほど大きく平均値は変化せず
  • 外れ値は「特別」なので、データから削除する場合も
  • しかし、外れ値が測定や入力のミスでなければ、その存在は現象の一部として認識すべき
  • ただ、外れ値に影響されない代表値があると便利な場合も(例えば収入や資産の研究)
  • 何を知りたいかに応じて外れ値は処理すべし

中央値 median *

  • 中央値:データを昇順で並べ替えたとき、ちょうど「真ん中」の値
  • サンプルサイズ \(N\) が奇数ならば、\((N+1)/2\)番目の値が中央値
  • 偶数ならば、\(N/2\)番目の値と\(N/2+1\)番目の値の平均が中央値
  • 前々ページの例では、\(N=16\) なので、8番目の値 \(=18\) と9番目の値 \(=18\) の平均値 \(= 18\) が中央値
  • 最大値や最小値の値が変わっても、中央値は変わらない。つまり外れ値の影響は無い

四分位数 quartile *

  • データを昇順で並べ替えたとき中央値と最小値の「真ん中」の値を第 1 四分位数、中央値を第 2 四分位数、中央値と最大値の「真ん中」の値を第 3 四分位数、という。
  • 第 1, 第 3 四分位数の計算の仕方も何通りかあるが、この授業では google spreadsheet の =percentile() 関数で 25 パーセンタイル、75 パーセンタイル を求めればよい(パーセンタイルについては後述)
  • 前々々ページの例では、第 1 四分位数が 18、第 3 四分位数が 18.5 。

パーセンタイル percentile

  • データを昇順で並べ替えたとき、下から10%のところの値を 10パーセンタイル、30%のところの値を30パーセンタイル、一般に q%のところの値を qパーセンタイル、という。
  • 中央値は 50パーセンタイル、第1、第3四分位数は 25パーセンタイル、75パーセンタイル、である。google spreadsheet では =percentile(データ, q) で計算できる。

分散は変数の尺度で変わる *

  • 表 1 の16人の初任給の標準偏差は 22.5 であるが、仮に物価が2倍に上昇し、賃金も一律に 2 倍に上昇すると、以下のように
表 2 賃金(表 1 の 2 倍)
34, 34, 36, 36, 36, 36, 36, 36, 36, 36, 36, 36, 38, 38, 38, 228
  • 標準偏差は 45 で賃金同様に2倍に。
  • 一般に変数 \(x\)\(a\) 倍すると、平均や標準偏差も \(a\) 倍、分散は \(a^2\) 倍に。
  • しかし標準偏差のこの性質が不都合な場合も
  • 例えば、上の例のような変化は実質的な賃金格差の変化ではない、という見方が
  • また国による不平等の大きさの違いを検討する場合、通貨によって標準偏差の値が変わってしまう

変動係数 Coefficient of Variation

  • 標準偏差を平均値で割った値。変数を \(a \; (a \neq 0)\) 倍しても変動係数は変わらず
平均 標準偏差 変動係数
表1 24.1 22.5 22.5 / 24.1 = 1.1
表2 48.1 45.0 45 / 48.1 = 1.1

範囲 range、四分位範囲 interquartile range

名前 定義 表 1 計算例
範囲 最大値 \(-\) 最小値 \(114 - 17 = 97\)
四分位範囲 第 3 四分位数 \(-\) 第 1 四分位数 \(18.5 - 18 = 0.5\)
四分位偏差 四分位範囲 \(/2\) \(0.5 /2 = 0.25\)
  • 80パーセンタイル \(-\) 20パーセンタイル(20-80 パーセンタイル範囲) や 10-90 パーセンタイル範囲がバラツキの尺度として使われることも
  • 範囲は外れ値に影響されるが、その他は外れ値の影響を受けにくい

外れ値と分布に関する知識

  • 変数の分布が既知であれば(例えば標準正規分布)、どのような値が例外的に大きい/小さいのかわかるが、社会学ではそういう状況はほとんどない
  • 分布について正確にわからなくても、前述の初任給の例のように「常識的にこれぐらい」ということを知っていれば、その「常識」にもとづいて外れ値を区別できる場合も

既知分布から外れ値判断(範囲外)

20 歳代の女性、7 人の身長を調べたら以下のようであったとする(架空データ)。175cm は外れ値か?

7人分の女性の身長データ(架空)
154, 159, 160, 162, 167, 169, 175
  • 2024年度の国民健康栄養調査 によると、20 歳代の女性の平均身長は 158cm、身長の標準偏差は 5.0 。
  • 身長は正規分布に近似すると言われている。
  • 平均 = 158、標準偏差 = 5 の正規分布で 175 以上の値が出る確率は 0.03 % (正規分布表やアプリを使えば計算できる)。これに対して、その次に高い事例である 169 cm 以上の値が出る確率は 1.39 % 。
  • ここから主観的判断だが、0.1% 未満の確率でしか生じない事例は外れ値と呼んでよかろう。

テューキーの境界 Tukey’s Fences *

  • 分布が未知でも機械的に外れ値を識別する目安として、Tukey’s Fences が有名。四分位範囲を\(IR\)、第1、第3四分位数を \(q_1, \; q_3\)とすると、Tukey’s Fences は \[ [ q_1 - 1.5 \times IR, \qquad q_3 + 1.5 \times IR ] \] この下限値より小さい値や上限値より大きい値が外れ値。表 1 では \(18 - 1.5 \times 0.5 = 17.25\) 未満、\(18.5 + 1.5 \times 0.5 = 19.25\) より大きい、値が外れ値

変数の標準化が必要な背景 1

  • 熟練の出題者であっても、試験の難易度を完全にコントロールすることは困難で、試験によって難易度にバラツキが生じることは珍しくない
  • また受験者数も試験ごとに異なる
  • 上記のような場合、点数や順位は、受験者中の相対的な成績のよさの指標として不適切な場合も。
    • 前回より点数が上がっても今回は試験が簡単だったからかも?
    • 前回より順位が上がっても今回は受験者数が少なかったからかも?

変数の標準化が必要な背景 2

  • 性役割に関する「態度」を調べるために、以下のような複数の意見に関する賛否を4~11段階程度で尋ねることが。
    • 母親が外で働いていても、働いていない母親と同じように、温かく、しっかりした母子の関係はつくれる
    • 母親が外で働いていると、小学校入学前の子供は精神的に傷つくようだ
  • 5段階で賛否を尋ね、「そう思う」から「そう思わない」までの選択肢に 4~0 の整数を割り当てたときの平均値は、上が 1.1、下が 2.5 。
  • 性役割態度を表す指標として、これらの回答を足し合わせたものがしばしば使われるが、上の項目で「そう思う」と答えた人と下の項目で「そう思う」と答えた人は、同程度の性役割意識の強さを持っていると言えるだろうか? そうでなければ足し合わせることは不適切と言えないだろうか。
  • ほかにも項目によって選択肢が3択だったり、5択だったりして、比較が困難、そのまま足し合わせられない場合も

変数の標準化 standardization *

  • 変数 \(x_i \; (i = 1, \; 2, \; \ldots, \; N)\) に以下のような正の一次変換を施し、解釈を容易にしたり、比較しやすくしたりすることを標準化という。 \[ a + b x_i \qquad (\mathrm{ただし} \; b > 0) \tag{1} \]
  • 標準化にもいろいろあるが、代用的なものを以下で紹介。

Z得点 Z Score

  • \(x_i\) から \(x_i\) の平均値 \(\bar x\) を引いて、\(x_i\)の標準偏差 \(s_x\) で割ったもの。Z値 z value とも \[ \frac{x_i - \bar x}{s_x} = \frac{1}{s_x}x_i - \frac{\bar x}{s_x} \]
  • 表 1 のデータは、平均が 24.1、標準偏差 22.5 だから、
x_i x_i の Z 得点
17 ( 17 - 24.1) / 22.5 = -0.31
18 ( 18 - 24.1) / 22.5 = -0.27
19 ( 19 - 24.1) / 22.5 = -0.23
114 ( 114 - 24.1) / 22.5 = 4

Z得点の特徴と応用

  • Z得点の平均は必ず 0 、標準偏差は 1
  • 平均や標準偏差の大きく異なる変数どうしを足し合わせて、何かの指標とする場合、いずれの変数も Z得点に変換してから足し合わせる場合あり
  • もとの変数が正規分布しているなら、絶対値が 1.96 以上になる確率は 5%、2.58 以上は 1%、3.29以上は 0.1% なので、Z得点に変換すれば、どの程度「外れ値」なのかは見当がつく
  • 相対的な成績に関しても、Z得点でだいたいわかる

偏差値 standard score *

  • Z得点 \(z_i \; (i = 1, \; 2, \; \ldots, \; N)\) を 10倍して、50足したもの \[ 10 \times z_i + 50 \]
  • 偏差値の標準偏差は必ず 10、平均は 50 になる
  • 日本では相対的な成績の指標としてよく用いられる
初任給データの偏差値
初任給 17 万円: \(10\times -0.31 + 50 = 46.9\)
初任給 18 万円: \(10\times -0.27 + 50 = 47.3\)
初任給 19 万円: \(10\times -0.23 + 50 = 47.7\)
初任給 114 万円: \(10\times 4 + 50 = 90\)

0-1 標準化

  • 私は、最小値が 0 、最大値が 1 になるように変数を標準化することがある
  • 変数 \(x_i\) の最小値を \(min\)、最大値を \(max\) とする。 \[ \frac{x_i -min}{max - min} \] とすると、最小値 0、最大値 1 になる。個々の値が最小値、最大値にどれぐらい近いのか、理解しやすい。
初任給データを0_1標準化した値
初任給 17 万円: \((17-17)/(114-17)=0\)
初任給 18 万円: \((18-17)/(114-17)=0.01\)
初任給 19 万円: \((19-17)/(114-17)=0.02\)
初任給 114 万円: \((114-17)/(114-17)=1\)

相関係数

  • 説明は省略。テキストを見よ
  • 一部のWEBページ等では相関係数が 0.7 以上なら「かなり強い」といった根拠の無いデタラメが書かれている。以下はデタラメの実例:
  • 職業威信スコアの研究では、相関係数が 0.8 ならかなり低いほうだし、収入と意識の相関なら 0.1 でも特に低いというほどでもない
  • 通常どれぐらいの相関係数になるのか、という相場観との比較で、「強い」「弱い」と判断されることが多い
  • つまり、相関係数の絶対値から機械的に「強い」とか「低い」とか解釈することは無意味。やめて!
  • また、統計的に有意かどうかと相関の強さも別のことなので、混同しないように(上のようなデタラメ解説では混同されていることがある)。