記述統計

太郎丸 博

2025-04-03

代表値と散らばりの尺度

二値変数 の場合

二値変数の比率は平均値と見なせる

三つ以上カテゴリがある離散変数の場合

最頻値 mode

表1 2023年京大学部生数(医歯学部除く)京大HPより
総合人間学部 420 158 578
文学部 607 422 1029
教育学部 137 147 284
法学部 1037 397 1434
経済学部 877 194 1071
理学部 1299 112 1411
工学部 3758 420 4178
農学部 830 455 1285

多様性とは?

A, B, C を民族名とすると、下記で最も「多様」なのは?

多様性の程度を比較する場合、多様性を数量化できると便利な場合も

質的分散 qualitative variance の定義

ある質的変数が \(i=1, \; \ldots\; , \; r\) のカテゴリをとるとき、\(i\) というカテゴリの比率を \(r_i\) とすると質的分散は、 \[ \frac{1 - \sum_{i=1}^{r}r_i^2}{2} \] である。100%の人が一つのカテゴリに属すときに質的分散はゼロ、無数のカテゴリに人々が分かれ、どのカテゴリも比率が 0 に近づくとき質的分散も 0.5 に近づく

質的分散の計算例

連続変数の場合

外れ値 outlier

17, 17, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 19, 19, 19, 114

外れ値は平均値への影響大

中央値 median

四分位点 quartile

パーセンタイル percentile

標準偏差や分散の大きさは変数の尺度 scale によって変わる

##  [1]  34  34  36  36  36  36  36  36  36  36  36  36  38  38  38 228

変動係数 Coefficient of Variation

範囲 range、四分位範囲 interquartile range

外れ値と分布に関する知識

テューキーの境界 Tukey’s Fences

変数の標準化が必要な背景 1

変数の標準化が必要な背景 2

変数の標準化 standardization

Z得点 Z Score

Z得点の特徴と応用

偏差値 standard score

初任給データの偏差値
初任給 17 万円: \(10\times -0.31 + 50 = 46.9\)
初任給 18 万円: \(10\times -0.27 + 50 = 47.3\)
初任給 19 万円: \(10\times -0.23 + 50 = 47.7\)
初任給 114 万円: \(10\times 4 + 50 = 90\)

0-1 標準化

初任給データを0_1標準化した値
初任給 17 万円: \((17-17)/(114-17)=0\)
初任給 18 万円: \((18-17)/(114-17)=0.01\)
初任給 19 万円: \((19-17)/(114-17)=0.02\)
初任給 114 万円: \((114-17)/(114-17)=1\)

相関係数