第7回 推定と検定の考え方

2025年度 経済データ分析演習B2

伊藤 翼

2025-11-15

はじめに

出席登録は13:00から14:30まででに登録してください

出席番号

381354526

クラスコード

gsrnanuj

今回の目標

  • 推定とはなにか理解する
  • 母集団と標本を分けて考えられる
  • 検定とはなにか理解する
  • 信頼区間について理解する


注意:親講義(経済データ分析B)の第2回から第6回までの範囲ですので、詳しくは親講義の内容をしっかりと復習してください

推定とは何か?

母集団と標本

母集団(population)

調査対象となる人・物の集団全体のこと

標本(sample)

調査のために抽出された母集団の一部のデータ

  • 標本に含まれる観測値数をnで表し、標本サイズ(sample size)と呼ぶ
  • 母集団から抽出された標本の数を標本数(number of sample)と呼ぶ

Screenshot of code with a light theme on white background

推定(estimation)

推定(estimation)

母集団を特徴づける未知のパラメータ(母数、parameter)を標本から推測すること

  • 推定量:推定に用いるためにデータから計算される統計量
  • 推定値:推定量に標本を代入して得られる値
  • 簡単に言うと、
  • 母集団に(未知の)真のパラメータが存在していると仮定する
  • 母集団から抽出した標本を用いて計算することで、母集団の(未知の)真のパラメータを推測しようとすることを推定と呼ぶ(これを点推定という)

Screenshot of code with a light theme on white background

推定した結果は正しい?

  • では、標本統計量を母集団の真のパラメータに近づけるにはどのようには?

Screenshot of code with a light theme on white background

真のパラメータに近い結果を得るには

  • 母集団からの抽出を無限に行えば、標本平均は真のパラメータ\(\mu\)に近づき、
  • 標本平均の分布は正規分布になる
  • 以上のことから、

大数の法則(law of large numbers)

数学的結果から、標本数を十分に増やしていくと、標本平均の平均は母平均\(\mu\)に近づく

中心極限定理(central limit theorem)

標本サイズ\(n\)が十分に大きければ、標本分布も釣り鐘型の左右対称な正規分布となる

正規分布(normal distribution)

  • 正規分布:平均を中心に左右対称な分布
  • ある変数\(X\)が正規分布に従うということを数学的に以下のように書く
  • \(X \sim N(\mu, \sigma^2)\)
  • つまり、平均\(\mu\)、分散\(\sigma^2\)は変数\(X\)の正規分布のパラメータである
  • 標準化正規分布:これを標準化すれば、平均0、分散1とすることができる\(Z=\frac{X-\mu}{\sigma} \sim N(0,1)\)

母集団の信頼区間

  • この標準化正規分布は、標本平均の分布である
  • そのため、この分布の平均が必ずしも母平均とは言えない
  • しかし、この分布の中に母平均\(\mu\)がある確率で存在する範囲を求める(区間推定
  • 詳しい話は省くが、信頼区間とは、下限\(X-z_{\lambda/2}\sigma\)と上限\(X+z_{\lambda/2}\sigma\)の間に囲まれた区間である
  • この区間の分布の面積(確率)\(1-\lambda\)の中に母平均

Screenshot of code with a light theme on white background

検定とは何か?

仮説検定

仮説検定 (hypothesis testing)

母集団に関するある仮説が、推定された値から統計的に成り立つのか検証

  • 帰無仮説(null hypothesis, \(H_0\)):検定したい仮説
  • 対立仮説(alternative hypothesis, \(H_1\)):帰無仮説と対立する仮説(主張したい仮説)

仮説検定の論理

対立仮説\(H_1\)の正しさを主張するために、対立仮説とは反対の帰無仮説\(H_0\)の正しさを否定する

  • これを検定する方法として、t検定(t-testing)である
  • この説明は割愛

例:アルバイト時給の仮説検定

  • 大学生の平均アルバイト時給の仮説
  • 帰無仮説\(H_0\):Aさんのアルバイト時給は地域の学生の平均と同じである
  • 対立仮説\(H_1\)\(H_0\)は間違っている
  • 平均的な大学生のアルバイト時給を\(\mu\)、Aさんのアルバイト時給を\(\mu_0\)

\(H_0: \mu = \mu_0\)
\(H_1: \mu \neq \mu_0\)

  • Aさんのアルバイト時給が950円とすると、

\(H_0: \mu = 950\)
\(H_1: \mu \neq 950\)

仮説検定での2種類の誤り

第1種の過誤と第2種の過誤

  • 第1種の過誤(I):帰無仮説\(H_0\)が正しいにもかかわらずに、帰無仮説を棄却し、対立仮説\(H_1\)を採択する誤り
  • 第2種の過誤(II):対立仮説\(H_1\)が正しいにもかかわらずに、対立仮説を棄却し、帰無仮説\(H_0\)を採択する誤り
真実
\(H_0\) \(H_1\)
採択仮説 \(H_0\) II
\(H_1\) I
  • 仮説検定では、第1種の過誤を犯す方が問題
  • 第1種の過誤を犯す確率を小さくするように判断する

有意水準・臨界値

Screenshot of code with a light theme on white background

有意水準

有意水準(significant level)

帰無仮説が間違っている(棄却する)と判断できる基準となる確率

  • 親科目では、「第1種の過誤を犯す確率」
  • 棄却域の面積であり、この部分が発生する確率

有意水準

  • 10%(0.1)
  • 5%(0.05)
  • 1%(0.01)
  • つまり、\(H_0:\mu=\mu_0\)という帰無仮説を立て、
  • 帰無仮説が棄却された場合、
  • 母集団で想定される母平均と\(\mu_0\)が等しい確率が5%以下である

差の検定

2標本間の平均の差の検定: 二つの標本に差があるのか検定する

  • 詳しくは除くが、一つの標本から推定をするので、
  • 二つの標本の平均に差があることは母集団からの抽出に問題がある可能性がある
  • また、標本平均は確率変数であるので、その差は偶然による可能性もある


その応用

  • この応用として、一つの標本を二つのグループにわけて差の検定が可能
  • 例えば、男性と女性の所得に差があるのか?
  • などが可能

講義課題

講義準備(1)

レポート用フォルダ作成

  • Drive→Classroom→2025年度 経済データ分析演習B2に「レポート用」フォルダを作成
  • ローカル(大学PC上)の「経済データ分析演習」フォルダの「秋学期」フォルダに「レポート用」フォルダを作成

レポート用データのダウンロード&アップ

  • ToyoNet-ACEから「学生生活に関するアンケート_2025.csv」「学生生活に関するアンケート_2025【変数表】.xlsx」をローカルの「経済データ分析演習」フォルダに保存
  • 先ほど作成したDriveの「レポート用」フォルダにアップする

これらをしないと誤提出する可能性があるので、必ずすること

講義準備(2)

レポート用Colabファイルを開く

  • 作成した「レポート用」フォルダ上でColabファイルを開く

ファイル名の変更

  • 「中間_学籍番号_氏名.ipynb」に変更
  • アンダーバー(_)は必ず半角
  • ファイル先頭に「# 中間レポート(氏名)」をテキストセルで挿入

第6回講義課題のColabファイルの再利用

  • 第6回講義課題で提出したColabファイルを開く
  • ドライブのマウントからデータのインポートまでをコピーし、中間レポート用のファイルに貼り付ける
  • データインポートのパスを先ほどアップした「学生に関するアンケート_2025.csv」に変更

講義課題(3)

中間レポートの作成

  • 自身で選択した変数(3つ以上)の「データの加工」「記述統計量」「グラフ」「クロス集計表」を作成してください

今後の講義課題

  • 今後の講義課題は、中間レポートの途中経過を受けて評価します
  • 途中経過でいいので、必ずColabファイルをClassroomに提出してください
  • 完成形は中間レポートで提出してください

使用変数の決定

レポートで使用する変数をメモする

### 被説明変数1つ以上と説明変数2つ以上を決め、変数名、変数番号、定義をメモする

*   被説明変数:変数名(変数番号) 定義
*   説明変数:変数名(変数番号) 定義
*   説明変数:変数名(変数番号) 定義

データ型に合わせて中身をチェック

  • 文字列型ではfactor関数とsummary関数

  • 数値型ではget_summary_stat関数

  • 連続変数に関しては、ggplot関数を使って外れ値を設定

  • 以上からわかることをメモする

データフレームと記述統計量の作成

加工データの作成

レポートで使用する変数を作成

  • データに合わせて変数を作成
  • 新たなデータセットオブジェクトにidと作成した変数を代入

変数ラベルをつける

  • 作成したデータセットの変数ラベルをつける
  • label_variables関数を使用する

記述統計量の作成

記述統計量はレポートの条件

  • 作成したデータセットから記述統計量の作成
  • get_summary_stat関数を使用
  • 少なくとも「観測値数」「平均」「中央値」「標準偏差」「最小値」「最大値」を示すこと
  • gt関数とgtsave関数を使用してレポート用記述統計量のDriveに保存する

グラフの作成

グラフの作成

少なくとも一つ以上のグラフが必要

  • 棒グラフ(ヒストグラム)、散布図、箱ひげ図などを作成
  • グラフは自身のレポートの目的に合わせて作成する

棒グラフ

  • データ型に合わせて、各変数の棒グラフ作成
  • 度数分布表からヒストグラムを作成しても良い

散布図

  • 被説明変数を縦軸にした散布図を作成
  • 散布図内に相関係数を含めると良い

クロス集計表の作成

クロス集計表

少なくとも一つ以上のクロス集計表が必要

  • 被説明変数を軸としたクロス集計表を作成
  • 被説明変数が連続変数の場合は、cut関数を使用
  • 表にNAがある場合はデータ加工を見直すこと

メモと相談

メモ

  • 以上からわかることをテキストセルに書くこと
  • 途中経過であっても、そこまででわかることを書く

相談

  • 実行できない部分がある場合は、テキストセルで相談する
  • その他、レポートでわからないことを書く
  • 返却時に返信をします