(公開版では図は著作権のため削除)

1. 統計的学習とは何か

統計的学習は、データからパターンを見出し、将来の事象を予測するための手法である。本節では、テレビ、ラジオ、新聞などの広告費用を用いて販売数を予測するモデルの構築について論じる。具体的には、線形回帰モデルを用いた予測が有効であるかどうかを検討し、予測モデルの意義を考察する。

広告効果の例

販売数とテレビ、ラジオ、新聞の関係を示し、それぞれに対して青い線形回帰線を適合させることで、広告費用が販売数に与える影響を可視化する。
この3つの変数を用いて販売数の予測が可能か否かを検討する。
予測モデルの例として、次のような近似式が考えられる。

\[ \text{Sales} \approx f(\text{TV}, \text{Radio}, \text{Newspaper}) \]

![図: 販売数とテレビ、ラジオ、新聞の関係](image_placeholder)

学習モデルにおける前提と仮定

統計的学習は、過去のデータを基にパターンを抽出し、将来の売上を予測する手法である。
本モデルは、広告費用と売上の関係性に焦点を当てている。

仮定

広告が売上に影響を与える：広告が消費者の購買意欲を喚起し、売上を増加させると仮定する。
広告の効果は加算的である：テレビ、ラジオ、新聞の各広告媒体は独立して売上に影響を与えるものとする。
（自然）斉一性の仮定：過去の広告と売上の関係が将来も同様に続くと仮定する。
完全な予測は不可能：広告以外にも天候や競合他社の動向などの影響があるため、完全な予測は不可能である。

モデル構築の方法

広告費用と売上の関係は、以下の数式でモデル化される。

\[ \text{Sales} \approx f(\text{TV}, \text{Radio}, \text{Newspaper}) \]

ここで、$f$ は広告費用を売上に結びつける関数であり、統計的学習モデルとして使用される。近似記号「$$」は、正確な関係ではなく、誤差を含んだ予測関係であることを意味する。

斉一性の仮定が意味すること

広告効果の一定性：過去のデータに基づき、広告費用が将来も売上に同様の影響を与えると仮定する。
環境変化を考慮しない：消費者の嗜好や市場の変化により、過去のデータに基づいた予測が常に正確であるとは限らない。

予測結果の解釈

広告の影響を過大評価しない：広告以外にも売上に影響を与える要因が存在するため、予測には他の要因も考慮する必要がある。
環境変化に柔軟に対応：市場の変化がある場合、過去のデータに依存することなく、適宜モデルを再評価することが求められる。

モデルの限界

広告効果の変動可能性：広告費用の増加が必ずしも比例して売上の増加を伴うとは限らない。
他の要因の影響：消費者の行動や競合の影響など、モデルに含まれない要因によって予測が精度を欠く場合がある。

統計的学習モデルの心得

統計的学習モデルは強力な予測手法であるが、仮定に依存しているため、変数や仮定がどのように結果に影響するかを十分に理解し、環境変動を考慮しながら慎重に活用することが重要である。

2. 記法

統計的学習モデルでは、応答変数$Y$と特徴量 $X_1, X_2, X_3$ との関係を数式で表現することが一般的である。ここでは、記法の重要性と、誤差項$\varepsilon$ の役割について述べる。

記法の理解の必要性

コミュニケーション手段としての役割：

数式やモデルは、データ分析や予測の共通言語であり、記法を理解することで他者の研究やモデルを正確に解釈できる。記法が不正確だと、考えや結果が伝わりにくくなる。

例：回帰モデルの基本形
\[ Y = f(X) + \varepsilon \]
ここで、$Y$ は応答変数、$X$は説明変数、$f(X)$ は関数、$\varepsilon$ は誤差項を表す。
モデルの構造理解：
記法は、モデルがどのように応答変数と説明変数の関係を表現しているかを理解するための手段である。例えば、記法 $Y = f(X) + \varepsilon$ は応答変数 $Y$ が説明変数 $X$ に依存していることを示している。
正確な解析のため：
記法を正確に理解しなければ、解析や適用において誤りを犯すリスクが高まる。例えば、誤差項 $\varepsilon$ を理解しないと、データの変動やモデルの適合度を評価できない。
複雑なモデルへの対応基盤：
基礎的な記法を理解していれば、関数、ベクトル、行列の記法が頻出する複雑なモデルや高度なアルゴリズムにも対応できる。
他分野や実践との連携：
統計的学習モデルは生物学、経済学、医療など幅広い分野で応用されており、記法を理解することで異なる分野のデータ解析や研究者間のコミュニケーションが円滑になる。

記法の例

販売数（Sales）は、予測対象となる応答変数または目的変数 $Y$ とする。
テレビ（TV）は特徴量（または説明変数）であり、$X_1$ と表記する。同様に、ラジオ（Radio）は $X_2$)、新聞（Newspaper）は $X_3$ と定義する。
これらの特徴量を含む入力ベクトル $X$ は、次のように表現される。

\[ X = \begin{pmatrix} X_1 \\ X_2 \\ X_3 \end{pmatrix} \]

モデルは以下のように記述され、応答変数 $Y$ が入力ベクトル $X$ に依存していることを示す。

\[ Y = f(X) + \varepsilon \]

ここで、$\varepsilon$ は測定誤差およびその他のズレを表し、モデルが現実のデータに完全に一致しないことを示す項である。

3. モデル $f(X)$の役割について

統計的学習におけるモデル $f$ は、新たなデータに対して予測を行い、応答変数 $Y$ に影響を与える要因を分析するための指針を提供する。本節では、モデル $f(X)$ の役割とその複雑さが予測精度や要因分析に及ぼす影響について考察する。

$f(X)$の役割

適切な関数 $f$を用いることで、新たなデータポイント $X = x$ に対する応答変数$Y$ を予測することが可能である。これにより、未知のデータに対する推定が実現される。
入力変数 $X = (X_1, X_2, \dots, X_p)$ の各成分について、その重要性や影響を評価できる。例えば、収入に関する予測では、職位や教育年数が大きく影響する要因として考えられる一方、婚姻状況の影響は小さいと判断できる。
関数 $f$ の複雑さは、予測精度と要因分析に大きな影響を与える。複雑なモデルでは、変数間の微細な関係を捉えることが可能であるが、解釈の難しさが増すため、バランスが求められる。

![図: 理想的な回帰関数の視覚化](image_placeholder)

$f(x)$ は、特定の値 $x$ における応答変数 $Y$ の期待値、すなわち平均値を表す。例えば、$X = 4$ の場合には以下のように示される。

\[ f(4) = E(Y | X = 4) \]

この理想的な回帰関数 $f(x) = E(Y | X = x)$ は、回帰モデルにおいて最も適切な予測値を与える基準となるものである。

4. 回帰関数 $f(x)$ の詳細

回帰関数 $f(x)$ は、応答変数 $Y$ の期待値を表す最適な予測関数である。予測における誤差を分析する際には、削減可能誤差と削減不可能誤差が区別され、これらが予測精度にどのように影響するかが重要となる。

回帰関数 $f(x)$

回帰関数 $f(x)$ は、ベクトル $X$ に対しても適用可能であり、例えば次のように表される。

\[ f(x) = f(x_1, x_2, x_3) = E(Y | X_1 = x_1, X_2 = x_2, X_3 = x_3) \]

この関数 $f(x)$ は、平均二乗予測誤差を最小化する最適な予測関数であり、以下のように定義される。

\[ f(x) = E(Y | X = x) \]

予測誤差 $\varepsilon = Y - f(x)$ には、以下の2種類の誤差が含まれる。
1. 削減可能誤差（Reducible Error）: モデルの改善によって削減可能な誤差であり、次の項で表される。
  
  \[ [f(x) - \hat{f}(x)]^2 \]
2. 削減不可能誤差（Irreducible Error）: モデルの性能にかかわらず残る誤差であり、以下で表される。
  
  \[ \text{Var}(\varepsilon) \]
したがって、任意の推定値 $\hat{f}(x)$ に対して、予測誤差の期待値は次のように分解できる。

\[ E\left[ (Y - \hat{f}(X))^2 | X = x \right] = [f(x) - \hat{f}(x)]^2 \text{（削減可能誤差）} + \text{Var}(\varepsilon) \text{（削減不可能誤差）} \]

このように、回帰関数 $f(x)$ を基準とした誤差の分解によって、予測の精度向上の可能性と限界を把握することができる。削減可能誤差は、モデルの改善によって抑制が可能である一方、削減不可能誤差はデータ自体の特性に起因するため、モデルの性能にかかわらず常に存在する誤差である。この分析は、モデルの選択や改善の方向性を決定する上で極めて重要な要素となる。

5. $f(x)$ の推定方法

実際のデータにおいて、関数 $f(x)$ を直接計算することは一般に難しい。特定のデータポイント $X = 4$ のようなデータがほとんど、あるいは全く存在しないため、$E(Y | X = x)$ を直接計算するのは困難である。このため、推定方法として近傍平均法などの手法が用いられる。

近傍平均法による推定

定義を緩め、データポイント $X = x$ の近くにあるデータポイントを平均して推定値 $\hat{f}(x)$ を得る方法が「近傍平均法」である。具体的には次のように表現される。

\[ \hat{f}(x) = \text{Ave}(Y | X \in N(x)) \]

ここで、$N(x)$ は $x$ の近傍を表し、近傍にあるデータを平均することで、近似的に $f(x)$ を求める。この手法は低次元データに対して有効であるが、高次元データでは「次元の呪い」により推定が難しくなる。

6. 次元の呪いとは

「次元の呪い」とは、データの次元数が増加するにつれて、データの密度が低下し、近傍法が効果を失う現象を指す。次元が増えることでデータ間の距離が急激に拡大し、データの分布に関する直感的な理解が通用しなくなる。このため、次元数が増加すると、近傍法などの一般的な手法が機能しにくくなる。

次元の呪いの直感的な説明

1次元の例：
1次元の直線上で、ある点から0.1単位の距離内に他の点を探す場合、この範囲には多くのデータ点が含まれることが期待できる。
2次元の例：
2次元の平面では、同様に0.1単位の距離内でデータを探すと、探索範囲が広がり、データがより分散するため、他のデータ点を見つけるのが難しくなる。
3次元の例：
3次元空間に拡張すると、同じ範囲でも探索領域がさらに拡大し、データ点間の距離が大きくなるため、最も近いデータポイントでさえ遠くに感じられる。高次元になると、データが非常に広がり、探索範囲に他のデータ点が存在する確率が著しく低下する。
具体例：
1次元の線上での距離0.1は、2次元の正方形では0.1×0.1の面積、3次元の立方体では0.1×0.1×0.1の体積を持つ。次元が増加することで、同じ「近さ」を保つために探索すべき範囲は指数的に拡大する。

次元の呪いの具体例

近傍平均法は、特徴量の数 $p$ が小さい場合（たとえば $p \leq 4$）でデータの数 $N$ が十分に大きい場合には効果的である。しかし、次元数が大きくなると次元の呪いにより、最近傍法が効果を発揮しなくなる。特に、高次元においては10%の近傍がもはや局所的とはならず、局所平均法を用いた $E(Y|X=x)$ の推定が困難になる。

7. 線形モデル

線形モデルは、パラメトリックモデルの典型例であり、構造が単純であることから解釈が容易である点が特徴である。パラメトリックモデルでは、あらかじめ設定した関数形に基づきパラメータを推定し、予測を行う。線形モデルの構造は、解釈の容易さと予測精度のバランスが取れているため、多くの応用に適している。

パラメトリックモデルと線形モデル

線形モデルは、以下の式で表される。

\[ f_L(X) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p \]

このモデルには $p+1$ 個のパラメータ $\beta_0, \beta_1, \dots, \beta_p$ が存在し、トレーニングデータに適合させることでパラメータを推定する。線形モデルは完全な予測は保証しないが、未知の真の関数 $f(X)$ に対する良好な近似としてしばしば機能する。

8. 非線形モデル

非線形モデルは、線形モデルよりも柔軟であり、特にデータに曲線的な関係が存在する場合には予測精度を向上させることができる。非線形モデルの例として二次モデルが挙げられ、線形モデルと比較して複雑なデータパターンの表現が可能である。

線形モデルと二次モデルの比較

線形モデル $\hat{f}_L(X) = \hat{\beta}_0 + \hat{\beta}_1 X$ は、直線を用いてデータを予測するため、比較的単純な構造を持つ。一方、二次モデル $\hat{f}_Q(X) = \hat{\beta}_0 + \hat{\beta}_1 X + \hat{\beta}_2 X^2$ は曲線を用いるため、データの非線形な変動をより適切に捉えることが可能である。以下の式で表される。

\[ \hat{f}_Q(X) = \hat{\beta}_0 + \hat{\beta}_1 X + \hat{\beta}_2 X^2 \]

この二次モデルは、線形モデルに比べてデータに対する柔軟な適合を提供し、非線形な構造を持つデータに対して優れた適合性を示すことが多い。

9. シミュレーション例

本節では、教育年数と職位による収入モデルをシミュレーションにより可視化し、線形および非線形回帰モデルの当てはめを行うことで、各モデルの特徴と適合性について検討する。さらに、柔軟なモデルの適合例を通じて、過学習の影響についても考察する。

教育年数と職位による収入モデル

以下の図は、教育年数と職位による収入のシミュレーション結果を示している。シミュレーションに基づく収入モデルは以下の式で定義される。

\[ \text{income} = f(\text{education}, \text{seniority}) + \varepsilon \]

ここで、$f$ は教育年数および職位に基づく収入の期待値を表す関数であり、$\varepsilon$ は誤差項を示す。図中の赤い点はシミュレーションにより得られた収入のデータを示し、青い曲面は収入モデル $f$を可視化したものである。このモデルでは、教育年数および職位の増加に伴い、収入が増加する傾向が確認される。

![図: 教育年数と職位による収入モデルのシミュレーション例](image_placeholder)

線形回帰モデルの適合（シミュレーションデータ）

次に、シミュレーションされたデータに線形回帰モデルを適合させた結果を示す。この線形モデルは以下の式で表される。

\[ \hat{f}_L(\text{education}, \text{seniority}) = \hat{\beta}_0 + \hat{\beta}_1 \times \text{education} + \hat{\beta}_2 \times \text{seniority} \]

図に示す青い平面は、教育年数と職位に基づく収入を線形回帰モデルで表現したものであり、教育年数と職位が増加するにつれて収入も増加する関係が示されている。線形モデルは構造が単純であるため、収入と教育年数・職位の基本的な関係を捉えるために適している。

![図: 教育年数と職位に対する線形回帰モデルの適合](image_placeholder)

非線形な柔軟回帰モデルの適合（シミュレーションデータ）

さらに柔軟な回帰モデルとして、薄板スプライン法を用いた非線形な回帰モデルをシミュレーションデータに適合させた結果を示す。薄板スプラインは、データに対して滑らかな曲面を適合させる非線形手法であり、データの複雑な関係をより適切に反映できる。

以下の図に示す薄板スプラインモデルは、データに対して滑らかな曲面を提供し、線形モデルに比べて柔軟に適合している。このモデルにより、教育年数および職位と収入との非線形関係を捉えることが可能である。

![図: 教育年数と職位に基づく柔軟な回帰モデルの適合](image_placeholder)

過学習によるモデル適合（シミュレーションデータ）

最後に、教育年数および職位に基づくさらに柔軟なスプライン回帰モデルを適合させた例を示す。このモデルはトレーニングデータに対して誤差なく適合しており、すべてのトレーニングデータを完全に説明する。このような状況は「過学習」として知られ、モデルが訓練データに過度に適合する一方、新しいデータに対しては予測精度が低下する可能性がある。

図に示すように、過学習したスプライン回帰モデルは、訓練データには良好に適合しているが、データのランダムな変動に対しても適合してしまうため、一般化能力が低下する。

![図: 教育年数と職位に基づくさらに柔軟なスプライン回帰モデル](image_placeholder)

10. モデルのトレードオフ

統計的学習モデルでは、予測精度と解釈可能性の間にトレードオフが存在する。モデルが柔軟であればあるほど予測精度は向上しうるが、解釈が困難になる場合がある。また、過剰適合（オーバーフィッティング）と過少適合（アンダーフィッティング）や、シンプルなモデルとブラックボックスモデルとの間にもトレードオフが生じる。本節では、これらのトレードオフを示し、適切なモデル選択のための指針を述べる。

トレードオフの一例

予測精度と解釈可能性のトレードオフ：

線形モデルは構造が単純であるため解釈が容易であるが、薄板スプラインのような柔軟なモデルは複雑であり、解釈が難しい場合がある。このように、モデルの柔軟性が増すほど解釈は困難になる傾向がある。
適合の適切さと過剰適合・過少適合のトレードオフ：

適切な水準でデータに適合することが求められるが、モデルが過度にデータに適合すると過剰適合（過学習）が発生し、逆に適合が不十分であれば過少適合（未学習）が生じる。
簡潔さとブラックボックスモデルのトレードオフ：

シンプルなモデルは変数が少ないため解釈が容易であるが、すべての変数を含むブラックボックス的なモデルでは解釈が難しくなる。ある状況ではシンプルなモデルが好まれる一方で、高度な予測精度を重視する場合には複雑なモデルが有用となる。

![図: モデルの複雑さと解釈可能性のトレードオフ](image_placeholder)

この図は、モデルの柔軟性と解釈可能性のトレードオフを示している。一般に、モデルが柔軟になるほど解釈は難しくなる。左側に示されるモデルは線形回帰のようにシンプルで解釈しやすい一方、右側のモデルは柔軟で複雑だが解釈が困難である。

モデル精度の評価

モデルの性能を評価するためには、トレーニングデータとテストデータに対する平均二乗誤差（Mean Squared Error, MSE）を用いる。トレーニングデータ $Tr = \{(x_i, y_i)\}_{i=1}^N$ にモデル $\hat{f}(x)$ を適合させた場合、トレーニングデータにおけるMSEは次のように計算される。

\[ \text{MSE}_{\text{Tr}} = \frac{1}{N} \sum_{i \in \text{Tr}} (y_i - \hat{f}(x_i))^2 \]

しかし、トレーニングデータに対するMSEのみでモデルを評価すると過学習のリスクが高いため、一般にはテストデータ $Te = \{(x_i, y_i)\}_{i=1}^M$ を用いて評価を行うことが望ましい。テストデータに対するMSEは以下で計算される。

\[ \text{MSE}_{\text{Te}} = \frac{1}{M} \sum_{i \in \text{Te}} (y_i - \hat{f}(x_i))^2 \]

トレーニングMSEとテストMSE

以下の図は、トレーニングデータとテストデータに対するMSEの関係を示している。

左側の図では、真の関数 $f$ を黒線で示し、3つのモデルによる適合を比較している。線形回帰（オレンジ）、スプライン平滑化（青、緑）の各モデルがデータにどのように適合するかが示されている。
右側の図では、モデルの柔軟性の変化に伴うトレーニングMSE（灰色）、テストMSE（赤色）、および最小テストMSE（破線）を示している。モデルの柔軟性が増すと、トレーニングMSEは低下するが、テストMSEは特定の柔軟性を超えると増加する。

![図: 柔軟性に応じたトレーニングMSEとテストMSE](image_placeholder)

左側の図は、異なる柔軟性のモデルによるデータへの適合を示し、緑のスプラインはデータに非常に柔軟に適合しているが、真の関数（黒線）に対して適切な適合とは言えない。右側の図では、モデルの柔軟性が増すことでトレーニングMSEは減少するが、テストMSEは特定の柔軟性を超えると増加し始めることが示され、過学習の影響が確認できる。

線形回帰モデルが適した場合の適合

左図では、真の関数 $f$ が線形に近い場合のデータに対する適合を示す。この場合、線形回帰モデルは非常に良好な適合を示し、テストデータにおいても高い予測精度を発揮する。

![図: 線形回帰が適したデータの場合の適合](image_placeholder)

左図では、真の関数がほぼ線形であり、オレンジの線形回帰が適切にデータに適合していることが示されている。右図では、テストMSEにおいても線形モデルが良好な性能を示している状況が確認される。

線形回帰モデルが不適な場合の適合

左図では、真の関数 $f$ が非線形な場合における適合を示している。このような場合、線形回帰モデルは不適切な適合を提供する一方で、柔軟性の高いスプラインモデルが良好な適合を示す。

![図: 線形回帰が不適なデータの場合の適合](image_placeholder)

左図では、真の関数が大きく非線形であるため、オレンジの線形回帰モデルが適合しきれていない状況が示されている。右図では、より柔軟なスプラインモデルが非線形な真の関数に対して良好な適合を示し、テストMSEでも低い値が得られていることが確認できる。

11. バイアス-分散トレードオフとは

バイアス-分散トレードオフとは、モデルの柔軟性が増すことによってバイアスが減少する一方で、分散が増加するという現象を指す。このトレードオフにより、モデルの柔軟性を適切に選択する必要が生じる。

詳細

トレーニングデータ $Tr$ にモデル $\hat{f}(x)$ を適合させ、テスト観測値 $(x_0, y_0)$ を母集団から得た場合、真のモデルが $Y = f(X) + \varepsilon$ であり、$f(x) = E(Y | X = x)$ であるとき、次の関係が成立する。

\[ E\left[ (y_0 - \hat{f}(x_0))^2 \right] = \text{Var}(\hat{f}(x_0)) + \left[ \text{Bias}(\hat{f}(x_0)) \right]^2 + \text{Var}(\varepsilon) \]

ここで、バイアス $\text{Bias}(\hat{f}(x_0))$ は $E[\hat{f}(x_0)] - f(x_0)$ で表され、分散 $\text{Var}(\hat{f}(x_0))$ はモデルの柔軟性に依存する。一般に、モデルの柔軟性が増すと分散は増加し、バイアスは減少する。このため、平均テスト誤差を最小化するためには、バイアスと分散のトレードオフを考慮した適切な柔軟性を選択する必要がある。

バイアス-分散トレードオフの具体例

以下の図は、異なるモデルのバイアスと分散のトレードオフを示している。

青い曲線は二乗バイアスを示し、オレンジの曲線は分散を表す。破線は誤差項 $\text{Var}(\varepsilon)$を示し、赤い曲線はテストMSEを示している。
モデルの柔軟性が増すと、バイアスは減少する一方で分散が増加するため、テストMSEが最小となる最適な柔軟性を見つけることが重要である。

![図: バイアス-分散トレードオフの例](image_placeholder)

図から、柔軟性の増加に伴い、バイアスは急速に減少するが、分散が増加する様子が見られる。結果として、テストMSEは当初減少するが、柔軟性が過度に増加すると再び増加する。このため、最適な柔軟性を選択することが求められる。

12. 分類問題

分類問題では、応答変数 $Y$ が質的な値を取る場合のクラス分類が対象となる。電子メールのスパム分類や画像データの数字認識など、分類モデルの応用範囲は広い。ここでは、ベイズ分類器やサポートベクターマシン（SVM）などの分類手法を例に挙げ、分類の理論と実践について述べる。

分類モデル

分類問題において、応答変数 $Y$ は質的なカテゴリ（たとえば、スパムや良いメールなど）を取り、予測の対象となる。分類モデルの目的は次の通りである。

将来の観測 $X$ に対してクラスラベル $C(X)$を割り当てる分類器を構築する。
各分類結果の不確実性を評価する。
説明変数 $X = (X_1, X_2, \dots, X_p)$のうち、どの変数が応答変数に寄与しているかを理解する。

![図: クラス分類の概要](image_placeholder)

クラス分類の理論的背景

クラス $C$ に $K$個の要素（例えば $\{1, 2, \dots, K\}$）がある場合、観測 $x$における条件付きクラス確率は以下のように表される。

\[ p_k(x) = P(Y = k | X = x), \quad k = 1, 2, \dots, K \]

ベイズ最適分類器は、以下のように最大の条件付き確率をもつクラスに割り当てられる。

\[ C(x) = j \quad \text{if} \quad p_j(x) = \max \{ p_1(x), p_2(x), \dots, p_K(x) \} \]

![図: ベイズ最適分類器の定義](image_placeholder)

分類の詳細

通常、分類器 $\hat{C}(x)$の性能は、テストデータにおける誤分類率を以下のように算出して評価される。

\[ \text{Err}_{\text{Te}} = \frac{1}{M} \sum_{i \in \text{Te}} I[y_i \neq \hat{C}(x_i)] \]

ベイズ分類器は真の $p_k(x)$を使用する場合、最小の誤差率を達成する。サポートベクターマシン（SVM）やロジスティック回帰、一般化加法モデル（GAM）なども分類問題の構造化されたモデルとして広く用いられる。

13. K-最近傍法の応用

K-最近傍法は、観測点が属するクラスを、その周辺に位置する $K$ 個のデータ点を基に判別する手法である。次の例では、2次元空間でのK-最近傍法の適用と、その柔軟性による影響を示す。

2次元におけるK-最近傍法の例

以下の図は、2つのクラス（青とオレンジ）に属する100個の観測点を示している。

![図: 2次元におけるK-最近傍法の例](image_placeholder)

図中の紫の破線はベイズ決定境界を示し、オレンジ色と青色の背景グリッドは、テスト観測がそれぞれのクラスに割り当てられる領域を示している。この図から、K-最近傍法により異なるクラスの観測点が視覚的に分類されていることがわかる。

K-最近傍法とベイズ決定境界の比較

次の図では、$K = 10$ を用いたK-最近傍法の決定境界（黒い曲線）とベイズ決定境界を比較している。K-最近傍法は、$K = 10$ の場合にベイズ分類器と非常に近い決定境界を形成する。

![図: K=10 のK-最近傍法とベイズ決定境界](image_placeholder)

K-最近傍法の柔軟性の違い

次の図では、K-最近傍法の $ = 1$と $K = 100$の比較を示している。$K = 1$ では過剰に柔軟でデータに過学習している一方で、$K = 100$ では柔軟性が不十分で、適切に適合していないことが確認できる。

![図: K=1 と K=100 のK-最近傍法](image_placeholder)

K-最近傍法におけるトレーニング誤差とテスト誤差

以下の図は、K-最近傍法のトレーニング誤差率（青色）およびテスト誤差率（オレンジ色）を示している。柔軟性（1/K）が増加すると、トレーニング誤差率は減少するが、テスト誤差率は一旦減少した後に再び増加する。この現象は、

過学習の影響を示している。

![図: K-最近傍法のトレーニング誤差とテスト誤差](image_placeholder)

この図から、K-最近傍法における柔軟性が過学習や未学習に影響を及ぼすことが確認できる。適切な $K$値を選択することが、モデルの性能向上に不可欠である。

確率変数についての補足説明

確率変数と決定論的変数の違い、および「$X = x$」の意味

決定論的変数：
- 決定論的変数とは、あらかじめ定まった特定の値を取り、偶然性による変動を伴わない変数である。例えば、商品の価格や身長といった値は一度観測されると特定の値に固定され、ランダムな変動を示さない。
- 決定論的変数は、観測のたびに一定の値を取るため、不確定性やランダム性は考慮されない。
確率変数：
- 確率変数は、ある範囲の中でランダムに値が決まる変数であり、観測や試行によって初めて具体的な値が決まる。このため、観測前には不確定であり、さまざまな値を取り得る。
- 確率変数は、ランダムな現象を数値化して表すものであり、通常アルファベットの大文字（例：$X, Y$）で記載される。
確率変数と実現値の例：
- 確率変数と決定論的変数の違いを理解するために、サイコロの出目を例に考える。
  - 決定論的変数の例：サイコロを振って出目が「1」であった場合、この出目を示す変数 $x$ は1に固定される。このように値が固定された変数は「決定論的変数」である。
  - 確率変数の例：サイコロを振る前の段階では、出目が1から6のどの値になるかは不確定である。このサイコロの出目を表す変数 $X$ は、1から6の範囲でランダムに決まる確率変数である。実際に振って出目が「4」になった場合、この値「4」を実現値と呼ぶ。
「$X = x$」の意味：
- 確率変数 $X$ と決定論的な値 $x$ の関係を示す記法として「$X = x$」がある。
  1. 確率変数 $X$ は観測されるまでは不確定なランダムな変数である。サイコロの例では、出目 $X$ は1から6のいずれかになる可能性があり、振るまで具体的な値は決まらない。
  2. 実現値 $x$ とは、確率変数 $X$ が実際に取った特定の値を指す。例えば、サイコロを振った結果が「4」であった場合、この実現値 $x = 4$ を「$X = 4$」と表記する。
  3. 「$X = x$」は「確率変数 $X$ が特定の値 $x$ を取った状況」を表し、この条件下での期待値や確率の計算において頻繁に使用される。
応用例：広告費用と売上：
- 確率変数 $X$ が広告費用、確率変数 $Y$ が売上を表す場合を考える。
  - 確率変数 $X$ および $Y$ は、経済状況や消費者行動の影響を受けてランダムに変動するため、観測前には不確定な変数として扱う。
  - $X = x$ の例として、広告費用が「100万円」に実現した場合、この状況を「$X = 100$」と表す。この記法は、特定の条件に基づく期待値や確率の計算に用いられる。

確率変数のまとめ

確率変数 $X$：観測されるまで不確定で、ランダムに値が決まる変数。
実現値 $x$：確率変数 $X$ が観測され、特定の値（例：4や100）に決まったときの具体的な値。
決定論的変数：観測されると一定の値に固定され、ランダム性や偶然性を伴わない変数。

「$X = x$」は「確率変数$X$ が特定の値$x$を取る状況」を示し、条件付きでの平均や確率を考える際に用いる記法である。

統計的学習概論その２

Yusuke Matsui

2024-10-28