第２章　モデルの当てはめ

2.1 はじめに

モデルのあてはめのプロセス

１．モデルの特定：応答変数と説明を連結する関係式＆応答変数の確率分布を指定
２．モデルのパラメータの推定
３．モデルの妥当性のチェック
４．推測：パラメータの仮説検定・信頼区間計算を行い，結果を解釈

2.2 例

2.2.1 慢性の症状

データ：オーストラリアニューサウスウェールズ州の都市部および農村部に住む女性の慢性病状の数（ただし、年齢層、社会的地位、一般開業医への来院回数は統一）
Q.：都市群と農村群の間で診察の必要性（慢性病状の数により評価）は同程度か否か?
定式化：帰無仮説\(H^{0}\):θ1=θ2=θ,\(H^{1}\):θ1≠θ2

\(E(Y_{jk})=\theta; Y_{jk}~Poisson(\theta)・・・（2.1）\)

\(E(Y_{jk})=\theta_{j}; Y_{jk}~Poisson(\theta_{j})・・・（2.2）\)

j=1,2

\(H^{1}\)に対する\(H^{0}\)の検定：両モデルのデータへの当てはまり度合いの比較

\(H^{0}\)が真のとき(J=2)，\(Y_{jk}\)の対数尤度関数は：　　

\(l_{0}=l(\theta;y)=\sum_{j=1}^{J}\sum_{k=1}^{K_{j}}(y_{jk}log\theta-\theta-logy_{jk}!)・・・（2.3）\)

最尤推定値は：

\(\hat{\theta}=\sum\sum y_{jk}/N\)

\(\hat\theta\)=1.184

\(\hat{l_{0}}\)=-68.3868

\(H^{1}\)が真のとき(J=1)，\(Y_{jk}\)の対数尤度関数は：

\(l_{1}=l(\theta_{1}, \theta_{2}, y)=\sum_{k=1}^{K_{1}}(y_{1k}log\theta_{1}-\theta_{1}-logy_{1k}!)+\sum_{k=1}^{K_{2}}(y_{2k}log\theta_{2}-\theta_{2}-logy_{2k}!)・・・（2.4）\)

最尤推定値は：

\(\hat{\theta_{j}}=\sum_k y_{jk}/K_{j} (j=1, 2)\)

\(\hat\theta_{1}\)=1.423

\(\hat\theta_{1}\)=0.913

\(\hat{l_{1}}\)=-67.0230

\(Y\) ~ \(Poisson(\theta)\)のとき，\(E(Y)\)=\(var(Y)\)=\(\theta\)となり，
\(E(Y)\)の推定値\(\hat\theta\)をYのあてはめ値（fitted value），
\(Y-\hat\theta\)を残差(residual)とよぶ．

ポアソン分布における近似的な標準化残差(\(\gamma\))：
\(\gamma=\frac{Y-\hat\theta}{\sqrt{\hat\theta}}\)

残差から，モデルの包括的妥当性を測定する要約統計量をつくる

\(\sum r^2_i=\sum \frac{(Y_{i}-\hat\theta_{i})^2}{e_{i}}\)~\(\chi^2(m)\)・・・(2.5)

\(X^2=\sum \frac{(o_{i}-e_{i})^2}{e_{i}}\)~\(\chi^2\)・・・(2.6)通常のカイ二乗統計量と同じ

実データで計算してみると， \(\sum r_i^2\)=46.759　（モデル１） \(\sum r_i^2\)=43.659　（モデル２）　　

それぞれ自由度48，47のカイ二乗分布において十分生じうる値を示した
したがってパラメータをもつモデル２はより単純なモデル１と比べてそれほどよくデータを表現するわけではないといえる　　

2.2.2 出生時体重と妊娠期間

データ：ある病院で生まれた12人の幼児の体重と妊娠期間(周)
モデル：第j群k番目の幼児の体重 \(Y_{jk}\) は正規分布に順うと仮定

\(E(Y_{jk})=\mu_{jk}=\alpha_{j}+\beta_{j}x_{jk}\)

問題の定式化：帰無仮説\(H^{0}\):β1=β2=β,\(H^{1}\):β1≠β2

\(E(Y_{jk})=\mu_{jk}=\alpha_{j}+\beta x_{jk}; Y_{jk}\)~\(N(\mu_{jk}),\sigma^2\)・・・(2.6)

\(E(Y_{jk})=\mu_{jk}=\alpha_{j}+\beta_{j}x_{jk}; Y_{jk}\)~\(N(\mu_{jk}),\sigma^2\)・・・(2.7)

\(Y_{jk}\)の確率密度関数：

\(f(y_{jk}; \mu_{jk})=\frac{1}{\sqrt{2\pi\sigma^2}\)

summary(cars)

##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

Including Plots

You can also embed plots, for example:

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.

第２章　モデルの当てはめ

Y.Suzuki

2019年11月13日

2.1 はじめに

モデルのあてはめのプロセス

2.2 例

2.2.1 慢性の症状

2.2.2 出生時体重と妊娠期間

Including Plots

第２章 モデルの当てはめ

Y.Suzuki

2019年11月13日

2.1 はじめに

モデルのあてはめのプロセス

2.2 例

2.2.1 慢性の症状

2.2.2 出生時体重と妊娠期間

Including Plots

第２章　モデルの当てはめ