2.1 はじめに

モデルのあてはめのプロセス

1.モデルの特定:応答変数と説明を連結する関係式&応答変数の確率分布を指定
2.モデルのパラメータの推定
3.モデルの妥当性のチェック
4.推測:パラメータの仮説検定・信頼区間計算を行い,結果を解釈

2.2 例

2.2.1 慢性の症状

データ:オーストラリアニューサウスウェールズ州の都市部および農村部に住む女性の慢性病状の数(ただし、年齢層、社会的地位、一般開業医への来院回数は統一)
Q.:都市群と農村群の間で診察の必要性(慢性病状の数により評価)は同程度か否か?
定式化:帰無仮説\(H^{0}\):θ1=θ2=θ,\(H^{1}\):θ1≠θ2

\(E(Y_{jk})=\theta; Y_{jk}~Poisson(\theta)・・・(2.1)\)

\(E(Y_{jk})=\theta_{j}; Y_{jk}~Poisson(\theta_{j})・・・(2.2)\)

j=1,2

\(H^{1}\)に対する\(H^{0}\)の検定:両モデルのデータへの当てはまり度合いの比較

\(H^{0}\)が真のとき(J=2),\(Y_{jk}\)の対数尤度関数は:  

\(l_{0}=l(\theta;y)=\sum_{j=1}^{J}\sum_{k=1}^{K_{j}}(y_{jk}log\theta-\theta-logy_{jk}!)・・・(2.3)\)

最尤推定値は:

\(\hat{\theta}=\sum\sum y_{jk}/N\)

\(\hat\theta\)=1.184

\(\hat{l_{0}}\)=-68.3868

\(H^{1}\)が真のとき(J=1),\(Y_{jk}\)の対数尤度関数は:

\(l_{1}=l(\theta_{1}, \theta_{2}, y)=\sum_{k=1}^{K_{1}}(y_{1k}log\theta_{1}-\theta_{1}-logy_{1k}!)+\sum_{k=1}^{K_{2}}(y_{2k}log\theta_{2}-\theta_{2}-logy_{2k}!)・・・(2.4)\)

最尤推定値は:

\(\hat{\theta_{j}}=\sum_k y_{jk}/K_{j} (j=1, 2)\)

\(\hat\theta_{1}\)=1.423

\(\hat\theta_{1}\)=0.913

\(\hat{l_{1}}\)=-67.0230

\(Y\) ~ \(Poisson(\theta)\)のとき,\(E(Y)\)=\(var(Y)\)=\(\theta\)となり,
\(E(Y)\)の推定値\(\hat\theta\)Yのあてはめ値(fitted value)
\(Y-\hat\theta\)残差(residual)とよぶ.

ポアソン分布における近似的な標準化残差(\(\gamma\)):
\(\gamma=\frac{Y-\hat\theta}{\sqrt{\hat\theta}}\)

残差から,モデルの包括的妥当性を測定する要約統計量をつくる

\(\sum r^2_i=\sum \frac{(Y_{i}-\hat\theta_{i})^2}{e_{i}}\)~\(\chi^2(m)\)・・・(2.5)

\(X^2=\sum \frac{(o_{i}-e_{i})^2}{e_{i}}\)~\(\chi^2\)・・・(2.6)通常のカイ二乗統計量と同じ

実データで計算してみると, \(\sum r_i^2\)=46.759 (モデル1) \(\sum r_i^2\)=43.659 (モデル2)  

それぞれ自由度48,47のカイ二乗分布において十分生じうる値を示した
したがってパラメータをもつモデル2はより単純なモデル1と比べてそれほどよくデータを表現するわけではないといえる  

2.2.2 出生時体重と妊娠期間

データ:ある病院で生まれた12人の幼児の体重と妊娠期間(周)
モデル:第j群k番目の幼児の体重 \(Y_{jk}\) は正規分布に順うと仮定

\(E(Y_{jk})=\mu_{jk}=\alpha_{j}+\beta_{j}x_{jk}\)

問題の定式化:帰無仮説\(H^{0}\):β1=β2=β,\(H^{1}\):β1≠β2

\(E(Y_{jk})=\mu_{jk}=\alpha_{j}+\beta x_{jk}; Y_{jk}\)~\(N(\mu_{jk}),\sigma^2\)・・・(2.6)

\(E(Y_{jk})=\mu_{jk}=\alpha_{j}+\beta_{j}x_{jk}; Y_{jk}\)~\(N(\mu_{jk}),\sigma^2\)・・・(2.7)

\(Y_{jk}\)の確率密度関数:

\(f(y_{jk}; \mu_{jk})=\frac{1}{\sqrt{2\pi\sigma^2}\)

  

summary(cars)
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

Including Plots

You can also embed plots, for example:

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.