1.モデルの特定:応答変数と説明を連結する関係式&応答変数の確率分布を指定
2.モデルのパラメータの推定
3.モデルの妥当性のチェック
4.推測:パラメータの仮説検定・信頼区間計算を行い,結果を解釈
データ:オーストラリアニューサウスウェールズ州の都市部および農村部に住む女性の慢性病状の数(ただし、年齢層、社会的地位、一般開業医への来院回数は統一)
Q.:都市群と農村群の間で診察の必要性(慢性病状の数により評価)は同程度か否か?
定式化:帰無仮説\(H^{0}\):θ1=θ2=θ,\(H^{1}\):θ1≠θ2
\(E(Y_{jk})=\theta; Y_{jk}~Poisson(\theta)・・・(2.1)\)
\(E(Y_{jk})=\theta_{j}; Y_{jk}~Poisson(\theta_{j})・・・(2.2)\)
j=1,2
\(H^{1}\)に対する\(H^{0}\)の検定:両モデルのデータへの当てはまり度合いの比較
\(H^{0}\)が真のとき(J=2),\(Y_{jk}\)の対数尤度関数は:
\(l_{0}=l(\theta;y)=\sum_{j=1}^{J}\sum_{k=1}^{K_{j}}(y_{jk}log\theta-\theta-logy_{jk}!)・・・(2.3)\)
最尤推定値は:
\(\hat{\theta}=\sum\sum y_{jk}/N\)
\(\hat\theta\)=1.184
\(\hat{l_{0}}\)=-68.3868
\(H^{1}\)が真のとき(J=1),\(Y_{jk}\)の対数尤度関数は:
\(l_{1}=l(\theta_{1}, \theta_{2}, y)=\sum_{k=1}^{K_{1}}(y_{1k}log\theta_{1}-\theta_{1}-logy_{1k}!)+\sum_{k=1}^{K_{2}}(y_{2k}log\theta_{2}-\theta_{2}-logy_{2k}!)・・・(2.4)\)
最尤推定値は:
\(\hat{\theta_{j}}=\sum_k y_{jk}/K_{j} (j=1, 2)\)
\(\hat\theta_{1}\)=1.423
\(\hat\theta_{1}\)=0.913
\(\hat{l_{1}}\)=-67.0230
\(Y\) ~ \(Poisson(\theta)\)のとき,\(E(Y)\)=\(var(Y)\)=\(\theta\)となり,
\(E(Y)\)の推定値\(\hat\theta\)をYのあてはめ値(fitted value),
\(Y-\hat\theta\)を残差(residual)とよぶ.
ポアソン分布における近似的な標準化残差(\(\gamma\)):
\(\gamma=\frac{Y-\hat\theta}{\sqrt{\hat\theta}}\)
残差から,モデルの包括的妥当性を測定する要約統計量をつくる
\(\sum r^2_i=\sum \frac{(Y_{i}-\hat\theta_{i})^2}{e_{i}}\)~\(\chi^2(m)\)・・・(2.5)
\(X^2=\sum \frac{(o_{i}-e_{i})^2}{e_{i}}\)~\(\chi^2\)・・・(2.6)通常のカイ二乗統計量と同じ
実データで計算してみると, \(\sum r_i^2\)=46.759 (モデル1) \(\sum r_i^2\)=43.659 (モデル2)
それぞれ自由度48,47のカイ二乗分布において十分生じうる値を示した
したがってパラメータをもつモデル2はより単純なモデル1と比べてそれほどよくデータを表現するわけではないといえる
データ:ある病院で生まれた12人の幼児の体重と妊娠期間(周)
モデル:第j群k番目の幼児の体重 \(Y_{jk}\) は正規分布に順うと仮定
\(E(Y_{jk})=\mu_{jk}=\alpha_{j}+\beta_{j}x_{jk}\)
問題の定式化:帰無仮説\(H^{0}\):β1=β2=β,\(H^{1}\):β1≠β2
\(E(Y_{jk})=\mu_{jk}=\alpha_{j}+\beta x_{jk}; Y_{jk}\)~\(N(\mu_{jk}),\sigma^2\)・・・(2.6)
\(E(Y_{jk})=\mu_{jk}=\alpha_{j}+\beta_{j}x_{jk}; Y_{jk}\)~\(N(\mu_{jk}),\sigma^2\)・・・(2.7)
\(Y_{jk}\)の確率密度関数:
\(f(y_{jk}; \mu_{jk})=\frac{1}{\sqrt{2\pi\sigma^2}\)
summary(cars)
## speed dist
## Min. : 4.0 Min. : 2.00
## 1st Qu.:12.0 1st Qu.: 26.00
## Median :15.0 Median : 36.00
## Mean :15.4 Mean : 42.98
## 3rd Qu.:19.0 3rd Qu.: 56.00
## Max. :25.0 Max. :120.00
You can also embed plots, for example:
Note that the echo = FALSE
parameter was added to the code chunk to prevent printing of the R code that generated the plot.