Tác giả:

Đinh Tiến Tài (1,2,3) Lê Đông Nhật Nam (1,3,4) Trần Trung Dũng (3) Lê Ngọc Khả Nhi (1,4,5)

Ghi chú: Đóng góp của các thành viên:

  1. Bài giảng lý thuyết
  2. Mô hình Poisson và NBI cổ điển
  3. Soạn và hoàn thiện STAN codes cho mô hình NBI Bayes
  4. Khai thác mô hình và Suy diễn Bayes
  5. Đồ họa thống kê

1 Giới thiệu

Thân chào các bạn, đây là bài thực hành thứ 7 trong dự án Bayes for Vietnam với sự góp mặt của toàn thể coreteam của project. Mục tiêu của nhóm BAV là phổ cập về phương pháp thống kê theo trường phái Bayes nhằm thay thế hoàn toàn những công cụ truyền thống. Đối tượng của chúng tôi là các bạn bác sĩ và sinh viên y khoa.

Đây cũng là một bài giảng với tham vọng cao nhất,vì chúng tôi sẽ đề cập đồng thời nhiều vấn đề tương đối phức tạp, bao gồm: Phân tích biến số đếm (count data) bằng phân phối Nhị thức âm, mixed model có chứa random effect, và Hồi quy tuyến tính đa biến (những bài giảng trước kia chỉ dừng lại ở phân tích đơn biến).

Chúng tôi giả định rằng các bạn đã bắt đầu quen với cấu trúc ngôn ngữ STAN, quy trình chuyển giả thuyết nghiên cứu thành mô hình Bayes, khai thác phân phố hậu định .Những phần này sẽ được giản lược

2 Trường hợp minh họa

library(tidyverse)
library(ggridges)

my_theme <- function(base_size = NULL, base_family = "sans") {
  theme_bw(base_size = base_size, base_family = base_family) +
    theme(
      panel.grid.major = element_line(color = "gray"),
      panel.grid.minor = element_blank(),
      panel.background = element_rect(fill = "#fff68f" ),
      strip.background = element_rect(fill = "#510166", color = NA, size =0.5),
      strip.text = element_text(face = "bold", size = 8, color = "white"),
      legend.position = "bottom",
      legend.justification = "center",
      legend.background = element_blank(),
      legend.margin = margin(0.5,0.5,0.5,0.5)
    )
}

Bộ dữ liệu này được thu thập từ một nghiên cứu trên 59 bệnh nhân mắc bệnh động kinh. Các bệnh nhân được theo dõi số lần bị động kinh trong vòng 8 tuần (base). Sau đó bệnh nhân được phân chia ngẫu nhiên vào nhóm điều trị (treatment- dùng thuốc Progabide ) và nhóm giả dược (placebo); Số lần bị động kinh được ghi nhận mỗi 2 tuần trong 8 tuần tiếp theo. Như vậy mỗi bệnh nhân sẽ được khảo sát ở 4 thời điểm (period) và dạng dữ liệu này được gọi là dữ liệu tái đo lường (repeated measurement data). Dataset đã được sử dụng bởi nhiều tác giả như Thall ,Vail [1990], Breslow và Clayton[1993], Lee và Nelder [1996, 2000] để minh họa cho mô hình hồi quy hỗn hợp và count data.

Đây là một thử nghiệm lâm sàng tiêu biểu, trong đó câu hỏi nghiên cứu là khảo sát tác động của một loại thuốc X làm thay đổi (được kì vọng là tích cực) một kết cục xấu của một bệnh lý. Thiết kế nghiên cứu thông dụng là phân chia ngẫu nhiên và đồng nhất một mẫu n bệnh nhân vào 2 phân nhóm (nhánh) trị liệu, một cho dùng thuốc X, một sử dụng giả dược (placebo). Kết cục (outcome) Y sẽ được theo dõi kéo dài qua nhiều thời điểm trong suốt quá trình điều trị. Một mô hình hồi quy đa biến trong đó phân nhóm điều trị (X vs placebo) là biến số chính, kèm theo những hiệp biến như thời gian, tuổi, tình trạng cơ bản (baseline)… và yếu tố ngẫu nhiên cá thể/thứ bậc khác. Suy diễn thống kê được thực hiện trên tham số hồi quy cho X.

Trong trường hợp này, kết cục lâm sàng Y là số cơn động kinh được ghi nhận tính đến mỗi mốc thời gian (k=4), yếu tố can thiệp có 2 levels là thuốc progabide so với placebo. Giả thuyết nghiên cứu là thuốc Progabide cải thiện có ý nghĩa (làm giảm số cơn động kinh) so với Placebo. Bài toán của chúng ta còn xét thêm 2 hiệp biến số tiềm ẩn khác đó là : Tình trạng cơn động kinh (lbase : logarit của tần suất động kinh trước khi phân nhóm ) và Thời gian (visit : lưu ý, trong thí nghiệm gốc, thời gian được đo như một biến liên tục, tính bằng tháng, và có 4 thời điểm khảo sát, tuy nhiên chúng tôi hoán chuyển biến số này thành những trọng số tương phản : contrast weights) để đơn giản hóa mô hình. Việc xét thêm 2 biến số này nhằm để hiệu chỉnh sai lệch (nếu có) do độ nặng cá thể lên suy diễn thống kê về hiệu quả điều trị, cũng như hiệu ứng phụ của thời gian.

dat=read.csv("https://raw.github.com/vincentarelbundock/Rdatasets/master/csv/MASS/epil.csv")
names(dat)[2] <- "sei"
dat$visit <- (2*dat$period-5)/10

dat$period=as.factor(dat$period)
dat$subject=as.factor(dat$subject)

dat%>%head()%>% knitr:: kable()
X sei trt base age V4 subject period lbase lage visit
1 5 placebo 11 31 0 1 1 -0.7563538 0.1142037 -0.3
2 3 placebo 11 31 0 1 2 -0.7563538 0.1142037 -0.1
3 3 placebo 11 31 0 1 3 -0.7563538 0.1142037 0.1
4 3 placebo 11 31 1 1 4 -0.7563538 0.1142037 0.3
5 3 placebo 11 30 0 2 1 -0.7563538 0.0814139 -0.3
6 5 placebo 11 30 0 2 2 -0.7563538 0.0814139 -0.1

Nhưng trước khi đi vào bài toán, chúng tôi muốn bàn một chút về lý thuyết xác suất và mô hình cho biến số đếm (count data)

Thống kê mô tả cho thấy Outcome (Seizure count) có phân phối không bình thường : Cụ thể, nó có trung bình nhỏ hơn Sd, skewness rất cao.

psych::describe(dat$sei)
##    vars   n mean    sd median trimmed  mad min max range skew kurtosis  se
## X1    1 236 8.25 12.35      4    5.83 4.45   0 102   102 4.16    22.06 0.8
sigma=sd(dat$sei)
mu=mean(dat$sei)

realp=dat%>%ggplot(aes(x=sei))+
  geom_density(alpha=.8,fill="#c507ff")+
  geom_histogram(aes(y=..density..,fill=..density..),colour="black",alpha=0.7,show.legend = F,binwidth = 1)+
  theme_bw()+scale_fill_gradient(low="#ff9c07",high="#ff072f")+
  ggtitle("Real data")

realp

Nguyên nhân vì đây là một số đếm (count data).

Trong y học lâm sàng, nhiều đại lượng được khảo sát như một số đếm / biến số rời rạc (count data, discrete variables). Chúng thường mang ý nghĩa tần suất (số lần) một biến cố/hiện tượng được ghi nhận trong một khoảng không gian và thời gian xác định, Thí dụ :

  • Hiện tượng sinh lý : nhịp tim, nhịp hô hấp, nhu động ruột, số cơn gò tử cung,

  • Biến cố bệnh lý : Số cơn hen kịch phát, số lần ngưng thở khi ngủ, số cơn động kinh, số trường hợp tử vong, số lần nhập viện cấp cứu…

  • Kết quả của phép đếm : Số lượng tế bào bạch cầu, số kí sinh trùng, số con, số đơn vị cơ quan bị tổn thương…

  • Hành vi : số lần thăm khám bác sĩ, mức tiêu thụ thuốc lá/bia rượu, số lần dùng thuốc cắt cơn hen

  • Hoặc một thang đo rời rạc : điểm Glasgow, mức độ đau,

  • Thời gian cũng có thể được xét như biến số đếm, khi chúng là số nguyên, thí dụ: Số ngày nằm viện, độ dài giấc ngủ ,…

Đặc điểm cần lưu ý với count data là phân bố dữ liệu thường hay bị lệch phải, phương sai tăng khi giá trị trung bình tăng.

3 Biến số đếm: từ đại lượng đến biến ngẫu nhiên

Tiếp theo, chúng tôi muốn phân biệt giữa đại lượng và biến số trong nghiên cứu, vì có sự khác nhau giữa 2 khái niệm này

Xác định được bản chất, ý nghĩa và cách đo đếm những đại lượng là một bước quan trọng khi đặt giả thuyết và thiết kế nghiên cứu, đây là trách nhiệm của người bác sĩ. Nhưng bước tiếp theo, quan trọng không kém, đó là chuyển từ đại lượng sang biến số –và đây là công việc của chuyên viên thống kê.

Một cách lý tưởng, người bác sĩ có đầy đủ cả kiến thức thống kê và y học, sẽ cùng lúc đảm nhận cả 2 vai trò để tự mình đi từ quan sát đến giả thuyết, từ giả thuyết đến thí nghiệm, đo/đếm đại lượng và từ đại lượng này đến biến số thống kê.

Các mô hình thống kê là những con robot vô tri, chúng hoàn toàn không “nhìn” thấy đại lượng, không biết đến ý nghĩa lâm sàng. Chúng chỉ biết tới biến số ngẫu nhiên. Chúng không đo lường, mà chỉ dùng hàm toán học để ước lượng giá trị của biến số cần xét. Mỗi giá trị như vậy lại có xác suất hiện diện khác nhau. Nhà thống kê không có kiến thức y học chuyên môn sẽ không quan tâm đến ý nghĩa sinh lý, bệnh học nữa, nhưng chỉ cố gắng mô tả đặc tính phân phối của biến ngẫu nhiên bằng quy luật phù hợp (hàm mật độ xác suất).Các hàm này được định nghĩa bằng các tham số và giả định. Từ phân phối, họ có thể ước lượng tham số/giá trị bằng mô hình, và suy diễn thống kê.

Tới đây, các bạn sinh viên và bác sĩ cũng có thể nhận ra vấn đề : Những biến số đếm, rời rạc không thể được mô tả bằng cùng một phân phối Gaussian (chuẩn, bình thường ) như những biến số liên tục. Như vậy các phương pháp xử lý số liệu có giả định phân phối chuẩn (t-test, ANOVA, OLS regression, etc) khi áp dụng với dữ liệu count data sẽ không còn phù hợp nữa (trừ khi dữ liệu đã được chuyển đổi). Khi bạn đã giả định sai về quy luật phân phối, mô hình của bạn đã có bias và nhiều nguy cơ là suy diễn thống kê dựa trên mô hình này cũng sai lầm nốt.

Điều đáng tiếc đó là chương trình Thống kê ở đại học Y chỉ quan tâm đến những biến liên tục, nhưng chưa trang bị cho các sinh viên Y khoa đủ kiến thức để xử trí những biến rời rạc và biến số đếm.

Một mâu thuẫn khác, đó là khi thi nội trú, cao học, người ta có dạy lý thuyết xác suất về những quy luật phân phối như Binomial (Nhị thức ), Bernoulli, Poisson, nhưng cách dạy thuần túy lý thuyết và toán học không cho phép vận dụng những quy luật phân phối này vào thực tiễn lâm sàng và nghiên cứu – sinh viên không có khả năng liên hệ sự vật, hiện tượng với quy luật phân phối, và không có khả năng chuyển từ đại lượng thành biến số ngẫu nhiên.

Một sai lầm chết người khác, đó là việc dạy cho sinh viên tiếp cận vấn đề bằng tư duy so sánh, và các công cụ lạc hậu như bảng chéo, kiểm định phi tham số… nhưng không dạy về mô hình hồi quy, nhất là mô hình tuyến tính tổng quát (GLM).

Với 2 lỗ hổng kiến thức cả về Xác suất ứng dụng, Mô hình GLM, sinh viên gần như hoàn toàn bất lực trước những giả thuyết nghiên cứu với biến số đếm. Sinh viên chỉ có 2 lựa chọn, làm liều và sai (dùng kiểm định t so sánh, vốn dựa trên giả định phân phối chuẩn), hoặc tìm nơi trú ẩn (các test phi tham số).

Trong dự án Bayes analysis for Vietnam, nhóm chúng tôi nhắm đến cả 2 mục tiêu : Mục tiêu chính là khuyến khích các bạn đi theo trường phái Bayes, nhưng một mục tiêu khác quan trọng không kém, đó là bù đắp cho các bạn đồng nghiệp những thiếu hụt về kiến thức và kỹ năng thống kê ứng dụng. Mỗi bài thực hành là một case study hoàn chỉnh dẫn dắt các bạn từ câu hỏi, giả thuyết đến biến số, mô hình và suy diễn kết quả.

4 Từ phân phối nhị thức đến Nhị thức âm

Phân phối nhị thức và Bernoulli là gốc rễ của mọi quy luật phân phối dành cho biến rời rạc.

Phân phối nhị thức mô tả biến số ngẫu nhiên x như Số lần thành công trên n lần thử nghiệm lặp lại độc lập (n xác định), biết rằng xác suất thành công là p:

\[P(x|n,p)=\binom{n}{x}p^{x}(1-p)^{n-x}\]

Phân phối nhị thức âm :

Dạng chính tắc của phân phối nhị thức âm mô tả số lần thử nghiệm Bernoulli độc lập, lặp lại (biến ngẫu nhiên x) để có thể đạt được một số lần thành công xác định (lần thành công thứ r), biết rằng xác suất thành công là p

\[P(x|p,r)= \binom{x-1}{r-1}p^{r}(1-p)^{x-r}\] Với x và r đều là số nguyên, điều kiện x >= r, và p là một xác suất trong khoảng (0,1).

Dạng thứ hai của phân phối nhị thức âm là một biến thể, trong đó biến ngẫu nhiên x là số lần thử nghiệm thất bại trước khi lần thành công thứ r xảy ra. \[P(x|p,r)= \binom{x+r-1)}{x}p^{r}(1-p)^{x}\] Với x là số nguyên dương hoặc=0 và không có ràng buộc về điều kiện giữa r và x. Như vậy, chính dạng biến thể này mới thực sự hữu dụng để mô tả biến số đếm vì x có thể nhận bất cứ giá trị số nguyên nào không âm, và r cũng không bị ràng buộc điều kiện nào cả.

Tên gọi “nhị thức âm có vẻ bí ẩn ? Thực ra nó phát xuất từ trường hợp ta áp dụng phân phối nhị thức với số mũ âm :

\[\binom{x+r-1}{x}\ p^{r}(1-p)^{x} = \binom{-r}{x}\ p^{r}(p-1)^{x}\]

Thay vì biểu diễn phân phối nhị thức âm bằng 2 tham số r và p, ta có thể sử dụng khái niệm khác là : tham số vị trí trung tâm (Mu) và phương sai (sigma^2), quan hệ hoán chuyển giữa Mu, Sigma^2 và r,p như sau :

\[\mu = \frac {r(1-p)}{p}\]

\[Var = \sigma^2 = \frac{r(1-p)}{p^2} = \mu + \frac{1}{r}\mu^2\] Dạng này có tên gọi là Negative binomial type 2 hoặc quadratic negative binomial. Số 2 chính là bậc mũ 2 cho Mu trong công thức tính variance.

5 Biện luận về phân phối cho bài toán minh họa

Trở lại bài toán của chúng ta:

Những lập luận sau đây ủng hộ cho việc chọn họ phân phối phù hợp cho mô hình :

Về mặt lâm sàng : Outcome của chúng ta có bản chất là tần suất phát sinh một biến cố lâm sàng (cơn động kinh), được khảo sát trong một khoảng thời gian xác định, trong một không gian xác định (cơ thể mỗi bệnh nhân).

Một số ý khác có thể được phát biểu, như: Mỗi cơn động kinh là độc lập (thực vậy !), ngẫu nhiên (giả định) và có xác suất hằng định theo thời gian (giả đinh). Những đặc tính này thỏa đa số điều kiện và tính chất của một phân phối Poisson dành cho biến số đếm, nhưng không phù hợp với phân phối Gaussian. Do đó, phân phối Poisson là giả định ban đầu.

Khi các bạn muốn xem xét ảnh hưởng của các biến độc lập x1,x2,..xn lên biến phụ thuộc dạng số đếm y thì chúng ta thường hay nghĩ ngay đến mô hình hồi quy Poisson. Mô hình Poisson có một giả định (assumption) rất quan trọng là: giá trị mean và variance bằng nhau. Tuy nhiên dữ liệu thực tế mà chúng ta thu thập ít khi thõa mãn giả định này. Khi variance > mean chúng ta gọi đó là over-dispersion (tạm dịch: quá phân tán), ngược lại, variance < mean thì gọi là under-dispersion.

Một biến ngẫu nhiên y với giá trị kì vọng μ tuân theo phân bố poisson sẽ có hàm probability mass function (hàm khối xác suất) như sau:

\[P\left ( Y = y \right ) = \frac{e^{-\mu }\mu^y}{y!}\] Có thể nhận ra rằng phân phối poisson chỉ có 1 tham số là mean (mu). Trong hồi quy poisson, mu được mô tả bằng một hàm số mũ của các biến độc lập tuyến tính (linear predictor). Link function được sử dụng trong hồi quy poisson là log link.

\[\mu = e^\eta\] \[\eta = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ...+ \beta_n x_n\]

Đầu tiên chúng ta sẽ dùng mô hình poisson không có random effect để kiểm tra độ phân tán của dữ liệu (dispersion).

glm.pois <-  glm(sei ~ lbase + trt + visit , family = "poisson", data = dat) # fitting mô hình
summary(glm.pois)
## 
## Call:
## glm(formula = sei ~ lbase + trt + visit, family = "poisson", 
##     data = dat)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -5.4185  -1.4334  -0.2444   0.7166  10.9926  
## 
## Coefficients:
##              Estimate Std. Error z value Pr(>|z|)    
## (Intercept)   1.76538    0.03823  46.174  < 2e-16 ***
## lbase         1.17646    0.03086  38.121  < 2e-16 ***
## trtprogabide -0.10325    0.04532  -2.278  0.02272 *  
## visit        -0.29598    0.10148  -2.917  0.00354 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for poisson family taken to be 1)
## 
##     Null deviance: 2517.83  on 235  degrees of freedom
## Residual deviance:  973.81  on 232  degrees of freedom
## AIC: 1747.7
## 
## Number of Fisher Scoring iterations: 5
library(COUNT)
P__disp(glm.pois)
## pearson.chi2   dispersion 
##  1120.845606     4.831231

Hàm P__disp cung cấp cho chúng ta Pearson Chi2 statistic và Pearson dispersion statistic. Có thể tính thủ công Pearson dispersion statistic bằng cách lấy tổng bình phương của phần dư Pearson chia cho bậc tự do của mô hình (N quan sát - số biến trong mô hình bao gồm intercept).

poi.df <- df.residual(glm.pois) # 232
Pear.disp.sta <- sum(resid(glm.pois, type = "pearson")^2)/poi.df
Pear.disp.sta
## [1] 4.831231

Giá trị Pearson dispersion statistic > 1, có nghĩa là dữ liệu gặp vấn đề overdispersion. Xin có một lưu ý với các bạn là khi dữ liệu bị overdispersion, một giải pháp thay thế cho mô hình poisson là mô hình quasi-poisson.

glm.quasi <-  glm(sei ~ lbase + trt + visit , family = "quasipoisson", data = dat)
summary(glm.quasi) %>% coef()
##                Estimate Std. Error   t value     Pr(>|t|)
## (Intercept)   1.7653831 0.08403771 21.007035 1.362195e-55
## lbase         1.1764626 0.06783359 17.343363 9.064533e-44
## trtprogabide -0.1032456 0.09961567 -1.036439 3.010764e-01
## visit        -0.2959814 0.22304668 -1.326993 1.858156e-01

Hệ số hồi quy của mô hình glm.poi và glm.quasi là giống nhau, standard error (SE) của các hệ số hồi quy ở mô hình glm.pois lớn hơn so với SE ở mô hình glm.pois.

Chúng ta có thể tính toán sự sai khác SE giữa 2 mô hình dựa vào Pearson dispersion statistic. Khi nhân SE của các hệ số hồi quy ở mô hình poisson với căn bậc hai của Pearson dispersion statistic chúng ta sẽ có được SE tương ứng trong mô hình quasi-poisson.

Những giải pháp thay thế khác có thể là : phân phối Poisson Inversed Gaussian (PIG), hoặc Negative binomial type II (Nhị thức âm, NBII).

Chúng ta có thể kiểm chứng về tính phù hợp của phân phối negative binomial II bằng cách : Đối chiếu histogram cho dữ liệu thực tế và histogram cho một dữ liệu mô phỏng theo quy luật NBI2, với cùng giá trị tham số mu và sigma. Kết quả cho thấy 2 đồ thị gần như tương đương :

library(gamlss.dist)

rNBII(236L, mu = mu, sigma = sigma)%>%as_tibble()%>%
  ggplot()+
  geom_density_ridges(aes(x=value,y=1,group=1),stat = "binline",binwidth=1,
               draw_baseline = FALSE,alpha=.8,fill="gold")+
  geom_density_ridges(aes(x=dat$sei,y=1,group=1),stat = "binline",binwidth=1,
                      draw_baseline = FALSE,alpha=.5,fill="#c507ff",col="#c507ff")+
  theme_bw()+scale_y_continuous("Density")+
  ggtitle("Simulated (yellow) vs Real data (violet)")

Nhận xét : Việc lựa chọn họ phân phối có thể dựa vào một hoặc cả 2 lập luận : 1) Bản chất/Ý nghĩa lâm sàng và 2) Toán thống kê.

Với (1), bạn đang nhìn đại lượng, với đầy đủ ý nghĩa, đơn vị, thang đo… theo quan điểm y học, với (2), outcome không còn là đại lượng nữa mà chỉ là một biến số ngẫu nhiên, giá trị của nó là 1 con số vô nghĩa chịu chi phối bởi các hàm mật độ xác suất.

Trên thực tế hiếm khi ta có thể liên hệ một cách tường minh giữa ý nghĩa lâm sàng và định nghĩa xác suất, thí dụ tỉ lệ điều trị thành công trên tổng số bệnh nhân vừa mang ý nghĩa lâm sàng, vừa đúng theo định nghĩa của một phân phối Binomial ; nhưng trong trường hợp này, rất khó để hình dung số cơn động kinh là số lần thử nghiệm Bernouilli thất bại cho đến khi đạt lần thành công thứ 1/alpha - theo định nghĩa phân phối nhị thức âm type 2 ; tương tự, phân phối Poisson có thể được lựa chọn chỉ vì ta không có thông tin nào khác, chứ trên thực tế không phải bất cứ đại lượng nào cũng thỏa tất cả giả định về tính ngẫu nhiên, độc lập và bất biến của phân phối Poisson. Thí dụ : mùa xuân là thời điểm bệnh nhân hen dị ứng với phấn hoa khởi phát nhiều cơn hen hơn so với mùa hè, xác suất của cơn hen đã bị thay đổi chứ không còn hằng định nữa.

Như vậy, phân phối nhị thức âm được chọn cho nghiên cứu này như một phương tiện, để điều chỉnh tính quá phân tán của số liệu, chứ không phải như một quy luật.

5.1 Mô hình NBII : Từ REML đến Bayes

Cho bài toán hồi quy với mục tiêu ước tính giá trị biến kết quả y (thay cho x) có phân phối NBI với tham số trung bình Mu và kiểu hình 1/alpha (alpha thay cho 1/r, theo định nghĩa về số lần thành công thứ r). Phân phối Negative binomial còn có thể được trình bày dưới hình thức

\[P(y|\mu,\alpha) = \binom{y+1/\alpha -1}{1/\alpha-1}( \frac{1}{1+\alpha \mu})^{1/\alpha} (\frac{\alpha \mu}{1+\alpha \mu})^{y}\]

Hay hình thức hỗn hợp hàm Poisson và Gamma :

\[P(y|\mu,\alpha) = \frac {\Gamma(y+1/\alpha)}{\Gamma(y+1)\Gamma(1/\alpha)}( \frac{1}{1+\alpha \mu})^{1/\alpha} (\frac{\alpha \mu}{1+\alpha \mu})^{y}\] Điều kiện duy nhất ở đây là Mu và Alpha > 0. Như đã nói ở trên, 1/alpha = r không bắt buộc phải là số nguyên .

Mô hình negative binomial type 2 còn được gọi mô hình poisson-gamma distribution mixture model. Với biến y tuân theo phân phối NB2 thì chúng ta cần lưu ý những điểm sau:

  • Giả định y tuân theo phân phối poisson với mean = variance = Mu

  • Mu sẽ tuân theo phân phối gamma với Mean = Mu và

\[variance = \mu + \frac{\mu^2}{v}\]

Ở đây v được gọi là shape parameter (tham số kiểu hình) trong phân phối gamma, nó tương ứng với tham số r trong phân phối NBI chính tắc (còn gọi là indirect dispersion parameter trong phân phối NB); ta thay r hay v bằng alpha là direct dispersion parameter.

Như vậy đối với mô hình NB, có 2 tham số cần được ước tính là Mu (trung bình) và dispersion parameter (v hoặc alpha). Lưu ý rằng khi sử dụng R, thì v được gọi bằng tên thay thế là Theta ở trong phần kết quả của mô hình. Một số phần mềm khác như Stata, SAS không tính toán theta hay v mà sẽ tính alpha và gọi đó là dispersion parameter trong phần kết quả.

Khi NB2 model được mô hình hóa dưới dạng kết hợp của gamma-poisson thì variance của mô hình NB sẽ bằng tổng variance của phân phối poisson và phân phối gamma.

Tham số Mu có thể được ước lượng bằng mô hình GLM thông qua 1 link function là hàm logarit tự nhiên (LN) :

\[ln(\mu) \sim \beta_{0} + \sum_{i=1}^{K}\beta_{i} x_{i}\]

Với beta0 là intercept và beta(i) là tham số hồi quy cho biến số độc lập x(i) trong model matrix X gồm k biến số

Theo trường phái ước tính hợp lý cực đại (Maximum likelihood), ta có thể ước lượng tham số alpha và beta (cho mu) thông qua hàm likelihood :

\[L(\beta|\alpha ,\beta )= \prod_{i=1}^{n}P(y_{i}) = \prod_{i=1}^{n} \frac {\Gamma(y_{i}+1/\alpha)}{\Gamma(y_{i}+1)\Gamma(1/\alpha)}( \frac{1}{1+\alpha e^{x_{i}\beta}})^{1/\alpha} (\frac{\alpha e^{x_{i}\beta}}{1+\alpha e^{x_{i}\beta}})^{y_{i}}\]

Giá trị alpha và beta hợp lý nhất tương ứng với L đạt cực đại.

Mô hình mixed NB với random effect theo trường phái frequentist có thể được fit với package gamlss hay lme4. Để đơn giản về mặt cú pháp, chúng ta sẽ dùng package lme4. Với bộ dữ liệu epil, chúng ta sẽ xem xét ảnh hưởng của trt, lbase và visit lên số lần bị động kinh với random intercept cho từng bệnh nhân.

require(lme4)

nb.admb <- glmer.nb(sei ~ trt+lbase+visit + (1|subject), data = dat )
summary(nb.admb)
## Generalized linear mixed model fit by maximum likelihood (Laplace
##   Approximation) [glmerMod]
##  Family: Negative Binomial(7.4538)  ( log )
## Formula: sei ~ trt + lbase + visit + (1 | subject)
##    Data: dat
## 
##      AIC      BIC   logLik deviance df.resid 
##   1264.6   1285.4   -626.3   1252.6      230 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -1.9341 -0.5748 -0.0558  0.4678  3.5659 
## 
## Random effects:
##  Groups  Name        Variance Std.Dev.
##  subject (Intercept) 0.2391   0.4889  
## Number of obs: 236, groups:  subject, 59
## 
## Fixed effects:
##              Estimate Std. Error z value Pr(>|z|)    
## (Intercept)    1.8055     0.1078  16.742   <2e-16 ***
## trtprogabide  -0.3332     0.1510  -2.207   0.0273 *  
## lbase          1.0092     0.1006  10.032   <2e-16 ***
## visit         -0.2714     0.1656  -1.639   0.1013    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##             (Intr) trtprg lbase 
## trtprogabid -0.708              
## lbase       -0.028 -0.064       
## visit        0.010  0.002 -0.005

Khi dựng mô hình hồi quy nhị thức âm theo Bayes, mục tiêu của chúng ta là ước tính phân phối hậu định cho tham số beta (cho phép ước tính Mu) và tham số alpha là kiểu hình. Mô hình này cũng có thể chứa random effect. Prior và likelihood của mô hình Bayes NBI được minh họa trong hình sau:

Mô hình mixed NB với random intercept chúng ta cần ước tính có dạng:

\[\mu_{ij} = e^\left ( \beta_{0} + \beta_{trt} x_{trt} + \beta_{lbase} x_{lbase} + \beta_{visit} x_{visit} + sub_i + \varepsilon_{ij} \right )\]

6 Lựa chọn mô hình NBI2 trong STAN

Bây giờ chúng ta sẽ sử dụng Stan để để fit mô hình thông qua package rstan.

  • Bước 1: Viết Stan code.

Ở những bài thực hành trước các bạn đã làm quen với cách viết stan code theo từng block, nên chúng tôi xin phép không nhắc lại lần nữa. Ở đây chúng tôi sẽ ghi chú trực tiếp trong từng block để giải thích ý nghĩa của từng dòng lệnh.

stan_NBI.stri ="
data {
int<lower=0> N;        //no of obs
int<lower=0> K;        //no of parameters (intercept+predictors)
int<lower=0> Nsub;     //no of subs
int<lower=0> sub[N];   // index for subject
int<lower=0> y[N];     //dependent variable
matrix[N,K] X;         //model matrix
vector[K] bpri;        
matrix[K,K] Bpri;
vector[Nsub] apri;
matrix[Nsub, Nsub] Apri;
}
parameters {
vector[K] beta;            //beta[1] is population intercept
vector[Nsub] re_itcept;    // random intercept
real<lower=0> sigma_re;             //SD random intercept
real<lower=0> alpha;                //direct dispersion parameter
}
transformed parameters {
vector[N] log_lik;
vector[N] eta;             //linear predictor
vector[N] mu;              //estimated mean of dependent variable
eta = X*beta;
for(i in 1:N) {
mu[i] = exp(eta[i] + re_itcept[sub[i]]);
log_lik[i] = neg_binomial_2_lpmf(y[i]|mu[i],1/alpha);
}
}
model {
//prior
alpha ~ cauchy(0,25);
sigma_re ~ cauchy(0,5);
beta ~ multi_normal(bpri, Bpri);     //mean = 0; sd = 1
re_itcept ~ multi_normal(apri, Apri*sigma_re);   //mean = 0
//likelihood
y ~ neg_binomial_2(mu, 1/alpha); //theta = 1/alpha
}
"
  • Bước 2: Lựa chọn mô hình bằng vòng lặp WAIC

Trước khi thực sự dựng mô hình, chúng tôi sẽ giới thiệu về phương pháp lựa chọn mô hình (biến số) dựa vào tiêu chí WAIC (Watanabe-Ikaike information criteria) và LOOIC (Leave-one-out information criteria). Cơ chế đằng sau những trị số này sẽ được giải thích rõ hơn trong những bài tiếp theo.

Tại thời điểm này, chúng ta tạm chấp nhận quy tắc : WAIC và LOOIC được tính từ Log-likelihood của mô hình Bayes, và mô hình phù hợp nhất với dữ liệu sẽ có WAIC và LOOIC thấp nhất. bằng cách so sánh WAIC và LOOIC giữa các phiên bản model khác nhau, ta có thể chọn được model hợp lý nhất. Cách làm này giống như quy trình Step-wise dựa vào AIC hay BIC trong trường phái Maximum Likelihood mà bạn đã biết.

Chúng tôi viết 1 vòng lặp, lần lượt dựng 7 mô hình NBI Bayes cho tất cả tổ hợp có thể giữa 3 biến số: Treatment, Logbase và Visit, và tính WAIC, LOOIC cho mỗi mô hình.

library(loo)
## This is loo version 1.1.0
library(rstan)

library(parallel)

com <- c(combn(2:4, 1, simplify=FALSE), 
         combn(2:4, 2, simplify=FALSE), 
         combn(2:4, 3, simplify=FALSE))

trt=dat$trt
lbase=dat$lbase
visit=dat$visit

Xmat = model.matrix(~ trt+lbase+visit)

output=data.frame(
  WAIC=rep(NA,7),
  SEWAIC=rep(NA,7),
  LOOIC=rep(NA,7),
  SELOOIC=rep(NA,7),
  ModelID=c(1:7)
)

Nsub = nlevels(as.factor(dat$subject))  # no of subjects
N=nrow(dat)

Pbar <- winProgressBar(title = "WAIC loop", min = 0,
                       max = length(com), width = 350)

for(m in 1:length(com)) {
  X= Xmat[,c(1, unlist(com[[m]]))]
  K= ncol(X)
  tempdat <- list(y = dat$sei,  #  response variable
                        N=N,        # no of obs
                        X=X, # model matrix of predictors and intercept
                        K=K,         # no of predictors + intercept
                        Nsub = Nsub,            # no of subs ( 59 = no of random effect VALUEs)
                        sub = dat$subject%>%as.numeric(),      # Subject ID
                        bpri = rep(0, K),       # To define prior for beta
                        Bpri = diag(1, K),      # Prior matrix of beta 
                        apri = rep(0, Nsub),    # To define prior for intercept
                        Apri = diag(1, Nsub )) # Prior matrix of intercept

set.seed(123)

tempmod <- stan(model_code = stan_NBI.stri, data = tempdat, 
                iter = 1500, warmup = 500) 

w1=tempmod%>%extract_log_lik(.,parameter_name ="log_lik")%>%waic() 
l1=tempmod%>%extract_log_lik(.,parameter_name ="log_lik")%>%loo() 

output$WAIC[m]<-w1$waic
output$SEWAIC[m]<-w1$se_waic
output$LOOIC[m]<-l1$looic
output$SELOOIC[m]<-l1$se_looic

setWinProgressBar(Pbar, m, title=paste( round(m/length(com)*100, 0),
                                        "% Hoàn thành"))
}
## In file included from C:/Users/Admin/Documents/R/win-library/3.4/BH/include/boost/config.hpp:39:0,
##                  from C:/Users/Admin/Documents/R/win-library/3.4/BH/include/boost/math/tools/config.hpp:13,
##                  from C:/Users/Admin/Documents/R/win-library/3.4/StanHeaders/include/stan/math/rev/core/var.hpp:7,
##                  from C:/Users/Admin/Documents/R/win-library/3.4/StanHeaders/include/stan/math/rev/core/gevv_vvv_vari.hpp:5,
##                  from C:/Users/Admin/Documents/R/win-library/3.4/StanHeaders/include/stan/math/rev/core.hpp:12,
##                  from C:/Users/Admin/Documents/R/win-library/3.4/StanHeaders/include/stan/math/rev/mat.hpp:4,
##                  from C:/Users/Admin/Documents/R/win-library/3.4/StanHeaders/include/stan/math.hpp:4,
##                  from C:/Users/Admin/Documents/R/win-library/3.4/StanHeaders/include/src/stan/model/model_header.hpp:4,
##                  from file20a8330a4d06.cpp:8:
## C:/Users/Admin/Documents/R/win-library/3.4/BH/include/boost/config/compiler/gcc.hpp:186:0: warning: "BOOST_NO_CXX11_RVALUE_REFERENCES" redefined
##  #  define BOOST_NO_CXX11_RVALUE_REFERENCES
##  ^
## <command-line>:0:0: note: this is the location of the previous definition
## cc1plus.exe: warning: unrecognized command line option "-Wno-ignored-attributes"
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 1).
## 
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 11.619 seconds (Warm-up)
##                13.366 seconds (Sampling)
##                24.985 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 2).
## 
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 11.715 seconds (Warm-up)
##                21.832 seconds (Sampling)
##                33.547 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 3).
## 
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 11.062 seconds (Warm-up)
##                26.736 seconds (Sampling)
##                37.798 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 4).
## 
## Gradient evaluation took 0.001 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 10 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 11.219 seconds (Warm-up)
##                26.077 seconds (Sampling)
##                37.296 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 1).
## 
## Gradient evaluation took 0.001 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 10 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 7.743 seconds (Warm-up)
##                11.114 seconds (Sampling)
##                18.857 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 2).
## 
## Gradient evaluation took 0.01 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 100 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 8.067 seconds (Warm-up)
##                11.136 seconds (Sampling)
##                19.203 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 3).
## 
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 7.811 seconds (Warm-up)
##                11.119 seconds (Sampling)
##                18.93 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 4).
## 
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 7.677 seconds (Warm-up)
##                11.058 seconds (Sampling)
##                18.735 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 1).
## 
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 9.265 seconds (Warm-up)
##                11.207 seconds (Sampling)
##                20.472 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 2).
## 
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 8.493 seconds (Warm-up)
##                11.195 seconds (Sampling)
##                19.688 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 3).
## 
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 8.015 seconds (Warm-up)
##                11.208 seconds (Sampling)
##                19.223 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 4).
## 
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 8.136 seconds (Warm-up)
##                11.208 seconds (Sampling)
##                19.344 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 1).
## 
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 9.621 seconds (Warm-up)
##                11.379 seconds (Sampling)
##                21 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 2).
## 
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 9.796 seconds (Warm-up)
##                11.125 seconds (Sampling)
##                20.921 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 3).
## 
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 10.184 seconds (Warm-up)
##                12.231 seconds (Sampling)
##                22.415 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 4).
## 
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 10.005 seconds (Warm-up)
##                12.633 seconds (Sampling)
##                22.638 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 1).
## 
## Gradient evaluation took 0.001 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 10 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 14.654 seconds (Warm-up)
##                24.133 seconds (Sampling)
##                38.787 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 2).
## 
## Gradient evaluation took 0.001 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 10 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 13.355 seconds (Warm-up)
##                24.452 seconds (Sampling)
##                37.807 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 3).
## 
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 13.315 seconds (Warm-up)
##                27.658 seconds (Sampling)
##                40.973 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 4).
## 
## Gradient evaluation took 0.001 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 10 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 12.269 seconds (Warm-up)
##                25.732 seconds (Sampling)
##                38.001 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 1).
## 
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 7.633 seconds (Warm-up)
##                12.656 seconds (Sampling)
##                20.289 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 2).
## 
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 8.523 seconds (Warm-up)
##                11.777 seconds (Sampling)
##                20.3 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 3).
## 
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 8.411 seconds (Warm-up)
##                12.658 seconds (Sampling)
##                21.069 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 4).
## 
## Gradient evaluation took 0.001 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 10 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 9.853 seconds (Warm-up)
##                13.673 seconds (Sampling)
##                23.526 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 1).
## 
## Gradient evaluation took 0.002 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 20 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 12.302 seconds (Warm-up)
##                13.781 seconds (Sampling)
##                26.083 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 2).
## 
## Gradient evaluation took 0.001 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 10 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 9.966 seconds (Warm-up)
##                11.844 seconds (Sampling)
##                21.81 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 3).
## 
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 11.128 seconds (Warm-up)
##                11.554 seconds (Sampling)
##                22.682 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 4).
## 
## Gradient evaluation took 0.001 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 10 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 1500 [  0%]  (Warmup)
## Iteration:  150 / 1500 [ 10%]  (Warmup)
## Iteration:  300 / 1500 [ 20%]  (Warmup)
## Iteration:  450 / 1500 [ 30%]  (Warmup)
## Iteration:  501 / 1500 [ 33%]  (Sampling)
## Iteration:  650 / 1500 [ 43%]  (Sampling)
## Iteration:  800 / 1500 [ 53%]  (Sampling)
## Iteration:  950 / 1500 [ 63%]  (Sampling)
## Iteration: 1100 / 1500 [ 73%]  (Sampling)
## Iteration: 1250 / 1500 [ 83%]  (Sampling)
## Iteration: 1400 / 1500 [ 93%]  (Sampling)
## Iteration: 1500 / 1500 [100%]  (Sampling)
## 
##  Elapsed Time: 10.224 seconds (Warm-up)
##                11.775 seconds (Sampling)
##                21.999 seconds (Total)
library(viridis)

output%>%ggplot(aes(x=reorder(ModelID,WAIC),y=WAIC))+
  geom_point(shape=21,aes(fill=factor(ModelID),
                          size=WAIC,col=factor(ModelID),
                          stroke=SEWAIC/1.5),
             show.legend = F,alpha=0.5)+
  geom_point(shape=21,aes(fill=factor(ModelID),
                          size=WAIC),
             show.legend = F)+
  theme_bw()+scale_x_discrete("Model version")+
  scale_colour_viridis(option="C",discrete=T)+
  scale_fill_viridis(option="C",discrete = T)

output%>%ggplot(aes(x=reorder(ModelID,LOOIC),y=LOOIC))+
  geom_point(shape=21,aes(fill=factor(ModelID),
                          size=LOOIC,col=factor(ModelID),
                          stroke=SELOOIC/1.5),
             show.legend = F,alpha=0.5)+
  geom_point(shape=21,aes(fill=factor(ModelID),
                          size=LOOIC),
             show.legend = F)+
  theme_bw()+scale_x_discrete("Model version")+
  scale_colour_viridis(option="C",discrete=T)+
  scale_fill_viridis(option="C",discrete = T)

Kết quả cho thấy: Mô hình phù hợp nhất là mô hình số 7, nội dung của nó là:

colnames(X)
## [1] "(Intercept)"  "trtprogabide" "lbase"        "visit"

Như vậy ta có thể chắc chắn trong mô hình này có 3 biến số như giả thuyết ban đầu

Trước khi dựng mô hình, chúng ta có thể thăm dò dữ liệu 1 chút:

  • Tương phản giữa 2 phân nhóm trị liệu tại 4 thời điểm (visit khác nhau:)
den.rid <- dat %>% ggplot(., aes(x = sei, y = trt, fill= trt)) + 
  geom_density_ridges(stat = "binline", scale = 1, binwidth=2, draw_baseline = FALSE) +
  labs(x="Count", y = "") + scale_fill_discrete(name = "Treatment") +
  coord_flip() +
  my_theme(10) +
  geom_vline(xintercept = median(dat$base),linetype=2,col="blue")+
  theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust=1)) +
  theme(axis.text = element_text(size = 12, color = "black"),
  axis.title = element_text(size = 15, color = "black")) +
  facet_wrap(~ period, ncol=4)

den.rid 

Ta có thể thấy rằng tình trạng bệnh lý trước khi điều trị (log baseline)có ảnh hưởng ít nhiều đến hiệu quả điều trị của progabide:

g.smooth <- dat%>%ggplot(aes(x=trt,y=sqrt(sei), group=lbase))+
  geom_point(alpha=0.8,aes(color=lbase))+
  geom_smooth(size=1,aes(color=lbase),se=F,method="lm",show.legend = F)+
  my_theme(12)+scale_color_viridis(option="A", direction = 1)+
  theme(axis.text = element_text(size = 11, color = "black"),
  axis.title = element_text(size = 15, color = "black")) +
  facet_wrap(~ period,ncol=4)
g.smooth 

Ta có thể khảo sát hiệu ứng của Thời gian lên Logarit của biến số kết quả, có vẻ như hiệu ứng này rất yếu:

g.trt <- dat %>% ggplot(.,aes(x=period, y=log(sei + 0.01), group = trt)) + 
     geom_point(aes(color = trt), size = 2 ) +
     geom_point(shape =1, size = 2, color = "black") +
     geom_smooth(aes(color= trt, fill = trt), size = 1, alpha= 0.3, se = T, method="lm") +
     my_theme(12) +
     theme(axis.text = element_text(size = 12, color = "black"),
     axis.title = element_text(size = 15, color = "black")) 
g.trt 

Cuối cùng, ta có thể khảo sát khuynh hướng đáp ứng điều trị ở mỗi cá thể bệnh nhân, bây giờ thì bạn có thể hiểu tại saota dùng mô hình với random effect

dat%>%ggplot(aes(x=period,y=sei,group=1))+
  geom_path(aes(color=trt),alpha=0.9,size=1)+
  geom_point(aes(color=trt,shape=trt),alpha=0.9,size=2)+
  my_theme(5)+
  facet_wrap(~subject,scales="free",ncol=10)

7 Mô hình NBII Bayes chính thức

Xmat <-  model.matrix(~dat$trt+dat$lbase+dat$visit)
Nsub <-  nlevels(dat$subject)  # no of subjects
K = ncol(Xmat)
data.NBI = list(y = dat$sei,           #  response variable
                N = nrow(dat),          # no of obs
                X = Xmat,               # model matrix of predictors and intercept
                K = K,          # no of predictors + intercept
                Nsub = Nsub,            # no of subs ( 59 = no of random effect VALUEs)
                sub = dat$subject %>% as.numeric(.), # Subject ID
                bpri = rep(0, K),       # To define prior for beta
                Bpri = diag(1, K),      # Prior matrix of beta 
                apri = rep(0, Nsub),    # To define prior for intercept
                Apri = diag(1, Nsub ))  # Prior matrix of intercept 
fit.stan <-  stan(model_code = stan_NBI.stri, 
                  data = data.NBI, 
                  chains=4, 
                  iter=3000, 
                  warmup=1000, 
                  thin=2)
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 1).
## 
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 3000 [  0%]  (Warmup)
## Iteration:  300 / 3000 [ 10%]  (Warmup)
## Iteration:  600 / 3000 [ 20%]  (Warmup)
## Iteration:  900 / 3000 [ 30%]  (Warmup)
## Iteration: 1001 / 3000 [ 33%]  (Sampling)
## Iteration: 1300 / 3000 [ 43%]  (Sampling)
## Iteration: 1600 / 3000 [ 53%]  (Sampling)
## Iteration: 1900 / 3000 [ 63%]  (Sampling)
## Iteration: 2200 / 3000 [ 73%]  (Sampling)
## Iteration: 2500 / 3000 [ 83%]  (Sampling)
## Iteration: 2800 / 3000 [ 93%]  (Sampling)
## Iteration: 3000 / 3000 [100%]  (Sampling)
## 
##  Elapsed Time: 18.506 seconds (Warm-up)
##                23.931 seconds (Sampling)
##                42.437 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 2).
## 
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 3000 [  0%]  (Warmup)
## Iteration:  300 / 3000 [ 10%]  (Warmup)
## Iteration:  600 / 3000 [ 20%]  (Warmup)
## Iteration:  900 / 3000 [ 30%]  (Warmup)
## Iteration: 1001 / 3000 [ 33%]  (Sampling)
## Iteration: 1300 / 3000 [ 43%]  (Sampling)
## Iteration: 1600 / 3000 [ 53%]  (Sampling)
## Iteration: 1900 / 3000 [ 63%]  (Sampling)
## Iteration: 2200 / 3000 [ 73%]  (Sampling)
## Iteration: 2500 / 3000 [ 83%]  (Sampling)
## Iteration: 2800 / 3000 [ 93%]  (Sampling)
## Iteration: 3000 / 3000 [100%]  (Sampling)
## 
##  Elapsed Time: 17.089 seconds (Warm-up)
##                22.948 seconds (Sampling)
##                40.037 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 3).
## 
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 3000 [  0%]  (Warmup)
## Iteration:  300 / 3000 [ 10%]  (Warmup)
## Iteration:  600 / 3000 [ 20%]  (Warmup)
## Iteration:  900 / 3000 [ 30%]  (Warmup)
## Iteration: 1001 / 3000 [ 33%]  (Sampling)
## Iteration: 1300 / 3000 [ 43%]  (Sampling)
## Iteration: 1600 / 3000 [ 53%]  (Sampling)
## Iteration: 1900 / 3000 [ 63%]  (Sampling)
## Iteration: 2200 / 3000 [ 73%]  (Sampling)
## Iteration: 2500 / 3000 [ 83%]  (Sampling)
## Iteration: 2800 / 3000 [ 93%]  (Sampling)
## Iteration: 3000 / 3000 [100%]  (Sampling)
## 
##  Elapsed Time: 17.702 seconds (Warm-up)
##                22.783 seconds (Sampling)
##                40.485 seconds (Total)
## 
## 
## SAMPLING FOR MODEL 'f3d81cce00e79713520bd97b4c1e119a' NOW (CHAIN 4).
## 
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
## 
## 
## Iteration:    1 / 3000 [  0%]  (Warmup)
## Iteration:  300 / 3000 [ 10%]  (Warmup)
## Iteration:  600 / 3000 [ 20%]  (Warmup)
## Iteration:  900 / 3000 [ 30%]  (Warmup)
## Iteration: 1001 / 3000 [ 33%]  (Sampling)
## Iteration: 1300 / 3000 [ 43%]  (Sampling)
## Iteration: 1600 / 3000 [ 53%]  (Sampling)
## Iteration: 1900 / 3000 [ 63%]  (Sampling)
## Iteration: 2200 / 3000 [ 73%]  (Sampling)
## Iteration: 2500 / 3000 [ 83%]  (Sampling)
## Iteration: 2800 / 3000 [ 93%]  (Sampling)
## Iteration: 3000 / 3000 [100%]  (Sampling)
## 
##  Elapsed Time: 16.989 seconds (Warm-up)
##                23.811 seconds (Sampling)
##                40.8 seconds (Total)

Kết quả của mô hình Bayes NBI2 được tóm tắt như sau:

print(fit.stan, digits=3, pars=c("beta","sigma_re","alpha"))
## Inference for Stan model: f3d81cce00e79713520bd97b4c1e119a.
## 4 chains, each with iter=3000; warmup=1000; thin=2; 
## post-warmup draws per chain=1000, total post-warmup draws=4000.
## 
##            mean se_mean    sd   2.5%    25%    50%    75% 97.5% n_eff
## beta[1]   1.791   0.003 0.116  1.559  1.713  1.792  1.869 2.015  1614
## beta[2]  -0.309   0.004 0.160 -0.628 -0.415 -0.311 -0.200 0.002  1700
## beta[3]   1.001   0.002 0.108  0.786  0.927  1.000  1.073 1.205  1885
## beta[4]  -0.268   0.003 0.168 -0.597 -0.377 -0.267 -0.156 0.057  4000
## sigma_re  0.286   0.002 0.078  0.166  0.230  0.276  0.331 0.467  2697
## alpha     0.145   0.001 0.033  0.089  0.121  0.141  0.166 0.218  2932
##           Rhat
## beta[1]  1.002
## beta[2]  1.001
## beta[3]  1.001
## beta[4]  1.000
## sigma_re 1.000
## alpha    1.000
## 
## Samples were drawn using NUTS(diag_e) at Tue Nov 07 23:00:58 2017.
## For each parameter, n_eff is a crude measure of effective sample size,
## and Rhat is the potential scale reduction factor on split chains (at 
## convergence, Rhat=1).

Ta chỉ quan tâm đến phân phối hậu định của 3 hiệu ứng chính,dưới dạng Incidence rate ratio (IRR = exp(beta))

postdf=as.data.frame(fit.stan)%>%as_tibble()

betadf=postdf[,c(1:4)]

names(betadf)=c("Intercept","Progabide","LogBase","Visit")

betadf=betadf%>%mutate(.,Iteration=as.numeric(rep(c(1:1000),4)),
                        Chain=as.factor(rep(c(1:4),each=1000)))

head(betadf)%>%.[,c(1:4)]%>%knitr::kable()
Intercept Progabide LogBase Visit
1.772972 -0.2198768 0.9795190 -0.2581374
1.941806 -0.3589941 1.0442256 -0.3001051
1.862598 -0.5882802 0.9337627 -0.2383386
1.914448 -0.7154537 1.0115780 -0.1133664
1.942097 -0.4211530 0.9456440 -0.3032589
1.906347 -0.4570913 0.8811814 0.0534731
p1=betadf%>%gather(Intercept:Visit,key="Step",value="fix")%>%
  ggplot(aes(x=exp(fix),fill=Chain,col=Chain))+
  geom_density(alpha=0.3,show.legend = F)+
  facet_wrap(~Step,ncol=1,scales = "free_y")+
  scale_x_continuous("IRR")+
  theme_bw(6)

p2=betadf%>%gather(Intercept:Visit,key="Step",value="fix")%>%
  ggplot(aes(y=exp(fix),x=Iteration,col=Chain))+
  geom_path(alpha=0.5,show.legend = F)+
  facet_wrap(~Step,ncol=1,scales = "free")+
  scale_y_continuous("IRR")+
  theme_bw(6)

gridExtra::grid.arrange(p2,p1,ncol=2)

Nếu chỉ xét Incidence rate change cho yếu tố điều trị, ta có thể diễn giải:Thuốc progabid làm giảm tần suất cơn động kinh khoảng 26.72 % (4.36 % đến 43.7% ) so với nhóm Placebo.

Hmisc::describe(exp(betadf$Progabide)-1)
## exp(betadf$Progabide) - 1 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     4000        0     4000        1  -0.2564    0.134 -0.43730 -0.40309 
##      .25      .50      .75      .90      .95 
## -0.33991 -0.26720 -0.18105 -0.09964 -0.04358 
## 
## lowest : -0.5879168 -0.5842844 -0.5775129 -0.5679095 -0.5621748
## highest:  0.2723041  0.2743226  0.2746589  0.2774731  0.2935617

Tương quan giữa Incidence rate change của Visit và Progabide được biểu diễn như sau:

betadf$pseudoGroup=factor(rep(c(1:20),e=nrow(betadf)/20))

betadf%>%gather(Visit,Progabide,key="Factors",value="fix")%>%
  ggplot(aes(y=Factors,
             x=100*(exp(fix)-1)
             ))+
  geom_density_ridges_gradient(aes(fill = ..x..),
                               show.legend = F,
           scale=0.8,
           gradient_lwd = 0.5)+
  geom_density_ridges(aes(col=pseudoGroup),
                      scale=0.9,alpha=0.01,
                      show.legend = F)+
  geom_vline(xintercept=c(0,-10,10),col=c("red3","blue3","black"),linetype=2)+
  scale_x_continuous("Incidence rate change (%)",
                     expand = c(0.01, 0),
                     breaks=c(-70,-60,-50,-40,-30,-20,-10,0,10,20,30,40,50))+
  scale_y_discrete(expand = c(0.01, 0))+
  scale_fill_viridis(option = "A",begin=0.2,end=1)+
  scale_colour_viridis(option = "A",discrete = T)+
  theme_bw()

Phân tích ROPE theo J.Jruschke với ngưỡng trên và dưới lần lượt là -5% và +5% , cùng phân tích CompVal với ngưỡng là 10%

HDIF= function( sampleVec,credMass=0.975 ) {
  sortedPts = sort( sampleVec )
  ciIdxInc = ceiling( credMass * length( sortedPts ) )
  nCIs = length( sortedPts ) - ciIdxInc
  ciWidth = rep( 0 , nCIs )
  for ( i in 1:nCIs ) {
    ciWidth[ i ] = sortedPts[ i + ciIdxInc ] - sortedPts[ i ]
  }
  HDImin = sortedPts[ which.min( ciWidth ) ]
  HDImax = sortedPts[ which.min( ciWidth ) + ciIdxInc ]
  HDIlim = c( HDImin , HDImax )
  return( HDIlim )
}

SUMK=function(paramSampleVec,compVal=NULL , ROPE=NULL , credMass=0.975) {
  meanParam = mean( paramSampleVec )
  medianParam = median( paramSampleVec )
  dres = density( paramSampleVec )
  modeParam = dres$x[which.max(dres$y)]
  hdiLim = HDIF( paramSampleVec , credMass=credMass )
  if ( !is.null(compVal) ) {
    pcgtCompVal = ( 100 * sum( paramSampleVec > compVal ) 
                    / length( paramSampleVec ) )
  } else {
    compVal=NA
    pcgtCompVal=NA
  }
  if ( !is.null(ROPE) ) {
    pcltRope = ( 100 * sum( paramSampleVec < ROPE[1] ) 
                 / length( paramSampleVec ) )
    pcgtRope = ( 100 * sum( paramSampleVec > ROPE[2] ) 
                 / length( paramSampleVec ) )
    pcinRope = 100-(pcltRope+pcgtRope)
  } else { 
    ROPE = c(NA,NA)
    pcltRope=NA 
    pcgtRope=NA 
    pcinRope=NA 
  }  
  return( c( Mean=meanParam , Median=medianParam , Mode=modeParam , 
             HDIlevel=credMass , LL=hdiLim[1] , UL=hdiLim[2] , 
             CompVal=compVal , PcntGtCompVal=pcgtCompVal , 
             ROPElow=ROPE[1] , ROPEhigh=ROPE[2] ,
             PcntLtROPE=pcltRope , PcntInROPE=pcinRope , PcntGtROPE=pcgtRope ) )
}

summaryKruschke=function(MCMC,compVal=NULL, rope=NULL,credMass=NULL){
  summaryInfo = NULL
  summaryInfo = cbind(summaryInfo, "Estimated"= SUMK(MCMC,
                                                     compVal=compVal,
                                                     ROPE=rope,credMass=credMass))
  return(summaryInfo)
}

IRC=100*(1-exp(betadf$Progabide))%>%as_data_frame()

summaryKruschke(MCMC = IRC$value,
                       compVal=10,
                       rope=c(-5,5),
                       credMass=0.975)%>%as.data.frame()
##               Estimated
## Mean          25.637268
## Median        26.719580
## Mode          29.149447
## HDIlevel       0.975000
## LL            -2.373055
## UL            50.106432
## CompVal       10.000000
## PcntGtCompVal 89.950000
## ROPElow       -5.000000
## ROPEhigh       5.000000
## PcntLtROPE     1.325000
## PcntInROPE     4.075000
## PcntGtROPE    94.600000
betadf$IRC=100*(1-exp(betadf$Progabide))

Kết quả cho thấy: 94.6% mật độ phân phối hậu định nằm ngoài ngưỡng thay đổi 5%, chỉ có 4.075% mật độ rơi vào trong khoảng +/-5%; 89.95% mật độ nằm ngoài ngưỡng 10%

Để chắc chắn, ta làm thêm 1 phân tích Bayes Factor cho 21 ngưỡng thay đổi của IR từ 0 đén-20%

library(brms)

betadf$IRC=100*(1-exp(betadf$Progabide))

threshold=rep(NA,21)
BayesFactor=rep(NA,21)

thres=c(0:20)

for(i in (1:21)){
  thr=thres[i]
  threshold[i]=thr
  hyp=paste("IRC>",thr,sep="")
  bf=brms::hypothesis(betadf,hyp,alpha=0.05)
  BayesFactor[i]=bf$hypothesis$Evid.Ratio
}

bfdf=cbind(threshold,BayesFactor)%>%as_tibble()

bfdf%>%ggplot(aes(x=threshold,y=BayesFactor,fill=BayesFactor))+
  geom_path()+
  geom_point(show.legend = F,size=5,shape=21,col="black")+
  geom_text(aes(label=round(BayesFactor,2)),col="black",show.legend = F,angle = 60,nudge_y=sqrt(bfdf$BayesFactor)+1,nudge_x=0,size=4)+
  theme_bw()+scale_x_continuous(breaks=c(0:20))+
  geom_hline(yintercept = c(10,30),linetype=2,col="blue")+
  scale_fill_viridis(option="D",direction=-1)

Nếu lấy ngưỡng khả tín của BF=30, ta có thể kết luận là tuy Progabide có cải thiện triệu chứng động kinh, nhưng hiệu ứng này khá nhỏ, Với H1 là IR thay đổi > 10% thì BF chỉ có 8.95; Ta chỉ có thể tin cậy hiệu ứng điều trị từ 1-5% mà thôi.

8 Diễn đạt văn bản khoa học

Phương pháp thống kê :

Do kết quả (số cơn động kinh) là một biến số đếm và bị phân tán, nó được khảo sát theo quy luật phân phối nhị thức âm type II (NBII). Hiệu ứng của thuốc Progabide so với Placebo lên kết cục lâm sàng được khảo sát bằng một mô hình hồi quy hỗn hợp (Mixed model) theo phương pháp Bayes. Mô hình này có hiệu chỉnh cho tình trạng bệnh tại khởi điểm nghiên cứu (lbase), yếu tố thời gian (4 trọng số tương phản) và hiệu ứng ngẫu nhiên cá thể. Tính hợp lý của mô hình được đánh giá bằng tiêu chí WAIC. Suy diễn thống kê dựa vào mật độ phân phối hậu định và tỉ trọng chứng cứ (Bayes factor) với giả thuyết H1 là thuốc Progabide giảm tần suất động kinh ít nhất là 5% so với Placebo.

Kết quả:

Phân phối hậu định của sự thay đổi tần suất phát sinh cơn động kinh (IR change,%) cho thấy thuốc Progabid cải thiện trung bình 26.72% số cơn động kinh so với nhóm Placebo. Đến 94.6% mật độ phân phối hậu định nằm ngoài ngưỡng thay đổi 5%, chỉ có 4.075% mật độ rơi vào trong khoảng +/-5%; 89.95% mật độ nằm ngoài ngưỡng 10. Tuy nhiên Bayes Factor cho thấy khả năng xác tín về hiệu quả này là khá thấp (BF=17.52 cho ngưỡng 5% và 8.95 cho ngưỡng 10%).

9 Tổng kết

Bài thực hành số 7 đến đây là chấm dứt. Trong bài này chúng tôi đã truyền tải một số thông điệp chính như sau:

  1. Khác với thí nghiệm y học lâm sàng, đối tượng của phân tích thống kê không phải là những đại lượng sinh lý bệnh, mà là những biến số ngẫu nhiên đại diện cho các đại lượng này. Việc lựa chọn quy luật phân phối phù hợp để chuyển từ đại lượng sang biến số yêu cầu người bác sĩ phải vận dụng lý thuyết xác suất.

  2. Những biến số đếm không thể được khảo sát bằng phương pháp truyền thống dựa trên giả định phân phối Gaussian. Một số giải pháp đã được giới thiệu, bao gồm mô hình Poisson, Quasi-Poisson và Nhị thức âm type 2.

  3. Phân tích Bayes trong STAN cho phép dựng mô hình GLM với phân phối uyển chuyển, như trong trường hợp này là phân phối NBII. Suy diễn Bayes cũng mang lại nhiều thông tin hơn các kiểm định cổ điển.

Nhóm BAV xin chân thành cảm ơn sự ủng hộ của các bạn. Chúng tôi sẽ gặp lại các bạn trong một bài khác.

---
title: "BAYES: Hồi quy nhị thức âm"
subtitle: "Sử dụng ngôn ngữ STAN"
author: "Nhóm tác giả BAV"
date: "07 Tháng 11 2017"
output:
  html_document: 
    code_download: true
    code_folding: hide
    number_sections: yes
    theme: "default"
    toc: TRUE
    toc_float: TRUE
---

```{r setup,include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
library(tidyverse)
library(ggridges)
library(gamlss)
library(rstan)
library(brms)
```

![](NBIBayes1.png)

*Tác giả:* 

*Đinh Tiến Tài (1,2,3)*
*Lê Đông Nhật Nam (1,3,4)*
*Trần Trung Dũng (3)*
*Lê Ngọc Khả Nhi (1,4,5)*

Ghi chú: Đóng góp của các thành viên:

(1) Bài giảng lý thuyết
(2) Mô hình Poisson và NBI cổ điển
(3) Soạn và hoàn thiện STAN codes cho mô hình NBI Bayes
(4) Khai thác mô hình và Suy diễn Bayes
(5) Đồ họa thống kê

# Giới thiệu

Thân chào các bạn, đây là bài thực hành thứ 7 trong dự án Bayes for Vietnam với sự góp mặt của toàn thể coreteam của project. Mục tiêu của nhóm BAV là phổ cập về phương pháp thống kê theo trường phái Bayes nhằm thay thế hoàn toàn những công cụ truyền thống. Đối tượng của chúng tôi là các bạn bác sĩ và sinh viên y khoa. 

Đây cũng là một bài giảng với tham vọng cao nhất,vì chúng tôi sẽ đề cập đồng thời nhiều vấn đề tương đối phức tạp, bao gồm: Phân tích biến số đếm (count data) bằng phân phối Nhị thức âm, mixed model có chứa random effect, và Hồi quy tuyến tính đa biến (những bài giảng trước kia chỉ dừng lại ở phân tích đơn biến).

Chúng tôi giả định rằng các bạn đã bắt đầu quen với cấu trúc ngôn ngữ STAN, quy trình chuyển giả thuyết nghiên cứu thành mô hình Bayes, khai thác phân phố hậu định .Những phần này sẽ được giản lược

# Trường hợp minh họa

```{r,message = FALSE,warning=FALSE}
library(tidyverse)
library(ggridges)

my_theme <- function(base_size = NULL, base_family = "sans") {
  theme_bw(base_size = base_size, base_family = base_family) +
    theme(
      panel.grid.major = element_line(color = "gray"),
      panel.grid.minor = element_blank(),
      panel.background = element_rect(fill = "#fff68f" ),
      strip.background = element_rect(fill = "#510166", color = NA, size =0.5),
      strip.text = element_text(face = "bold", size = 8, color = "white"),
      legend.position = "bottom",
      legend.justification = "center",
      legend.background = element_blank(),
      legend.margin = margin(0.5,0.5,0.5,0.5)
    )
}
```

Bộ dữ liệu này được thu thập từ một nghiên cứu trên 59 bệnh nhân mắc bệnh động kinh. Các bệnh nhân được theo dõi số lần bị động kinh trong vòng 8 tuần (base). Sau đó bệnh nhân được phân chia ngẫu nhiên vào nhóm điều trị (treatment- dùng thuốc Progabide ) và nhóm giả dược (placebo); Số lần bị động kinh được ghi nhận mỗi 2 tuần trong  8 tuần tiếp theo. Như vậy mỗi bệnh nhân sẽ được khảo sát ở 4 thời điểm (period) và dạng dữ liệu này được gọi là dữ liệu tái đo lường (repeated measurement data). Dataset đã được sử dụng bởi nhiều tác giả như Thall ,Vail [1990], Breslow và Clayton[1993], Lee và Nelder [1996, 2000] để minh họa cho mô hình hồi quy hỗn hợp và count data. 

Đây là một thử nghiệm lâm sàng tiêu biểu, trong đó câu hỏi nghiên cứu là khảo sát tác động của một loại thuốc X làm thay đổi (được kì vọng là tích cực) một kết cục xấu của một bệnh lý. Thiết kế nghiên cứu thông dụng là phân chia ngẫu nhiên và đồng nhất một mẫu n bệnh nhân vào 2 phân nhóm (nhánh) trị liệu, một cho dùng thuốc X, một sử dụng giả dược (placebo). Kết cục (outcome) Y sẽ được theo dõi kéo dài qua nhiều thời điểm trong suốt quá trình điều trị. Một mô hình hồi quy đa biến trong đó phân nhóm điều trị (X vs placebo) là biến số chính, kèm theo những hiệp biến như thời gian, tuổi, tình trạng cơ bản (baseline)…  và yếu tố ngẫu nhiên cá thể/thứ bậc khác. Suy diễn thống kê được thực hiện trên tham số hồi quy cho X.

Trong trường hợp này, kết cục lâm sàng Y là số cơn động kinh được ghi nhận tính đến mỗi mốc thời gian (k=4), yếu tố can thiệp có 2 levels là thuốc progabide so với placebo. Giả thuyết nghiên cứu là thuốc Progabide cải thiện có ý nghĩa (làm giảm số cơn động kinh) so với Placebo. Bài toán của chúng ta còn xét thêm 2 hiệp biến số tiềm ẩn khác đó là : Tình trạng cơn động kinh (lbase : logarit của tần suất động kinh trước khi phân nhóm ) và Thời gian (visit : lưu ý, trong thí nghiệm gốc, thời gian được đo như một biến liên tục, tính bằng tháng, và có 4 thời điểm khảo sát, tuy nhiên chúng tôi hoán chuyển biến số này thành những trọng số tương phản : contrast weights) để đơn giản hóa mô hình. Việc xét thêm 2 biến số này nhằm để hiệu chỉnh sai lệch (nếu có) do độ nặng cá thể lên suy diễn thống kê về hiệu quả điều trị, cũng như hiệu ứng phụ của thời gian.

```{r,message = FALSE,warning=FALSE}
dat=read.csv("https://raw.github.com/vincentarelbundock/Rdatasets/master/csv/MASS/epil.csv")
names(dat)[2] <- "sei"
dat$visit <- (2*dat$period-5)/10

dat$period=as.factor(dat$period)
dat$subject=as.factor(dat$subject)

dat%>%head()%>% knitr:: kable()
```

Nhưng trước khi đi vào bài toán, chúng tôi muốn bàn một chút về lý thuyết xác suất và mô hình cho biến số đếm (count data)

Thống kê mô tả cho thấy Outcome (Seizure count) có phân phối không bình thường : Cụ thể, nó có trung bình nhỏ hơn Sd, skewness rất cao.

```{r}
psych::describe(dat$sei)

sigma=sd(dat$sei)
mu=mean(dat$sei)

realp=dat%>%ggplot(aes(x=sei))+
  geom_density(alpha=.8,fill="#c507ff")+
  geom_histogram(aes(y=..density..,fill=..density..),colour="black",alpha=0.7,show.legend = F,binwidth = 1)+
  theme_bw()+scale_fill_gradient(low="#ff9c07",high="#ff072f")+
  ggtitle("Real data")

realp
```

Nguyên nhân vì đây là một số đếm (count data).

Trong y học lâm sàng, nhiều đại lượng được khảo sát như một số đếm / biến số rời rạc (count data, discrete variables). Chúng thường mang ý nghĩa tần suất (số lần) một biến cố/hiện tượng được ghi nhận trong một khoảng không gian và thời gian xác định, Thí dụ :

+ Hiện tượng sinh lý : nhịp tim, nhịp hô hấp, nhu động ruột, số cơn gò tử cung, 

+ Biến cố bệnh lý : Số cơn hen kịch phát, số lần ngưng thở khi ngủ, số cơn động kinh, số trường hợp tử vong, số lần nhập viện cấp cứu…

+ Kết quả của phép đếm : Số lượng tế bào bạch cầu, số kí sinh trùng, số con, số đơn vị cơ quan bị tổn thương… 

+ Hành vi : số lần thăm khám bác sĩ, mức tiêu thụ thuốc lá/bia rượu, số lần dùng thuốc cắt cơn hen

+ Hoặc một thang đo rời rạc : điểm Glasgow, mức độ đau, 

+ Thời gian cũng có thể được xét như biến số đếm, khi chúng là số nguyên, thí dụ: Số ngày nằm viện, độ dài giấc ngủ ,... 

Đặc điểm cần lưu ý với count data là phân bố dữ liệu thường hay bị lệch phải, phương sai tăng khi giá trị trung bình tăng.  

# Biến số đếm: từ đại lượng đến biến ngẫu nhiên

Tiếp theo, chúng tôi muốn phân biệt giữa đại lượng và biến số trong nghiên cứu, vì có sự khác nhau giữa 2 khái niệm này

![](measure.png)

Xác định được bản chất, ý nghĩa và cách đo đếm những đại lượng là một bước quan trọng khi đặt giả thuyết và thiết kế nghiên cứu, đây là trách nhiệm của người bác sĩ. Nhưng bước tiếp theo, quan trọng không kém, đó là chuyển từ đại lượng sang biến số –và đây là công việc của chuyên viên thống kê. 

Một cách lý tưởng, người bác sĩ có đầy đủ cả kiến thức thống kê và y học, sẽ cùng lúc đảm nhận cả 2 vai trò để tự mình đi từ quan sát đến giả thuyết, từ giả thuyết đến thí nghiệm, đo/đếm đại lượng và từ đại lượng này đến biến số thống kê. 

Các mô hình thống kê là những con robot vô tri, chúng hoàn toàn không "nhìn" thấy đại lượng, không biết đến ý nghĩa lâm sàng. Chúng chỉ biết tới biến số ngẫu nhiên. Chúng không đo lường, mà chỉ dùng hàm toán học để ước lượng giá trị của biến số cần xét. Mỗi giá trị như vậy lại có xác suất hiện diện khác nhau. Nhà thống kê không có kiến thức y học chuyên môn sẽ không quan tâm đến ý nghĩa sinh lý, bệnh học nữa, nhưng chỉ cố gắng mô tả đặc tính phân phối của biến ngẫu nhiên bằng quy luật phù hợp (hàm mật độ xác suất).Các hàm này được định nghĩa bằng các tham số và giả định. Từ phân phối, họ có thể ước lượng tham số/giá trị bằng mô hình, và suy diễn thống kê. 

Tới đây, các bạn sinh viên và bác sĩ cũng có thể nhận ra vấn đề : Những biến số đếm, rời rạc không thể được mô tả bằng cùng một phân phối Gaussian (chuẩn, bình thường ) như những biến số liên tục. Như vậy các phương pháp xử lý số liệu có giả định phân phối chuẩn (t-test, ANOVA, OLS regression, etc) khi áp dụng với dữ liệu count data sẽ không còn phù hợp nữa (trừ khi dữ liệu đã được chuyển đổi). Khi bạn đã giả định sai về quy luật phân phối, mô hình của bạn đã có bias và nhiều nguy cơ là suy diễn thống kê dựa trên mô hình này cũng sai lầm nốt.

Điều đáng tiếc đó là chương trình Thống kê ở đại học Y chỉ quan tâm đến những biến liên tục, nhưng chưa trang bị cho các sinh viên Y khoa đủ kiến thức để xử trí những biến rời rạc và biến số đếm.

Một mâu thuẫn khác, đó là khi thi nội trú, cao học, người ta có dạy lý thuyết xác suất về những quy luật phân phối như Binomial (Nhị thức ), Bernoulli, Poisson, nhưng cách dạy thuần túy lý thuyết và toán học không cho phép vận dụng những quy luật phân phối này vào thực tiễn lâm sàng và nghiên cứu – sinh viên không có khả năng liên hệ sự vật, hiện tượng với quy luật phân phối, và không có khả năng chuyển từ đại lượng thành biến số ngẫu nhiên. 

Một sai lầm chết người khác, đó là việc dạy cho sinh viên tiếp cận vấn đề bằng tư duy so sánh, và các công cụ lạc hậu như bảng chéo, kiểm định phi tham số… nhưng không dạy về mô hình hồi quy, nhất là mô hình tuyến tính tổng quát (GLM). 

Với 2 lỗ hổng kiến thức cả về Xác suất ứng dụng, Mô hình GLM, sinh viên gần như hoàn toàn bất lực trước những giả thuyết nghiên cứu với biến số đếm. Sinh viên chỉ có 2 lựa chọn, làm liều và sai (dùng kiểm định t so sánh, vốn dựa trên giả định phân phối chuẩn), hoặc tìm nơi trú ẩn (các test phi tham số).

Trong dự án Bayes analysis for Vietnam, nhóm chúng tôi nhắm đến cả 2 mục tiêu : Mục tiêu chính là khuyến khích các bạn đi theo trường phái Bayes, nhưng một mục tiêu khác quan trọng không kém, đó là bù đắp cho các bạn đồng nghiệp những thiếu hụt về kiến thức và kỹ năng thống kê ứng dụng. Mỗi bài thực hành là một case study hoàn chỉnh dẫn dắt các bạn từ câu hỏi, giả thuyết đến biến số, mô hình và suy diễn kết quả.

# Từ phân phối nhị thức đến Nhị thức âm

Phân phối nhị thức và Bernoulli là gốc rễ của mọi quy luật phân phối dành cho biến rời rạc. 

Phân phối nhị thức mô tả biến số ngẫu nhiên x như Số lần thành công trên n lần thử nghiệm lặp lại độc lập (n xác định), biết rằng xác suất thành công là p:

$$P(x|n,p)=\binom{n}{x}p^{x}(1-p)^{n-x}$$

Phân phối nhị thức âm :

Dạng chính tắc của phân phối nhị thức âm mô tả số lần thử nghiệm Bernoulli độc lập, lặp lại (biến ngẫu nhiên x) để có thể đạt được một số lần thành công xác định (lần thành công thứ r), biết rằng xác suất thành công là p

$$P(x|p,r)= \binom{x-1}{r-1}p^{r}(1-p)^{x-r}$$
Với x và r đều là số nguyên, điều kiện x >= r, và p là một xác suất trong khoảng (0,1).

Dạng thứ hai của phân phối nhị thức âm là một biến thể, trong đó biến ngẫu nhiên x là số lần thử nghiệm thất bại trước khi lần thành công thứ r xảy ra. 
$$P(x|p,r)= \binom{x+r-1)}{x}p^{r}(1-p)^{x}$$
Với x là số nguyên dương hoặc=0 và không có ràng buộc về điều kiện giữa r và x. Như vậy, chính dạng biến thể này mới thực sự hữu dụng để mô tả biến số đếm vì x có thể nhận bất cứ giá trị số nguyên nào không âm, và r cũng không bị ràng buộc điều kiện nào cả.

Tên gọi "nhị thức âm có vẻ bí ẩn ? Thực ra nó phát xuất từ trường hợp ta áp dụng phân phối nhị thức với số mũ âm :

$$\binom{x+r-1}{x}\ p^{r}(1-p)^{x} = \binom{-r}{x}\ p^{r}(p-1)^{x}$$

Thay vì biểu diễn phân phối nhị thức âm bằng 2 tham số r và p, ta có thể sử dụng khái niệm khác là : tham số vị trí trung tâm (Mu) và phương sai (sigma^2), quan hệ hoán chuyển giữa Mu, Sigma^2 và r,p như sau :


$$\mu = \frac {r(1-p)}{p}$$

$$Var = \sigma^2 = \frac{r(1-p)}{p^2} = \mu + \frac{1}{r}\mu^2$$
Dạng này có tên gọi là Negative binomial type 2 hoặc quadratic negative binomial. Số 2 chính là bậc mũ 2 cho Mu trong công thức tính variance.

# Biện luận về phân phối cho bài toán minh họa

Trở lại bài toán của chúng ta:

Những lập luận sau đây ủng hộ cho việc chọn họ phân phối phù hợp cho mô hình :

Về mặt lâm sàng : Outcome của chúng ta có bản chất là tần suất phát sinh một biến cố lâm sàng (cơn động kinh), được khảo sát trong một khoảng thời gian xác định, trong một không gian xác định (cơ thể mỗi bệnh nhân). 

Một số ý khác có thể được phát biểu, như: Mỗi cơn động kinh là độc lập (thực vậy !), ngẫu nhiên (giả định) và có xác suất hằng định theo thời gian (giả đinh). Những đặc tính này thỏa đa số điều kiện và tính chất của một phân phối Poisson dành cho biến số đếm, nhưng không phù hợp với phân phối Gaussian. Do đó, phân phối Poisson là giả định ban đầu.

Khi các bạn muốn xem xét ảnh hưởng của các biến độc lập  x1,x2,..xn lên biến phụ thuộc dạng số đếm y thì chúng ta thường hay nghĩ ngay đến mô hình hồi quy Poisson. Mô hình Poisson có một giả định (assumption) rất quan trọng là: giá trị mean và variance bằng nhau. Tuy nhiên dữ liệu thực tế mà chúng ta thu thập ít khi thõa mãn giả định này. Khi variance > mean chúng ta gọi đó là over-dispersion (tạm dịch: quá phân tán), ngược lại, variance < mean thì gọi là under-dispersion.

Một biến ngẫu nhiên y với giá trị kì vọng μ tuân theo phân bố poisson sẽ có hàm probability mass function (hàm khối xác suất) như sau:

$$P\left ( Y = y \right ) = \frac{e^{-\mu }\mu^y}{y!}$$
Có thể nhận ra rằng phân phối poisson chỉ có 1 tham số là mean (mu). Trong hồi quy poisson, mu được mô tả bằng một hàm số mũ của các biến độc lập tuyến tính (linear predictor). Link function được sử dụng trong hồi quy poisson là log link. 

$$\mu = e^\eta$$
$$\eta = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ...+ \beta_n x_n$$

Đầu tiên chúng ta sẽ dùng mô hình poisson không có random effect để kiểm tra độ phân tán của dữ liệu (dispersion).

```{r}
glm.pois <-  glm(sei ~ lbase + trt + visit , family = "poisson", data = dat) # fitting mô hình
summary(glm.pois)
```

```{r,message = FALSE,warning=FALSE}
library(COUNT)
P__disp(glm.pois)
```

Hàm P__disp cung cấp cho chúng ta Pearson Chi2 statistic và Pearson dispersion statistic. Có thể tính thủ công Pearson dispersion statistic bằng cách lấy tổng bình phương của phần dư Pearson chia cho bậc tự do của mô hình (N quan sát - số biến trong mô hình bao gồm intercept).

```{r}
poi.df <- df.residual(glm.pois) # 232
Pear.disp.sta <- sum(resid(glm.pois, type = "pearson")^2)/poi.df
Pear.disp.sta
```

Giá trị Pearson dispersion statistic > 1, có nghĩa là dữ liệu gặp vấn đề overdispersion. Xin có một lưu ý với các bạn là khi dữ liệu bị overdispersion, một giải pháp thay thế cho mô hình poisson là mô hình quasi-poisson.

```{r}
glm.quasi <-  glm(sei ~ lbase + trt + visit , family = "quasipoisson", data = dat)
summary(glm.quasi) %>% coef()
```

Hệ số hồi quy của mô hình glm.poi và glm.quasi là giống nhau, standard error (SE) của các hệ số hồi quy ở mô hình glm.pois lớn hơn so với SE ở mô hình glm.pois.

Chúng ta có thể tính toán sự sai khác SE giữa 2 mô hình dựa vào Pearson dispersion statistic. Khi nhân SE của các hệ số hồi quy ở mô hình poisson với căn bậc hai của Pearson dispersion statistic chúng ta sẽ có được SE tương ứng trong mô hình quasi-poisson.

Những giải pháp thay thế khác có thể là : phân phối Poisson Inversed Gaussian (PIG), hoặc Negative binomial type II (Nhị thức âm, NBII). 

Chúng ta có thể kiểm chứng về tính phù hợp của phân phối negative binomial II bằng cách : Đối chiếu histogram cho dữ liệu thực tế và histogram cho một dữ liệu mô phỏng theo quy luật NBI2, với cùng giá trị tham số mu và sigma. 
Kết quả cho thấy 2 đồ thị gần như tương đương :

```{r,message = FALSE,warning=FALSE}
library(gamlss.dist)

rNBII(236L, mu = mu, sigma = sigma)%>%as_tibble()%>%
  ggplot()+
  geom_density_ridges(aes(x=value,y=1,group=1),stat = "binline",binwidth=1,
               draw_baseline = FALSE,alpha=.8,fill="gold")+
  geom_density_ridges(aes(x=dat$sei,y=1,group=1),stat = "binline",binwidth=1,
                      draw_baseline = FALSE,alpha=.5,fill="#c507ff",col="#c507ff")+
  theme_bw()+scale_y_continuous("Density")+
  ggtitle("Simulated (yellow) vs Real data (violet)")
```

Nhận xét : Việc lựa chọn họ phân phối có thể dựa vào một hoặc cả 2 lập luận : 1) Bản chất/Ý nghĩa lâm sàng và 2) Toán thống kê. 

Với (1), bạn đang nhìn đại lượng, với đầy đủ ý nghĩa, đơn vị, thang đo… theo quan điểm y học, với (2), outcome không còn là đại lượng nữa mà chỉ là một biến số ngẫu nhiên, giá trị của nó là 1 con số vô nghĩa chịu chi phối bởi các hàm mật độ xác suất. 

Trên thực tế hiếm khi ta có thể liên hệ một cách tường minh giữa ý nghĩa lâm sàng và định nghĩa xác suất, thí dụ tỉ lệ điều trị thành công trên tổng số bệnh nhân vừa mang ý nghĩa lâm sàng, vừa đúng theo định nghĩa của một phân phối Binomial ; nhưng trong trường hợp này, rất khó để hình dung số cơn động kinh là số lần thử nghiệm Bernouilli thất bại cho đến khi đạt lần thành công thứ 1/alpha - theo định nghĩa phân phối nhị thức âm type 2 ; tương tự, phân phối Poisson có thể được lựa chọn chỉ vì ta không có thông tin nào khác, chứ trên thực tế không phải bất cứ đại lượng nào cũng thỏa tất cả giả định về tính ngẫu nhiên, độc lập và bất biến của phân phối Poisson. Thí dụ : mùa xuân là thời điểm bệnh nhân hen dị ứng với phấn hoa khởi phát nhiều cơn hen hơn so với mùa hè, xác suất của cơn hen đã bị thay đổi chứ không còn hằng định nữa. 

Như vậy, phân phối nhị thức âm được chọn cho nghiên cứu này như một phương tiện, để điều chỉnh tính quá phân tán của số liệu, chứ không phải như một quy luật.

## Mô hình NBII : Từ REML đến Bayes

Cho bài toán hồi quy với mục tiêu ước tính giá trị biến kết quả y (thay cho x) có phân phối NBI với tham số trung bình Mu và kiểu hình 1/alpha (alpha thay cho 1/r, theo định nghĩa về số lần thành công thứ r). Phân phối Negative binomial còn có thể được trình bày dưới hình thức 

$$P(y|\mu,\alpha) = \binom{y+1/\alpha -1}{1/\alpha-1}( \frac{1}{1+\alpha \mu})^{1/\alpha} (\frac{\alpha \mu}{1+\alpha \mu})^{y}$$

Hay hình thức hỗn hợp hàm Poisson và Gamma :

$$P(y|\mu,\alpha) = \frac {\Gamma(y+1/\alpha)}{\Gamma(y+1)\Gamma(1/\alpha)}( \frac{1}{1+\alpha \mu})^{1/\alpha} (\frac{\alpha \mu}{1+\alpha \mu})^{y}$$
Điều kiện duy nhất ở đây là Mu và Alpha > 0. Như đã nói ở trên, 1/alpha = r không bắt buộc phải là số nguyên .

Mô hình negative binomial type 2 còn được gọi mô hình poisson-gamma distribution mixture model. Với biến y tuân theo phân phối NB2 thì chúng ta cần lưu ý những điểm sau:

+ Giả định y tuân theo phân phối poisson với mean = variance = Mu

+ Mu sẽ tuân theo phân phối gamma với Mean = Mu và

$$variance = \mu + \frac{\mu^2}{v}$$

Ở đây v được gọi là shape parameter (tham số kiểu hình) trong phân phối gamma, nó tương ứng với tham số r trong phân phối NBI chính tắc (còn gọi là indirect dispersion parameter trong phân phối NB); ta thay r hay v bằng alpha là direct dispersion parameter. 

Như vậy đối với mô hình NB, có 2 tham số cần được ước tính là Mu (trung bình) và dispersion parameter (v hoặc alpha). Lưu ý rằng khi sử dụng R, thì v được gọi bằng tên thay thế là Theta ở trong phần kết quả của mô hình. Một số phần mềm khác như Stata, SAS không tính toán theta hay v mà sẽ tính alpha và gọi đó là dispersion parameter trong phần kết quả. 

Khi NB2 model được mô hình hóa dưới dạng kết hợp của gamma-poisson thì variance của mô hình NB sẽ bằng tổng variance của phân phối poisson và phân phối gamma.

Tham số Mu có thể được ước lượng bằng mô hình GLM thông qua 1 link function là hàm logarit tự nhiên (LN) :

$$ln(\mu) \sim \beta_{0} + \sum_{i=1}^{K}\beta_{i} x_{i}$$

Với beta0 là intercept và beta(i) là tham số hồi quy cho biến số độc lập x(i) trong model matrix X gồm k biến số

Theo trường phái ước tính hợp lý cực đại (Maximum likelihood), ta có thể ước lượng tham số alpha và beta (cho mu) thông qua hàm likelihood :

$$L(\beta|\alpha ,\beta )= \prod_{i=1}^{n}P(y_{i}) = \prod_{i=1}^{n} \frac {\Gamma(y_{i}+1/\alpha)}{\Gamma(y_{i}+1)\Gamma(1/\alpha)}( \frac{1}{1+\alpha e^{x_{i}\beta}})^{1/\alpha} (\frac{\alpha e^{x_{i}\beta}}{1+\alpha e^{x_{i}\beta}})^{y_{i}}$$

Giá trị alpha và beta hợp lý nhất tương ứng với L đạt cực đại.

Mô hình mixed NB với random effect theo trường phái frequentist có thể được fit với package gamlss hay lme4. Để đơn giản về mặt cú pháp, chúng ta sẽ dùng package lme4. Với bộ dữ liệu epil, chúng ta sẽ xem xét ảnh hưởng của trt, lbase và visit lên số lần bị động kinh với random intercept cho từng bệnh nhân.

```{r,message = FALSE,warning=FALSE}
require(lme4)

nb.admb <- glmer.nb(sei ~ trt+lbase+visit + (1|subject), data = dat )
summary(nb.admb)
```

Khi dựng mô hình hồi quy nhị thức âm theo Bayes, mục tiêu của chúng ta là ước tính phân phối hậu định cho tham số beta (cho phép ước tính Mu) và tham số alpha là kiểu hình. Mô hình này cũng có thể chứa random effect. Prior và likelihood của mô hình Bayes NBI được minh họa trong hình sau:

![](NBIBayes2.png)

Mô hình mixed NB với random intercept chúng ta cần ước tính có dạng:

$$\mu_{ij} = e^\left ( \beta_{0} + \beta_{trt}  x_{trt} + \beta_{lbase}  x_{lbase} + \beta_{visit}  x_{visit} + sub_i + \varepsilon_{ij}  \right )$$

# Lựa chọn mô hình NBI2 trong STAN

Bây giờ chúng ta sẽ sử dụng Stan để để fit mô hình thông qua package rstan.

+ Bước 1: Viết Stan code.

Ở những bài thực hành trước các bạn đã làm quen với cách viết stan code theo từng block, nên chúng tôi xin phép không nhắc lại lần nữa. Ở đây chúng tôi sẽ ghi chú trực tiếp trong từng block để giải thích ý nghĩa của từng dòng lệnh.

```{r,message = FALSE,warning=FALSE}
stan_NBI.stri ="
data {
int<lower=0> N;        //no of obs
int<lower=0> K;        //no of parameters (intercept+predictors)
int<lower=0> Nsub;     //no of subs
int<lower=0> sub[N];   // index for subject
int<lower=0> y[N];     //dependent variable
matrix[N,K] X;         //model matrix
vector[K] bpri;        
matrix[K,K] Bpri;
vector[Nsub] apri;
matrix[Nsub, Nsub] Apri;
}
parameters {
vector[K] beta;            //beta[1] is population intercept
vector[Nsub] re_itcept;    // random intercept
real<lower=0> sigma_re;             //SD random intercept
real<lower=0> alpha;                //direct dispersion parameter
}
transformed parameters {
vector[N] log_lik;
vector[N] eta;             //linear predictor
vector[N] mu;              //estimated mean of dependent variable
eta = X*beta;
for(i in 1:N) {
mu[i] = exp(eta[i] + re_itcept[sub[i]]);
log_lik[i] = neg_binomial_2_lpmf(y[i]|mu[i],1/alpha);
}
}
model {
//prior
alpha ~ cauchy(0,25);
sigma_re ~ cauchy(0,5);
beta ~ multi_normal(bpri, Bpri);     //mean = 0; sd = 1
re_itcept ~ multi_normal(apri, Apri*sigma_re);   //mean = 0
//likelihood
y ~ neg_binomial_2(mu, 1/alpha); //theta = 1/alpha
}
"
```

+ Bước 2: Lựa chọn mô hình bằng vòng lặp WAIC

Trước khi thực sự dựng mô hình, chúng tôi sẽ giới thiệu về phương pháp lựa chọn mô hình (biến số) dựa vào tiêu chí WAIC (Watanabe-Ikaike information criteria) và LOOIC (Leave-one-out information criteria). Cơ chế đằng sau những trị số này sẽ được giải thích rõ hơn trong những bài tiếp theo.

Tại thời điểm này, chúng ta tạm chấp nhận quy tắc : WAIC và LOOIC được tính từ Log-likelihood của mô hình Bayes, và mô hình phù hợp nhất với dữ liệu sẽ có WAIC và LOOIC thấp nhất. bằng cách so sánh WAIC và LOOIC giữa các phiên bản model khác nhau, ta có thể chọn được model hợp lý nhất. Cách làm này giống như quy trình Step-wise dựa vào AIC  hay BIC trong trường phái Maximum Likelihood mà bạn đã biết.

Chúng tôi viết 1 vòng lặp, lần lượt dựng 7 mô hình NBI Bayes cho tất cả tổ hợp có thể giữa 3 biến số: Treatment, Logbase và Visit, và tính WAIC, LOOIC cho mỗi mô hình.

```{r}
library(loo)
```

```{r,message = FALSE,warning=FALSE}
library(rstan)

library(parallel)

com <- c(combn(2:4, 1, simplify=FALSE), 
         combn(2:4, 2, simplify=FALSE), 
         combn(2:4, 3, simplify=FALSE))

trt=dat$trt
lbase=dat$lbase
visit=dat$visit

Xmat = model.matrix(~ trt+lbase+visit)

output=data.frame(
  WAIC=rep(NA,7),
  SEWAIC=rep(NA,7),
  LOOIC=rep(NA,7),
  SELOOIC=rep(NA,7),
  ModelID=c(1:7)
)

Nsub = nlevels(as.factor(dat$subject))  # no of subjects
N=nrow(dat)

Pbar <- winProgressBar(title = "WAIC loop", min = 0,
                       max = length(com), width = 350)

for(m in 1:length(com)) {
  X= Xmat[,c(1, unlist(com[[m]]))]
  K= ncol(X)
  tempdat <- list(y = dat$sei,  #  response variable
                        N=N,        # no of obs
                        X=X, # model matrix of predictors and intercept
                        K=K,         # no of predictors + intercept
                        Nsub = Nsub,            # no of subs ( 59 = no of random effect VALUEs)
                        sub = dat$subject%>%as.numeric(),      # Subject ID
                        bpri = rep(0, K),       # To define prior for beta
                        Bpri = diag(1, K),      # Prior matrix of beta 
                        apri = rep(0, Nsub),    # To define prior for intercept
                        Apri = diag(1, Nsub )) # Prior matrix of intercept

set.seed(123)

tempmod <- stan(model_code = stan_NBI.stri, data = tempdat, 
                iter = 1500, warmup = 500) 

w1=tempmod%>%extract_log_lik(.,parameter_name ="log_lik")%>%waic() 
l1=tempmod%>%extract_log_lik(.,parameter_name ="log_lik")%>%loo() 

output$WAIC[m]<-w1$waic
output$SEWAIC[m]<-w1$se_waic
output$LOOIC[m]<-l1$looic
output$SELOOIC[m]<-l1$se_looic

setWinProgressBar(Pbar, m, title=paste( round(m/length(com)*100, 0),
                                        "% Hoàn thành"))
}

library(viridis)

output%>%ggplot(aes(x=reorder(ModelID,WAIC),y=WAIC))+
  geom_point(shape=21,aes(fill=factor(ModelID),
                          size=WAIC,col=factor(ModelID),
                          stroke=SEWAIC/1.5),
             show.legend = F,alpha=0.5)+
  geom_point(shape=21,aes(fill=factor(ModelID),
                          size=WAIC),
             show.legend = F)+
  theme_bw()+scale_x_discrete("Model version")+
  scale_colour_viridis(option="C",discrete=T)+
  scale_fill_viridis(option="C",discrete = T)
  
output%>%ggplot(aes(x=reorder(ModelID,LOOIC),y=LOOIC))+
  geom_point(shape=21,aes(fill=factor(ModelID),
                          size=LOOIC,col=factor(ModelID),
                          stroke=SELOOIC/1.5),
             show.legend = F,alpha=0.5)+
  geom_point(shape=21,aes(fill=factor(ModelID),
                          size=LOOIC),
             show.legend = F)+
  theme_bw()+scale_x_discrete("Model version")+
  scale_colour_viridis(option="C",discrete=T)+
  scale_fill_viridis(option="C",discrete = T)

```

Kết quả cho thấy: Mô hình phù hợp nhất là mô hình số 7, nội dung của nó là:

```{r}
colnames(X)
```

Như vậy ta có thể chắc chắn trong mô hình này có 3 biến số như giả thuyết ban đầu

Trước khi dựng mô hình, chúng ta có thể thăm dò dữ liệu 1 chút:

+ Tương phản giữa 2 phân nhóm trị liệu tại 4 thời điểm (visit khác nhau:)

```{r}
den.rid <- dat %>% ggplot(., aes(x = sei, y = trt, fill= trt)) + 
  geom_density_ridges(stat = "binline", scale = 1, binwidth=2, draw_baseline = FALSE) +
  labs(x="Count", y = "") + scale_fill_discrete(name = "Treatment") +
  coord_flip() +
  my_theme(10) +
  geom_vline(xintercept = median(dat$base),linetype=2,col="blue")+
  theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust=1)) +
  theme(axis.text = element_text(size = 12, color = "black"),
  axis.title = element_text(size = 15, color = "black")) +
  facet_wrap(~ period, ncol=4)

den.rid 
```

Ta có thể thấy rằng tình trạng bệnh lý trước khi điều trị (log baseline)có ảnh hưởng ít nhiều đến hiệu quả điều trị của progabide:

```{r,message = FALSE,warning=FALSE}
g.smooth <- dat%>%ggplot(aes(x=trt,y=sqrt(sei), group=lbase))+
  geom_point(alpha=0.8,aes(color=lbase))+
  geom_smooth(size=1,aes(color=lbase),se=F,method="lm",show.legend = F)+
  my_theme(12)+scale_color_viridis(option="A", direction = 1)+
  theme(axis.text = element_text(size = 11, color = "black"),
  axis.title = element_text(size = 15, color = "black")) +
  facet_wrap(~ period,ncol=4)
g.smooth 
```

Ta có thể khảo sát hiệu ứng của Thời gian lên Logarit của biến số kết quả, có vẻ như hiệu ứng này rất yếu:

```{r,message = FALSE,warning=FALSE}
g.trt <- dat %>% ggplot(.,aes(x=period, y=log(sei + 0.01), group = trt)) + 
     geom_point(aes(color = trt), size = 2 ) +
     geom_point(shape =1, size = 2, color = "black") +
     geom_smooth(aes(color= trt, fill = trt), size = 1, alpha= 0.3, se = T, method="lm") +
     my_theme(12) +
     theme(axis.text = element_text(size = 12, color = "black"),
     axis.title = element_text(size = 15, color = "black")) 
g.trt 
```

Cuối cùng, ta có thể khảo sát khuynh hướng đáp ứng điều trị ở mỗi cá thể bệnh nhân, bây giờ thì bạn có thể hiểu tại saota dùng mô hình với random effect

```{r,message = FALSE,warning=FALSE}
dat%>%ggplot(aes(x=period,y=sei,group=1))+
  geom_path(aes(color=trt),alpha=0.9,size=1)+
  geom_point(aes(color=trt,shape=trt),alpha=0.9,size=2)+
  my_theme(5)+
  facet_wrap(~subject,scales="free",ncol=10)

```

# Mô hình NBII Bayes chính thức

```{r,message = FALSE,warning=FALSE}
Xmat <-  model.matrix(~dat$trt+dat$lbase+dat$visit)
Nsub <-  nlevels(dat$subject)  # no of subjects
K = ncol(Xmat)
data.NBI = list(y = dat$sei,           #  response variable
                N = nrow(dat),          # no of obs
                X = Xmat,               # model matrix of predictors and intercept
                K = K,          # no of predictors + intercept
                Nsub = Nsub,            # no of subs ( 59 = no of random effect VALUEs)
                sub = dat$subject %>% as.numeric(.), # Subject ID
                bpri = rep(0, K),       # To define prior for beta
                Bpri = diag(1, K),      # Prior matrix of beta 
                apri = rep(0, Nsub),    # To define prior for intercept
                Apri = diag(1, Nsub ))  # Prior matrix of intercept 

```


```{r,message = FALSE,warning=FALSE}
fit.stan <-  stan(model_code = stan_NBI.stri, 
                  data = data.NBI, 
                  chains=4, 
                  iter=3000, 
                  warmup=1000, 
                  thin=2)
```

Kết quả của mô hình Bayes NBI2 được tóm tắt như sau:

```{r}

print(fit.stan, digits=3, pars=c("beta","sigma_re","alpha"))

```

Ta chỉ quan tâm đến phân phối hậu định của 3 hiệu ứng chính,dưới dạng Incidence rate ratio (IRR = exp(beta))

```{r,message = FALSE,warning=FALSE}
postdf=as.data.frame(fit.stan)%>%as_tibble()

betadf=postdf[,c(1:4)]

names(betadf)=c("Intercept","Progabide","LogBase","Visit")

betadf=betadf%>%mutate(.,Iteration=as.numeric(rep(c(1:1000),4)),
                        Chain=as.factor(rep(c(1:4),each=1000)))

head(betadf)%>%.[,c(1:4)]%>%knitr::kable()

p1=betadf%>%gather(Intercept:Visit,key="Step",value="fix")%>%
  ggplot(aes(x=exp(fix),fill=Chain,col=Chain))+
  geom_density(alpha=0.3,show.legend = F)+
  facet_wrap(~Step,ncol=1,scales = "free_y")+
  scale_x_continuous("IRR")+
  theme_bw(6)

p2=betadf%>%gather(Intercept:Visit,key="Step",value="fix")%>%
  ggplot(aes(y=exp(fix),x=Iteration,col=Chain))+
  geom_path(alpha=0.5,show.legend = F)+
  facet_wrap(~Step,ncol=1,scales = "free")+
  scale_y_continuous("IRR")+
  theme_bw(6)

gridExtra::grid.arrange(p2,p1,ncol=2)
```

Nếu chỉ xét Incidence rate change cho yếu tố điều trị, ta có thể diễn giải:Thuốc progabid làm giảm tần suất cơn động kinh khoảng 26.72 % (4.36 % đến 43.7% ) so với nhóm Placebo.

```{r,message = FALSE,warning=FALSE}
Hmisc::describe(exp(betadf$Progabide)-1)
```

Tương quan giữa Incidence rate change của Visit và Progabide được biểu diễn như sau:

```{r,message = FALSE,warning=FALSE}
betadf$pseudoGroup=factor(rep(c(1:20),e=nrow(betadf)/20))

betadf%>%gather(Visit,Progabide,key="Factors",value="fix")%>%
  ggplot(aes(y=Factors,
             x=100*(exp(fix)-1)
             ))+
  geom_density_ridges_gradient(aes(fill = ..x..),
                               show.legend = F,
           scale=0.8,
           gradient_lwd = 0.5)+
  geom_density_ridges(aes(col=pseudoGroup),
                      scale=0.9,alpha=0.01,
                      show.legend = F)+
  geom_vline(xintercept=c(0,-10,10),col=c("red3","blue3","black"),linetype=2)+
  scale_x_continuous("Incidence rate change (%)",
                     expand = c(0.01, 0),
                     breaks=c(-70,-60,-50,-40,-30,-20,-10,0,10,20,30,40,50))+
  scale_y_discrete(expand = c(0.01, 0))+
  scale_fill_viridis(option = "A",begin=0.2,end=1)+
  scale_colour_viridis(option = "A",discrete = T)+
  theme_bw()
  
```

Phân tích ROPE theo J.Jruschke với ngưỡng trên và dưới lần lượt là -5% và +5% , cùng phân tích CompVal với ngưỡng là 10%

```{r,message = FALSE,warning=FALSE}
HDIF= function( sampleVec,credMass=0.975 ) {
  sortedPts = sort( sampleVec )
  ciIdxInc = ceiling( credMass * length( sortedPts ) )
  nCIs = length( sortedPts ) - ciIdxInc
  ciWidth = rep( 0 , nCIs )
  for ( i in 1:nCIs ) {
    ciWidth[ i ] = sortedPts[ i + ciIdxInc ] - sortedPts[ i ]
  }
  HDImin = sortedPts[ which.min( ciWidth ) ]
  HDImax = sortedPts[ which.min( ciWidth ) + ciIdxInc ]
  HDIlim = c( HDImin , HDImax )
  return( HDIlim )
}

SUMK=function(paramSampleVec,compVal=NULL , ROPE=NULL , credMass=0.975) {
  meanParam = mean( paramSampleVec )
  medianParam = median( paramSampleVec )
  dres = density( paramSampleVec )
  modeParam = dres$x[which.max(dres$y)]
  hdiLim = HDIF( paramSampleVec , credMass=credMass )
  if ( !is.null(compVal) ) {
    pcgtCompVal = ( 100 * sum( paramSampleVec > compVal ) 
                    / length( paramSampleVec ) )
  } else {
    compVal=NA
    pcgtCompVal=NA
  }
  if ( !is.null(ROPE) ) {
    pcltRope = ( 100 * sum( paramSampleVec < ROPE[1] ) 
                 / length( paramSampleVec ) )
    pcgtRope = ( 100 * sum( paramSampleVec > ROPE[2] ) 
                 / length( paramSampleVec ) )
    pcinRope = 100-(pcltRope+pcgtRope)
  } else { 
    ROPE = c(NA,NA)
    pcltRope=NA 
    pcgtRope=NA 
    pcinRope=NA 
  }  
  return( c( Mean=meanParam , Median=medianParam , Mode=modeParam , 
             HDIlevel=credMass , LL=hdiLim[1] , UL=hdiLim[2] , 
             CompVal=compVal , PcntGtCompVal=pcgtCompVal , 
             ROPElow=ROPE[1] , ROPEhigh=ROPE[2] ,
             PcntLtROPE=pcltRope , PcntInROPE=pcinRope , PcntGtROPE=pcgtRope ) )
}

summaryKruschke=function(MCMC,compVal=NULL, rope=NULL,credMass=NULL){
  summaryInfo = NULL
  summaryInfo = cbind(summaryInfo, "Estimated"= SUMK(MCMC,
                                                     compVal=compVal,
                                                     ROPE=rope,credMass=credMass))
  return(summaryInfo)
}

IRC=100*(1-exp(betadf$Progabide))%>%as_data_frame()

summaryKruschke(MCMC = IRC$value,
                       compVal=10,
                       rope=c(-5,5),
                       credMass=0.975)%>%as.data.frame()

betadf$IRC=100*(1-exp(betadf$Progabide))
```
 
 Kết quả cho thấy: 94.6% mật độ phân phối hậu định nằm ngoài ngưỡng thay đổi 5%, chỉ có 4.075% mật độ rơi vào trong khoảng +/-5%; 89.95% mật độ nằm ngoài ngưỡng 10%
 
Để chắc chắn, ta làm thêm 1 phân tích Bayes Factor cho 21 ngưỡng  thay đổi của IR từ 0 đén-20%

```{r}

library(brms)

betadf$IRC=100*(1-exp(betadf$Progabide))

threshold=rep(NA,21)
BayesFactor=rep(NA,21)

thres=c(0:20)

for(i in (1:21)){
  thr=thres[i]
  threshold[i]=thr
  hyp=paste("IRC>",thr,sep="")
  bf=brms::hypothesis(betadf,hyp,alpha=0.05)
  BayesFactor[i]=bf$hypothesis$Evid.Ratio
}

bfdf=cbind(threshold,BayesFactor)%>%as_tibble()

bfdf%>%ggplot(aes(x=threshold,y=BayesFactor,fill=BayesFactor))+
  geom_path()+
  geom_point(show.legend = F,size=5,shape=21,col="black")+
  geom_text(aes(label=round(BayesFactor,2)),col="black",show.legend = F,angle = 60,nudge_y=sqrt(bfdf$BayesFactor)+1,nudge_x=0,size=4)+
  theme_bw()+scale_x_continuous(breaks=c(0:20))+
  geom_hline(yintercept = c(10,30),linetype=2,col="blue")+
  scale_fill_viridis(option="D",direction=-1)
```

Nếu lấy ngưỡng khả tín của BF=30, ta có thể kết luận là tuy Progabide có cải thiện triệu chứng động kinh, nhưng hiệu ứng này khá nhỏ, Với H1 là IR thay đổi > 10% thì BF chỉ có 8.95; Ta chỉ có thể tin cậy hiệu ứng điều trị từ 1-5% mà thôi.
 
# Diễn đạt văn bản khoa học

Phương pháp thống kê :

Do kết quả (số cơn động kinh) là một biến số đếm và bị phân tán, nó được khảo sát theo quy luật phân phối nhị thức âm type II (NBII). Hiệu ứng của thuốc Progabide so với Placebo lên kết cục lâm sàng được khảo sát bằng một mô hình hồi quy hỗn hợp (Mixed model) theo phương pháp Bayes. Mô hình này có hiệu chỉnh cho tình trạng bệnh tại khởi điểm nghiên cứu (lbase), yếu tố thời gian (4 trọng số tương phản) và hiệu ứng ngẫu nhiên cá thể. Tính hợp lý của mô hình được đánh giá bằng tiêu chí WAIC. Suy diễn thống kê dựa vào mật độ phân phối hậu định và tỉ trọng chứng cứ (Bayes factor) với giả thuyết H1 là thuốc Progabide giảm tần suất động kinh ít nhất là 5% so với Placebo.

Kết quả:

Phân phối hậu định của sự thay đổi tần suất phát sinh cơn động kinh (IR change,%) cho thấy thuốc Progabid cải thiện trung bình 26.72% số cơn động kinh so với nhóm Placebo. Đến 94.6% mật độ phân phối hậu định nằm ngoài ngưỡng thay đổi 5%, chỉ có 4.075% mật độ rơi vào trong khoảng +/-5%; 89.95% mật độ nằm ngoài ngưỡng 10. Tuy nhiên Bayes Factor cho thấy khả năng xác tín về hiệu quả này là khá thấp (BF=17.52 cho ngưỡng 5% và 8.95 cho ngưỡng 10%).

# Tổng kết

Bài thực hành số 7 đến đây là chấm dứt. Trong bài này chúng tôi đã truyền tải một số thông điệp chính như sau:

1) Khác với thí nghiệm y học lâm sàng, đối tượng của phân tích thống kê không phải là những đại lượng sinh lý bệnh, mà là những biến số ngẫu nhiên đại diện cho các đại lượng này. Việc lựa chọn quy luật phân phối phù hợp để chuyển từ đại lượng sang biến số yêu cầu người bác sĩ phải vận dụng lý thuyết xác suất.

2) Những biến số đếm không thể được khảo sát bằng phương pháp truyền thống dựa trên giả định phân phối Gaussian. Một số giải pháp đã được giới thiệu, bao gồm mô hình Poisson, Quasi-Poisson và Nhị thức âm type 2.

3) Phân tích Bayes trong STAN cho phép dựng mô hình GLM với phân phối uyển chuyển, như trong trường hợp này là phân phối NBII. Suy diễn Bayes cũng mang lại nhiều thông tin hơn các kiểm định cổ điển.

Nhóm BAV xin chân thành cảm ơn sự ủng hộ của các bạn. Chúng tôi sẽ gặp lại các bạn trong một bài khác. 