Thiếu sót dữ liệu (missing value) là một vấn đề khó chịu khi làm nghiên cứu y học lâm sàng. Trong một số trường hợp lý tưởng, nếu dữ liệu bị mất mát có ý nghĩa khách quan (thí dụ các đại lượng sinh học), xảy ra một cách ngẫu nhiên và với tỉ lệ không quá cao, chúng ta có thể sử dụng một mô hình hồi quy để bổ túc các trường hợp thiếu sót của một biến dựa vào quan hệ giữa biến này và những biến còn lại trong dữ liệu.
Nhiều công cụ khá mạnh trong R cho phép bổ túc dữ liệu, thí dụ như mice, caret, recipes. Bạn cũng có thể tự mình bổ túc thủ công cho từng biến bằng cách sử dụng một thuật toán Machine learning tùy chọn nào đó, thí dụ KNN, random forest, …
Mặt khác, mô hình hồi quy tuyến tính thường được áp dụng khi phân tích dữ liệu như một công cụ suy diễn thống kê trong các nghiên cứu mang tính diễn dịch. Những mô hình này thường không chấp nhận dữ liệu thiếu sót, do đó việc bổ túc dữ liệu - nếu có - phải được thực hiện TRƯỚC KHI suy diễn thống kê.
Như Nhi đã trình bày, có một package rất mạnh hiện nay trong phái “Hồi quy Bayes”, đó là “brms”" của Paul Bürkner. brms không chỉ là một giao thức giúp cho việc code mô hình bằng ngôn ngữ STAN nhẹ nhàng, đơn giản hơn, nhưng trong 2 năm qua nó đã được phát triển cao hơn rất nhiều và cho phép làm những việc tương đối “kì lạ”.
Một trong những tính năng kì lạ này sẽ được thử nghiệm trong bài thực hành hôm nay, đó là xây dựng một mô hình hồi quy tuyến tính có khả năng:
Ước lượng đồng thời 2 kết quả Y1, Y2 (Multivariate regression - hồi quy đa biến : lưu ý: phân biệt với thuật ngữ Multiple regression - hồi quy bội của Pearson)
Cả 2 biến kết quả này đều bị thiếu sót dữ liệu rải rác một cách ngẫu nhiên, với tỉ lệ 10%. Mô hình có khả năng xử lý đồng thời 2 công việc: bổ túc dữ liệu cho Y1, Y2
Trong mô hình có vài hiệp biến số đều bị ảnh hưởng bởi sự thiếu sót ngẫu nhiên dữ liệu với tỉ lệ khác nhau. Mô hình cũng xử lý nốt việc bổ túc dữ liệu cho các biến này
Nội dung của quy trình bổ túc dữ liệu được báo cáo tường minh và hòa hợp với quy trình suy diễn thống kê theo mục đích chính.
Và nhất là:
Trước hết, ta sẽ thử một bài toán đơn giản, đó là ước lượng chỉ số BMI theo tuổi và Cholesterol level từ bộ dữ liệu NHANES trong package “mice”
library(tidyverse)
data("nhanes", package = "mice")
head(nhanes)%>%knitr::kable()
age | bmi | hyp | chl |
---|---|---|---|
1 | NA | NA | NA |
2 | 22.7 | 1 | 187 |
1 | NA | 1 | 187 |
3 | NA | NA | NA |
1 | 20.4 | 1 | 113 |
3 | NA | NA | 184 |
bar_missing <- function(x){
library(dplyr)
library(reshape2)
library(ggplot2)
x %>%
is.na %>%
melt %>%
ggplot(data = .,
aes(x = Var2)) +
geom_bar(aes(y=(..count..),fill=value),alpha=0.7,color="black")+scale_fill_manual(values=c("gold","red3"),name = "",
labels = c("Available","Missing"))+
theme_minimal()+
theme(axis.text.x = element_text(angle=45, vjust=0.5)) +
labs(x = "Variables in Dataset",
y = "Observations")+coord_flip()
}
matrix_missing <- function(x){
library(dplyr)
library(reshape2)
library(ggplot2)
x %>%
is.na %>%
melt %>%
ggplot(data = .,
aes(x = Var1,
y = Var2)) +
geom_tile(aes(fill = value),alpha=0.6) +
scale_fill_manual(values=c("gold","red3"),name = "",
labels = c("Available","Missing")) +
theme_minimal()+
theme(axis.text.x = element_text(angle=45, vjust=0.5)) +
labs(y = "Variables in Dataset",
x = "Total observations")+coord_flip()
}
nhanes%>%bar_missing()
nhanes%>%matrix_missing
Như ta thấy, dữ liệu bị thiếu sót một cách hệ thống và với tỉ lệ khá cao.
Mặt khác, ta có thể thấy bmi có phân phối không bình thường…
nhanes$bmi=as.numeric(nhanes$bmi)
ggplot(nhanes,aes(x=bmi))+
geom_density(fill="red",alpha=0.5)+
theme_bw()
## Warning: Removed 9 rows containing non-finite values (stat_density).
ggplot(nhanes,aes(x=chl))+
geom_density(fill="blue",alpha=0.5)+
theme_bw()
## Warning: Removed 10 rows containing non-finite values (stat_density).
Với bài toán này, phương pháp giả định mà Nhi muốn làm, đó là: Xây dựng một mô hình hồi quy tuyến tính Bayes ước lượng biến kết quả bmi theo phân bố skew_normal. Mô hình này có khả năng tự bổ túc dữ liệu trống cho BMI dựa vào Age và Chl. Mặt khác, chl cũng bị thiếu sót dữ liệu, do đó đồng thời mô hình cũng tự bổ túc dữ liệu cho chl dựa vào Age là biến duy nhất có đủ dữ liệu.
brms sử dụng một thành phần phụ (additional term) là mi( ) để đưa yếu tố “dữ liệu thiếu sót” vào cả biến kết quả (bmi) và predictors (chl), tiếp theo, mô hình được mở rộng thành một mô hình tập hợp cho phép ước lượng cả predictor (chl) dựa vào 1 predictor khác là age.
Vì lý do minh họa, Nhi chỉ chạy 1 chuỗi MCMC ngắn
library(brms)
bform <- bf(bmi | mi() ~ age * mi(chl),family="skew_normal") +
bf(chl | mi() ~ age) + set_rescor(FALSE)
mod<- brm(bform,data = nhanes,
refresh = 0,
cores = 4,
iter = 2500,
warmup = 500,
chains = 1)
##
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
##
##
##
## Elapsed Time: 3.072 seconds (Warm-up)
## 4.623 seconds (Sampling)
## 7.695 seconds (Total)
Khi xuất kết quả, chúng ta sẽ có những thông tin như sau:
Do mô hình này thực chất có 2 outcome: bmi là outcome chính, chl là outcome phụ, bmi được ước lượng dựa vào age và chl, còn chl được ước lượng dựa vào age. Sau khi bổ túc cho cả 2, suy diễn thống kê được thực hiện
summary(mod)
## Family: MV(skew_normal, gaussian)
## Links: mu = identity; sigma = identity; alpha = identity
## mu = identity; sigma = identity
## Formula: bmi | mi() ~ age * mi(chl)
## chl | mi() ~ age
## Data: nhanes (Number of observations: 25)
## Samples: 1 chains, each with iter = 2500; warmup = 500; thin = 1;
## total post-warmup samples = 2000
##
## Population-Level Effects:
## Estimate Est.Error l-95% CI u-95% CI Eff.Sample Rhat
## bmi_Intercept 13.63 7.76 -2.65 29.19 670 1.00
## chl_Intercept 140.62 24.89 93.16 191.17 981 1.00
## bmi_age 0.77 4.96 -8.69 11.15 591 1.00
## chl_age 29.65 13.27 3.35 55.61 953 1.00
## bmi_michl 0.10 0.04 0.03 0.19 749 1.00
## bmi_michl:age -0.02 0.02 -0.07 0.02 604 1.00
##
## Family Specific Parameters:
## Estimate Est.Error l-95% CI u-95% CI Eff.Sample Rhat
## sigma_bmi 3.20 0.80 2.10 5.15 471 1.00
## sigma_chl 39.77 7.46 28.23 56.83 636 1.00
## alpha_bmi -2.92 2.97 -8.60 3.01 481 1.00
##
## Samples were drawn using sampling(NUTS). For each parameter, Eff.Sample
## is a crude measure of effective sample size, and Rhat is the potential
## scale reduction factor on split chains (at convergence, Rhat = 1).
Do đây là 1 mô hình Bayes, ta có thể khảo sát các chuỗi MCMC và phân bố hậu nghiệm:
theme_set(theme_bw())
plot(mod)
Từ mô hình, ta có thể suy diễn thống kê trực quan bằng marginal effect plots. Các biểu đồ này dựa vào dữ liệu đã được bổ túc trong quá trình dựng mô hình.
marginal_effects(mod, "age:chl")
Cần lưu ý với các bạn một điểm, đó là chúng ta đang làm việc trên một dữ liệu có cỡ mẫu rất thấp (chỉ có 25 trường hợp). Việc bổ túc dữ liệu trống sử dụng những phương pháp truyền thống là rất khó khăn khi có quá ít dữ liệu như thế này.
Bây giờ, chúng ta sẽ tạo ra một bài toán khác với độ khó cao hơn nhiều:
Đây là một nghiên cứu của Nierenberg DW et al. năm 1989 nhằm khảo sát quan hệ giữa nồng độ 2 chất: retinol và beta-carotenetrong máu với một số yếu tố khác.
dat=read.csv("https://www.openml.org/data/get_csv/52623/plasma_retinol.csv")%>%as_tibble()
dat%>%head()%>%knitr::kable()
AGE | SEX | SMOKSTAT | QUETELET | VITUSE | CALORIES | FAT | FIBER | ALCOHOL | CHOLESTEROL | BETADIET | RETDIET | BETAPLASMA | RETPLASMA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
64 | Female | Former | 21.48380 | Yes_fairly_often | 1298.8 | 57.0 | 6.3 | 0.0 | 170.3 | 1945 | 890 | 200 | 915 |
76 | Female | Never | 23.87631 | Yes_fairly_often | 1032.5 | 50.1 | 15.8 | 0.0 | 75.8 | 2653 | 451 | 124 | 727 |
38 | Female | Former | 20.01080 | Yes_not_often | 2372.3 | 83.6 | 19.1 | 14.1 | 257.9 | 6321 | 660 | 328 | 721 |
40 | Female | Former | 25.14062 | No | 2449.5 | 97.5 | 26.5 | 0.5 | 332.6 | 1061 | 864 | 153 | 615 |
72 | Female | Never | 20.98504 | Yes_fairly_often | 1952.1 | 82.6 | 16.2 | 0.0 | 170.8 | 2863 | 1209 | 92 | 799 |
40 | Female | Former | 27.52136 | No | 1366.9 | 56.0 | 9.6 | 1.3 | 154.6 | 1729 | 1439 | 148 | 654 |
Đây là một mạng lưới tương quan giữa các biến định lượng trong dữ liệu, các mối liên kết liên tục tương ứng với p_value<0.05 của 1 phân tích tương quan Pearson , ngược lại những đoạn đứt khúc có p_value > 0.05 (không có tương quan).
cormat=dat%>%
dplyr::select(-c(SEX,SMOKSTAT,VITUSE))%>%
as.matrix()%>%
scale()
m=as.matrix(cor(cormat,
method="pearson",
use="pairwise.complete.obs"))
cor.mtest <- function(mat, ...) {
mat <- as.matrix(mat)
n <- ncol(mat)
p.mat<- matrix(NA, n, n)
diag(p.mat) <- 0
for (i in 1:(n - 1)) {
for (j in (i + 1):n) {
tmp <- cor.test(mat[, i], mat[, j], ...)
p.mat[i, j] <- p.mat[j, i] <- tmp$p.value
}
}
colnames(p.mat) <- rownames(p.mat) <- colnames(mat)
p.mat
}
# matrix of the p-value of the correlation
p.mat <- cor.mtest(cormat)
library(igraph)
diag(p.mat)<-0
library(ggraph)
cg1=data.frame(row=rownames(p.mat)[row(p.mat)[upper.tri(p.mat)]],
col=colnames(p.mat)[col(p.mat)[upper.tri(p.mat)]],
corr=p.mat[upper.tri(p.mat)])
cg2=data.frame(row=rownames(m)[row(m)[upper.tri(m)]],
col=colnames(m)[col(m)[upper.tri(m)]],
corr=m[upper.tri(m)])
names(cg1)=c("from","to","pval")
names(cg2)=c("from","to","corr")
cg2$pval=cg1$pval
cg2=cg2%>%mutate(pVal=cg1$pval,Sig=if_else(cg1$pval<0.05,1,0))
theme_bare <- function(base_size=8,base_family="sans"){theme_bw(base_size = base_size, base_family = base_family)+
theme(
axis.line = element_blank(),
axis.text.x = element_blank(),
axis.text.y = element_blank(),
axis.ticks = element_blank(),
axis.title.x = element_blank(),
axis.title.y = element_blank(),
legend.position = "bottom",
panel.background = element_rect(fill = NA),
panel.border = element_blank(),
panel.grid.major = element_blank(),
panel.grid.minor = element_blank(),
plot.margin = unit(c(0,0,0,0), "lines")
)
}
gdf=filter(cg2,pval<0.05)
graph<-graph_from_data_frame(cg2)
ggraph(graph,circular=F,layout="kk")+
geom_edge_fan(aes(linetype=factor(Sig),col=factor(Sig)),
width=1,
show.legend = F,
alpha=0.5)+
geom_node_label(aes(label = name))+
coord_fixed()+
theme_bare()+
scale_edge_color_manual(values=c("red","pink"))
Từ mạng lưới này, Nhi đặt ra một giả thuyết cần kiểm chứng, đó là RetPlasma chịu ảnh hưởng của Alcohol và Cholesterol, còn BetaPlasla chỉ chịu ảnh hưởng bởi Alcohol.
2 biến này sẽ được xét như hiệp biến số trong mô hình.
Ta kiểm tra tiếp các biến phân nhóm:
library(ggridges)
levels(dat$SMOKSTAT)<-c("SCU","SFO","NO")
sum_df=dat%>%group_by(SMOKSTAT)%>%
summarise_at("BETAPLASMA",median)
dat%>%ggplot(aes(x=BETAPLASMA,
y=SMOKSTAT,
fill=SMOKSTAT,
col=SMOKSTAT))+
geom_density_ridges(alpha=0.6,size=1,scale=1)+
geom_point(alpha=0.3)+
geom_point(data=sum_df,aes(x=BETAPLASMA),
shape=23,size=3,fill="white",stroke=1.2)+
geom_line(data=sum_df,aes(x=BETAPLASMA,y=SMOKSTAT),group=1)+
geom_rug(alpha=0.5)+
coord_flip()+
scale_color_manual(values=c("#021ce5","#350091","#d8021e"))+
scale_fill_manual(values=c("#1677ff","#a616ff","#ff1654"))+
theme_bw()
sum_df=dat%>%group_by(SMOKSTAT)%>%
summarise_at("RETPLASMA",median)
dat%>%ggplot(aes(x=RETPLASMA,
y=SMOKSTAT,
fill=SMOKSTAT,
col=SMOKSTAT))+
geom_density_ridges(alpha=0.6,size=1,scale=1)+
geom_point(alpha=0.3)+
geom_point(data=sum_df,aes(x=RETPLASMA),
shape=23,size=3,fill="white",stroke=1.2)+
geom_line(data=sum_df,aes(x=RETPLASMA,y=SMOKSTAT),group=1)+
geom_rug(alpha=0.5)+
coord_flip()+
scale_color_manual(values=c("#021ce5","#350091","#d8021e"))+
scale_fill_manual(values=c("#1677ff","#a616ff","#ff1654"))+
theme_bw()
levels(dat$VITUSE)<-c("NO","YOF","YNO")
sum_df=dat%>%group_by(VITUSE)%>%
summarise_at("BETAPLASMA",median)
dat%>%ggplot(aes(x=BETAPLASMA,
y=VITUSE,
fill=VITUSE,
col=VITUSE))+
geom_density_ridges(alpha=0.6,size=1,scale=1)+
geom_point(alpha=0.3)+
geom_point(data=sum_df,aes(x=BETAPLASMA),
shape=23,size=3,fill="white",stroke=1.2)+
geom_line(data=sum_df,aes(x=BETAPLASMA,y=VITUSE),group=1)+
geom_rug(alpha=0.5)+
coord_flip()+
scale_color_manual(values=c("#021ce5","#350091","#d8021e"))+
scale_fill_manual(values=c("#1677ff","#a616ff","#ff1654"))+
theme_bw()
sum_df=dat%>%group_by(VITUSE)%>%
summarise_at("RETPLASMA",median)
dat%>%ggplot(aes(x=RETPLASMA,
y=VITUSE,
fill=VITUSE,
col=VITUSE))+
geom_density_ridges(alpha=0.6,size=1,scale=1)+
geom_point(alpha=0.3)+
geom_point(data=sum_df,aes(x=RETPLASMA),
shape=23,size=3,fill="white",stroke=1.2)+
geom_line(data=sum_df,aes(x=RETPLASMA,y=VITUSE),group=1)+
geom_rug(alpha=0.5)+
coord_flip()+
scale_color_manual(values=c("#021ce5","#350091","#d8021e"))+
scale_fill_manual(values=c("#1677ff","#a616ff","#ff1654"))+
theme_bw()
sum_df=dat%>%group_by(SEX)%>%
summarise_at("BETAPLASMA",median)
dat%>%ggplot(aes(x=BETAPLASMA,
y=SEX,
fill=SEX,
col=SEX))+
geom_density_ridges(alpha=0.6,size=1,scale=1)+
geom_point(alpha=0.3)+
geom_point(data=sum_df,aes(x=BETAPLASMA),
shape=23,size=3,fill="white",stroke=1.2)+
geom_line(data=sum_df,aes(x=BETAPLASMA,y=SEX),group=1)+
geom_rug(alpha=0.5)+
coord_flip()+
scale_color_manual(values=c("#021ce5","#d8021e"))+
scale_fill_manual(values=c("#1677ff","#ff1654"))+
theme_bw()
## Picking joint bandwidth of 35.3
sum_df=dat%>%group_by(SEX)%>%
summarise_at("RETPLASMA",median)
dat%>%ggplot(aes(x=BETAPLASMA,
y=SEX,
fill=SEX,
col=SEX))+
geom_density_ridges(alpha=0.6,size=1,scale=1)+
geom_point(alpha=0.3)+
geom_point(data=sum_df,aes(x=RETPLASMA),
shape=23,size=3,fill="white",stroke=1.2)+
geom_line(data=sum_df,aes(x=RETPLASMA,y=SEX),group=1)+
geom_rug(alpha=0.5)+
coord_flip()+
scale_color_manual(values=c("#021ce5","#d8021e"))+
scale_fill_manual(values=c("#1677ff","#ff1654"))+
theme_bw()
## Picking joint bandwidth of 35.3
Kết quả cho thấy có vẻ như yếu tố Sử dụng Vitamin (Vituse) và Thói quen hút thuốc gây ra hiệu ứng yếu đối với nồng độ Beta carotene và Retinol plasma. Trong khi đó Giới tính có hiệu ứng mạnh hơn.
Tiếp theo, ta mô phỏng một bài toán giả định như sau:
Mục tiêu của chúng ta là khảo sát đồng thời cả 2 biến: Retinol Plasma và BetaPlasma, tùy theo Tuổi, Giới tính, Thói quen hút thuốc và Việc sử dụng Vitamin. Bốn biến này có đầy đủ dữ liệu với giả định là các thông tin này rất dễ thu thập.
Trong khi đó, những biến có bản chất là kết quả xét nghiệm, thí dụ Cholesterol, Alcohol, và bản thân RetPlasma hay BetaPlasma có nguy cơ thiếu sót dữ liệu cao hơn, việc thiếu sót là ngẫu nhiên và với tỉ lệ từ 10-20%…
Nhi viết 1 hàm để mô phỏng sự thiếu sót dữ liệu này:
rand.NA <- function(vect,na.prob=0.1){
na.freq=round(na.prob*length(vect))
vect[sample(seq(vect),na.freq)] <- NA
return(vect)
}
misdf=dat%>%mutate(
ALCOHOL=rand.NA(dat$ALCOHOL,0.2),
CHOLESTEROL=rand.NA(dat$CHOLESTEROL,0.15),
BETAPLASMA=rand.NA(dat$BETAPLASMA,0.1),
RETPLASMA=rand.NA(dat$RETPLASMA,0.15)
)
misdf%>%bar_missing()
misdf%>%matrix_missing
Sau khi đục dữ liệu thủng lỗ chỗ một cách ngẫu nhiên, chúng ta sẽ xây dựng mô hình với nội dung như sau:
Đây là một mô hình hồi quy đa biến, ước lượng đồng thời 2 biến kết quả là Betaplasma và RetPlasma.
Mô hình được tích hợp khả năng tự động bổ túc dữ liệu cho 2 biến kết quả khi thiếu sót
Sau khi được bổ túc, 2 biến kết quả được giả định phụ thuộc vào Tuổi, Giới tính, thói quen hút thuốc, dùng vitamin, và 2 hiệp biến khác là Alcohol và Cholesterol.
Bản thân 2 biến Alcohol và Cholesterol cũng bị thiếu dữ liệu, và ta muốn mô hình tự bổ túc cho chúng dựa vào Tuổi, Giới tính.
Tất cả biến số trong mô hình được giả định có phân phối Gaussian
bform<-bf(cbind(BETAPLASMA,RETPLASMA)|mi()~
AGE+SEX+SMOKSTAT+VITUSE+
mi(ALCOHOL)+
mi(CHOLESTEROL))+
bf(ALCOHOL|mi()~AGE+SEX)+
bf(CHOLESTEROL|mi()~AGE+SEX)
Ta sẽ compile mô hình vào STAN và kích hoạt sampler để bắt đầu tạo các chuỗi MCMC
fit_imp <- brm(bform, data = misdf,
refresh = 0,
cores = 4,
iter = 2500,
warmup = 500,
chains = 1)
##
## Gradient evaluation took 0 seconds
## 1000 transitions using 10 leapfrog steps per transition would take 0 seconds.
## Adjust your expectations accordingly!
##
##
##
## Elapsed Time: 11.742 seconds (Warm-up)
## 4.367 seconds (Sampling)
## 16.109 seconds (Total)
library(broom)
tidyMCMC(fit_imp, conf.int = TRUE, conf.method = "HPDinterval")
## term estimate std.error conf.low
## 1 b_BETAPLASMA_Intercept 79.016888899 55.13732004 -16.6660200
## 2 b_RETPLASMA_Intercept 451.120800236 61.22665679 328.1567528
## 3 b_ALCOHOL_Intercept 2.149736100 3.01187090 -4.4089218
## 4 b_CHOLESTEROL_Intercept 316.918975622 28.46751869 257.8818976
## 5 b_BETAPLASMA_AGE 1.003183155 0.81449656 -0.6151619
## 6 b_BETAPLASMA_SEXMale -41.423716613 36.33381417 -106.8401850
## 7 b_BETAPLASMA_SMOKSTATSFO 49.193496427 34.63643383 -12.3064568
## 8 b_BETAPLASMA_SMOKSTATNO 49.910395616 34.43778556 -15.6181678
## 9 b_BETAPLASMA_VITUSEYOF 97.063059465 25.97963504 45.2403353
## 10 b_BETAPLASMA_VITUSEYNO 44.518578287 29.98813239 -16.3048466
## 11 b_RETPLASMA_AGE 2.409039573 0.90486566 0.6751639
## 12 b_RETPLASMA_SEXMale 97.550330514 39.60889989 22.4018413
## 13 b_RETPLASMA_SMOKSTATSFO 71.814940302 39.43802806 -8.1450367
## 14 b_RETPLASMA_SMOKSTATNO -13.993726501 39.52584527 -85.6353973
## 15 b_RETPLASMA_VITUSEYOF 11.828477493 30.39140368 -51.3154672
## 16 b_RETPLASMA_VITUSEYNO 27.871068854 32.18994191 -37.2845901
## 17 b_ALCOHOL_AGE -0.004971318 0.05919921 -0.1205300
## 18 b_ALCOHOL_SEXMale 9.513511038 2.58894426 4.7403138
## 19 b_CHOLESTEROL_AGE -1.736427499 0.56036157 -2.7752570
## 20 b_CHOLESTEROL_SEXMale 117.278666112 23.37579088 73.3958236
## 21 bsp_BETAPLASMA_miALCOHOL 0.789707516 0.94111168 -1.0787492
## 22 bsp_BETAPLASMA_miCHOLESTEROL -0.120218190 0.08851138 -0.2919132
## 23 bsp_RETPLASMA_miALCOHOL -0.686172770 1.07301031 -2.8343945
## 24 bsp_RETPLASMA_miCHOLESTEROL -0.064821032 0.11556331 -0.2977793
## 25 sigma_BETAPLASMA 183.564232955 8.03059489 169.6895770
## 26 sigma_RETPLASMA 199.937193684 8.74130420 184.0037584
## 27 sigma_ALCOHOL 13.015742293 0.59364731 11.9207855
## 28 sigma_CHOLESTEROL 129.827570846 5.45968190 119.1326584
## 29 Ymi_BETAPLASMA[3] 191.559209648 186.62222871 -171.1059502
## 30 Ymi_BETAPLASMA[18] 242.519182422 186.78942109 -96.5189094
## 31 Ymi_BETAPLASMA[32] 166.820524264 189.20019517 -216.8028114
## 32 Ymi_BETAPLASMA[63] 246.431133928 187.91628907 -84.0522234
## 33 Ymi_BETAPLASMA[71] 218.143359699 185.99437634 -167.8644835
## 34 Ymi_BETAPLASMA[103] 97.226641329 187.90163452 -263.6250828
## 35 Ymi_BETAPLASMA[125] 185.533628937 184.13872581 -178.3740269
## 36 Ymi_BETAPLASMA[131] 170.366333495 184.38454121 -173.7981140
## 37 Ymi_BETAPLASMA[143] 240.032656293 187.83641743 -87.5351421
## 38 Ymi_BETAPLASMA[162] 202.621382950 188.76368752 -160.7348267
## 39 Ymi_BETAPLASMA[167] 150.273853686 189.60742598 -195.7177981
## 40 Ymi_BETAPLASMA[173] 259.612911213 184.90819145 -110.0001629
## 41 Ymi_BETAPLASMA[174] 157.745893619 187.88664549 -206.9632049
## 42 Ymi_BETAPLASMA[197] 150.460810139 184.52496610 -187.4337056
## 43 Ymi_BETAPLASMA[200] 273.581987721 174.71440071 -64.7474952
## 44 Ymi_BETAPLASMA[201] 206.545462988 184.16526565 -143.5195807
## 45 Ymi_BETAPLASMA[205] 232.192634947 187.44847046 -102.2225511
## 46 Ymi_BETAPLASMA[214] 249.592550518 183.55020063 -82.4444147
## 47 Ymi_BETAPLASMA[222] 187.433090031 184.05268251 -151.1355901
## 48 Ymi_BETAPLASMA[239] 79.264768836 192.26340892 -291.8387739
## 49 Ymi_BETAPLASMA[240] 191.337505684 180.80685316 -180.4920694
## 50 Ymi_BETAPLASMA[245] 144.589274330 190.08670656 -222.9293208
## 51 Ymi_BETAPLASMA[252] 160.307227773 183.94014155 -224.2542885
## 52 Ymi_BETAPLASMA[253] 140.119474309 179.32037024 -193.7951139
## 53 Ymi_BETAPLASMA[256] 192.013332914 189.14623175 -172.9111793
## 54 Ymi_BETAPLASMA[259] 167.077600550 185.86905028 -210.0387191
## 55 Ymi_BETAPLASMA[273] 160.710997393 190.79234211 -244.4477581
## 56 Ymi_BETAPLASMA[294] 156.424091733 189.73956261 -236.4425225
## 57 Ymi_BETAPLASMA[301] 171.040893009 185.29194895 -179.6296037
## 58 Ymi_BETAPLASMA[305] 177.120452306 189.62092715 -220.7517715
## 59 Ymi_BETAPLASMA[310] 192.464196644 192.66795276 -189.2781270
## 60 Ymi_BETAPLASMA[312] 249.846622855 188.60537191 -107.0648768
## 61 Ymi_RETPLASMA[4] 599.385144865 202.08891037 227.9157845
## 62 Ymi_RETPLASMA[26] 558.096730333 206.93716821 180.6019387
## 63 Ymi_RETPLASMA[50] 548.775744240 200.06766422 179.2322871
## 64 Ymi_RETPLASMA[51] 542.328601608 201.06355884 180.1408656
## 65 Ymi_RETPLASMA[56] 505.126312848 201.22438934 133.2903807
## 66 Ymi_RETPLASMA[59] 540.484680927 203.47395964 109.4107147
## 67 Ymi_RETPLASMA[60] 521.447934402 200.13464452 113.5331239
## 68 Ymi_RETPLASMA[64] 774.449297173 199.88590351 428.1167336
## 69 Ymi_RETPLASMA[69] 693.615030806 207.08368725 271.0272327
## 70 Ymi_RETPLASMA[70] 572.834786191 199.78360981 157.6065559
## 71 Ymi_RETPLASMA[84] 468.423056332 208.52840617 77.4632141
## 72 Ymi_RETPLASMA[86] 624.401832711 200.44263020 227.4749514
## 73 Ymi_RETPLASMA[87] 596.065362909 203.29337395 196.3132857
## 74 Ymi_RETPLASMA[93] 626.264913171 196.19707655 237.8601305
## 75 Ymi_RETPLASMA[95] 606.512650881 201.46733032 238.8172455
## 76 Ymi_RETPLASMA[99] 630.455649536 198.73890393 246.3159593
## 77 Ymi_RETPLASMA[102] 793.743949199 206.61815713 398.2755575
## 78 Ymi_RETPLASMA[106] 748.760996348 200.68945459 371.0926866
## 79 Ymi_RETPLASMA[117] 568.078322978 204.27084241 158.1680108
## 80 Ymi_RETPLASMA[127] 603.342454502 207.66791322 207.4208994
## 81 Ymi_RETPLASMA[128] 492.588614185 205.62824608 111.5528489
## 82 Ymi_RETPLASMA[144] 483.317643600 213.70642659 48.3474217
## 83 Ymi_RETPLASMA[145] 705.950206148 201.51029781 267.3470386
## 84 Ymi_RETPLASMA[146] 524.443009788 204.42986754 109.9963225
## 85 Ymi_RETPLASMA[148] 636.886237564 191.97875800 271.4931632
## 86 Ymi_RETPLASMA[152] 525.468778081 220.97139496 81.5733187
## 87 Ymi_RETPLASMA[158] 582.060722136 206.14652410 196.6436403
## 88 Ymi_RETPLASMA[161] 617.397447166 205.37943442 227.9414142
## 89 Ymi_RETPLASMA[170] 574.367161335 203.30273480 174.9379006
## 90 Ymi_RETPLASMA[195] 575.696866343 203.01874810 176.2873676
## 91 Ymi_RETPLASMA[203] 551.690545002 207.33044788 151.7422436
## 92 Ymi_RETPLASMA[210] 529.016486101 204.84186566 94.3351272
## 93 Ymi_RETPLASMA[212] 591.518722206 205.97104097 142.5396227
## 94 Ymi_RETPLASMA[225] 534.456506802 198.95952370 164.9013864
## 95 Ymi_RETPLASMA[228] 505.466311554 204.16895940 91.4360087
## 96 Ymi_RETPLASMA[244] 588.910536854 204.07219114 192.3497818
## 97 Ymi_RETPLASMA[246] 707.492857820 196.75634033 335.2527421
## 98 Ymi_RETPLASMA[251] 581.198584883 200.90154441 191.1043250
## 99 Ymi_RETPLASMA[264] 565.805006641 202.36838669 162.7731622
## 100 Ymi_RETPLASMA[271] 564.084329211 201.69765969 162.0765169
## 101 Ymi_RETPLASMA[272] 542.214950489 194.54482639 165.0406033
## 102 Ymi_RETPLASMA[287] 609.539444031 195.98634705 243.9134049
## 103 Ymi_RETPLASMA[293] 576.039180267 203.03196254 214.5936498
## 104 Ymi_RETPLASMA[299] 610.894736180 202.77940257 215.8681756
## 105 Ymi_RETPLASMA[300] 526.539237173 209.30598077 134.9215179
## 106 Ymi_RETPLASMA[301] 621.380923473 204.55104874 230.3945573
## 107 Ymi_RETPLASMA[311] 609.706438796 201.29256450 207.6616813
## 108 Ymi_ALCOHOL[11] 0.761142381 12.93767188 -26.0231734
## 109 Ymi_ALCOHOL[20] 8.331218669 13.63266295 -18.3918970
## 110 Ymi_ALCOHOL[25] 0.804564767 12.96543151 -24.2981893
## 111 Ymi_ALCOHOL[28] 3.292490955 13.48258056 -23.1460671
## 112 Ymi_ALCOHOL[31] 1.161201685 12.52731218 -22.7182636
## 113 Ymi_ALCOHOL[37] 2.194063670 13.10982459 -24.7350374
## 114 Ymi_ALCOHOL[39] 12.188788134 12.97952686 -12.9194398
## 115 Ymi_ALCOHOL[42] 1.197761358 12.43085167 -21.4587950
## 116 Ymi_ALCOHOL[46] 0.884921029 13.19198785 -24.2422807
## 117 Ymi_ALCOHOL[47] 1.961986601 13.38263649 -26.1067411
## 118 Ymi_ALCOHOL[51] 2.619734835 13.21120165 -22.7444608
## 119 Ymi_ALCOHOL[69] 1.397247749 12.88272614 -22.8450527
## 120 Ymi_ALCOHOL[70] 1.605470494 13.78627902 -27.2240639
## 121 Ymi_ALCOHOL[71] 1.575580803 12.92485193 -24.3063448
## 122 Ymi_ALCOHOL[75] 11.905749382 13.66905841 -16.2253167
## 123 Ymi_ALCOHOL[76] 1.904619005 13.51260239 -23.8557311
## 124 Ymi_ALCOHOL[77] 1.491930819 12.73041729 -24.8776681
## 125 Ymi_ALCOHOL[79] 2.702568747 13.37303956 -24.0202212
## 126 Ymi_ALCOHOL[80] 10.128044808 13.47361579 -17.1159896
## 127 Ymi_ALCOHOL[83] 10.591706174 13.52174156 -16.3091568
## 128 Ymi_ALCOHOL[93] 1.368389724 13.28787251 -25.1424126
## 129 Ymi_ALCOHOL[94] 11.835738348 12.72896304 -12.7870946
## 130 Ymi_ALCOHOL[95] 1.328633426 13.39188228 -23.2610997
## 131 Ymi_ALCOHOL[98] 2.042241460 13.04475257 -23.9857133
## 132 Ymi_ALCOHOL[99] 2.036654932 12.60380083 -22.2021595
## 133 Ymi_ALCOHOL[105] 12.122021224 13.26157003 -14.6820140
## 134 Ymi_ALCOHOL[109] 2.401143607 12.88264079 -22.6660374
## 135 Ymi_ALCOHOL[112] 1.121860494 12.79891445 -23.9863399
## 136 Ymi_ALCOHOL[118] 2.692110743 12.87533806 -22.9008467
## 137 Ymi_ALCOHOL[119] 2.024578482 12.96520402 -24.4966610
## 138 Ymi_ALCOHOL[123] 10.810136106 13.40244320 -14.4140997
## 139 Ymi_ALCOHOL[126] 2.760647993 12.48231685 -22.2604664
## 140 Ymi_ALCOHOL[128] 1.109921458 13.48999618 -24.8980217
## 141 Ymi_ALCOHOL[133] 11.785380425 13.67757372 -13.5024722
## 142 Ymi_ALCOHOL[145] 11.277910319 13.14885173 -15.1763635
## 143 Ymi_ALCOHOL[159] 2.099247626 12.86070565 -22.0571740
## 144 Ymi_ALCOHOL[163] 4.128702983 13.19846230 -19.7484874
## 145 Ymi_ALCOHOL[171] 2.167465618 13.12046604 -26.2129079
## 146 Ymi_ALCOHOL[181] 2.237653998 12.66526743 -21.2554407
## 147 Ymi_ALCOHOL[185] 1.786770951 13.32175105 -24.0864295
## 148 Ymi_ALCOHOL[200] 2.405946211 12.94125218 -22.1980983
## 149 Ymi_ALCOHOL[211] 1.102179098 13.05029870 -24.4566156
## 150 Ymi_ALCOHOL[212] 1.981050475 13.09792921 -24.1457329
## 151 Ymi_ALCOHOL[218] 1.977443870 13.03894361 -20.8570045
## 152 Ymi_ALCOHOL[220] 2.550282115 13.50306258 -23.4859067
## 153 Ymi_ALCOHOL[238] 1.844502689 12.93506921 -22.4589087
## 154 Ymi_ALCOHOL[239] 2.080389159 12.98314192 -22.2502614
## 155 Ymi_ALCOHOL[240] 2.436886791 13.34505064 -23.6693126
## 156 Ymi_ALCOHOL[242] 1.795782923 12.19273810 -24.0320237
## 157 Ymi_ALCOHOL[244] 1.892781802 12.86359810 -25.0723209
## 158 Ymi_ALCOHOL[247] 1.889298230 12.92782879 -21.8914839
## 159 Ymi_ALCOHOL[249] 1.688510506 13.24963712 -23.3109710
## 160 Ymi_ALCOHOL[250] 2.048358174 12.98199288 -22.9019741
## 161 Ymi_ALCOHOL[254] 2.502910091 12.76360306 -25.8394465
## 162 Ymi_ALCOHOL[255] 3.095028379 12.94311698 -21.2973520
## 163 Ymi_ALCOHOL[265] 1.060850392 13.15027711 -24.8348702
## 164 Ymi_ALCOHOL[268] 2.344293715 12.88605932 -22.5937875
## 165 Ymi_ALCOHOL[270] 2.787898618 12.97146975 -22.9337621
## 166 Ymi_ALCOHOL[275] 2.370353238 13.16057627 -25.3938650
## 167 Ymi_ALCOHOL[299] 2.268810906 13.05533339 -20.9616212
## 168 Ymi_ALCOHOL[308] 0.885570948 13.41882546 -25.2546685
## 169 Ymi_ALCOHOL[309] 1.017466185 13.49421029 -24.1680851
## 170 Ymi_ALCOHOL[315] 1.074581102 13.21214995 -23.3784816
## 171 Ymi_CHOLESTEROL[8] 221.355829776 127.01635373 -7.9027349
## 172 Ymi_CHOLESTEROL[20] 303.527170358 137.64180961 39.6653533
## 173 Ymi_CHOLESTEROL[24] 220.318018128 127.78807833 -31.1299003
## 174 Ymi_CHOLESTEROL[30] 305.818301017 127.84033625 59.0340984
## 175 Ymi_CHOLESTEROL[33] 184.641307523 128.53479223 -63.3524576
## 176 Ymi_CHOLESTEROL[50] 230.429831349 127.55070247 -17.8789812
## 177 Ymi_CHOLESTEROL[53] 205.822502384 130.06448206 -32.7862889
## 178 Ymi_CHOLESTEROL[55] 250.711895773 129.21000815 22.5226729
## 179 Ymi_CHOLESTEROL[65] 183.770925028 130.05850771 -60.0834576
## 180 Ymi_CHOLESTEROL[79] 262.236599174 126.04722997 21.8345532
## 181 Ymi_CHOLESTEROL[92] 223.338582274 128.21175638 -24.6011526
## 182 Ymi_CHOLESTEROL[93] 185.958679628 129.79709653 -68.6874871
## 183 Ymi_CHOLESTEROL[98] 253.892807632 125.98914375 11.5201631
## 184 Ymi_CHOLESTEROL[105] 309.336350880 133.75418988 39.0832655
## 185 Ymi_CHOLESTEROL[108] 245.318997376 125.38549395 -7.0153580
## 186 Ymi_CHOLESTEROL[115] 250.816214448 127.27312961 0.7687204
## 187 Ymi_CHOLESTEROL[129] 232.344685971 131.38671539 1.6408090
## 188 Ymi_CHOLESTEROL[133] 298.269149248 133.93881269 17.7128877
## 189 Ymi_CHOLESTEROL[136] 191.789340457 128.97305825 -66.5200145
## 190 Ymi_CHOLESTEROL[137] 233.407610937 127.13154256 -9.9111703
## 191 Ymi_CHOLESTEROL[141] 241.551632460 130.98223816 -4.0916436
## 192 Ymi_CHOLESTEROL[143] 254.389849524 129.48803028 -9.6887263
## 193 Ymi_CHOLESTEROL[146] 242.007624609 129.90972930 12.5124583
## 194 Ymi_CHOLESTEROL[153] 187.479574271 126.20306394 -59.9920290
## 195 Ymi_CHOLESTEROL[159] 256.894763733 133.31829836 -19.5734718
## 196 Ymi_CHOLESTEROL[180] 269.712826355 129.65030638 10.2971002
## 197 Ymi_CHOLESTEROL[185] 242.154948756 122.81154291 -9.5307431
## 198 Ymi_CHOLESTEROL[190] 262.718989807 131.33170198 5.1953476
## 199 Ymi_CHOLESTEROL[193] 237.423000380 126.37252315 -6.3986803
## 200 Ymi_CHOLESTEROL[207] 263.034933971 132.00723380 -8.7541860
## 201 Ymi_CHOLESTEROL[210] 253.496902822 131.59420006 6.8809496
## 202 Ymi_CHOLESTEROL[239] 258.616263227 132.19592207 17.1655926
## 203 Ymi_CHOLESTEROL[241] 258.244024280 126.97118065 -24.0019082
## 204 Ymi_CHOLESTEROL[244] 227.383375035 126.28984990 -16.2542868
## 205 Ymi_CHOLESTEROL[247] 249.840663799 126.57724066 5.7891836
## 206 Ymi_CHOLESTEROL[253] 252.375391622 134.26453042 -1.2181130
## 207 Ymi_CHOLESTEROL[263] 148.341627215 131.72399018 -114.1782250
## 208 Ymi_CHOLESTEROL[267] 259.445077421 135.75427316 -10.0504168
## 209 Ymi_CHOLESTEROL[268] 189.928144439 128.88703906 -60.7852817
## 210 Ymi_CHOLESTEROL[274] 194.555688435 135.50735164 -60.3254198
## 211 Ymi_CHOLESTEROL[277] 226.396945384 130.01896065 -34.5748377
## 212 Ymi_CHOLESTEROL[279] 257.398856110 128.26780060 2.7461877
## 213 Ymi_CHOLESTEROL[291] 235.128416800 128.93017286 1.0874723
## 214 Ymi_CHOLESTEROL[300] 243.362128380 129.79598677 1.8442335
## 215 Ymi_CHOLESTEROL[307] 199.876880263 131.19495593 -40.4516218
## 216 Ymi_CHOLESTEROL[312] 246.117005704 127.43674834 2.1076160
## 217 Ymi_CHOLESTEROL[314] 264.332774258 127.78996612 34.5301926
## conf.high
## 1 201.53306061
## 2 565.90028736
## 3 7.39855297
## 4 369.85104149
## 5 2.54317869
## 6 37.93802576
## 7 123.12550716
## 8 116.92585388
## 9 146.46666145
## 10 100.36721262
## 11 4.17593314
## 12 174.26033434
## 13 144.60593360
## 14 64.10869682
## 15 67.79413377
## 16 87.08147394
## 17 0.10793658
## 18 14.74223549
## 19 -0.53225211
## 20 162.58147238
## 21 2.56646142
## 22 0.05900229
## 23 1.32845150
## 24 0.14254264
## 25 200.19486272
## 26 217.30165067
## 27 14.17468118
## 28 140.15784846
## 29 562.29393239
## 30 621.59973556
## 31 515.85073166
## 32 630.35843025
## 33 552.89853525
## 34 467.20966604
## 35 541.33068637
## 36 545.60007167
## 37 656.09960275
## 38 572.74506328
## 39 544.48823355
## 40 628.71525202
## 41 514.78699622
## 42 523.90642664
## 43 612.90164721
## 44 549.82519676
## 45 638.50804317
## 46 609.72635355
## 47 562.05601055
## 48 460.23087007
## 49 518.18525322
## 50 517.51647910
## 51 506.68286820
## 52 499.69665452
## 53 563.17452456
## 54 520.64440711
## 55 519.67435723
## 56 502.87393364
## 57 548.24842970
## 58 526.09641830
## 59 556.45406694
## 60 612.79118174
## 61 1011.22477868
## 62 991.37467297
## 63 982.29826567
## 64 965.10877752
## 65 901.71559078
## 66 904.69042725
## 67 893.83888610
## 68 1218.33071162
## 69 1074.63864092
## 70 942.05489548
## 71 871.72642755
## 72 1018.29740508
## 73 970.83183794
## 74 1006.63537181
## 75 1015.89749963
## 76 1025.89396486
## 77 1206.89859675
## 78 1140.35074100
## 79 972.71440686
## 80 1032.94449260
## 81 899.61287715
## 82 892.98228346
## 83 1053.72493806
## 84 904.10473355
## 85 1015.64335031
## 86 943.08273217
## 87 1000.61155661
## 88 1053.82448762
## 89 951.58093925
## 90 977.93227754
## 91 969.03162458
## 92 917.24668617
## 93 971.29646396
## 94 930.44096251
## 95 906.95697105
## 96 981.17044882
## 97 1090.66571485
## 98 976.96881391
## 99 965.49897819
## 100 949.81767799
## 101 911.71670688
## 102 1023.88743054
## 103 997.97192656
## 104 1010.80742747
## 105 951.93028437
## 106 1042.24995174
## 107 998.75662550
## 108 23.98396635
## 109 35.87426332
## 110 25.80538240
## 111 28.63344657
## 112 25.79372470
## 113 27.25829649
## 114 37.56772237
## 115 26.06789596
## 116 26.83859125
## 117 25.10317889
## 118 27.48345778
## 119 26.53268923
## 120 27.01031008
## 121 25.62821518
## 122 36.96187734
## 123 27.96464657
## 124 24.48448307
## 125 28.65236306
## 126 35.56278131
## 127 35.08662617
## 128 26.95975606
## 129 36.38666163
## 130 29.59059956
## 131 27.57464236
## 132 26.86817211
## 133 36.91715868
## 134 27.16453772
## 135 25.31033704
## 136 26.62473554
## 137 26.88523817
## 138 37.84621100
## 139 27.22060298
## 140 28.14205576
## 141 38.52333987
## 142 36.08207201
## 143 27.15207413
## 144 31.66852425
## 145 25.05338511
## 146 27.77226715
## 147 26.34617453
## 148 27.91928136
## 149 27.14058220
## 150 27.70344036
## 151 30.29476703
## 152 26.99904849
## 153 27.11709287
## 154 27.16074201
## 155 28.53210835
## 156 24.70323908
## 157 26.18844238
## 158 28.41101508
## 159 28.17044270
## 160 26.94218872
## 161 25.16210392
## 162 29.60987022
## 163 25.60257340
## 164 26.99736951
## 165 28.45051084
## 166 26.33207331
## 167 29.75994228
## 168 26.48839487
## 169 28.39639912
## 170 27.07396822
## 171 489.52214375
## 172 574.35215318
## 173 460.77781536
## 174 568.09569858
## 175 432.64767993
## 176 472.30782188
## 177 482.44464810
## 178 513.98301934
## 179 447.70044460
## 180 526.32871130
## 181 470.86566972
## 182 424.05269871
## 183 509.06173138
## 184 564.25974136
## 185 474.53338698
## 186 493.98078715
## 187 492.97132748
## 188 536.47310008
## 189 442.75789419
## 190 479.67179486
## 191 487.71530818
## 192 491.08885025
## 193 514.04464849
## 194 427.59703301
## 195 496.46501602
## 196 513.88395847
## 197 479.69551430
## 198 513.49088706
## 199 485.22178990
## 200 503.01483837
## 201 515.91528471
## 202 524.64137506
## 203 477.08290204
## 204 469.45152294
## 205 486.78281977
## 206 523.06608648
## 207 396.03936489
## 208 535.98117415
## 209 438.60517225
## 210 461.34916196
## 211 481.15594092
## 212 505.31839154
## 213 493.72905564
## 214 512.24221183
## 215 474.11191027
## 216 499.46913933
## 217 525.55722393
plot(fit_imp)
marginal_effects(fit_imp)
Tính năng tự động bổ túc dữ liệu mà brms cung cấp là một ý tưởng thú vị.
Một số ưu điểm của cách làm này bao gồm:
Chỉ sử dụng một algorithm duy nhất trong toàn bộ quy trình, đó là hồi quy tuyến tính Bayes.
Kết quả cho từng mô hình (chính, phụ) được trình bày tường minh, không phải blackbox. Nghiên cứu sinh có thể giải thích cơ chế của việc bổ túc dữ liệu một cách rõ ràng, chi tiết.
Hòa hợp được quy trình bổ túc dữ liệu và suy diễn Bayes cho hiệu ứng chính đối với biến kết quả.
Hoạt động được trên dữ liệu có cỡ mẫu hạn chế, thậm chí rất hạn chế, vì phương pháp Bayes cho phép điều này
Bổ túc dữ liệu cho biến kết quả, thậm chí nhiều biến kết quả đồng thời trong 1 mô hình duy nhất.
Thực ra không có gì kì lạ, quy trình này có bản chất là một mô hình tập hợp (ensemble) gồm nhiều bộ phận liên kết với nhau theo thứ bậc.
Đầu tiên, brms sẽ tìm cách bổ túc dữ liệu của các predictor trong những mô hình phụ (cũng là hồi quy tuyến tính) dựa vào 1 hay nhiều predictor khác có ĐỦ dữ liệu (đây là nhược điểm của cách làm này, vì nó không linh hoạt bằng các algorithm Machine learning khác như knn hay random forest, predictor dùng để bổ túc dữ liệu bắt buộc phải đầy đủ). Có vẻ như brms chưa cho phép bổ túc dữ liệu của biến định tính/thứ hạng (categorical và ordinal), nó cũng chưa cho phép bổ túc dữ liệu sử dụng những phân phối phức tạp, gaussian là lựa chọn an toàn nhất nếu không sampler có thể bó tay và mô hình không converge được.
Sau khi bổ túc xong các predictor, mô hình chính sẽ bổ túc dữ liệu cho 1 hay nhiều biến kết quả (outcomes), mô hình sau cùng được tạo ra.
Tuy còn nhiều nhược điểm và lỗ hổng về giả định, đây là một cách làm dễ dàng, tiện lợi đáng được thử nghiệm cho những nghiên cứu diễn dịch đơn giản với cỡ mẫu thấp. Mặt khác, ta đang dùng phương pháp Bayes, tất cả các tham số beta trong mô hình đều được xác định dựa vào định lý Bayes như ta đã biết, và ta sẽ có phân phối hậu nghiệm.
Tạm biệt các bạn.