Hồi quy logistic thường được sử dụng như một công cụ suy luận thống kê về hiệu quả can thiệp đối với kết cục lâm sàng nhị phân. Thí dụ, những kết cục thai sinh hóa, thai lâm sàng, thai diễn tiến, sinh nở thành công trong nghiên cứu IVF. Tuy nhiên trong những công bố hiện nay về đề tài IVF, các tác giả đã chưa khai thác hết tiềm năng của kết quả mô hình hồi quy, vì chỉ mới ước lượng hiệu quả can thiệp thông qua một trị số thống kê duy nhất là Odds-ratio (OR). Trong bài này, chúng tôi sẽ giới thiệu về tất cả những loại thông tin mà ta có thể suy diễn từ mô hình hồi quy logistic.
Chúng tôi sẽ dùng dữ liệu từ một nghiên cứu lâm sàng IVF có thực của Mathilde Bourdon và cộng sự (2018). Trong nghiên cứu hồi cứu này, nhóm tác giả muốn khảo sát hiệu quả của phương pháp chuyển phôi deferred frozen-thawed embryo transfer (DEF-ET) so với phương pháp chuyển phôi tươi (Fresh ET) đối với khả năng thụ thai ở nhóm phụ nữ hiếm muộn có liên hệ đến endometriosis.
Đây là cấu trúc dữ liệu cho bài toán:
FET | OP | Age | AMH | AFC | Protocol | OSE_type |
---|---|---|---|---|---|---|
0 | 1 | 26 | 0 | 0 | 2 | 3_Infiltrat |
1 | 0 | 26 | 0 | 1 | 1 | 3_Infiltrat |
0 | 0 | 27 | 0 | 1 | 2 | 3_Infiltrat |
0 | 1 | 27 | 0 | 0 | 2 | 3_Infiltrat |
1 | 0 | 27 | 0 | 0 | 1 | 3_Infiltrat |
1 | 0 | 27 | 0 | 0 | 1 | 3_Infiltrat |
Biến kết quả trong bài toán là OP (Thai diễn tiến), là một biến nhị phân. Yếu tố can thiệp cần khảo sát hiệu quả là phương pháp chuyển phôi (FET), 0 = Fresh, 1 = DEF-ET. Các biến còn lại có vai trò hiệp biến, bao gồm tuổi, phương pháp kích thích buồng trứng (1 = Ant, 2 = Long ant, 3 = Short ant), AMH và AFC nhị phân hóa và 3 thể lâm sàng của Endometriosis (1 = Superficial peritoneal endometriosis; 2 = endometriomas; 3 = Deep infiltrating endometriosis).
Trong dữ liệu này, biến kết quả là OP (Onging_preg), là một biến nhị phân với giá trị 1=Thành công (đạt thai diễn tiến) và 0=Thất bại.
FET | n | Freq_OP | Freq_Fail | p1 | p0 |
---|---|---|---|---|---|
0 | 135 | 24 | 111 | 0.1777778 | 0.8222222 |
1 | 135 | 47 | 88 | 0.3481481 | 0.6518519 |
Ta dựng một mô hình hồi quy logistic nhằm ước lượng khả năng đạt được thai diễn tiến. Mô hình bao gồm biến FET, Age, AFC, AMH và thể lâm sàng Endometriosis.
Kết quả thô của mô hình như sau
##
## Call:
## glm(formula = OP ~ FET + Age + AMH + AFC + OSE_type, family = "binomial",
## data = df)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.1474 -0.8502 -0.6390 1.2672 2.0460
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.18286 1.41541 -0.836 0.40332
## FET1 0.87650 0.29265 2.995 0.00274 **
## Age -0.01341 0.03715 -0.361 0.71804
## AMH1 -0.31443 0.39598 -0.794 0.42716
## AFC1 -0.23557 0.30824 -0.764 0.44472
## OSE_type2_Endometriomas 0.61082 0.55145 1.108 0.26801
## OSE_type3_Infiltrat 0.18727 0.51734 0.362 0.71736
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 311.11 on 269 degrees of freedom
## Residual deviance: 297.12 on 263 degrees of freedom
## AIC: 311.12
##
## Number of Fisher Scoring iterations: 4
Từ mô hình logistic, ta có thể ước lượng hiệu quả của phương pháp DEF-ET so với phương pháp tham chiếu là Fresh-ET thông qua 3 trị số thống kê:
Trị số này đo lường trực tiếp khác biệt về kết quả ước lượng của mô hình hồi quy logistic , chính là xác suất đạt được thai diễn tiến (giá trị từ 0-1) giữa 2 phân nhóm DEF và Fresh.
term | contrast | estimate | std.error | p.value | conf.low | conf.high |
---|---|---|---|---|---|---|
FET | 1 - 0 | 0.1629123 | 0.0527786 | 0.0020238 | 0.0594681 | 0.2663565 |
Theo đó, xác suất đạt thai diễn tiến của nhóm chuyển phôi rã đông (DEF-ET) cao hơn 0.16 so với nhóm dùng phương pháp chuyển phôi tươi, khác biệt trung bình = 0.16
Đây là hình thức diễn giải kết quả phổ biến nhất cho hồi quy logistic, ta có thể tính OR đơn giản bằng cách áp dụng hàm exponential cho hệ số hồi quy của biến FET.
Một cách tổng quát, OR được tính qua 2 bước, đầu tiên áp dụng 1 hàm transform pre có nội dung như sau, cho mỗi giá trị xác suất ước lượng trung bình cho phân nhóm FET = 1 và FET = 0. Kết quả này cho ta log(OR)
\[log(\frac{mean(\hat{y}_{1})/(1 - mean(\hat{y}_{1}))}{mean(\hat{y}_{0})/(1 - mean(\hat{y}_{0}))})\] với \(mean(\hat{y})\) và \((1 - mean(\hat{y}))\) lần lượt là xác suất đạt và không đạt thai diễn tiến cho mỗi phân nhóm/
Sau đó, áp dụng hàm exponential cho kết quả của hàm trên ta sẽ có OR
type | term | contrast | estimate | p.value | conf.low | conf.high |
---|---|---|---|---|---|---|
response | FET | ln(odds(1) / odds(0)) | 2.373228 | 0.0028207 | 1.345937 | 4.184602 |
Kết quả cho ra OR = 2.373 (KTC95%: 1.35 - 4.18), vì giá trị này > 1 nên ta kết luận rằng phương pháp DEF-ET có hiệu quả cao hơn.
Từ mô hình logistic, ta có thể tính được cả RR, tuy ít khi phương pháp này được áp dụng. Risk là tỉ lệ thành công, RR là tỉ số giữa 2 tỉ lệ thành công của nhóm DEF và nhóm tham chiếu Fresh-ET.
RR có thể tính qua 2 bước, đầu tiên ta áp dụng hàm hoán chuyển sau
\[log(\frac{mean(\hat{y}_{1})}{mean(\hat{y}_{0})})\] cho kết quả ước lượng (xác suất thai diễn tiến) cho phân nhóm DEF và Fresh, để có giá trị log(RR), sau đó ta áp dụng hàm exponential cho kết quả này để có RR.
type | term | contrast | estimate | p.value | conf.low | conf.high |
---|---|---|---|---|---|---|
response | FET | ln(mean(1) / mean(0)) | 1.901297 | 0.0034561 | 1.235947 | 2.924826 |
Kết quả cho ra RR = 1.9 (KTC95%: 1.2 - 2.9), vì giá trị này > 1 nên ta kết luận rằng phương pháp DEF-ET có hiệu quả cao hơn.
Ba kết quả ta vừa trình bày ở trên được ước tính từ toàn bộ những cá thể trong dữ liệu ban đầu. Hiệu ứng ước lượng theo cách này thuộc nhóm hiệu ứng trung bình cho quần thể (Average marginal effect (AME)).
Một hình thức khác đó là ta ước lượng cùng
những hiệu ứng can thiệp T (RD, OR, RR) riêng cho các phân nhóm khác
nhau của một hiệp biến X (điều kiện hóa theo phân nhóm), thí dụ ta muốn
biết hiệu ứng của phương pháp chuyển phôi DEF-ET như thế nào riêng cho
mỗi thể lâm sàng Endometriosis ?
Điều này khả thi, vì ta luôn có trong tay giá trị của xác suất thai diễn tiến cho từng cá thể trong 3 phân nhóm trên:
type | term | contrast | OSE_type | estimate | p.value | conf.low | conf.high |
---|---|---|---|---|---|---|---|
response | FET | ln(odds(1) / odds(0)) | 1_Superficial | 2.386645 | 0.0028580 | 1.347510 | 4.227112 |
response | FET | ln(odds(1) / odds(0)) | 2_Endometriomas | 2.381611 | 0.0028823 | 1.345868 | 4.214435 |
response | FET | ln(odds(1) / odds(0)) | 3_Infiltrat | 2.388743 | 0.0028302 | 1.348689 | 4.230845 |
Ở đây, ta tính OR riêng cho từng phân nhóm thể lâm sàng, kết quả cho ra 3 giá trị OR gần như tương đương nhau là 2.386, 2.382 và 2.389
type | term | contrast | OSE_type | estimate | p.value | conf.low | conf.high |
---|---|---|---|---|---|---|---|
response | FET | ln(mean(1) / mean(0)) | 1_Superficial | 1.993091 | 0.0051460 | 1.229400 | 3.231178 |
response | FET | ln(mean(1) / mean(0)) | 2_Endometriomas | 1.811861 | 0.0042481 | 1.205527 | 2.723156 |
response | FET | ln(mean(1) / mean(0)) | 3_Infiltrat | 1.934385 | 0.0035341 | 1.241686 | 3.013519 |
Tương tự cho RR, ta sẽ có 3 giá trị RR = 1.99, 1.81 và 1.93
Ta thậm chí còn có thể đi xa hơn và vượt ra khỏi giới hạn của hiện thực, khi có thể ước lượng hiệu ứng can thiệp cho một quần thể giả tưởng không có thực. Thí dụ, ta muốn biết OR của can thiệp DEF trên 1 phụ nữ 20, 30 hoặc 40 tuổi ?
Đây là kết quả suy diễn thống kê cho một bài toán phản thực tế như vậy:
## `geom_smooth()` using formula = 'y ~ x'
type | term | contrast | Age | estimate | p.value | conf.low | conf.high |
---|---|---|---|---|---|---|---|
response | FET | ln(odds(1) / odds(0)) | 20 | 2.372121 | 0.0028254 | 1.345590 | 4.181777 |
response | FET | ln(odds(1) / odds(0)) | 25 | 2.372891 | 0.0028230 | 1.345808 | 4.183815 |
response | FET | ln(odds(1) / odds(0)) | 30 | 2.373689 | 0.0028208 | 1.346024 | 4.185958 |
response | FET | ln(odds(1) / odds(0)) | 35 | 2.374513 | 0.0028189 | 1.346238 | 4.188198 |
response | FET | ln(odds(1) / odds(0)) | 40 | 2.375356 | 0.0028173 | 1.346445 | 4.190528 |
Qua bài này, các bạn có thể hình dung mình có thể đi xa đến mức nào khi diễn giải kết quả của mô hình hồi quy logistic nhằm ước lượng hiệu quả can thiệp cho kết cục nhị phân. Những hình thức diễn giải này có thể làm phong phú thêm kết quả của nghiên cứu lâm sàng. Chúc các bạn thành công.