Thống kê quy ước khuyến khích hiệu chỉnh các yếu tố gây nhiễu và hiệp biến trong mô hình nhằm ước lượng chính xác hơn hiệu ứng của riêng X đối với kết quả Y. Vấn đề là người ta bắt đầu hiệu chỉnh cho tất cả hiệp biến một cách mù quáng, điều này đôi khi hoàn toàn vô ích, thậm chí là có hại khi chính việc hiệu chỉnh lại làm nhiễu hay sai lệch hiệu ứng cần khảo sát.
Bài này giới thiệu về phương pháp xác định những yếu tố cần hiệu chỉnh, bằng cách dùng Directed acyclic graph (DAG): đồ thị có hướng, không tuần hoàn; DAG à một đồ thị có chứa liên kết định hướng, nhưng không tạo ra bất cứ vòng tuần hoàn (cycle, loop) nào bên trong nó. Tập hợp các liên kết định hướng nối giữa yếu tố X và kết cục Y được gọi là lộ trình nhân quả (Causal path); những chuỗi liên kết khác không dẫn đến Y gọi là Non Causal path (thí dụ từ 1 hiệp biến đến 1 hiệp biến khác).
Một nhóm nghiên cứu muốn khảo sát hiệu quả của quy trình chuẩn bị nội mạc tử cung bằng Letrozole đối với kết cục sinh nở thành công (Livebirth), so với phác đồ estradiol valerate và progesterone.
Mục tiêu cần khảo sát trong thí nghiệm này là quy trình chuẩn bị nội mạc tử cung. Phương pháp thứ nhất là kích thích nhẹ buồng trứng với Letrozole đường uống 5mg/ngày từ ngày thứ 3 chu kì tự nhiên trong 5 ngày liên tiếp, sau đó bổ sung HMG. Phương pháp thứ hai được gọi là chu kì nhân tạo, bằng cách sử dụng tuần tự viên nén estradiol valerate và progesterone.
Các bệnh nhân được áp dụng một trong hai loại phác đồ COH: phác đồ đối vận hormone giải phóng gonadotropin (GnRH-ant) hoặc phác đồ đồng vận GnRH kéo dài tiêu chuẩn (long GnRH-a).
Tiếp theo, bệnh nhân được kích hoạt trưởng thành noãn bằng hCG hoặc choriogonadotropin alfa. Chu kì COH kết thúc bằng công đoạn thu hoạch noãn sau 34-36 giờ, sau đó tùy theo chỉ định lâm sàng, noãn được thụ tinh bằng một trong 2 phương pháp ICSI hoặc IVF. Cuối cùng, quy trình chuyển phôi tươi hoặc phôi đóng băng (FET) được thực hiện.
Kết cục lâm sàng chính của nghiên cứu là tỷ lệ sinh sống (Live birth rate)
Đầu tiên ta sẽ xây dựng một sơ đồ nhân quả (Causal diagram) dưới hình thức sơ đồ mạng định hướng không tuần hoàn (directed acyclic graphs: DAG), trình bày mạng lưới liên hệ, tương tác giữa các nhân tố khác nhau trong quy trình IVF, dẫn đến kết cục LiveBirth. Dựa vào mô hình DAG, chúng ta sẽ xác định yếu tố can thiệp, kết cục, và tập hợp các yếu tố gây nhiễu cần được hiệu chỉnh (adjusting).
Tiếp theo, ta thực hiện một phân tích hồi quy logistic đa biến để ước lượng hiệu ứng của phác đồ Letrozole đối với xác suất LiveBirth, có hiệu chỉnh cho tập hợp biến đã được xác định ở trên.
Hiệu quả cùa Letrozole sẽ được ước lượng bằng average marginal effect thông qua 2 trị số: adjusted Risk difference (RD) và adjusted Odds-ratio (OR).
Đây là cấu trúc dữ liệu cho bài toán:
Method | Age | Inf_dt | BMI | FSH | LH | Type | Inserm | COS | nOOC | nEmbryo | Thickness | Transf | Stage | Preg | LBirth |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
mSTC | 32 | 1 | 26.8 | 15.73 | 7.13 | Second | ICSI | Ant | 19 | 6 | 10.7 | 2 | D3 | 1 | 1 |
mSTC | 31 | 1 | 27.8 | 10.45 | 12.55 | Primary | IVF | Ant | 38 | 6 | 10.0 | 1 | D5 | 0 | 0 |
mSTC | 27 | 1 | 30.1 | 9.86 | 5.93 | Primary | ICSI | Ant | 32 | 10 | 10.0 | 2 | D3 | 1 | 1 |
mSTC | 34 | 2 | 30.0 | 9.73 | 25.52 | Primary | IVF | Agonist | 14 | 7 | 10.6 | 2 | D3 | 1 | 1 |
mSTC | 34 | 2 | 30.0 | 9.73 | 25.52 | Second | IVF | Agonist | 14 | 7 | 9.4 | 2 | D3 | 0 | 0 |
mSTC | 27 | 4 | 25.3 | 9.61 | 12.32 | Primary | IVF | Agonist | 14 | 6 | 12.0 | 2 | D3 | 1 | 0 |
Trong dữ liệu này, biến kết quả là LiveBirth, là một biến nhị phân với giá trị 1=Thành công và 0=Thất bại.
Method | n | LiveBirth | Failure | p1 | p0 |
---|---|---|---|---|---|
AC | 507 | 208 | 299 | 0.4102564 | 0.5897436 |
mSTC | 173 | 86 | 87 | 0.4971098 | 0.5028902 |
Bằng một ước lượng đơn giản, ta thấy nhóm chuẩn bị nội mạc bằng Letrozole (mSTC) có tỷ lệ sinh sống cao hơn một chút (8.7%) so với nhóm chu kì nhân tạo (AC), tương ứng với tỉ số OR = 1.42 và RR = 1.21; Tuy nhiên, kết quả này có thể bị sai lệch do ảnh hưởng bởi nhiều yếu tố gây nhiễu và hiệp biến trong dữ liệu; do đó chúng ta cần hiệu chỉnh cho những yếu tố gây nhiễu này để ước lượng được chính xác hiệu quả độc lập của Letrozole.
Dựa vào suy luận và kiến thức sinh lý, y học lâm sàng, ta có thể đặt ra hệ thống giả thuyết như sau:
Loại can thiệp chuẩn bị nội mạc (Letrozole hay chu kì nhân tạo) là kết quả quyết định chủ quan của bệnh nhân và bác sĩ điều trị, ta giả định rằng nó có thể chịu ảnh hưởng bởi Tuổi bệnh nhân, thời gian hiếm muộn, loại phác đồ COS được chọn. Trong quá trình can thiệp, liều dược chất còn dựa vào BMI và tuổi bệnh nhân.
Kết cục sinh nở (Birth) thành công hay thất bại (sẩy thai) là hệ quả trực tiếp của việc thụ thai thành công (Preg) và thai kì diễn tiến, nó cũng phụ thuộc vào tuổi của người mẹ (Age), và những nguy cơ bệnh lý sản khoa có liên hệ đến tuổi và BMI.
Trước đó, ta có kết cục thụ thai lâm sàng/thai diễn tiến (Preg), là hệ quả trực tiếp của yếu tố phôi (Embryo), bao gồm phôi có được tạo thành hay không ? tuổi phôi ? phẩm chất của phôi, thỏa tiêu chí có thể chuyển được, phương pháp chuyển phôi và số phôi chuyển. Ngoài ra, khả năng thụ thai còn phụ thuộc vào Tuổi người mẹ, hiệu quả của phác đồ chuẩn bị nội mạc tử cung, độ dày nội mạc.
Yếu tố phôi là hệ quả trực tiếp của số noãn thu được (Ooc), kết quả thụ tinh Fert, loại phác đồ COS, ngoài ra còn phụ thuộc vào hormone LH;
Khả năng trưởng thành noãn, biểu hiện qua số noãn MII là hệ quả trực tiếp của số noãn thu được, liên hệ với phác đồ COS, các hormone sử dụng trong phác đồ chuẩn bị nội mạc,
Khả năng thụ tinh phụ thuộc vào số noãn MII, loại phương pháp thụ tinh (Insermination: IVF hay ICSI)
Số noãn thu được (Ooc) là hệ quả của phác đồ COS, phương pháp chuẩn bị nội mạc, tuổi của bệnh nhân, dự trữ buồng trứng, nồng độ FSH và LH
Độ dày nội mạc phụ thuộc vào phương pháp chuẩn bị nội mạc (Letrozole…), có liên hệ với BMI, tuổi bệnh nhân.
LH và FSH có liên hệ với tuổi và BMI,
Phương pháp thụ tinh (Inserm) và phác đồ COS được xem là yếu tố can thiệp độc lập.
Ta có thể dựng sơ đồ DAG bằng thư viện daggity trong R và hiển thị nó như dưới đây
Mục tiêu của chúng ta là ước lượng hiệu ứng của Letrozole đối với PPOS, như vậy ta cần xác định con đường kết nối giữa PPOS là điểm xuất phát và OP là đích đến.
Trên sơ đồ DAG, có rất nhiều lộ trình có khả năng nối kết Letrozole và kết cục Birth, ta có thể chỉ ra 10 con đường ngắn nhất trong danh sách này:
## [1] "Letroz -> EndThck -> Preg -> Birth"
## [2] "Letroz -> EndThck -> Preg <- Age -> BMI -> Birth"
## [3] "Letroz -> EndThck -> Preg <- Age -> Birth"
## [4] "Letroz -> EndThck -> Preg <- Age -> FSH -> Ooc -> MII -> Fert -> Embryo <- LH <- BMI -> Birth"
## [5] "Letroz -> EndThck -> Preg <- Age -> FSH -> Ooc -> MII -> Fert <- LH <- BMI -> Birth"
## [6] "Letroz -> EndThck -> Preg <- Age -> FSH -> Ooc -> MII <- Stim -> Embryo <- Fert <- LH <- BMI -> Birth"
## [7] "Letroz -> EndThck -> Preg <- Age -> FSH -> Ooc -> MII <- Stim -> Embryo <- LH <- BMI -> Birth"
## [8] "Letroz -> EndThck -> Preg <- Age -> FSH -> Ooc <- LH <- BMI -> Birth"
## [9] "Letroz -> EndThck -> Preg <- Age -> FSH -> Ooc <- Stim -> Embryo <- Fert <- LH <- BMI -> Birth"
## [10] "Letroz -> EndThck -> Preg <- Age -> FSH -> Ooc <- Stim -> Embryo <- LH <- BMI -> Birth"
Sơ đồ DAG cho phép chúng ta xác định tập hợp những hiệp biến nào cần phải được hiệu chỉnh (việc hiệu chỉnh này sẽ cắt đứt liên kết giữa Letrozole và/hoặc kết cục Birth với những yếu tố gây nhiễu, cho phép ước lượng hiệu ứng độc lập của Letrozole).
Theo kết quả tìm được, ta có thể hiệu chỉnh cho tập hợp 3 biến : Age, BMI và phác đồ COS (Stim)
## { Age, BMI, Stim }
Sau đây, ta sẽ lần lượt thực hiện phân tích thống kê bằng mô hình logistic trong 3 trường hợp:
Trong thực hành thống kê, có một quan niệm rất sai lầm và nguy hiểm khi cho rằng ngoài can thiệp và kết cục, tất cả những yếu tố còn lại đều cần phải được hiệu chỉnh trong phân tích hồi quy logistic đa biến.
Việc hiệu chỉnh máy móc và quá đáng cho toàn bộ biến số trong hệ thống có thể dẫn đến hậu quả có hại khi triệt tiêu chính hiệu quả mà ta đang cần ước lượng.
Trong thí dụ hiện thời, nếu ta hiệu chỉnh cho tất cả biến số, kết quả thu được là như sau:
term | contrast | estimate | std.error | p.value | conf.low | conf.high |
---|---|---|---|---|---|---|
Method | mSTC - AC | 0.0825338 | 0.0438056 | 0.0595527 | -0.0033237 | 0.1683912 |
type | term | contrast | estimate | p.value | conf.low | conf.high |
---|---|---|---|---|---|---|
response | Method | ln(odds(mSTC) / odds(AC)) | 1.396425 | 0.0587746 | 0.9876927 | 1.974302 |
Ta có thể thấy đây là một kết quả negative, nó cho thấy Letrozole không có hiệu quả nào cả đối với kết cục LiveBirth.
Ngược lại, nếu ta không hiệu chỉnh cho bất cứ yếu tố nào cả (tương ứng với một mô hình logistic đơn biến chỉ xét yếu tố can thiệp), đây cũng không phải là giải pháp đúng đắn. Như ta thấy sau đây:
term | contrast | estimate | std.error | p.value | conf.low | conf.high |
---|---|---|---|---|---|---|
Method | mSTC - AC | 0.0868534 | 0.0438436 | 0.0475931 | 0.0009216 | 0.1727852 |
type | term | contrast | estimate | p.value | conf.low | conf.high |
---|---|---|---|---|---|---|
response | Method | ln(odds(mSTC) / odds(AC)) | 1.420977 | 0.0469521 | 1.004745 | 2.00964 |
Dựa theo kết quả này, Letrozole có một hiệu quả tích cực đối với kết cục LiveBirth, tuy nhiên kích thước hiệu ứng rất nhỏ và gần như không có ý nghĩa thống kê (p rất gần với 0.05).
Cuối cùng, ta sẽ hiệu chỉnh cho đúng tập hợp yếu tố gây nhiễu mà ta đã phân lập được từ sơ đồ DAG, đó là Age, BMI và loại phác đồ COS.
term | contrast | estimate | std.error | p.value | conf.low | conf.high |
---|---|---|---|---|---|---|
Method | mSTC - AC | 0.0896519 | 0.043864 | 0.0409674 | 0.00368 | 0.1756237 |
type | term | contrast | estimate | p.value | conf.low | conf.high |
---|---|---|---|---|---|---|
response | Method | ln(odds(mSTC) / odds(AC)) | 1.437104 | 0.0404412 | 1.015919 | 2.032907 |
Kết quả này cho thấy Letrozole có hiệu quả tích cực và có ý nghĩa thống kê đối với khả năng sinh sống, với khác biệt về tỷ lệ Live Birth so với chu kì nhân tạo = 8.96% (p=0.04) và OR = 1.437 (p = 0.04).
Việc xác định chính xác những yếu tố nào cần được hiệu chỉnh có vai trò rất quan trọng đối với tính chính xác của suy luận thống kê về hiệu quả can thiệp trong nghiên cứu lâm sàng. Cả hai thái cực: không hiệu chỉnh gì cả hoặc hiệu chỉnh máy móc quá đáng đều sai lầm và có thể dẫn đến sai lệch trong kết luận về hiệu quả can thiệp. Sơ đồ mạng lưới định hướng không tuần hoàn là một công cụ hữu ích cho phép người bác sĩ chủ động dùng kiến thức y học để định hướng cho phân tích thống kê thay cho cách làm việc máy móc. Sơ đồ DAG cho phép xác định tập hợp yếu tố cần hiệu chỉnh một cách chính xác, hợp lý và vừa đủ, đảm bảo kết quả suy diễn thống kê chính xác từ một mô hình đúng và có cơ sở khoa học.