1 PHẦN MỞ ĐẦU
1.1 Lời nói đầu
Survival – Phân tích sự tồn tại
_ Phân tích sống sót_ Phân tích sống sót_ Phân tích sự
kiện
Phân tích sống sót hoặc Phân tích sự
kiện khi nhà nghiên cứu muốn tìm hiểu ảnh hưởng đến các biến
kết cục (biến phụ thuộc) mang tính thời
gian.
Khi so sánh 2 phương pháp điều trị cho các bệnh có tần số tử vong
cao như bệnh AIDS, các bệnh ung thư. Nếu mô hình phân tích như
phân tích hồi qui logistic, chỉ để ý đến biến kết cục
(sống/chết hoặc khỏi bệnh/không khỏi bệnh) mà
không quan tâm đến yếu tố thời gian thì tôi không tìm thấy sự
khác biệt giữa 2 phương pháp điều trị vì tỉ lệ tử vong gần như nhau,
nhưng thời gian dẫn đến tử vong ở 2 nhóm có thể khác nhau.
=> Vì vậy chúng ta phải sử dụng mô hình Phân tích sống
sót thì mới thấy sự khác biệt này. Như vậy mô hình nghiên cứu
mô tả kết cục là biến mang 2 giá trị đối lập (sống/chết) tuy
quan trọng nhưng không chính xác.
Mô hình chính để thể hiện mối liên hệ giữa thời gian dẫn đến sự
kiện (sống/chết, …) và các yếu tố nguy cơ (risk
factors) là mô hình có tên là “survival analysis – Phân
tích sống sót”. Cụm từ survival analysis xuất phát
từ nghiên cứu trong bảo hiểm, và giới nghiên cứu y khoa từ đó dùng cụm
từ cho bộ môn của mình. Nhưng như nói trên, sống/chết không
phải là biến duy nhất, vì trong thực tế chúng ta cũng có những biến cố
có bệnh hay không bệnh, xảy ra hay không xảy ra. Ngoài ra,
trong các bộ môn kĩ thuật, người ta dùng một cụm từ khác
“reliability analysis – Phân tích độ tin cậy”, để chỉ
cho khái niệm survival analysis. Tuy nhiên trong đề tài này
chúng tôi sẽ dùng cụm từ Phân tích sống sót.
1.2 Lý do chọn đề tài
Mô hình hóa dữ liệu thời gian đến sự kiện là một
chủ đề quan trọng với nhiều ứng dụng trong các lĩnh vực khác nhau. Tập
hợp các phương pháp để phân tích dữ liệu đó được gọi là phân tích sự tồn
tại, phân tích lịch sử sự kiện hoặc phân tích thời gian. Phân
tích sống sót được áp dụng rộng rãi vì định nghĩa về một
‘sự kiện’ có thể rất đa dạng và các ví dụ bao gồm chết và
sống, thành công và phá sản, tiếp tục hoặc hủy
bỏ. Do đó, các lĩnh vực ứng dụng bao gồm từ y học và xã hội học đến
tiếp thị và kinh tế. Trong bài tiểu luận này, chúng ta xem xét các
vấn đề cơ bản về lý thuyết của phân tích sống sót
bao gồm các công cụ ước tính cho các chức năng sinh tồn và rủi ro và
cách thực hành trên R dựa trên package
survival.
Đặc biệt, trong thời đại hiện nay vừa trải qua dịch bệnh
Covid-19 gây ảnh hưởng rất lớn đến sức khỏe,
kinh tế và xã hội của toàn thế giới. Do đó việc áp dụng phân tích
sống sót cho dịch bệnh Covid 19 là việc có ý nghĩa rất
quan trọng. Cụ thể, phân tích sống sót Covid-19 có thể đưa ra
các dự đoán về số ca nhiễm và tử vong trong tương lai dựa trên các mô
hình dự đoán, đánh giá khả năng ảnh hưởng của các biện pháp phòng chống
dịch bệnh và đưa ra các giải pháp để giảm thiểu tác động của dịch bệnh
đến sức khỏe và kinh tế.
Thấy được tầm quan trọng cũng như tiềm năng khi phân tích sự tồn
tại của package survival trong thời điểm hiện tại, chúng
tôi mong muốn có thể kết hợp các ngôn ngữ lập trình để
giải quyết vấn đề trong kinh tế xã hội hiện và mô hình này sẽ giúp ích
cho việc phân tích các nguy cơ, sự sống sót có thể xảy ra từ đó
có thể dễ dàng giải quyết được các vấn đề quan trọng.
1.3 Mục đích đề tài
Một ưu điểm của Phân tích sống sót là xử lý được
các trường hợp đối tượng nghiên cứu bỏ cuộc giữa chừng (như mất
dấu theo dõi, ngưng điều trị do tác dụng phụ của thuốc hoặc tử vong do
bệnh lý khác…).
Trong mô hình phân tích này các đối tượng còn sống kể cả đối tượng
bỏ cuộc được gọi là censored hoặc sự kiện chưa xảy
ra. Các đối tượng tử vong hoặc hết sống được gọi là
events hoặc sự kiện đã kết thúc. Mục tiêu suy luận
đối với phân tích sống sót là khoảng thời gian giữa thời điểm bắt đầu và
thời điểm sự kiện xảy ra. Trong nghiên cứu y học hiện nay, phân tích
sống sót được sử dụng rộng rãi trong các nghiên cứu lâm sàng để đánh giá
hiệu quả của một phương phương điều trị hoặc để đánh giá tình trạng sống
sót của một số các biện pháp điều trị ung thư. Trong kinh tế xã hội,
phân tích sống sót được dùng để phân tích rủi ro/ nguy
cơ để đánh giá sự tồn tại, của một doanh nghiệp nào đó.
1.4 Đối tượng, phạm vi nghiên cứu
Đối tượng nghiên cứu
Phân tích sống sót tập trung mô tả cho một cá thể hay một nhóm cá
thể nhất định. Một điểm xác định của một sự kiện được gọi là
failure (như là xuất hiện bệnh, chữa khỏi bệnh, tử
vong, tái phát sau khi đáp ứng với điều trị…) mà xảy ra sau một
khoảng thời gian được gọi là failure time (thời gian
dẫn đến sự kiện) hoặc (follow-up time (thời gian
theo dõi) trong nghiên cứu thuần tập/nghiên cứu dựa vào dân số)
trong suốt thời gian các cá thể được quan sát. Để xác định thời gian dẫn
đến sự kiện, chúng ta cần xác định thời điểm bắt đầu (có thể là ngày
nhận vào, ngày chẩn đoán…).
Phạm vi nghiên cứu
Trong bài báo này, chúng ta sẽ xem xét các vấn đề cơ bản về lý
thuyết của phân tích tỷ lệ sống sót bao gồm các công cụ ước tính cho các
chức năng sinh tồn và rủi ro.
Sau đó chúng ta sẽ sử dụng ngôn ngữ lập trình thống kê R để cho
phép ứng dụng thực tế của phương pháp này. Phép ước tính thường được
dùng để Phân tích sống sót được gọi là ước tính
KaplanMeier. Phép ước tính này giúp ta tính
được xác suất sống sót tích lũy tại các mốc thời gian khác nhau . Nếu
muốn so sánh sự khác biệt giữa 2 nhóm điều trị, dùng kiểm định log-rank
bằng cách so sánh 2 hàm xác suất tích lũy của 2 nhóm.
Nội dung chính của bài tiểu luận này là tìm hiểu về package
survival và thực hành trên R với package survival, vì vậy phần lý thuyết
về phân tích sống sót sẽ không được giải thích sâu.
3 LÝ THUYẾT PHÂN TÍCH SỐNG SÓT - SURVIVAL ANALYSIS
3.1 Phân tích sống sót là gì?
Phân tích sống sót (survival analysis) là một
phương pháp thống kê để đánh giá và dự đoán khả năng sống sót
hoặc thời gian đến sự kiện trong một tập dữ liệu.
Phân tích sống sót được sử dụng rộng rãi trong
nhiều lĩnh vực, bao gồm y học, y tế công cộng, kinh tế học, khoa học xã
hội, khoa học môi trường, khoa học dữ liệu và nghiên cứu thị trường. Nó
cung cấp một cách tiếp cận thống kê để đánh giá khả năng sống sót hoặc
thời gian đến sự kiện trong một tập dữ liệu, và đưa ra các dự đoán về
khả năng sống sót hoặc thời gian sống của một nhóm bệnh nhân hoặc cá
nhân trong tương lai.
Vậy, phân tích sống sót (Survival Analysis) liên
quan đến biến thời gian. Biến này ghi nhận thời gian từ lúc bắt
đầu theo dõi cho đến khi xảy ra sự kiện (time-to-failure/
time-to-event).
Các thuật ngữ cơ bản của phân tích sống sót bao
gồm:
• Dữ liệu thời gian và biến cố (time-to-event)
• Nhóm kiểm chứng (censoring)
• Hàm sinh tồn và hàm nguy cơ
Dữ liệu thời gian và biến cố
Trong nghiên cứu y học, rất hay gặp những trường hợp xảy ra sự
kiện liên quan đến thời gian. Ví dụ: thời gian chết, thời gian
khỏi bệnh sau khi điều trị, thời gian tái phát v.v… Tất cả các số
liệu liên quan đến những biến số như vậy gọi là số liệu sống sót
(survival data), mặc dù thuật ngữ này có
vẻ mô tả không chính xác bản chất của số liệu.
Ví dụ về các dữ liệu thời gian -sự kiện
(time-to-event)
• Buld: Thời gian sống sót của bóng đèn (từ lúc sản xuất
đến khi bị hỏng)
• Deat: Tử vong ( thời gian từ lúc bệnh nhân được chuẩn
đoán một loại bệnh nào đó đến khi họ tử vong) Những vấn đề gặp phải khi
sử dụng SA
• Data censoring and truncation: Số liệu bị cắt xén.
• Conditional probability: Xác suất có điều kiện.
Nhóm kiểm chứng
Để thực hiện phân tích sống sót, người ta cần ghi lại
thời gian diễn ra sự kiện 𝑡i cho các đối tượng
𝑖∈{1,…,𝑁} của một nhóm. Tuy nhiên, điều này không phải
lúc nào cũng khả thi và chúng ta chỉ có một phần thông tin về thời gian
diễn ra sự kiện. Trong trường hợp như vậy, người ta nói về kiểm
chứng. Cụ thể, một bệnh nhân có thời gian sống sót được kiểm
chứng nếu sự kiện chưa xảy ra đối với bệnh nhân này. Điều này có thể xảy
ra khi:
• Bệnh nhân bỏ nghiên cứu, ví dụ: ngừng đến phòng khám để tái
khám.
• Nghiên cứu các mốc thời gian cố định và sự kiện xảy ra sau thời
hạn.
Những ví dụ trên được gọi là right-censoring .Trong
hình bên dưới, chúng ta hình dung ý nghĩa của việc kiểm chứng:

Bản tóm tắt về các loại kiểm chứng:
• Kiểm chứng loại I: Tất cả các đối tượng bắt đầu và
kết thúc nghiên cứu cùng một lúc (thời lượng nghiên cứu cố định). Ví dụ
là các thí nghiệm trong phòng thí nghiệm.
• Kiểm chứng loại II: Tất cả các đối tượng bắt đầu
nghiên cứu cùng một lúc nhưng nghiên cứu kết thúc thì một số lượng đối
tượng cố định được xác định trước đã trải qua sự kiện (thời lượng nghiên
cứu linh hoạt). Ví dụ là các thí nghiệm trong phòng thí nghiệm.
• Kiểm chứng loại III: Các đối tượng tham gia nghiên
cứu vào các thời điểm khác nhau, nhưng thời lượng của nghiên cứu là cố
định. Ví dụ là các thử nghiệm lâm sàng.
3.2 Các hàm được sử dụng trong phân tích sống sót
Hàm sinh tồn
Đường cong tỷ lệ sống sót 𝑆(𝑡) biểu thị tỷ lệ
sống sót là một hàm của thời gian (t):
𝑆(𝑡)=𝑃𝑟(𝑇>𝑡)
Giá trị của hàm S(t) là tỷ lệ sống sót của một
nhóm vào thời điểm (t) so với thời điểm bắt đầu quan
sát.
Hàm sinh tồn có các thuộc tính sau:
Khoảng xác định của thời gian là 𝑡 ∈ [ 0 , ∞ )
.
𝑆(𝑡) luôn giảm, nghĩa là
𝑆(𝑡1)≥𝑆(𝑡2) với 𝑡1≤𝑡2
Tại thời điểm 𝑡=0, 𝑆(𝑡=0)=1, tức là xác suất sống
sót qua thời điểm 0 là 1.
Công cụ ước tính cho hàm sinh tồn
Công thức ước lượng Kaplan–Meier (KM) của hàm
sinh tồn 𝑆𝐾𝑀(𝑡) được xác định bởi

Ước lượng này đúng với mọi 𝑡>0 và nó chỉ phụ
thuộc vào hai biến, 𝑛𝑖 và 𝑑𝑖 là:
Hàm nguy cơ
Hàm nguy cơ (hazard function) là một khái niệm quan trọng trong
phân tích sống sót (survival analysis), được sử dụng để mô tả tốc độ xảy
ra sự kiện trong một nhóm dân số theo thời gian.
Công thức của hàm nguy cơ thường được biểu diễn dưới dạng:
h(t) = lim Δt → 0 [P(t ≤ T < t + Δt | T ≥ t) / Δt]
Trong đó:
t là thời gian quan sát, T là thời gian xảy ra sự kiện, Δt là một
khoảng thời gian rất nhỏ, tiến tới 0.
P(t ≤ T < t + Δt | T ≥ t) là xác suất xảy ra sự kiện trong
khoảng thời gian từ t đến t + Δt, biết rằng sự kiện đã không xảy ra
trước thời điểm t
Giá trị của hàm h(t) là tốc độ xảy ra sự kiện (event rate) tại
thời điểm t. Ví dụ, nếu h(10) = 0.05 nghĩa là tại thời điểm 10 đơn vị
thời gian sau khi bắt đầu quan sát, tốc độ xảy ra sự kiện là 0.05 sự
kiện trên một đơn vị thời gian.
Có nhiều phương pháp để ước tính hàm nguy cơ, nhưng phương pháp
phổ biến nhất là mô hình Cox Proportional
Hazards (mô hình tỷ lệ nguy cơ đồng nhất)
- Mô hình Cox Proportional Hazards:
Đây là một phương pháp để tính toán hàm nguy cơ.
Mô hình Cox Proportional Hazards được sử dụng để đánh
giá tác động của các yếu tố đến xác suất sống sót của một đối tượng hoặc
một nhóm đối tượng. Để tính toán hàm nguy cơ bằng mô hình Cox
Proportional Hazards, trước tiên ta phải xác định các yếu tố ảnh
hưởng đến xác suất sống sót và thu thập các dữ liệu liên quan đến các
yếu tố đó. Sau đó, ta sử dụng các phương pháp ước tính hợp lý để tính
toán các tham số của mô hình Cox Proportional
Hazards.
4 THỰC HÀNH VỚI PACKAGE SURVIVAL - PHÂN TÍCH SỐNG SÓT
4.1 Cài đặt và sử dụng package survival
Để sử dụng package survival trên
RStudio, ta thực hiện các bước sau:
Bước 1: Cài đặt package survival
Bạn có thể cài đặt package survival bằng cách chạy
lệnh sau trong RStudio:
install.packages("survival")
Nếu package đã được cài đặt trước đó, bạn có thể bỏ qua bước
này.
Bước 2: Tải package survival
Sau khi cài đặt, bạn cần gọi package survival bằng
lệnh sau:
# Gọi package survival từ thư viện
library(survival)
Bước 3: Sử dụng các hàm của package
survival
Sau khi đã tải package survival, bạn có thể sử dụng
các hàm của package này để phân tích dữ liệu thời gian đến sự kiện. Các
hàm này bao gồm:
survfit(): Tính toán các ước lượng sống sót bằng
phương pháp Kaplan-Meier hoặc phương pháp
Nelson-Aalen.
coxph(): Phân tích mô hình hồi quy
Cox để tìm các yếu tố ảnh hưởng đến thời gian đến sự
kiện.
survreg(): Phân tích mô hình hồi quy
Cox để tìm các yếu tố ảnh hưởng đến thang đo thời gian đến sự
kiện không phải là dạng số nguyên (ví dụ: thời gian sống sót được đo
bằng giờ, ngày, tháng,…).
cox.zph(): Kiểm định giả thuyết về sự đồng nhất của
các hệ số hồi quy Cox theo thời gian.
4.2 Dataset lung - dữ liệu về ung thư phổi
Trong suốt phần này, chúng tôi sẽ sử dụng dataset
lung từ package survival làm dữ liệu phân
tích.
Dataset lung là một trong những tập dữ liệu tiêu
biểu của package survival được sử dụng trong nhiều ví dụ và
hướng dẫn về phân tích dữ liệu. Dataset này được tạo ra từ nghiên
cứu lâm sàng về ung thư phổi và bao gồm thông tin về 228
bệnh nhân ung thư phổi với các biến như tuổi, giới tính, mức độ
suy giảm chức năng phổi,…
Dataset lung được sử dụng để minh họa cho nhiều
khía cạnh khác nhau của phân tích dữ liệu, bao gồm mô hình hồi quy
tuyến tính, mô hình hồi quy logistic, phân tích phân nhóm và đặc
biệt là phân tích sống sót.
Để truy cập dataset lung từ package survival trong R,
ta sử dụng lệnh sau:
# Gọi dataset về dữ liệu bệnh nhân của cách bệnh ung thư -> chọn dataset lung
data(cancer)
Dữ liệu ung thư phổi - lung có cấu trúc như
sau:
# Hiển thị các thành phần của dữ liệu
str(lung)
## 'data.frame': 228 obs. of 10 variables:
## $ inst : num 3 3 3 5 1 12 7 11 1 7 ...
## $ time : num 306 455 1010 210 883 ...
## $ status : num 2 2 1 2 2 1 2 2 2 2 ...
## $ age : num 74 68 56 57 60 74 68 71 53 61 ...
## $ sex : num 1 1 1 1 1 1 2 2 1 1 ...
## $ ph.ecog : num 1 0 0 1 0 1 2 2 1 2 ...
## $ ph.karno : num 90 90 90 90 100 50 70 60 70 70 ...
## $ pat.karno: num 100 90 90 60 90 80 60 80 80 70 ...
## $ meal.cal : num 1175 1225 NA 1150 NA ...
## $ wt.loss : num NA 15 15 11 0 0 10 1 16 34 ...
Mô tả các biến của dữ liệu ung thư phổi -
lung
inst: Mã số của bệnh nhân.
time: Thời gian sống sót hoặc thời gian
theo dõi (ngày).
status: Tình trạng sống sau thời gian theo dõi
(1 = Sống sót, 2 = Qua đời).
age: Tuổi của bệnh nhân.
sex: Giới tính của bệnh nhân (1 = Nam, 2 =
Nữ).
ph.ecog: Mức độ suy giảm phổi của bệnh
nhân (0 = Tốt, 1 = Tàn phế nhẹ, 2 = Tàn phế trung bình, 3 = Tàn phế
nặng).
ph.karno: Điểm Karnofsky của bệnh nhân,
đo lường sức khỏe tổng thể (100 điểm là sức khỏe tốt nhất, 0 điểm là
bệnh nhân đã qua đời)
pat.karno: Điểm Karnofsky của bệnh nhân
dựa trên người chăm sóc (nếu có).
meal.cal: Lượng calo tiêu thụ hàng ngày
của bệnh nhân.
wt.loss: Mức độ giảm cân của bệnh nhân
trong 6 tháng trước đó.
Các biến time và status được sử
dụng trong phân tích sống sót, trong khi các biến còn lại được sử dụng
để đánh giá các yếu tố ảnh hưởng đến sống sót của bệnh nhân. Các biến
ph.ecog và ph.karno cung cấp thông tin
về sức khỏe tổng thể của bệnh nhân, trong khi các biến
meal.cal và wt.loss cung cấp thông tin
về chế độ ăn uống và mức độ giảm cân của bệnh nhân.
4.3 Xử lý dữ liệu ung thư phổi - lung
Lưu ý rằng trạng thái (status) được mã hóa theo
cách không chuẩn trong bộ dữ liệu này. Thông thường, dữ liệu của biến
status gồm 2 giá trị: 0= còn sống, 1= đã chết.
Để thay đổi giá trị dữ liệu của biến về giá trị 0
và 1, chúng ta sẽ dùng hàm mutate() trong
package dplyr. Hàm mutate() trong package
dplyr được sử dụng để thay đổi giá trị của các biến trong
một tập dữ liệu. Để thay đổi giá trị của một biến bằng
mutate(), bạn cần xác định tên biến và cung cấp cho nó một
biểu thức hoặc hàm để tính toán giá trị mới. Quá trình thay đổi giá trị
dữ liệu của biến được thực hiện như sau:
# Gọi package dplyr từ thư viện
library(dplyr)
# Chuyển đổi giá trị của biến status 1 => 0 và 2 => 1
lung <- lung %>% mutate(status = recode(status, '1' = 0, '2' = 1))
# Hiển thị 6 quan sát đầu tiên của 3 biến quan tâm
head(lung[c("time","status","sex")])
## time status sex
## 1 306 1 1
## 2 455 1 1
## 3 1010 0 1
## 4 210 1 1
## 5 883 1 1
## 6 1022 0 1
Ngoài ra, chúng ta sẽ chia tuổi của bệnh nhân thành 3 nhóm cho
tiện quá trình phân tích:
# Chia tuổi thành 3 nhóm tuổi
lung <- lung %>%mutate(age_group = case_when(
age < 50 ~ "dưới 50 tuổi",
age >= 50 & age <= 65 ~ "50 đến 65 tuổi",
age > 65 ~ "trên 65 tuổi",
TRUE ~ "không rõ"))
# Hiển thị 6 quan sát đầu tiên của 4 biến quan tâm
head(lung[c("time","status","sex", "age_group")])
## time status sex age_group
## 1 306 1 1 trên 65 tuổi
## 2 455 1 1 trên 65 tuổi
## 3 1010 0 1 50 đến 65 tuổi
## 4 210 1 1 50 đến 65 tuổi
## 5 883 1 1 50 đến 65 tuổi
## 6 1022 0 1 trên 65 tuổi
Bây giờ chúng ta một bộ dữ liệu mới với:
time: Thời gian sống sót hoặc thời gian theo dõi
(ngày)
status: Tình trạng sống sau thời gian theo dõi
(0 = Sống sót, 1 = Đã chết)
age_group: Tuổi của bệnh nhân theo nhóm tuổi
(dưới 50 tuổi, 50 đến 65 tuổi, trên 65 tuổi)
Lưu ý: hàm Surv() trong
package survival mặc định chấp nhận TRUE/FALSE, trong đó
TRUE là sự kiện và FALSE là kiểm duyệt; 1/0 trong đó 1 là sự kiện và
0 là kiểm duyệt; hoặc 2/1 trong đó 2 là sự kiện và 1 là kiểm duyệt.
Hãy cẩn thận để đảm bảo dữ liệu được định dạng đúng.
4.4 Tạo đối tượng sinh tồn
Trong phân tích sống sót, để thực hiện các phương pháp phân tích
dữ liệu sống sót, ta cần tạo đối tượng sống sót
(survival object) dựa trên các thông tin về thời
gian sống sót và trạng thái sự kiện của các đối tượng
trong một nghiên cứu. Sau đó, ta có thể sử dụng các hàm để vẽ đường sống
sót và ước lượng các mô hình sống sót.
Trong R, ta có thể tạo đối tượng sống sót bằng hàm
Surv(). Cú pháp của hàm này như sau:
Surv(time, event, type = "right")
Trong đó:
time: Là vector chứa thông tin về thời gian
sống sót hoặc thời gian theo dõi của các đối tượng. Đây có thể là
thời gian từ lần khám đầu tiên đến lần khám cuối cùng, thời gian từ điều
trị đến sự kiện xảy ra, hoặc thời gian từ lần phát hiện căn bệnh đến sự
kiện xảy ra.
event: Là vector chứa thông tin về trạng
thái sự kiện của các đối tượng. Giá trị của event có thể là
0 (còn sống) hoặc 1 (chết hoặc xảy ra sự kiện
quan tâm).
type: Là tham số xác định cách tính toán
thời gian sống sót. Giá trị mặc định của type là “right”, có nghĩa
là thời gian sống sót được tính từ thời điểm khám cuối cùng trừ đi thời
điểm xảy ra sự kiện. Nếu giá trị của type là “left”, thời gian sống sót
sẽ được tính từ thời điểm khám đầu tiên trừ đi thời điểm xảy ra sự
kiện.
Ví dụ, ta có dữ liệu về thời gian sống sót và trạng thái sự
kiện của 10 bệnh nhân đầu tiên như sau:
# Lấy biến time và status từ dataset lung và tạo đối tượng sinh tồn mới
Surv(lung$time, lung$status)[1:10]
## [1] 306 455 1010+ 210 883 1022+ 310 361 218 166
Ta thấy đối tượng 1 có sự kiện tại thời điểm
306 ngày, đối tượng 2 có sự kiện tại
thời điểm 455 ngày, đối tượng 3 bị
kiểm duyệt tại thời điểm 1010 ngày, …
4.5 Tính toán đường cong sống sót
Hàm survfit() là một hàm dùng để tính toán và vẽ
đường sống sót ước tính (survival curves) dựa trên dữ
liệu về thời gian sống sót và trạng thái sự kiện của các đối tượng trong
một nghiên cứu. Hàm survfit() là một trong những hàm cơ bản
của package survival được dùng để phân tích sống sót trên
R.
Cú pháp của hàm survfit() như sau:
survfit(formula, data, weights, ...)
Trong đó:
formula: là công thức mô tả mối quan hệ giữa đối
tượng sống sót và các biến giải thích. Công thức này có dạng
Surv(time, event) ~ x1 + x2 + …
data: là data frame chứa các biến trong công
thức.
weights: là vector chứa các trọng số cho mỗi
quan sát trong mô hình.
Tôi sẽ dùng lại đối tượng sống sót
Surv(lung$time, lung$status) để tạo các đường cong sống sót
bằng phương pháp Kaplan-Meier. Tôi tạo đường cong sinh
tồn tổng thể với tham số “~1” chỉ định rằng không có
biến độc lập nào được sử dụng để phân nhóm, gán nó cho đối tượng
survfit_lung và xem xét cấu trúc bằng hàm
str():
# Tính toán đường cong sống sót của tất cả bệnh nhân
survfit_lung <- survfit(Surv(time, status) ~ 1, data = lung)
# Hiển thị các thành phần của dữ liệu lung
str(survfit_lung)
## List of 16
## $ n : int 228
## $ time : num [1:186] 5 11 12 13 15 26 30 31 53 54 ...
## $ n.risk : num [1:186] 228 227 224 223 221 220 219 218 217 215 ...
## $ n.event : num [1:186] 1 3 1 2 1 1 1 1 2 1 ...
## $ n.censor : num [1:186] 0 0 0 0 0 0 0 0 0 0 ...
## $ surv : num [1:186] 0.996 0.982 0.978 0.969 0.965 ...
## $ std.err : num [1:186] 0.0044 0.00885 0.00992 0.01179 0.01263 ...
## $ cumhaz : num [1:186] 0.00439 0.0176 0.02207 0.03103 0.03556 ...
## $ std.chaz : num [1:186] 0.00439 0.0088 0.00987 0.01173 0.01257 ...
## $ type : chr "right"
## $ logse : logi TRUE
## $ conf.int : num 0.95
## $ conf.type: chr "log"
## $ lower : num [1:186] 0.987 0.966 0.959 0.947 0.941 ...
## $ upper : num [1:186] 1 1 0.997 0.992 0.989 ...
## $ call : language survfit(formula = Surv(time, status) ~ 1, data = lung)
## - attr(*, "class")= chr "survfit"
Một số thành phần chính của đối tượng survfit này
sẽ được sử dụng để tạo các đường cong sống sót bao gồm:
time: Các mốc thời gian mà tại đó đường
cong có một bước, tức là ít nhất một sự kiện đã xảy ra.
surv: Uớc tính tỷ lệ sống sót tại thời
điểm tương ứng.
Tuy nhiên, để so sánh tỉ lệ sống sót giữa hai giới tính nam và
nữ, tôi sẽ thêm yếu tố giới tính “~sex” vào hàm
survfit() phân nhóm thành các đường cong sống sót theo
giới tính, gán nó cho đối tượng survfit_lung_bysex
và xem cấu trúc bằng hàm str():
# Tính toán đường cong sống sót theo giới tính
survfit_lung_bysex <- survfit(Surv(time, status) ~ sex, data = lung)
# Hiển thị các thành phần của dữ liệu lung
str(survfit_lung_bysex)
## List of 17
## $ n : int [1:2] 138 90
## $ time : num [1:206] 11 12 13 15 26 30 31 53 54 59 ...
## $ n.risk : num [1:206] 138 135 134 132 131 130 129 128 126 125 ...
## $ n.event : num [1:206] 3 1 2 1 1 1 1 2 1 1 ...
## $ n.censor : num [1:206] 0 0 0 0 0 0 0 0 0 0 ...
## $ surv : num [1:206] 0.978 0.971 0.957 0.949 0.942 ...
## $ std.err : num [1:206] 0.0127 0.0147 0.0181 0.0197 0.0211 ...
## $ cumhaz : num [1:206] 0.0217 0.0291 0.0441 0.0516 0.0593 ...
## $ std.chaz : num [1:206] 0.0126 0.0146 0.018 0.0195 0.021 ...
## $ strata : Named int [1:2] 119 87
## ..- attr(*, "names")= chr [1:2] "sex=1" "sex=2"
## $ type : chr "right"
## $ logse : logi TRUE
## $ conf.int : num 0.95
## $ conf.type: chr "log"
## $ lower : num [1:206] 0.954 0.943 0.923 0.913 0.904 ...
## $ upper : num [1:206] 1 0.999 0.991 0.987 0.982 ...
## $ call : language survfit(formula = Surv(time, status) ~ sex, data = lung)
## - attr(*, "class")= chr "survfit"
Ngoài ra, tôi sẽ đưa vào 2 yếu tố khác vào hàm
survfit() để phân nhóm thành các đường cong sống sót theo
suy giảm chức năng phổi (ph.ecog) và
nhóm tuổi (age_group):
survfit_lung_byph <- survfit(Surv(time, status) ~ ph.ecog, data = lung)
survfit_lung_byage <- survfit(Surv(time, status) ~ age_group, data = lung)
4.6 Đường cong sống sót Kaplan-Meier
Để vẽ đường cong sống sót Kaplan-Meier đơn giản trên R,
tôi dùng hàm cơ bản là hàm plot() để vẽ đồ thị như sau:
plot(surv_fit, main = "Đường cong sinh tồn Kaplan Meier", xlab = "Thời gian", ylab = "Xác suất sống sót")
Trong đó:
surv_fit: là biến được gán bởi hàm
survfit() dùng để tính toán đường cong sinh tồn (xem phần
4.4)
Đường cong sống sót Kaplan Meier đơn giản
Tiếp tục bộ dữ liệu ung thư phổi - lung.
chúng ta có đồ thị về đường cong sống sót Kaplan-Meier đơn giản
như sau:
plot(survfit_lung, xlab = "Thời gian (ngày)", ylab = "Xác suất sống sót", main = "Đường cong sinh tồn Kaplan Meier", col = c("blue"), lwd = 2)

=> Nhận xét đồ thị: đường cong sống sót của dữ liệu ung thư phổi -
lung là một đường cong với xu hướng giảm liên tục.
Ngoài hàm plot() cơ bản trong R, ta có thể sử dụng
package survminer và sử dụng hàm ggsurvplot()
để vẽ đồ thị:
ggsurvplot(survfit_lung, data = lung, risk.table = TRUE, pval = TRUE, legend.title = "Giới Tính", xlab = "Thời gian (ngày)", ylab = "Xác suất sống sót",)

Đường cong sống sót Kaplan Meier theo yếu tố giới
tính
Nâng cao hơn, ta có thể vẽ đường cong sống sót Kaplan-Meier cho
từng nhóm được phân loại theo yếu tố. Trong ví dụ này, đường cong sống
sót Kaplan-Meier được vẽ mỗi nhóm giới tính khác nhau trong dữ liệu ung
thư phổi:
ggsurvplot(survfit_lung_bysex, data = lung, risk.table = TRUE, pval = TRUE, legend.title = "Giới Tính", xlab = "Thời gian (ngày)", ylab = "Xác suất sóng sót")

=> Nhận xét đồ thị: có sự khác biệt về xác suất sống sót giữa 2
nhóm nhớm tính (p=0.0013 < 0.05) và giới tính nam (sex=1) có xác suất
sóng sót qua thời gian thấp hơn giới tính nữ (sex=1)
Đường cong sinh tồn Kaplan Meier theo yếu tố mức độ suy
giảm chức năng phổi
Đường cong sinh tồn Kaplan-Meier được vẽ mỗi nhóm suy giảm chức
năng phổi khác nhau trong dữ liệu ung thư phổi-lung:
ggsurvplot(survfit_lung_byph, data = lung, risk.table = TRUE, pval = TRUE, legend.title = "Mức độ suy giảm chức năng phổi", xlab = "Thời gian (ngày)", ylab = "Xác suất sóng sót")

=> Nhận xét đồ thị: có sự khác biệt đáng kể giữa các mức độ suy
giảm chức năng phổi (p~0.0001 < 0.05) và mức độ suy giảm chức năng
phổi càng càng cao thì xuất suất sóng sốt qua thời gian càng thấp.
Đường cong sinh tồn Kaplan Meier theo từng nhóm
tuổi
Đường cong sinh tồn Kaplan-Meier được vẽ mỗi nhóm nhóm tuổi khác
nhau trong dữ liệu ung thư phổi:
ggsurvplot(survfit_lung_byage, data = lung, risk.table = TRUE, pval = TRUE, legend.title = "Nhóm tuổi", xlab = "Thời gian (ngày)", ylab = "Xác suất sóng sót")

=> Nhận xét đồ thị: không có sự khác nhau đáng kể giữa các nhóm
tuổi (p= 0.18 > 0.05) khi xác suất sống sót giữa các độ tuổi trong
500 ngày đầu gần như không có sự khác biệt.
4.7 So sánh các đường cong sinh tồn
Để so sánh các đường cong sinh tồn trên R bằng
log-rank, bạn có thể sử dụng hàm
survdiff() trong gói survival. Hàm này cho
phép bạn tính toán giá trị thống kê log-rank và
giá trị p để so sánh đường cong sinh tồn giữa hai hoặc
nhiều nhóm. Sau đây là một ví dụ cụ thể về cách thực hiện so sánh các
đường cong sinh tồn bằng log-rank trên R:
survdiff(surv_obj ~ x1, data)
Trong đó:
Kết quả của kiểm định log-rank bao gồm
giá trị chi-squared và giá trị p. Nếu
giá trị p nhỏ hơn mức ý nghĩa được chọn trước (thường
là 0,05), bạn có thể kết luận rằng có sự khác biệt đáng
kể về tỷ lệ sống sót giữa các nhóm được so sánh.
Trong ví dụ này, đường cong sinh tồn Kaplan-Meier
được tính toán cho mỗi nhóm giới tính và mức độ suy giảm chức
năng phổi và mỗi nhóm tuổi khác nhau trong dữ liệu ung thư phổi
như sau:
# So sánh 2 nhóm giới tính của dữ liệu lung
logrank_test1 <- survdiff(with(lung, Surv(time, status)) ~ sex, data = lung)
# So sánh 4 nhóm mức độ suy giảm chức năng phổi
logrank_test2 <- survdiff(with(lung, Surv(time, status)) ~ ph.ecog, data = lung)
# So sánh 3 nhóm độ tuổi
logrank_test3 <- survdiff(with(lung, Surv(time, status)) ~ age_group, data = lung)
print(logrank_test1)
## Call:
## survdiff(formula = with(lung, Surv(time, status)) ~ sex, data = lung)
##
## N Observed Expected (O-E)^2/E (O-E)^2/V
## sex=1 138 112 91.6 4.55 10.3
## sex=2 90 53 73.4 5.68 10.3
##
## Chisq= 10.3 on 1 degrees of freedom, p= 0.001
print(logrank_test2)
## Call:
## survdiff(formula = with(lung, Surv(time, status)) ~ ph.ecog,
## data = lung)
##
## n=227, 1 observation deleted due to missingness.
##
## N Observed Expected (O-E)^2/E (O-E)^2/V
## ph.ecog=0 63 37 54.153 5.4331 8.2119
## ph.ecog=1 113 82 83.528 0.0279 0.0573
## ph.ecog=2 50 44 26.147 12.1893 14.6491
## ph.ecog=3 1 1 0.172 3.9733 4.0040
##
## Chisq= 22 on 3 degrees of freedom, p= 7e-05
print(logrank_test3)
## Call:
## survdiff(formula = with(lung, Surv(time, status)) ~ age_group,
## data = lung)
##
## N Observed Expected (O-E)^2/E (O-E)^2/V
## age_group=50 đến 65 tuổi 116 81 87.1 0.428 0.916
## age_group=dưới 50 tuổi 20 11 15.4 1.238 1.373
## age_group=trên 65 tuổi 92 73 62.5 1.753 2.855
##
## Chisq= 3.5 on 2 degrees of freedom, p= 0.2
Kết quả kiểm định:
Nhóm giới tính (male-female): giá trị p=
0.001 < 0.05 nên có thể kết luận rằng có sự khác biệt
đáng kể giữa nhóm giới tính nam và nữ về tỉ lệ sống sót.
Nhóm Mức độ suy giảm phổi của bệnh nhân
(0 = Tốt, 1 = Tàn phế nhẹ, 2 = Tàn phế trung bình, 3 = Tàn phế
nặng): giá trị p= 7e-05 < 0.05 nên có thể
kết luận rằng có sự khác biệt đáng kể giữa các nhóm mức độ về tỉ lệ
sống sót.
Nhóm Độ tuổi ( dưới 50, 50 đến 65, trên 65): giá
trị p= 0.2 > 0.05 nên có thể kết luận rằng không
có sự khác biệt đáng kể giữa 3 nhóm tuổi được xét.
4.8 Mô hình hồi quy Cox
Mô hình Cox (Cox proportional hazards model) là
một phương pháp hồi quy theo tỉ lệ nguy cơ, được sử dụng trong
phân tích sống sót để đánh giá tác động của các biến độc lập đến tỉ lệ
sống sót. Trong R, chúng ta có thể sử dụng hàm coxph()
trong package survival để tạo một mô hình
Cox. Để tạo một mô hình Cox trên R, tôi dùng hàm sau:
coxph(surv_obj ~ x1 + x2 + ..., data = mydata)
Trong đó:
Tiếp tục với dữ liệu ung thư phổi - lung theo
biến giới tính, chúng ta có mô hình Cox như sau:
# Tạo mô hình cox theo giới tính
coxfit <- coxph(Surv(time, status) ~ sex, data = lung)
coxfit
## Call:
## coxph(formula = Surv(time, status) ~ sex, data = lung)
##
## coef exp(coef) se(coef) z p
## sex -0.5310 0.5880 0.1672 -3.176 0.00149
##
## Likelihood ratio test=10.63 on 1 df, p=0.001111
## n= 228, number of events= 165
4.9 Kiểm định sự phù hợp của mô hình Cox
Trong R, để kiểm tra tính phù hợp của mô hình
Cox với giả định độc lập về thời gian (proportional
hazards assumption), chúng ta có thể sử dụng hàm
cox.zph() trong package survival.
Cú pháp sử dụng hàm cox.zph() như sau:
cox.zph(model, transform = "km")
Trong đó:
model: Là đối tượng mô hình Cox đã được ước
lượng bằng hàm coxph() trong gói survival.
transform: Là phương pháp biến đổi thời gian
(time transformation) được sử dụng để tính toán các thống kê kiểm định.
Giá trị mặc định là “km” tương ứng với phương pháp đường chéo
Kaplan-Meier.
Các biến độc lập được kiểm tra bằng cách tính toán hệ số tương
quan giữa các giá trị dự đoán của hàm Cox và
các hàm đường chéo Kaplan-Meier tương ứng với từng nhóm
giá trị của biến độc lập đó. Nếu giá trị p của kiểm định nhỏ hơn một
ngưỡng xác định (thường là 0.05), ta có thể bác bỏ giả
định độc lập về thời gian và cần phải tìm cách điều
chỉnh mô hình Cox để phù hợp hơn với dữ liệu.
Ví dụ với mô hình Cox đã được tạo từ hàm coxph() (xem phần 4.8), ta
kiểm định như sau:
# Kiểm định mô hình cox
cox.zph(coxfit, transform = "km")
## chisq df p
## sex 2.86 1 0.091
## GLOBAL 2.86 1 0.091
Kết quả cho thấy: giá trị p= 0.091 > 0.05 nên
mô hình Cox được tạo trên là phù hợp.
4.10 So sánh tỉ lệ tử vong giữa hai nhóm bằng mô hình Cox
Từ mô hình Cox, tôi có thể thu được các bảng kết
quả kiểm định giữa hai nhóm giới tính bằng cách sử dụng
hàm tbl_regression() từ package gtsummary, với
tùy chọn exp = TRUE để trả về tỷ lệ rủi ro:
# Gọi package gtsummary từ thư viện
library("gtsummary")
# Tạo mô hình cox theo giới tính và trả về tỷ lệ rủi ro HR
coxph(Surv(time, status) ~ sex, data = lung) %>% tbl_regression(exp = TRUE)
| Characteristic |
HR |
95% CI |
p-value |
| sex |
0.59 |
0.42, 0.82 |
0.001 |
HR biểu thị tỷ lệ nguy cơ giữa hai nhóm
tại bất kỳ thời điểm cụ thể nào. HR < 1 cho thấy
nguy cơ tử vong giảm trong khi HR > 1 cho thấy nguy
cơ tử vong tăng lên.
- Kết quả từ hàm
tbl_regression() cho thấy: Giá trị
p=0.001<0.05 nên kết quả trên là có ý nghĩa thống kê. HR =
0,59 ngụ ý rằng số nam giới sắp chết nhiều gấp
0,59 lần so với nữ giới, tại bất kỳ thời điểm nào. Nói cách
khác, phụ nữ có nguy cơ tử vong thấp hơn đáng kể so với nam giới trong
các dữ liệu này.
Áp dụng với yếu tố mức độ suy giảm chức năng phổi ph.ecog:
# Tạo mô hình cox theo mức độ suy giảm chức năng phổi và trả về tỷ lệ rủi ro HR
coxph(Surv(time, status) ~ ph.ecog, data = lung) %>% tbl_regression(exp = TRUE)
| Characteristic |
HR |
95% CI |
p-value |
| ph.ecog |
1.61 |
1.29, 2.01 |
<0.001 |
- Kết quả từ hàm
tbl_regression() cho thấy: Giá trị
p=0.001<0.05 nên kết quả trên là có ý nghĩa thống kê. HR =
1.61 ngụ ý cho thấy nguy cơ tử vong tăng lên theo mức độ suy
giảm chức năng phổi và với mỗi mức suy giảm chức năng phổi tăng lên thì
xuất sắc bệnh nhân sắp chết có thể tăng theo 1,61
lần.
4.11 Dự đoán tỉ lệ sống sót trong tương lai
Đ ể dự đoán tỉ lệ sống sót của một cá nhân dựa trên mô hình Cox đã
được ước lượng trên R, chúng ta có thể sử dụng hàm
predict() trong package survival.
Cú pháp sử dụng hàm predict() để dự đoán tỉ lệ sống sót
của một cá nhân như sau:
predict(object, newdata, type = "survival")
Trong đó:
object: Là đối tượng mô hình Cox đã
được ước lượng bằng hàm coxph() trong package
survival.
newdata: Là bộ dữ liệu chứa thông tin về các
biến độc lập của biến cần dự đoán. Bộ dữ liệu này phải có cùng tên
và định dạng với bộ dữ liệu được sử dụng để ước lượng mô hình.
type: Là loại dự đoán cần thực hiện. Trong
trường hợp này, ta sử dụng type = "survival" để dự đoán tỉ
lệ sống sót.
Ví dụ: tôi muốn sự báo tỉ lệ sống sót của nhóm giới tính
Nam vào ngày thứ 1050, tôi thực hiện các bước
dự báo như sau:
# Tạo mô hình cox để dự báo
mod <- coxph(Surv(time,status) ~+ sex, data = cancer)
# Tạo 1 dòng quan sát mới để dự báo
pred_dat <- data.frame(time = c(1050), status = c(0), sex = c(0))
# Tiến hành dự báo bằng hàm predict
preds <- predict(mod, newdata = pred_dat,
type = "survival", se.fit = TRUE)
# Lọc xác suất sống sót từ biến preds
pred_dat$prob <- preds$fit
pred_dat
## time status sex prob
## 1 1050 0 0 0.002573077
Kết quả: vào ngày 1050, với trạng thái sóng
sốt (0) và giới tính Nam (0) ta có tỉ lệ sống
sót là 0.00257
4.12 Kết quả phân tích dữ liệu ung thư phổi - lung
Thông qua các bước thực hành phân tích sống sót trên R với dữ liệu
ung thư phổi - lung, chúng ta có bản tóm tắt các kết quả:
- Dataset lung là một trong những tập dữ liệu tiêu
biểu của package
survival được sử dụng trong nhiều ví dụ và
hướng dẫn về phân tích dữ liệu. Dataset này được tạo ra từ nghiên
cứu lâm sàng về ung thư phổi và bao gồm thông tin về 228
bệnh nhân ung thư phổi với các biến như tuổi, giới tính, mức độ
suy giảm chức năng phổi,…
- Biến time, status là tổ hợp biến
time-to-event (dữ liệu thời gian - sự kiện) được dùng
để phân tích sống sót trong R. Bên cạnh đó, biến age, sex,
ph.ecog là 3 biến yếu tố dùng để phân nhóm và đánh giá ảnh
hưởng của chúng lên tỉ lệ sống sót.
- Đồ thị sống sót tổng thể của bệnh nhân ung thư
phổi:

- Đồ thị đường cong sóng sót là đồ thị liên tục giảm, không có xu
hướng tăng ở bất kỳ thời điểm nào vì bệnh nhân chết đi không thể
sống lại.
Yếu tố giới tính có ảnh hưởng đến tỉ lệ sóng sót
của bệnh nhân, trong đó bệnh nhanh mang giới tính nam có tỉ lệ sóng sót
qua thời gian thấp hơn so với bệnh nhân mang giới tính nữ.
Yếu tố mức độ suy giảm chức năng phổi có ảnh hưởng đến tỉ
lệ sống sót của bệnh nhân, trong đó bệnh nhân có mức độ suy
giảm phổi càng lớn thì tỉ lệ sống sót qua thời gian càng thấp.
Yếu tố độ tuổi gần như không có ảnh hưởng đến tỉ
lệ sống sót của bệnh nhân.
