library(readr)
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.3
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(skimr)
## Warning: package 'skimr' was built under R version 4.3.3
library(psych)
## Warning: package 'psych' was built under R version 4.3.3
## 
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
## 
##     %+%, alpha
library(csv)
## Warning: package 'csv' was built under R version 4.3.3
library(DT)
## Warning: package 'DT' was built under R version 4.3.3
library(pander)
## Warning: package 'pander' was built under R version 4.3.3
library(formattable)
## Warning: package 'formattable' was built under R version 4.3.3
library(htmltools)
## 
## Attaching package: 'htmltools'
## The following object is masked from 'package:pander':
## 
##     p
library(DescTools)
## Warning: package 'DescTools' was built under R version 4.3.3
## 
## Attaching package: 'DescTools'
## The following objects are masked from 'package:psych':
## 
##     AUC, ICC, SD
library(epitools)

Phần 1. TÌM HIỂU VÀ CHUẨN BỊ DỮ LIỆU

Bộ dữ liệu này mô phỏng hồ sơ bệnh nhân COVID-19 tại Đan Mạch, tập trung vào các yếu tố như lần nhiễm đầu tiên, tái nhiễm, tiêm vắc-xin, hội chứng hậu COVID (long COVID), cùng các thông tin nhân khẩu học và kết quả lâm sàng quan trọng. Dữ liệu bao gồm 3.000 hồ sơ tổng hợp với 26 đặc trưng liên quan, được thiết kế sát với thực tế nhằm phục vụ cho việc phân tích khám phá, mô hình dịch tễ học và mục đích giáo dục.

Toàn bộ dữ liệu đều là dữ liệu tổng hợp (synthetic), tái hiện các xu hướng thực tế từng ghi nhận trong giai đoạn đại dịch 2020–2024, đảm bảo an toàn khi sử dụng công khai. Bộ dữ liệu này phù hợp cho các ứng dụng như học máy, phân tích sống sót (survival analysis), khám phá yếu tố nguy cơ và nhiều nghiên cứu khác.

d <- read.csv("D:/PTDLDT/covid_related_disease_data.csv")
str(d)
## 'data.frame':    3000 obs. of  21 variables:
##  $ Patient_ID           : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ Age                  : int  69 38 41 81 50 66 76 77 79 72 ...
##  $ Gender               : chr  "Male" "Male" "Female" "Female" ...
##  $ Region               : chr  "Hovedstaden" "Sjælland" "Syddanmark" "Hovedstaden" ...
##  $ Preexisting_Condition: chr  "Obesity" "Asthma" "Hypertension" "Asthma" ...
##  $ Date_of_Infection    : chr  "21/06/2022" "02/02/2024" "28/05/2023" "13/08/2023" ...
##  $ COVID_Strain         : chr  "Delta" "XBB.1.5" "Beta" "Delta" ...
##  $ Symptoms             : chr  "Mild" "Mild" "Mild" "Severe" ...
##  $ Severity             : chr  "Moderate" "Moderate" "High" "High" ...
##  $ Hospitalized         : chr  "Yes" "No" "Yes" "No" ...
##  $ ICU_Admission        : chr  "No" "No" "Yes" "No" ...
##  $ Ventilator_Support   : chr  "No" "No" "Yes" "No" ...
##  $ Recovered            : chr  "Yes" "No" "No" "Yes" ...
##  $ Reinfection          : chr  "No" "No" "No" "Yes" ...
##  $ Vaccination_Status   : chr  "Yes" "No" "Yes" "Yes" ...
##  $ Vaccine_Type         : chr  "None" "None" "Janssen" "AstraZeneca" ...
##  $ Doses_Received       : int  1 0 3 1 2 3 0 3 0 1 ...
##  $ Long_COVID_Symptoms  : chr  "None" "None" "None" "None" ...
##  $ Occupation           : chr  "Healthcare" "Healthcare" "Unemployed" "Office Worker" ...
##  $ Smoking_Status       : chr  "No" "No" "No" "No" ...
##  $ BMI                  : num  27.7 21.9 22.7 27.7 11.9 29.8 22.3 24.4 26.1 21.2 ...
  • Bộ dữ liệu covid_related_disease_data chứa tổng cộng 3.000 bản ghi với 21 biến đặc trưng mô tả thông tin liên quan đến bệnh nhân nhiễm COVID-19.
  • Các biến trong bộ dữ liệu bao gồm:
Tên biến Mô tả
Patient_ID Mã định danh duy nhất cho từng bệnh nhân
Age Tuổi của bệnh nhân
Gender Giới tính bệnh nhân (Male: nam, Female: nữ)
Region Khu vực địa lý sinh sống (ví dụ: Hovedstaden, Sjælland, …)
Preexisting_Condition Bệnh nền trước khi nhiễm (ví dụ: Obesity, Asthma, Hypertension, …)
Date_of_Infection Ngày nhiễm COVID-19 (định dạng “DD/MM/YYYY”)
COVID_Strain Biến thể virus SARS-CoV-2 mà bệnh nhân nhiễm (ví dụ: Delta, Beta, …)
Symptoms Mức độ triệu chứng ban đầu (ví dụ: Mild, Severe)
Severity Mức độ nghiêm trọng tổng thể của bệnh (ví dụ: Moderate, High)
Hospitalized Bệnh nhân có nhập viện hay không (Yes/No)
ICU_Admission Bệnh nhân có nhập ICU hay không (Yes/No)
Ventilator_Support Bệnh nhân có cần hỗ trợ thở máy không (Yes/No)
Recovered Bệnh nhân đã hồi phục hay chưa (Yes/No)
Reinfection Bệnh nhân có tái nhiễm COVID-19 không (Yes/No)
Vaccination_Status Bệnh nhân đã tiêm vắc-xin hay chưa (Yes/No)
Vaccine_Type Loại vắc-xin đã tiêm (nếu có), ví dụ: AstraZeneca, Janssen
Doses_Received Số liều vắc-xin mà bệnh nhân đã tiêm
Long_COVID_Symptoms Triệu chứng COVID kéo dài sau khi khỏi bệnh (nếu có)
Occupation Nghề nghiệp của bệnh nhân
Smoking_Status Tình trạng hút thuốc (Never, Former, Current, …)
BMI Chỉ số khối cơ thể của bệnh nhân (BMI - Body Mass Index)
  • Trong đó có 16 biến định tính
dldt <- c("Gender", "Region", "Preexisting_Condition", "COVID_Strain",
          "Symptoms", "Severity", "Hospitalized", "ICU_Admission", "Ventilator_Support",
          "Recovered", "Reinfection", "Vaccination_Status", "Vaccine_Type",
          "Long_COVID_Symptoms", "Occupation", "Smoking_Status")
dldt
##  [1] "Gender"                "Region"                "Preexisting_Condition"
##  [4] "COVID_Strain"          "Symptoms"              "Severity"             
##  [7] "Hospitalized"          "ICU_Admission"         "Ventilator_Support"   
## [10] "Recovered"             "Reinfection"           "Vaccination_Status"   
## [13] "Vaccine_Type"          "Long_COVID_Symptoms"   "Occupation"           
## [16] "Smoking_Status"
dt <- d[, dldt]
  • Chọn biến ReinfectionRecovered làm biến phụ thuộc để xem xét các yếu tố ảnh hưởng đến việc bệnh nhân có tái nhiệm Covid19 và việc phục hồi của bệnh nhận hay không.
dt <- data.frame(lapply(dt, as.factor))

Phần 2. PHÂN TÍCH MỐI QUAN HỆ GIỮA HAI BIẾN ĐỊNH TÍNH

2.1. Recovered và Vaccination_Status

2.1.1. Bảng tần số và tần suất

Bảng tần số

# Gán nhãn rõ ràng cho các biến
dt$Recovered <- factor(dt$Recovered,
                       levels = c("No", "Yes"),
                       labels = c("Không hồi phục", "Hồi phục"))

dt$Vaccination_Status <- factor(dt$Vaccination_Status,
                                levels = c("No", "Yes"),
                                labels = c("Chưa tiêm", "Đã tiêm"))

# Lập bảng tần số chéo giữa Recovered và Vaccination_Status
re_vac <- table(dt$Recovered, dt$Vaccination_Status)

# Thêm tổng hàng và tổng cột
re_vac1 <- addmargins(re_vac)

# Hiển thị bảng với nhãn rõ ràng
re_vac1
##                 
##                  Chưa tiêm Đã tiêm  Sum
##   Không hồi phục       743     749 1492
##   Hồi phục             785     723 1508
##   Sum                 1528    1472 3000

Bảng tần suất

# Lập bảng tần suất theo hàng (theo từng trạng thái hồi phục)
re_vac_prop <- prop.table(re_vac, margin = 1)

# Làm tròn để hiển thị đẹp hơn (ví dụ: 4 chữ số thập phân)
re_vac_prop_rounded <- round(re_vac_prop, 4)

# Hiển thị bảng tần suất
re_vac_prop_rounded
##                 
##                  Chưa tiêm Đã tiêm
##   Không hồi phục    0.4980  0.5020
##   Hồi phục          0.5206  0.4794

Biểu đồ

# Chuyển bảng sang dạng data frame
re_vac_df <- as.data.frame(re_vac)

# Đổi tên cột cho rõ ràng
colnames(re_vac_df) <- c("Recovered", "Vaccination_Status", "Count")

# Vẽ biểu đồ cột nhóm
ggplot(re_vac_df, aes(x = Vaccination_Status, y = Count, fill = Recovered)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(
    title = "Biểu đồ 1. Số lượng hồi phục theo tình trạng tiêm vắc xin",
    x = "Tình trạng tiêm vắc xin",
    y = "Số lượng bệnh nhân",
    fill = "Trạng thái hồi phục"
  ) +
  theme_minimal() +
  scale_fill_brewer(palette = "Pastel1")

Nhận xét

Dữ liệu cho thấy sự phân bố trạng thái hồi phục giữa hai nhóm bệnh nhân theo tình trạng tiêm vắc xin là tương đối đồng đều, tuy nhiên vẫn có một số khác biệt nhẹ. Trong nhóm chưa tiêm vắc xin, tỷ lệ hồi phục là khoảng 52.06%, trong khi 47.94% không hồi phục. Ngược lại, trong nhóm đã tiêm vắc xin, tỷ lệ không hồi phục lại nhỉnh hơn một chút, ở mức 50.20%, so với 49.80% hồi phục. Mặc dù sự chênh lệch là không lớn, điều này gợi ý rằng nhóm chưa tiêm có tỷ lệ hồi phục cao hơn một chút so với nhóm đã tiêm.

2.1.2. Kiểm định Thống kê

Giả thuyết kiểm định:

  • H₀: Tình trạng phục hồi và tình trạng tiêm vaccin là hai biến độc lập.

  • H₁: Tình trạng phục hồi và tình trạng tiêm vaccin có liên quan.

# Thực hiện kiểm định Chi bình phương
chi_re_vac <- chisq.test(re_vac)
print(chi_re_vac)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  re_vac
## X-squared = 1.4394, df = 1, p-value = 0.2302

Kết quả kiểm định:

  • Giá trị thống kê Chi bình phương: X² = 1.4394

  • Bậc tự do (df) = 1

  • p-value = 0.2302

Với p-value = 0.2302 lớn hơn mức ý nghĩa phổ biến α = 0.05, không đủ bằng chứng để bác bỏ giả thuyết H₀. Điều này có nghĩa là, trong mẫu dữ liệu hiện tại, không có sự khác biệt có ý nghĩa thống kê giữa tỷ lệ hồi phục của nhóm đã tiêm vắc xin và nhóm chưa tiêm.

2.1.3 Hiệu tỷ lệ (Risk Difference - RD)

# Lập bảng tần số chéo giữa Recovered và Vaccination_Status
re_vac <- table(dt$Recovered, dt$Vaccination_Status)

# Thêm tổng hàng và tổng cột
re_vac1 <- addmargins(re_vac)

# Hiển thị bảng với nhãn rõ ràng
re_vac1
##                 
##                  Chưa tiêm Đã tiêm  Sum
##   Không hồi phục       743     749 1492
##   Hồi phục             785     723 1508
##   Sum                 1528    1472 3000

\[ p_1 = P(\text{Recovered} = \text{Yes} \mid \text{Vaccination_Status} = \text{Chưa tiêm}) \quad \text{(Tỷ lệ hồi phục ở nhóm chưa tiêm)} \]

\[ p_2 = P(\text{Recovered} = \text{Yes} \mid \text{Vaccination_Status} = \text{Đã tiêm}) \quad \text{(Tỷ lệ hồi phục ở nhóm đã tiêm)} \]

Giả thuyết kiểm định:

\[ H_0: p_1 - p_2 = 0 \quad \text{(Tỷ lệ hồi phục ở nhóm chưa tiêm bằng tỷ lệ hồi phục ở nhóm đã tiêm)} \]

\[ H_1: p_1 - p_2 < 0 \quad \text{(Tỷ lệ hồi phục ở nhóm chưa tiêm nhỏ hơn tỷ lệ hồi phục ở nhóm đã tiêm)} \]

# Số người hồi phục trong từng nhóm tiêm chủng
counts <- c(re_vac["Hồi phục", "Chưa tiêm"], re_vac["Hồi phục", "Đã tiêm"])

# Tổng số người trong từng nhóm tiêm chủng
totals <- c(sum(re_vac[, "Chưa tiêm"]), sum(re_vac[, "Đã tiêm"]))

# Kiểm định tỉ lệ một phía: p1 < p2
test_recovery_less <- prop.test(counts, totals, alternative = "less", correct = FALSE)
test_recovery_less
## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  counts out of totals
## X-squared = 1.5284, df = 1, p-value = 0.8918
## alternative hypothesis: less
## 95 percent confidence interval:
##  -1.00000000  0.05260304
## sample estimates:
##    prop 1    prop 2 
## 0.5137435 0.4911685
  • Kết quả kiểm định tỷ lệ hai mẫu cho thấy:

    • Tỷ lệ hồi phục ở nhóm chưa tiêm (prop 1) là khoảng 51.37%

    • Tỷ lệ hồi phục ở nhóm đã tiêm (prop 2) là khoảng 49.12%

  • Giá trị thống kê Chi bình phương là 1.5284 với bậc tự do 1 và p-value = 0.8918.

  • Vì p-value lớn hơn mức ý nghĩa 0.05, chúng ta không đủ bằng chứng để bác bỏ giả thuyết rằng tỷ lệ hồi phục ở nhóm chưa tiêm và nhóm đã tiêm là bằng nhau.

  • Ngoài ra, khoảng tin cậy 95% cho hiệu hai tỷ lệ bao gồm giá trị 0 (từ -1 đến 0.0526), cũng củng cố nhận định rằng sự khác biệt giữa hai tỷ lệ không có ý nghĩa thống kê.

  • Tóm lại, theo dữ liệu này, tỷ lệ hồi phục của nhóm chưa tiêm và nhóm đã tiêm không khác biệt đáng kể và không có bằng chứng cho thấy nhóm chưa tiêm có tỷ lệ hồi phục thấp hơn nhóm đã tiêm.

2.1.4. Tỷ số Nguy cơ (Relative Risk - RR):

riskratio(re_vac, method="wald")
## $data
##                 
##                  Chưa tiêm Đã tiêm Total
##   Không hồi phục       743     749  1492
##   Hồi phục             785     723  1508
##   Total               1528    1472  3000
## 
## $measure
##                 risk ratio with 95% C.I.
##                   estimate     lower    upper
##   Không hồi phục 1.0000000        NA       NA
##   Hồi phục       0.9550453 0.8878662 1.027307
## 
## $p.value
##                 two-sided
##                  midp.exact fisher.exact chi.square
##   Không hồi phục         NA           NA         NA
##   Hồi phục        0.2166526    0.2281207  0.2163528
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
  • Ta thấy RR = 0.955. Điều đó có nghĩa là tỷ lệ người đã tiêm trong nhóm hồi phục thấp hơn khoảng 4.5% so với tỷ lệ người đã tiêm trong nhóm không hồi phục. Có thể hiểu rằng việc tiêm vắc-xin không làm tăng khả năng hồi phục trong mẫu dữ liệu này.

2.1.5. Tỷ số Chênh (Odds Ratio - OR):

or_result1 <- oddsratio(re_vac)
print(or_result1)
## $data
##                 
##                  Chưa tiêm Đã tiêm Total
##   Không hồi phục       743     749  1492
##   Hồi phục             785     723  1508
##   Total               1528    1472  3000
## 
## $measure
##                 odds ratio with 95% C.I.
##                   estimate    lower    upper
##   Không hồi phục 1.0000000       NA       NA
##   Hồi phục       0.9136808 0.791682 1.054367
## 
## $p.value
##                 two-sided
##                  midp.exact fisher.exact chi.square
##   Không hồi phục         NA           NA         NA
##   Hồi phục        0.2166526    0.2281207  0.2163528
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Giá trị odds ratio (OR) = 0.914 cho thấy rằng khả năng hồi phục ở nhóm đã tiêm vắc-xin thấp hơn khoảng 8,6% so với nhóm không hồi phục trong cùng điều kiện tiêm chủng. Nói cách khác, tỷ lệ người hồi phục nhờ đã tiêm vắc-xin thấp hơn khoảng 8.6% so với tỷ lệ người không hồi phục dù đã tiêm.

2.2. Recovered và Smoking_Status

2.2.1. Bảng tần số và tần suất

Bảng tần số

# Gán nhãn cho biến Smoking_Status (đã chuyển thành Yes/No trước đó)
dt$Smoking_Status <- factor(dt$Smoking_Status,
                            levels = c("No", "Yes"),
                            labels = c("Không hút thuốc", "Có hút thuốc"))
re_smoke <- table(dt$Recovered, dt$Smoking_Status)
re_smoke1 <- addmargins(re_smoke)
re_smoke1 
##                 
##                  Không hút thuốc Có hút thuốc  Sum
##   Không hồi phục             517          975 1492
##   Hồi phục                   502         1006 1508
##   Sum                       1019         1981 3000

Bảng tần suất

# Tính tỷ lệ theo hàng
re_smoke_prop <- prop.table(re_smoke, margin = 1)

# Làm tròn để hiển thị đẹp
re_smoke_prop_rounded <- round(re_smoke_prop, 4)

# Hiển thị bảng
re_smoke_prop_rounded
##                 
##                  Không hút thuốc Có hút thuốc
##   Không hồi phục          0.3465       0.6535
##   Hồi phục                0.3329       0.6671

Biểu đồ

# Chuyển bảng sang data frame
df <- as.data.frame(re_smoke)
colnames(df) <- c("Recovered", "Smoking_Status", "Count")

# Vẽ biểu đồ cột nhóm
ggplot(df, aes(x = Recovered, y = Count, fill = Smoking_Status)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Biều đồ 2. Phân bố trạng thái hút thuốc theo tình trạng hồi phục",
       x = "Tình trạng hồi phục",
       y = "Số lượng",
       fill = "Tình trạng hút thuốc") +
  theme_minimal()

Nhận xét

  • Trong tổng số 3.000 bệnh nhân, nhóm không hồi phục chiếm 1.492 người, trong đó có 517 người không hút thuốc (chiếm 34,65%) và 975 người có hút thuốc (chiếm 65,35%). Nhóm hồi phục chiếm 1.508 người, trong đó có 502 người không hút thuốc (33,29%) và 1.006 người có hút thuốc (66,71%).

  • Qua so sánh, tỷ lệ người có hút thuốc trong nhóm hồi phục (66,71%) cao hơn một chút so với nhóm không hồi phục (65,35%). Ngược lại, tỷ lệ người không hút thuốc ở nhóm không hồi phục (34,65%) cũng cao hơn nhẹ so với nhóm hồi phục (33,29%). Sự chênh lệch giữa hai nhóm là khá nhỏ, chỉ dao động khoảng 1–1,5%.

2.2.2. Kiểm định Thống kê

Giả thuyết kiểm định:

  • H₀: Tình trạng phục hồi và việc hút thuốc là hai biến độc lập.

  • H₁: Tình trạng phục hồi và việc hút thuốc có liên quan.

# Kiểm định Chi bình phương
chi_re_smoke <- chisq.test(re_smoke)
print(chi_re_smoke)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  re_smoke
## X-squared = 0.56134, df = 1, p-value = 0.4537

Kết quả kiểm định:

  • Giá trị thống kê Chi bình phương: X² = 0.56134

  • Bậc tự do (df) = 1

  • p-value = 0.4537

Với p-value = 0.4537 lớn hơn mức ý nghĩa phổ biến α = 0.05, không đủ bằng chứng để bác bỏ giả thuyết H₀. Điều này có nghĩa là Tình trạng phục hồi và việc hút thuốc là hai biến độc lập.

2.2.3 Hiệu tỷ lệ (Risk Difference - RD)

re_smoke <- table(dt$Recovered, dt$Smoking_Status)
re_smoke1 <- addmargins(re_smoke)
re_smoke1 
##                 
##                  Không hút thuốc Có hút thuốc  Sum
##   Không hồi phục             517          975 1492
##   Hồi phục                   502         1006 1508
##   Sum                       1019         1981 3000

\[ p_1 = P(\text{Recovered} = \text{Hồi phục} \mid \text{Smoking\_Status} = \text{Không hút thuốc}) \quad \text{(Tỷ lệ hồi phục ở nhóm không hút thuốc)} \] \[ p_2 = P(\text{Recovered} = \text{Hồi phục} \mid \text{Smoking\_Status} = \text{Có hút thuốc}) \quad \text{(Tỷ lệ hồi phục ở nhóm có hút thuốc)} \]

Giả thiết kiểm định

\[ H_0: p_1 - p_2 = 0 \quad \text{(Tỷ lệ hồi phục ở nhóm không hút thuốc bằng tỷ lệ hồi phục ở nhóm có hút thuốc)} \] \[ H_1: p_1 - p_2 < 0 \quad \text{(Tỷ lệ hồi phục ở nhóm không hút thuốc nhỏ hơn tỷ lệ hồi phục ở nhóm có hút thuốc)} \]

# Số người hồi phục trong từng nhóm hút thuốc
counts <- c(re_smoke["Hồi phục", "Không hút thuốc"],
            re_smoke["Hồi phục", "Có hút thuốc"])

# Tổng số người trong từng nhóm hút thuốc
totals <- c(sum(re_smoke[, "Không hút thuốc"]),
            sum(re_smoke[, "Có hút thuốc"]))

# Kiểm định một phía: Tỷ lệ hồi phục nhóm không hút thuốc < nhóm có hút thuốc
test_smoking_less <- prop.test(counts, totals, alternative = "less", correct = FALSE)

# Xem kết quả
print(test_smoking_less)
## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  counts out of totals
## X-squared = 0.6206, df = 1, p-value = 0.2154
## alternative hypothesis: less
## 95 percent confidence interval:
##  -1.00000000  0.01651698
## sample estimates:
##    prop 1    prop 2 
## 0.4926398 0.5078243

Kết quả kiểm định hai tỷ lệ cho thấy:

  • Tỷ lệ hồi phục ở nhóm không hút thuốc (prop 1) là 49.26%

  • Tỷ lệ hồi phục ở nhóm có hút thuốc (prop 2) là 50.78%

  • Giá trị p-value = 0.2154, lớn hơn mức ý nghĩa thường dùng (α = 0.05)

Khoảng tin cậy 95% cho hiệu số tỷ lệ là từ –1.000 đến 0.0165, bao gồm giá trị 0

Với giá trị p-value = 0.2154 > 0.05, ta không đủ bằng chứng để bác bỏ giả thuyết \(H_0\). Nói cách khác, không có đủ cơ sở thống kê để kết luận rằng tỷ lệ hồi phục ở nhóm không hút thuốc thấp hơn so với nhóm có hút thuốc.

2.2.4. Tỷ số Nguy cơ (Relative Risk - RR):

riskratio(re_smoke, method="wald")
## $data
##                 
##                  Không hút thuốc Có hút thuốc Total
##   Không hồi phục             517          975  1492
##   Hồi phục                   502         1006  1508
##   Total                     1019         1981  3000
## 
## $measure
##                 risk ratio with 95% C.I.
##                  estimate     lower    upper
##   Không hồi phục 1.000000        NA       NA
##   Hồi phục       1.020847 0.9697539 1.074633
## 
## $p.value
##                 two-sided
##                  midp.exact fisher.exact chi.square
##   Không hồi phục         NA           NA         NA
##   Hồi phục        0.4311699    0.4408087  0.4308253
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Ta thấy RR = 1.021. Điều này có nghĩa là tỷ lệ người hút thuốc trong nhóm hồi phục cao hơn khoảng 2.1% so với tỷ lệ người không hút thuốc trong nhóm hồi phục.

2.2.5. Tỷ số Chênh (Odds Ratio - OR):

or_result2 <- oddsratio(re_smoke)
print(or_result2)
## $data
##                 
##                  Không hút thuốc Có hút thuốc Total
##   Không hồi phục             517          975  1492
##   Hồi phục                   502         1006  1508
##   Total                     1019         1981  3000
## 
## $measure
##                 odds ratio with 95% C.I.
##                  estimate     lower    upper
##   Không hồi phục 1.000000        NA       NA
##   Hồi phục       1.062596 0.9135028 1.236099
## 
## $p.value
##                 two-sided
##                  midp.exact fisher.exact chi.square
##   Không hồi phục         NA           NA         NA
##   Hồi phục        0.4311699    0.4408087  0.4308253
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Với OR = 1.0626, tỷ lệ người hồi phục trong nhóm hút thuốc cao hơn khoảng 6.26% so với tỷ lệ người không hồi phục trong nhóm hút thuốc.

2.3. Reinfection và Vaccination_Status

2.3.1. Bảng tần số và tần suất

Bảng tần số

dt$Reinfection <- factor(dt$Reinfection, 
                         levels = c("No", "Yes"),
                         labels = c("Không tái nhiễm", "Tái nhiễm"))

# Lập bảng tần số chéo
rein_vac <- table(dt$Reinfection, dt$Vaccination_Status)

# Thêm tổng hàng và cột
rein_vac1 <- addmargins(rein_vac)

# Hiển thị bảng
rein_vac1
##                  
##                   Chưa tiêm Đã tiêm  Sum
##   Không tái nhiễm      1398    1317 2715
##   Tái nhiễm             130     155  285
##   Sum                  1528    1472 3000

Bảng tần suất

# Lập bảng tần suất theo hàng (row percentages)
rein_vac_prop <- prop.table(rein_vac, margin = 1)

# Làm tròn 4 chữ số thập phân
rein_vac_prop <- round(rein_vac_prop, 4)

# Hiển thị bảng tần suất
rein_vac_prop
##                  
##                   Chưa tiêm Đã tiêm
##   Không tái nhiễm    0.5149  0.4851
##   Tái nhiễm          0.4561  0.5439

Biểu đồ

# Chuyển thành data frame
rein_vac_df <- as.data.frame(rein_vac)

# Đổi tên cột cho dễ hiểu
colnames(rein_vac_df) <- c("Reinfection", "Vaccination_Status", "Count")

# Vẽ biểu đồ
ggplot(rein_vac_df, aes(x = Vaccination_Status, y = Count, fill = Reinfection)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(
    title = "Biểu đồ 3. Tình trạng tái nhiễm theo tình trạng tiêm vắc xin",
    x = "Tình trạng tiêm vắc xin",
    y = "Số lượng bệnh nhân",
    fill = "Tình trạng tái nhiễm"
  ) +
  theme_minimal() +
  scale_fill_brewer(palette = "Set2")

Nhận xét

Dựa trên bảng tần suất, ta thấy rằng trong nhóm không tái nhiễm, tỷ lệ bệnh nhân chưa tiêm vắc xin chiếm khoảng 51.49%, cao hơn so với nhóm đã tiêm là 48.51%, với mức chênh lệch là 2.98%. Ngược lại, ở nhóm tái nhiễm, tỷ lệ bệnh nhân đã tiêm vắc xin lại cao hơn, đạt 54.39%, so với 45.61% ở nhóm chưa tiêm, tức là chênh lệch khoảng 8.78%.

Những con số này cho thấy rằng trong mẫu dữ liệu này, tỷ lệ tái nhiễm ở nhóm đã tiêm có xu hướng cao hơn so với nhóm chưa tiêm.

2.3.2. Kiểm định Thống kê

Giả thuyết kiểm định:

  • H₀: Tình trạng tái nhiễm và tình trạng tiêm vaccin là hai biến độc lập.

  • H₁: Tình trạng tái nhiễm và tình trạng tiêm vaccin có liên quan.

# Thực hiện kiểm định Chi bình phương
chi_rein_vac <- chisq.test(rein_vac)
print(chi_rein_vac)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  rein_vac
## X-squared = 3.3342, df = 1, p-value = 0.06786

Kết quả kiểm định:

  • Giá trị thống kê Chi bình phương: X² = 3.3342

  • Bậc tự do (df) = 1

  • p-value = 0.06786

Với mức ý nghĩa thường dùng là α = 0.05, ta thấy p-value = 0.06786 > 0.05, tức là không đủ bằng chứng thống kê để bác bỏ giả thuyết H₀. Nói cách khác, chưa thể kết luận rằng tình trạng tái nhiễm và tình trạng tiêm vắc xin có mối liên hệ rõ ràng trong mẫu dữ liệu này.

2.3.3 Hiệu tỷ lệ (Risk Difference - RD)

# Lập bảng tần số chéo
rein_vac <- table(dt$Reinfection, dt$Vaccination_Status)

# Thêm tổng hàng và cột
rein_vac1 <- addmargins(rein_vac)

# Hiển thị bảng
rein_vac1
##                  
##                   Chưa tiêm Đã tiêm  Sum
##   Không tái nhiễm      1398    1317 2715
##   Tái nhiễm             130     155  285
##   Sum                  1528    1472 3000

\[ p_1 = P(\text{Reinfection} = \text{Yes} \mid \text{Vaccination_Status} = \text{Chưa tiêm}) \quad \text{(Tỷ lệ tái nhiễm ở nhóm chưa tiêm)} \]

\[ p_2 = P(\text{Reinfection} = \text{Yes} \mid \text{Vaccination_Status} = \text{Đã tiêm}) \quad \text{(Tỷ lệ tái nhiễm ở nhóm đã tiêm)} \]

Giả thuyết kiểm định:

\[ H_0: p_1 - p_2 = 0 \quad \text{(Tỷ lệ tái nhiễm ở nhóm chưa tiêm bằng tỷ lệ tái nhiễm ở nhóm đã tiêm)} \]

\[ H_1: p_1 - p_2 < 0 \quad \text{(Tỷ lệ tái nhiễm ở nhóm chưa tiêm nhỏ hơn tỷ lệ tái nhiễm ở nhóm đã tiêm)} \]

# Số người tái nhiễm trong từng nhóm tiêm chủng
counts_reinfection <- c(rein_vac["Tái nhiễm", "Chưa tiêm"], rein_vac["Tái nhiễm", "Đã tiêm"])

# Tổng số người trong từng nhóm tiêm chủng
totals_reinfection <- c(sum(rein_vac[, "Chưa tiêm"]), sum(rein_vac[, "Đã tiêm"]))

# Kiểm định tỉ lệ một phía: p1 < p2 (tỷ lệ tái nhiễm ở nhóm chưa tiêm nhỏ hơn nhóm đã tiêm)
test_reinfection_less <- prop.test(counts_reinfection, totals_reinfection, alternative = "less", correct = FALSE)

# Hiển thị kết quả kiểm định
test_reinfection_less
## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  counts_reinfection out of totals_reinfection
## X-squared = 3.5655, df = 1, p-value = 0.0295
## alternative hypothesis: less
## 95 percent confidence interval:
##  -1.000000000 -0.002585538
## sample estimates:
##     prop 1     prop 2 
## 0.08507853 0.10529891

Kết quả kiểm định cho thấy:

  • Tỷ lệ tái nhiễm ở nhóm chưa tiêm (prop 1) là khoảng 8.51%.

  • Tỷ lệ tái nhiễm ở nhóm đã tiêm (prop 2) là khoảng 10.53%.

Với p-value = 0.0295, nhỏ hơn mức ý nghĩa 0.05, chúng ta có đủ bằng chứng để bác bỏ giả thuyết H₀. Điều này có nghĩa là Tỷ lệ tái nhiễm ở nhóm chưa tiêm nhỏ hơn tỷ lệ tái nhiễm ở nhóm đã tiêm.

2.3.4. Tỷ số Nguy cơ (Relative Risk - RR):

riskratio(rein_vac, method="wald")
## $data
##                  
##                   Chưa tiêm Đã tiêm Total
##   Không tái nhiễm      1398    1317  2715
##   Tái nhiễm             130     155   285
##   Total                1528    1472  3000
## 
## $measure
##                  risk ratio with 95% C.I.
##                   estimate    lower    upper
##   Không tái nhiễm 1.000000       NA       NA
##   Tái nhiễm       1.121169 1.001205 1.255505
## 
## $p.value
##                  two-sided
##                   midp.exact fisher.exact chi.square
##   Không tái nhiễm         NA           NA         NA
##   Tái nhiễm       0.05943728   0.06179783 0.05899318
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Giá trị RR = 1.121 cho thấy rằng tỷ lệ người đã tiêm vắc xin trong nhóm bị tái nhiễm cao hơn khoảng 12.1% so với nhóm không bị tái nhiễm.

2.3.5. Tỷ số Chênh (Odds Ratio - OR):

or_result3 <- oddsratio(rein_vac)
print(or_result3)
## $data
##                  
##                   Chưa tiêm Đã tiêm Total
##   Không tái nhiễm      1398    1317  2715
##   Tái nhiễm             130     155   285
##   Total                1528    1472  3000
## 
## $measure
##                  odds ratio with 95% C.I.
##                   estimate     lower    upper
##   Không tái nhiễm 1.000000        NA       NA
##   Tái nhiễm       1.265329 0.9906896 1.618385
## 
## $p.value
##                  two-sided
##                   midp.exact fisher.exact chi.square
##   Không tái nhiễm         NA           NA         NA
##   Tái nhiễm       0.05943728   0.06179783 0.05899318
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Giá trị OR = 1.265 cho thấy rằng khả năng đã tiêm vắc xin trong nhóm tái nhiễm cao hơn khoảng 26.5% so với nhóm không tái nhiễm. Nói cách khác, tỷ lệ đã tiêm so với chưa tiêm ở nhóm tái nhiễm lớn hơn so với nhóm không tái nhiễm.

Tỷ số odds (OR) là 1.265, nghĩa là odds đã tiêm so với chưa tiêm trong nhóm tái nhiễm cao hơn khoảng 26.5% so với nhóm không tái nhiễm.

2.4. Reinfection và Smoking_Status

2.4.1. Bảng tần số và tần suất

Bảng tần số

# Lập bảng tần số chéo
rein_smoke <- table(dt$Reinfection, dt$Smoking_Status)

# Thêm tổng hàng và cột
rein_smoke1 <- addmargins(rein_smoke)

# Hiển thị bảng
rein_smoke1
##                  
##                   Không hút thuốc Có hút thuốc  Sum
##   Không tái nhiễm             920         1795 2715
##   Tái nhiễm                    99          186  285
##   Sum                        1019         1981 3000

Bảng tần suất

# Lập bảng tần suất theo hàng (row percentages)
rein_smoke_prop <- prop.table(rein_smoke, margin = 1)

# Làm tròn 4 chữ số thập phân
rein_smoke_prop <- round(rein_smoke_prop, 4)

# Hiển thị bảng tần suất
rein_smoke_prop
##                  
##                   Không hút thuốc Có hút thuốc
##   Không tái nhiễm          0.3389       0.6611
##   Tái nhiễm                0.3474       0.6526

Biểu đồ

# Chuyển thành data frame
rein_smoke_df <- as.data.frame(rein_smoke)

# Đổi tên cột cho dễ hiểu
colnames(rein_smoke_df ) <- c("Reinfection", "Smoking_Status", "Count")

# Vẽ biểu đồ
ggplot(rein_smoke_df, aes(x = Smoking_Status, y = Count, fill = Reinfection)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(
    title = "Biểu đồ 4. Tình trạng tái nhiễm theo tình trạng hút thuốc",
    x = "Tình trạng hút thuốc",
    y = "Số lượng bệnh nhân",
    fill = "Tình trạng tái nhiễm"
  ) +
  theme_minimal() +
  scale_fill_brewer(palette = "Set2")

Dựa trên số liệu khảo sát từ 3.000 người, trong đó có 2.715 người không tái nhiễm và 285 người bị tái nhiễm, chúng ta có thể xem xét mối liên quan giữa tình trạng hút thuốc và nguy cơ tái nhiễm.

Ở nhóm không tái nhiễm, tỷ lệ người có hút thuốc là 66.11%, trong khi tỷ lệ không hút thuốc là 33.89%. Trong khi đó, ở nhóm tái nhiễm, tỷ lệ người có hút thuốc là 65.26%, và tỷ lệ không hút thuốc là 34.74%. Các tỷ lệ này cho thấy sự phân bố giữa người hút thuốc và không hút thuốc trong hai nhóm là khá tương đồng.

2.4.2. Kiểm định Thống kê

Giả thuyết kiểm định:

  • H₀: Tình trạng tái nhiễm và tình trạng hút thuốc là hai biến độc lập.

  • H₁: Tình trạng tái nhiễm và tình trạng hút thuốc có liên quan.

# Thực hiện kiểm định Chi bình phương
chi_rein_smoke<- chisq.test(rein_smoke)
print(chi_rein_smoke)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  rein_smoke
## X-squared = 0.049663, df = 1, p-value = 0.8237

Kết quả kiểm định:

  • Giá trị thống kê Chi bình phương: X² = 0.049663

  • Bậc tự do (df) = 1

  • p-value = 0.8237

Với mức ý nghĩa thường dùng là α = 0.05, ta thấy p-value = 0.8237 > 0.05, tức là không đủ bằng chứng thống kê để bác bỏ giả thuyết H₀. Nói cách khác, chưa thể kết luận rằng tình trạng tái nhiễm và tình trạng hút thuốc có mối liên hệ rõ ràng trong mẫu dữ liệu này.

2.4.3 Hiệu tỷ lệ (Risk Difference - RD)

# Lập bảng tần số chéo
rein_smoke <- table(dt$Reinfection, dt$Smoking_Status)

# Thêm tổng hàng và cột
rein_smoke1 <- addmargins(rein_smoke)

# Hiển thị bảng
rein_smoke1
##                  
##                   Không hút thuốc Có hút thuốc  Sum
##   Không tái nhiễm             920         1795 2715
##   Tái nhiễm                    99          186  285
##   Sum                        1019         1981 3000

\[ p_1 = P(\text{Reinfection} = \text{Yes} \mid \text{Smoking\_Status} = \text{Không hút thuốc}) \quad \text{(Tỷ lệ tái nhiễm ở nhóm không hút thuốc)} \]

\[ p_2 = P(\text{Reinfection} = \text{Yes} \mid \text{Smoking\_Status} = \text{Có hút thuốc}) \quad \text{(Tỷ lệ tái nhiễm ở nhóm có hút thuốc)} \]

Giả thuyết kiểm định

\[ H_0: p_1 - p_2 = 0 \quad \text{(Tỷ lệ tái nhiễm ở nhóm không hút thuốc bằng tỷ lệ tái nhiễm ở nhóm có hút thuốc)} \]

\[ H_1: p_1 - p_2 > 0 \quad \text{(Tỷ lệ tái nhiễm ở nhóm không hút thuốc lớn hơn tỷ lệ tái nhiễm ở nhóm có hút thuốc)} \]

# Số người tái nhiễm trong từng nhóm hút thuốc
counts_smoking <- c(rein_smoke["Tái nhiễm", "Không hút thuốc"],
                    rein_smoke["Tái nhiễm", "Có hút thuốc"])

# Tổng số người trong từng nhóm hút thuốc
totals_smoking <- c(sum(rein_smoke[, "Không hút thuốc"]),
                    sum(rein_smoke[, "Có hút thuốc"]))

# Kiểm định tỉ lệ một phía: p1 > p2 (tỷ lệ tái nhiễm ở nhóm không hút thuốc lớn hơn nhóm có hút thuốc)
test_smoking_greater <- prop.test(counts_smoking, totals_smoking, alternative = "greater", correct = FALSE)

# Hiển thị kết quả kiểm định
test_smoking_greater
## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  counts_smoking out of totals_smoking
## X-squared = 0.083284, df = 1, p-value = 0.3864
## alternative hypothesis: greater
## 95 percent confidence interval:
##  -0.01542171  1.00000000
## sample estimates:
##     prop 1     prop 2 
## 0.09715407 0.09389197
  • Giá trị thống kê kiểm định (Chi-squared): 0.083
  • Giá trị p-value: 0.3864

Với mức ý nghĩa 5% (\(\alpha = 0.05\)), ta có:
\[ \text{p-value} = 0.3864 > 0.05 \]
Không có đủ bằng chứng để bác bỏ giả thuyết không.

Kết luận: Không có đủ bằng chứng thống kê để khẳng định rằng tỷ lệ tái nhiễm ở nhóm không hút thuốc lớn hơn nhóm có hút thuốc.

2.4.4. Tỷ số Nguy cơ (Relative Risk - RR):

riskratio(rein_smoke, method="wald")
## $data
##                  
##                   Không hút thuốc Có hút thuốc Total
##   Không tái nhiễm             920         1795  2715
##   Tái nhiễm                    99          186   285
##   Total                      1019         1981  3000
## 
## $measure
##                  risk ratio with 95% C.I.
##                   estimate     lower    upper
##   Không tái nhiễm 1.000000        NA       NA
##   Tái nhiễm       0.987128 0.9031794 1.078879
## 
## $p.value
##                  two-sided
##                   midp.exact fisher.exact chi.square
##   Không tái nhiễm         NA           NA         NA
##   Tái nhiễm        0.7694533    0.7926716  0.7728959
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Với RR = 0.987, ta nhận thấy rằng tỷ lệ người hút thuốc ở nhóm tái nhiễm thấp hơn khoảng 1.3% so với nhóm không tái nhiễm.

2.4.5. Tỷ số Chênh (Odds Ratio - OR):

or_result4 <- oddsratio(rein_smoke)
print(or_result4)
## $data
##                  
##                   Không hút thuốc Có hút thuốc Total
##   Không tái nhiễm             920         1795  2715
##   Tái nhiễm                    99          186   285
##   Total                      1019         1981  3000
## 
## $measure
##                  odds ratio with 95% C.I.
##                    estimate     lower    upper
##   Không tái nhiễm 1.0000000        NA       NA
##   Tái nhiễm       0.9622827 0.7462312 1.247627
## 
## $p.value
##                  two-sided
##                   midp.exact fisher.exact chi.square
##   Không tái nhiễm         NA           NA         NA
##   Tái nhiễm        0.7694533    0.7926716  0.7728959
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Kết quả phân tích cho thấy Odds Ratio (OR) = 0.962, nghĩa là tỷ lệ người tái nhiễm trong nhóm hút thuốc thấp hơn khoảng 3.8% so với tỷ lệ người không tái nhiễm.

Phần 3. TỔNG KẾT VÀ THẢO LUẬN

Qua quá trình tìm hiểu, mô tả và kiểm định thống kê trên bộ dữ liệu mô phỏng bệnh nhân COVID-19, báo cáo này đã phác họa nên một bức tranh toàn cảnh về đặc điểm dịch tễ và lâm sàng, đồng thời khám phá những mối liên hệ ban đầu giữa các yếu tố nguy cơ và kết quả điều trị. Các kết quả không chỉ cung cấp những con số cụ thể mà còn mở ra nhiều hướng thảo luận quan trọng.

3.1. Tổng kết các kết quả nổi bật

  • Thứ nhất, không có bằng chứng thống kê cho thấy tiêm vắc xin có liên quan đến khả năng hồi phục sau nhiễm COVID-19. Dù tỷ lệ hồi phục ở nhóm chưa tiêm nhỉnh hơn một chút so với nhóm đã tiêm, các kiểm định thống kê đều không phát hiện sự khác biệt có ý nghĩa. Các chỉ số như Risk RatioOdds Ratio đều cho thấy mức độ tương đương giữa hai nhóm. Điều này cho thấy rằng việc tiêm vắc xin không thể hiện tác động rõ rệt đến kết quả hồi phục trong dữ liệu khảo sát.

  • Thứ hai, tương tự, hành vi hút thuốc không có mối liên hệ rõ ràng với khả năng hồi phục hay nguy cơ tái nhiễm. Tỷ lệ giữa các nhóm hút và không hút thuốc phân bố khá đồng đều, và không có kiểm định nào cho kết quả có ý nghĩa thống kê. Điều này hàm ý rằng tình trạng hút thuốc, trong phạm vi của bộ dữ liệu này, không phải là yếu tố phân biệt khả năng hồi phục hay tái nhiễm.

  • Thứ ba và quan trọng nhất, kết quả cho thấy nguy cơ tái nhiễm COVID-19 ở nhóm đã tiêm vắc xin cao hơn đáng kể so với nhóm chưa tiêm. Tỷ lệ tái nhiễm ở nhóm đã tiêm vượt trội so với nhóm chưa tiêm, và sự khác biệt này đạt mức ý nghĩa thống kê. Các chỉ số như RR = 1.121OR = 1.265 phản ánh nguy cơ tái nhiễm cao hơn ở nhóm đã tiêm. Đây là phát hiện bất ngờ, trái ngược với giả định phổ biến rằng tiêm chủng làm giảm nguy cơ tái nhiễm. Kết quả này có thể bị ảnh hưởng bởi nhiều yếu tố như thời điểm tiêm, số liều tiêm, hoặc chủng virus gây bệnh – những yếu tố chưa được kiểm soát trong phân tích hiện tại.

3.2. Thảo luận và Hạn chế

3.2.1. Thảo luận kết quả

Kết quả đáng chú ý nhất từ phân tích là tỷ lệ tái nhiễm cao hơn ở nhóm đã tiêm vắc-xin. Đây là một phát hiện mang tính phản trực giác và cần được diễn giải một cách thận trọng. Điều này không có nghĩa rằng vắc-xin gây ra tái nhiễm, mà có thể phản ánh ảnh hưởng của các yếu tố khác chưa được kiểm soát. Một số giả thuyết có thể được đưa ra để giải thích hiện tượng này:

  • Yếu tố thời gian và biến thể virus: Bộ dữ liệu mô phỏng kéo dài trong giai đoạn 2020–2024, trong đó các biến thể mới như Omicron, XBB.1.5 đã xuất hiện. Người được tiêm vắc-xin sớm có thể đã bị suy giảm miễn dịch theo thời gian, trong khi nhóm chưa tiêm có thể đã từng mắc bệnh và hình thành miễn dịch tự nhiên gần hơn với thời điểm khảo sát, giúp giảm nguy cơ tái nhiễm.

  • Hành vi và các yếu tố gây nhiễu: Người đã tiêm có thể có tâm lý an toàn chủ quan, dẫn đến việc ít tuân thủ các biện pháp phòng dịch, làm tăng nguy cơ phơi nhiễm. Ngoài ra, nghề nghiệp (như nhân viên y tế), tuổi, hoặc tình trạng bệnh nền có thể ảnh hưởng đến cả xác suất tiêm chủng lẫn nguy cơ tái nhiễm, nhưng chưa được kiểm soát trong phân tích song biến hiện tại.

  • Kết quả không rõ ràng với biến hút thuốc: Việc không tìm thấy mối liên hệ giữa hút thuốc và các kết quả lâm sàng như hồi phục hay tái nhiễm có thể do ảnh hưởng của các yếu tố mạnh hơn, hoặc do bộ dữ liệu chưa phản ánh đầy đủ tác động thực tế của hút thuốc đến tiến triển bệnh.

3.2.2. Hạn chế của phân tích

  • Dữ liệu tổng hợp (Synthetic Data): Bộ dữ liệu sử dụng là dữ liệu mô phỏng, không phản ánh hoàn toàn thực tế. Do đó, mọi kết luận chỉ có ý nghĩa trong phạm vi dữ liệu này và không thể khái quát cho dân số thật.

  • Phân tích song biến (Bivariate Analysis): Các kiểm định hiện tại chỉ xem xét từng cặp biến độc lập, chưa kiểm soát các yếu tố nhiễu như độ tuổi, giới tính, bệnh nền, hoặc thời gian tiêm chủng. Điều này có thể dẫn đến kết luận sai lệch hoặc đánh giá chưa đầy đủ.

  • Định nghĩa biến còn đơn giản: Biến Vaccination_Status chỉ được phân loại nhị phân (Đã tiêm/Chưa tiêm), không phân biệt số liều, loại vắc-xin hay thời gian tiêm, vốn là những yếu tố quan trọng. Biến Smoking_Status cũng chỉ đơn thuần chia thành “Có hút thuốc/Không hút thuốc”, không phản ánh rõ mức độ, thời gian hoặc thói quen hút.

  • Thiếu yếu tố thời gian: Một hạn chế đáng kể là chưa xem xét thời gian giữa các sự kiện, chẳng hạn như thời gian từ khi tiêm vắc-xin đến lúc bị tái nhiễm. Yếu tố thời gian là rất quan trọng trong nghiên cứu dịch tễ và có thể ảnh hưởng mạnh đến kết quả.

3.3. Hướng phát triển và Đề xuất

Dựa trên các kết quả thu được và những hạn chế đã được chỉ ra trong phần trước, một số hướng phát triển và đề xuất tiếp theo được đưa ra nhằm cải thiện độ sâu và độ tin cậy của phân tích:

3.3.1. Sử dụng Phân tích Đa biến (Multivariate Analysis)

Để kiểm soát các yếu tố gây nhiễu tiềm tàng (confounding factors), cần mở rộng từ phân tích song biến sang các mô hình hồi quy đa biến, chẳng hạn như hồi quy logistic. Phương pháp này sẽ giúp đánh giá tác động độc lập của từng biến đến nguy cơ tái nhiễm hoặc khả năng hồi phục, khi đã kiểm soát các yếu tố khác.

Ví dụ: Xây dựng mô hình dự báo tái nhiễm với các biến đầu vào như Vaccination_Status, Age, Preexisting_Condition, Doses_Received, và COVID_Strain.

3.3.2. Phân tích sâu hơn về yếu tố vắc-xin

Hiện tại, biến Vaccination_Status chỉ được mã hóa dưới dạng nhị phân (Yes/No), điều này chưa phản ánh đầy đủ thông tin. Nên mở rộng phân tích bằng cách đưa thêm:

  • Số liều đã tiêm (Doses_Received)
  • Loại vắc-xin (Vaccine_Type)

Điều này sẽ giúp làm rõ liệu các loại vắc-xin khác nhau hoặc số liều khác nhau có ảnh hưởng đến nguy cơ tái nhiễm hoặc khả năng hồi phục hay không.

3.3.3. Thực hiện Phân tích theo dòng thời gian (Longitudinal Analysis)

Sử dụng các biến thời gian như Date_of_Infection để tiến hành các phân tích theo thời gian — ví dụ như phân tích sống sót (survival analysis) nhằm đánh giá:

  • Thời gian đến khi tái nhiễm (time to reinfection)
  • Thời gian hồi phục (time to recovery)

Qua đó, có thể xác định các yếu tố ảnh hưởng đến diễn tiến bệnh theo thời gian.

3.3.4. Phân khúc dữ liệu theo nhóm

Thực hiện phân tích riêng biệt theo các nhóm cụ thể trong dữ liệu để tìm hiểu xem mối quan hệ giữa các biến có thay đổi trong từng phân nhóm hay không. Một số cách phân khúc hữu ích bao gồm:

  • Theo biến thể virus (COVID_Strain)
  • Theo khu vực địa lý (Region)
  • Theo nhóm tuổi hoặc nhóm nguy cơ

3.3.5. Truyền thông kết quả một cách cẩn trọng

Đặc biệt với kết quả liên quan đến mối liên hệ giữa tiêm vắc-xin và tái nhiễm, cần nhấn mạnh rằng:

Tương quan không đồng nghĩa với quan hệ nhân quả.

Kết quả này chỉ phản ánh xu hướng trong dữ liệu và cần được kiểm chứng bằng các phân tích chuyên sâu hơn, có kiểm soát các yếu tố nhiễu. Không nên đưa ra kết luận khẳng định về hiệu quả hay tác động tiêu cực của vắc-xin chỉ dựa trên các phân tích đơn giản hiện tại.

Phần 4. Phương pháp ước lượng Maximum likehood

4.1. Giới thiệu tổng quan

Maximum Likelihood Estimation (MLE) là một phương pháp thống kê suy luận được sử dụng để tìm ra các giá trị tham số sao cho xác suất (hay “độ hợp lý”) để quan sát được dữ liệu thực tế là lớn nhất.

Trong bối cảnh phân tích dữ liệu định tính (categorical data), các mô hình thống kê thường ước lượng xác suất của một hoặc nhiều sự kiện rời rạc. MLE là phương pháp chuẩn và mạnh mẽ để thực hiện việc này.


4.2. Nguyên tắc cốt lõi: Hàm Hợp lý (Likelihood Function)

4.2.1. Phân biệt giữa xác suất và độ hợp lý:

  • Xác suất: \(P(\text{dữ liệu} \mid \theta)\) – Tham số đã biết, tính xác suất để dữ liệu xảy ra.

  • Độ hợp lý: \(L(\theta \mid \text{dữ liệu})\) – Dữ liệu đã biết, tìm tham số phù hợp nhất với dữ liệu.

Nếu các quan sát là độc lập, hàm hợp lý được viết:

\[ L(\theta \mid y_1, y_2, ..., y_n) = \prod_{i=1}^{n} P(y_i \mid \theta) \]

Trong đó: - \(\theta\): tham số của mô hình (ví dụ: xác suất \(p\) trong phân phối Bernoulli), - \(y_i\): quan sát thứ \(i\).

Mục tiêu của MLE là tìm giá trị \(\hat{\theta}\) sao cho \(L(\theta)\) đạt cực đại.


4.3. Quy trình thực hiện MLE

4.3.1. Bước 1: Giả định mô hình phân phối

  • Phân phối Bernoulli: Biến nhị phân (Yes/No).
    \(P(Y = y) = p^y (1 - p)^{1 - y}, \quad y \in \{0, 1\}\)

  • Phân phối Binomial: Tổng số lần thành công sau \(n\) phép thử độc lập.

  • Phân phối Multinomial: Biến có nhiều danh mục.

4.3.2. Bước 2: Xây dựng hàm hợp lý

Từ mô hình xác suất đã chọn, viết hàm hợp lý bằng tích các xác suất cho từng quan sát.

4.3.3. Bước 3: Sử dụng hàm Log-Likelihood

Để đơn giản hóa tính toán, lấy logarit tự nhiên:

\[ LL(\theta) = \log L(\theta) = \sum_{i=1}^{n} \log P(y_i \mid \theta) \]

Bước 4: Tối đa hóa Log-Likelihood

  • Lấy đạo hàm riêng \(\frac{d}{d\theta} LL(\theta)\)
  • Giải phương trình \(\frac{d}{d\theta} LL(\theta) = 0\) để tìm \(\hat{\theta}\)

4.4. Ví dụ minh họa: Ước lượng tỷ lệ tái nhiễm

Bài toán: Ước lượng tỷ lệ tái nhiễm \(p\) trong nhóm đã tiêm vắc-xin.

Bước 1: Mô hình

Biến Reinfection là nhị phân ⇒ dùng Bernoulli với tham số \(p = P(\text{Reinfection = Yes} \mid \text{Vaccinated = Yes})\)

Bước 2: Dữ liệu

  • Số người đã tiêm: \(n = 1472\)
  • Số người tái nhiễm: \(k = 155\)

Hàm hợp lý:

\[ L(p) = p^{155} (1 - p)^{1317} \]

Bước 3: Hàm Log-Likelihood

\[ LL(p) = \log L(p) = 155 \cdot \log(p) + 1317 \cdot \log(1 - p) \]

Bước 4: Tối đa hóa

Lấy đạo hàm:

\[ \frac{dLL}{dp} = \frac{155}{p} - \frac{1317}{1 - p} \]

Cho đạo hàm bằng 0:

\[ \frac{155}{p} = \frac{1317}{1 - p} \quad \Rightarrow \quad 155(1 - p) = 1317p \quad \Rightarrow \quad p = \frac{155}{1472} \approx 0.1053 \]

Kết luận: Ước lượng hợp lý tối đa cho tỷ lệ tái nhiễm là 10.53%, đúng bằng tỷ lệ mẫu quan sát được.


4.5. Ứng dụng MLE trong Hồi quy Logistic

MLE là phương pháp cơ bản để ước lượng các hệ số trong hồi quy logistic, một mô hình phổ biến cho biến phụ thuộc nhị phân.

Mô hình:

\[ P(Y = 1 \mid X) = \frac{1}{1 + \exp(-(\beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k))} \]

Hàm log-likelihood:

\[ LL(\beta) = \sum_{i=1}^{n} \left[ y_i \log(p_i) + (1 - y_i) \log(1 - p_i) \right] \]

Do không thể giải đạo hàm bằng tay, ta dùng các thuật toán số như Newton-Raphson, Gradient Descent để tìm \(\hat{\beta}\).


4.6. Ưu điểm và Nhược điểm của MLE

Ưu điểm: - Hiệu quả: Phương sai nhỏ nếu cỡ mẫu lớn.

  • Vững: Hội tụ về tham số thật khi số mẫu tăng.

  • Tiệm cận chuẩn: Hỗ trợ kiểm định và khoảng tin cậy.

  • Linh hoạt: Áp dụng cho nhiều mô hình thống kê.

Nhược điểm: - Phụ thuộc mô hình: Nếu mô hình sai, MLE sẽ sai lệch.

  • Có thể chệch: Với cỡ mẫu nhỏ.

  • Tính toán phức tạp: Với mô hình nhiều tham số cần thuật toán lặp.


4.7. Tổng kết

Phương pháp Ước lượng Hợp lý Tối đa (MLE) là một công cụ nền tảng trong thống kê hiện đại, đặc biệt hiệu quả trong việc xử lý và phân tích dữ liệu định tính. Dù là với bài toán ước lượng tỷ lệ đơn giản hay các mô hình hồi quy logistic phức tạp, MLE vẫn cung cấp giải pháp mạnh mẽ và có tính tổng quát cao.

