CHƯƠNG 1: TỔNG QUAN NGHIÊN CỨU

1.1 Lý do chọn đề tài

Bệnh tim mạch từ lâu đã được xem là một trong những nguyên nhân hàng đầu gây tử vong và tàn tật trên toàn cầu. Theo thống kê của Tổ chức Y tế Thế giới (WHO), mỗi năm có khoảng 17,9 triệu người tử vong vì các bệnh lý liên quan đến tim mạch – chiếm khoảng 32% tổng số ca tử vong trên thế giới. Tại Việt Nam, gánh nặng bệnh tim cũng ngày càng gia tăng do tác động của lối sống hiện đại, áp lực tâm lý, và sự gia tăng các bệnh nền như tiểu đường, thận mạn tính.

Trong bối cảnh đó, việc nhận diện và phân tích các yếu tố nguy cơ có mối liên hệ mật thiết với bệnh tim không chỉ có ý nghĩa về mặt y tế cộng đồng mà còn góp phần định hướng cho các hoạt động phòng ngừa và can thiệp hiệu quả. Trong nghiên cứu này, tác giả tập trung vào bốn yếu tố sức khỏe thường gặp – hút thuốc lá, tiền sử đột quỵ, bệnh tiểu đường và bệnh thận – để xem xét mức độ ảnh hưởng của chúng đến khả năng mắc bệnh tim từ góc nhìn định tính. Điểm đặc biệt của nghiên cứu là khai thác từ bộ dữ liệu “Indicators of Heart Disease” được chia sẻ công khai trên nền tảng Kaggle – một trong những cộng đồng dữ liệu và học máy lớn nhất thế giới. Bộ dữ liệu với nhiều biến liên quan đến tình trạng bệnh tật, hành vi sức khỏe và yếu tố nền tảng. Việc sử dụng dữ liệu lớn này không chỉ tăng tính khách quan và độ tin cậy cho phân tích, mà còn tạo điều kiện để tiếp cận hiện tượng bệnh tim từ một góc nhìn thực tế và sâu sắc hơn. Việc lựa chọn cách tiếp cận định tính nhằm làm rõ bản chất mối quan hệ giữa các yếu tố nói trên với bệnh tim, đồng thời khám phá sâu hơn những khía cạnh xã hội – hành vi – cảm nhận sức khỏe cá nhân vốn khó thể hiện bằng các con số thống kê đơn thuần. Đây cũng là lý do quan trọng thúc đẩy nhóm thực hiện đề tài: “Phân tích các yếu tố sức khỏe ảnh hưởng đến nguy cơ mắc bệnh tim”. Với mong muốn góp phần nâng cao nhận thức về các yếu tố nguy cơ và hỗ trợ định hướng chính sách chăm sóc sức khỏe cộng đồng, nghiên cứu này kỳ vọng sẽ mang đến những góc nhìn sâu sắc, giàu tính nhân văn và có giá trị thực tiễn trong công tác phòng ngừa bệnh tim mạch hiện nay.

1.2 Mục tiêu nghiên cứu

1.2.1 Mục tiêu chung

Phân tích và nhận diện mức độ ảnh hưởng của một số yếu tố sức khỏe bao gồm: hút thuốc lá, tiền sử đột quỵ, bệnh tiểu đường và bệnh thận đến khả năng mắc bệnh tim, thông qua tiếp cận định tính trên nền dữ liệu có sẵn.

1.2.2 Mục tiêu cụ thể

  • Làm rõ mối quan hệ giữa từng yếu tố sức khỏe được chọn (Smoking, Stroke, Diabetic, KidneyDisease) và tình trạng bệnh tim (HeartDisease).
  • Khám phá những biểu hiện, đặc điểm và chiều sâu xã hội – hành vi liên quan đến các yếu tố nguy cơ trong bối cảnh sức khỏe cộng đồng.
  • Gợi ý một số định hướng nâng cao nhận thức phòng ngừa bệnh tim từ phân tích thực tiễn trên dữ liệu có sẵn.

1.3 Đối tượng và phạm vi nghiên cứu

1.3.1 Đối tượng nghiên cứu

Nghiên cứu tập trung vào các yếu tố sức khỏe có thể liên quan đến khả năng mắc bệnh tim, bao gồm: hành vi hút thuốc lá, tiền sử đột quỵ, bệnh tiểu đường và bệnh thận. Các yếu tố này được xem xét thông qua mối liên hệ với biến phụ thuộc là tình trạng mắc bệnh tim (HeartDisease), với cách tiếp cận định tính nhằm hiểu sâu hơn bản chất mối quan hệ giữa các biến.

1.3.2 Phạm vi nghiên cứu

  • Về không gian: Dữ liệu được trích xuất từ bộ dữ liệu “Indicators of Heart Disease” do người dùng công khai trên nền tảng Kaggle, phản ánh thông tin sức khỏe cá nhân của người dân Hoa Kỳ.
  • Về thời gian: Bộ dữ liệu không ghi rõ năm cụ thể, tuy nhiên phản ánh các khảo sát gần đây liên quan đến hành vi và sức khỏe cộng đồng trong vòng một thập kỷ trở lại đây.
  • Về nội dung: Nghiên cứu không đi sâu vào các chỉ số sinh học hay can thiệp y học, mà tập trung khai thác góc nhìn định tính của bốn yếu tố sức khỏe phổ biến có khả năng tác động đến bệnh tim.

1.4 Phương pháp nghiên cứu

Nghiên cứu áp dụng phương pháp định tính trên dữ liệu thứ cấp từ Kaggle, sử dụng phần mềm R để mô tả và phân tích mối liên hệ giữa bốn yếu tố sức khỏe với bệnh tim thông qua bảng chéo và biểu đồ.

1.5 Kết cấu bài nghiên cứu

Chương 1: Tổng quan nghiên cứu.

Chương 2: Dữ liệu nghiên cứu.

Chương 3: Phân tích các yếu tố sức khỏe ảnh hưởng đến nguy cơ mắc bệnh tim.

Chương 4: Kết luận và kiến nghị.

CHƯƠNG 2: DỮ LIỆU NGHIÊN CỨU VÀ CƠ SỞ LÝ THUYẾT

2.1 Dữ liệu nghiên cứu

Bộ dữ liệu được sử dụng trong nghiên cứu này có tên là “Indicators of Heart Disease” từ Kangle.com, bao gồm 10567 quan sát và 19 biến. Bộ dữ liệu này chứa thông tin sức khỏe của các cá nhân, được sử dụng nhằm hỗ trợ phân tích và dự đoán khả năng mắc bệnh tim mạch dựa trên các chỉ số lối sống và sức khỏe. Tập dữ liệu gồm 18 biến, bao gồm: 14 biến định tính và 4 biến định lượng. Dưới đây là mô tả khái quát:

Biến định tính:

  • HeartDisease: Có mắc bệnh tim hay không.

  • Smoking: Có hút thuốc lá hay không.

  • AlcoholDrinking: Có uống rượu bia quá mức hay không.

  • Stroke: Có bị đột quỵ hay không.

  • DiffWalking: Có gặp khó khăn trong việc đi lại hay không.

  • Sex: Giới tính của người tham gia khảo sát.

  • AgeCategory: Nhóm tuổi của người tham gia.

  • Race: Chủng tộc của người tham gia khảo sát.

  • Diabetic: Có bị tiểu đường hay không.

  • PhysicalActivity: Có hoạt động thể chất trong 30 ngày qua hay không.

  • GenHealth: Đánh giá tổng quát về tình trạng sức khỏe bản thân.

  • Asthma: Có bị hen suyễn hay không.

  • KidneyDisease: Có bị bệnh thận hay không.

  • SkinCancer: Có bị ung thư da hay không.

Biến định lượng:

  • BMI: Chỉ số khối cơ thể (Body Mass Index).

  • PhysicalHealth: Số ngày trong 30 ngày qua mà thể chất không khỏe.

  • MentalHealth: Số ngày trong 30 ngày qua mà tinh thần không khỏe.

  • SleepTime: Số giờ ngủ trung bình mỗi đêm.

## 'data.frame':    10567 obs. of  18 variables:
##  $ HeartDisease    : chr  "No" "No" "No" "No" ...
##  $ BMI             : num  16.6 20.3 26.6 24.2 23.7 ...
##  $ Smoking         : chr  "Yes" "No" "Yes" "No" ...
##  $ AlcoholDrinking : chr  "No" "No" "No" "No" ...
##  $ Stroke          : chr  "No" "Yes" "No" "No" ...
##  $ PhysicalHealth  : int  3 0 20 0 28 6 15 5 0 0 ...
##  $ MentalHealth    : int  30 0 30 0 0 0 0 0 0 0 ...
##  $ DiffWalking     : chr  "No" "No" "No" "No" ...
##  $ Sex             : chr  "Female" "Female" "Male" "Female" ...
##  $ AgeCategory     : chr  "55-59" "80 or older" "65-69" "75-79" ...
##  $ Race            : chr  "White" "White" "White" "White" ...
##  $ Diabetic        : chr  "Yes" "No" "Yes" "No" ...
##  $ PhysicalActivity: chr  "Yes" "Yes" "Yes" "No" ...
##  $ GenHealth       : chr  "Very good" "Very good" "Fair" "Good" ...
##  $ SleepTime       : int  5 7 8 6 8 12 4 9 5 10 ...
##  $ Asthma          : chr  "Yes" "No" "Yes" "No" ...
##  $ KidneyDisease   : chr  "No" "No" "No" "No" ...
##  $ SkinCancer      : chr  "Yes" "No" "No" "Yes" ...
##  [1] "HeartDisease"     "Smoking"          "AlcoholDrinking"  "Stroke"          
##  [5] "DiffWalking"      "Sex"              "AgeCategory"      "Race"            
##  [9] "Diabetic"         "PhysicalActivity" "GenHealth"        "Asthma"          
## [13] "KidneyDisease"    "SkinCancer"

2.2 Cơ sở lý thuyết

2.2.1 Bệnh tim mạch

Bệnh tim mạch (Cardiovascular Disease - CVD) là một nhóm bệnh lý liên quan đến tim và mạch máu, bao gồm các bệnh như bệnh động mạch vành, suy tim, rối loạn nhịp tim và đột quỵ. Đây là nguyên nhân hàng đầu gây tử vong trên toàn cầu, theo Tổ chức Y tế Thế giới (WHO, 2021), chiếm khoảng 32% tổng số ca tử vong mỗi năm. Bệnh tim mạch thường phát triển âm thầm trong thời gian dài và chịu ảnh hưởng của nhiều yếu tố nguy cơ có thể thay đổi được, như hành vi sống và bệnh lý nền.

2.2.2 Hút thuốc lá và nguy cơ mắc bệnh tim

Hút thuốc lá được xem là một trong những yếu tố nguy cơ hàng đầu gây bệnh tim mạch. Nicotin và các chất độc trong khói thuốc làm tổn thương lớp nội mạc mạch máu, thúc đẩy quá trình xơ vữa động mạch, tăng huyết áp và giảm lượng oxy trong máu. Theo nghiên cứu của U.S. Department of Health and Human Services (2020), người hút thuốc có nguy cơ mắc bệnh tim mạch cao hơn người không hút thuốc gấp 2–4 lần. Tác động tiêu cực của hút thuốc xảy ra ở cả người hút chủ động và người hút thụ động, cho thấy đây là yếu tố nguy cơ cần được kiểm soát nghiêm ngặt.

2.2.3 Tiền sử đột quỵ và liên quan đến bệnh tim

Đột quỵ và bệnh tim mạch có mối liên hệ chặt chẽ, do đều liên quan đến hệ tim mạch và tuần hoàn. Đột quỵ xảy ra khi dòng máu tới não bị gián đoạn, thường do cục máu đông (đột quỵ thiếu máu cục bộ) hoặc vỡ mạch máu (đột quỵ xuất huyết). Những người từng bị đột quỵ có nguy cơ mắc các bệnh tim mạch cao hơn, đặc biệt là nếu họ có các yếu tố nguy cơ đi kèm như tăng huyết áp, tăng cholesterol hoặc tiểu đường. Ngoài ra, nhiều trường hợp đột quỵ là dấu hiệu cảnh báo sớm cho các rối loạn tim mạch nghiêm trọng khác.

2.2.4 Tiểu đường và bệnh tim mạch

Tiểu đường làm tăng nguy cơ mắc bệnh tim mạch do ảnh hưởng đến chuyển hóa glucose và lipid trong máu. Người mắc tiểu đường có xu hướng bị tăng đường huyết kéo dài, dẫn đến tổn thương mạch máu, thúc đẩy quá trình xơ vữa động mạch và làm suy giảm chức năng nội mô. Theo Hiệp hội Tim mạch Hoa Kỳ (AHA, 2019), người bệnh tiểu đường có nguy cơ tử vong do bệnh tim mạch cao gấp 2–3 lần so với người bình thường. Ngoài ra, tiểu đường thường đi kèm với các yếu tố nguy cơ khác như béo phì, tăng huyết áp và rối loạn lipid máu, làm tăng thêm khả năng mắc bệnh tim.

2.2.5 Bệnh thận và mối liên hệ với bệnh tim

Bệnh thận mãn tính (Chronic Kidney Disease - CKD) là một yếu tố nguy cơ quan trọng nhưng thường bị bỏ qua trong dự báo bệnh tim mạch. Thận và tim có mối liên hệ sinh lý chặt chẽ; khi chức năng thận suy giảm, cơ thể dễ bị tích tụ dịch và các chất thải, làm tăng huyết áp và gây tổn thương tim. Ngoài ra, người bị bệnh thận thường có rối loạn lipid, thiếu máu, và viêm mạn tính – tất cả đều góp phần thúc đẩy quá trình xơ vữa động mạch. Theo National Kidney Foundation (2020), nguy cơ tử vong do bệnh tim ở người mắc bệnh thận cao hơn gấp nhiều lần so với người không mắc.

CHƯƠNG 3: PHÂN TÍCH CÁC YẾU TỐ SỨC KHỎE ẢNH HƯỞNG ĐẾN NGUY CƠ MẮC BỆNH TIM

Trong nghiên cứu này, biến HeartDisease được lựa chọn làm biến phụ thuộc vì đây là kết quả sức khỏe mà nghiên cứu muốn tìm hiểu nguyên nhân và các yếu tố liên quan. Biến này mang tính phân loại nhị phân (“Yes” – có bệnh tim; “No” – không có bệnh tim), phù hợp để phân tích mối quan hệ với các biến định tính khác như giới tính, tình trạng hôn nhân, mức độ vận động thể chất, hút thuốc, hoặc tiền sử bệnh nền. Việc chọn HeartDisease làm biến phụ thuộc giúp xác định các nhóm đối tượng có nguy cơ cao và cung cấp cơ sở cho các khuyến nghị về phòng ngừa bệnh tim trong cộng đồng.

3.1 Phân tích tác động của việc hút thuốc đến bệnh tim

3.1.1 Thống kê mô tả biến phụ thuộc HeartDisease

Bảng tần số

## 
## Không bệnh tim       Bệnh tim 
##           9546           1021

Bảng tần suất

## 
## Không bệnh tim       Bệnh tim 
##     0.90337844     0.09662156

Biểu đồ

Nhận xét:

Biểu đồ tròn ở trên thể hiện tỷ lệ người tham gia khảo sát được phân loại dựa trên tình trạng bệnh tim. Theo kết quả thu được, có 1.021 người (chiếm 9,7%) được ghi nhận mắc bệnh tim, trong khi có đến 9.546 người (chiếm 90,3%) không mắc bệnh. Như vậy, phần lớn những người tham gia khảo sát không mắc bệnh tim. Tuy nhiên, tỷ lệ người mắc bệnh vẫn chiếm một phần đáng kể, cho thấy bệnh tim mạch vẫn là một vấn đề sức khỏe cộng đồng quan trọng cần được quan tâm, nhấn mạnh sự cần thiết của các biện pháp phòng ngừa và tầm soát sớm trong dân số được khảo sát.

3.1.2 Thống kê mô tả biến Smoking

Bảng tần số

## 
## Không hút thuốc       Hút thuốc 
##            5845            4722

Bảng tần suất

## 
## Không hút thuốc       Hút thuốc 
##       0.5531371       0.4468629

Biểu đồ

Nhận xét:

Biểu đồ tròn ở trên thể hiện tỷ lệ người tham gia khảo sát dựa trên thói quen hút thuốc. Theo kết quả thu được, có 4.722 người (chiếm 44,7%) cho biết có hút thuốc, trong khi 5.845 người còn lại (chiếm 55,3%) không có thói quen hút thuốc. Như vậy, mặc dù nhóm không hút thuốc chiếm tỷ lệ cao hơn, sự chênh lệch giữa hai nhóm là không quá lớn. Tỷ lệ người hút thuốc ở mức 44,7% là một con số rất đáng chú ý, cho thấy đây vẫn là một thói quen phổ biến trong cộng đồng được khảo sát.

3.1.3 Thống kê mô tả cho hai biến HeartDisease và Smoking

Bảng tần số

##                 
##                  Không hút thuốc Hút thuốc   Sum
##   Không bệnh tim            5447      4099  9546
##   Bệnh tim                   398       623  1021
##   Sum                       5845      4722 10567

Bảng tần suất

##                 
##                  Không hút thuốc  Hút thuốc        Sum
##   Không bệnh tim      0.51547270 0.38790574 0.90337844
##   Bệnh tim            0.03766443 0.05895713 0.09662156
##   Sum                 0.55313713 0.44686287 1.00000000

Biểu đồ

## Warning: package 'ggplot2' was built under R version 4.4.3

Nhận xét: Biểu đồ trên cho thấy trong nhóm không hút thuốc, có 5447 người không mắc bệnh tim (chiếm khoảng 51.5%) và 398 người có mắc bệnh tim (chiếm 3.8%). Trong khi đó, ở nhóm hút thuốc, có 4099 người không mắc bệnh tim (chiếm 38.8%) và 623 người có mắc bệnh tim (chiếm 5.9%).

Tổng quan, ta thấy rằng tỷ lệ người mắc bệnh tim cao hơn đáng kể trong nhóm có hút thuốc so với nhóm không hút. Điều này cho thấy hút thuốc có thể là một yếu tố làm gia tăng nguy cơ mắc bệnh tim, từ đó góp phần củng cố mối liên hệ giữa hành vi sức khỏe và bệnh lý tim mạch trong phân tích định tính của nghiên cứu.

3.1.4 Phân tích Relative Risk và khoảng ước lượng cho Relative Risk

##                  
##                   Bệnh tim Không bệnh tim   Sum
##   Không hút thuốc      398           5447  5845
##   Hút thuốc            623           4099  4722
##   Sum                 1021           9546 10567
## === Risk Ratio (RR) và khoảng tin cậy ===
##                  risk ratio with 95% C.I.
##                   estimate    lower    upper
##   Không hút thuốc 1.000000       NA       NA
##   Hút thuốc       1.937597 1.718873 2.184154

Nhận xét:

  • Risk Ratio giữa biến HeartDisease và Smoking là 1.9376, lớn hơn 1. Điều này cho thấy rằng người hút thuốc có nguy cơ mắc bệnh tim cao hơn đáng kể so với người không hút thuốc – cụ thể là cao hơn khoảng 1,94 lần.

  • Khoảng tin cậy 95% từ 1.7189 đến 2.1842 cho thấy mối liên hệ này có ý nghĩa thống kê. Kết quả này củng cố giả thuyết rằng hút thuốc góp phần làm gia tăng nguy cơ mắc bệnh tim, và những người không hút thuốc có xu hướng ít bị ảnh hưởng hơn về mặt sức khỏe tim mạch.

3.1.5 Phân tích Odd Ratio

##                  
##                   Bệnh tim Không bệnh tim   Sum
##   Không hút thuốc      398           5447  5845
##   Hút thuốc            623           4099  4722
##   Sum                 1021           9546 10567
## === Odds Ratio (OR) và khoảng tin cậy ===
##                  odds ratio with 95% C.I.
##                   estimate    lower    upper
##   Không hút thuốc 1.000000       NA       NA
##   Hút thuốc       2.079673 1.823087 2.374878

Nhận xét:

  • Odds Ratio giữa biến HeartDisease và Smoking là 2.08, lớn hơn 1. Điều này cho thấy rằng những người có hút thuốc có khả năng mắc bệnh tim cao hơn khoảng 2.08 lần so với những người không hút thuốc.

  • Khoảng tin cậy 95% của OR từ 1.82 đến 2.37 không bao gồm giá trị 1, điều đó chứng tỏ mối liên hệ giữa hút thuốc và bệnh tim là có ý nghĩa thống kê.

  • Kết quả này củng cố giả thuyết rằng hút thuốc là một yếu tố nguy cơ quan trọng đối với bệnh tim, và những người không hút thuốc có xu hướng ít mắc bệnh hơn.

3.1.6 Thống kê suy diễn

3.1.6.1. Kiểm định tính độc lập

Giả thuyết kiểm định:

  • H₀:Bệnh tim và tình trạng hút thuốc là hai biến độc lập.

  • H₁: Bệnh tim và tình trạng hút thuốc có liên quan với nhau.

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  dl1
## X-squared = 121.24, df = 1, p-value < 2.2e-16

Nhận xét kết quả kiểm định:

  • Giá trị Chi-bình phương (X²): 121.24

  • Bậc tự do (df): 1

  • Giá trị p-value < 2.2e-16 nhỏ hơn mức ý nghĩa 5%. Do đó, ta bác bỏ giả thuyết \(H_0\).

Kết luận:

Điều này cho thấy có mối liên hệ thống kê có ý nghĩa giữa bệnh tim và tình trạng hút thuốc trong tập dữ liệu. Nói cách khác, việc hút thuốc có thể ảnh hưởng đến nguy cơ mắc bệnh tim ở nhóm nghiên cứu. Kết quả này củng cố giả thuyết rằng hút thuốc là một yếu tố liên quan đến bệnh tim.

3.1.6.2 Kiểm định hiệu tỷ lệ

##                 
##                  Không hút thuốc Hút thuốc   Sum
##   Không bệnh tim            5447      4099  9546
##   Bệnh tim                   398       623  1021
##   Sum                       5845      4722 10567

\(p_1\) = P (Bệnh tim | Không hút thuốc) = \(\frac{398}{5845} \approx 6.8\%\) (Tỷ lệ bị bệnh tim ở nhóm không hút thuốc)

\(p_2\) = P (Bệnh tim | Hút thuốc) = \(\frac{623}{4722} \approx 13.2\%\) (Tỷ lệ bị bệnh tim ở nhóm có hút thuốc)

Giả thuyết kiểm định

\(H_0: p_1 - p_2 = 0\) (Tỷ lệ bệnh tim ở hai nhóm bằng nhau)

\(H_1: p_1 - p_2 < 0\) (Tỷ lệ bệnh tim ở nhóm không hút thuốc thấp hơn nhóm hút thuốc)

## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  counts_Smoking out of totals_Smoking
## X-squared = 121.97, df = 1, p-value < 2.2e-16
## alternative hypothesis: less
## 95 percent confidence interval:
##  -1.00000000 -0.05409677
## sample estimates:
##     prop 1     prop 2 
## 0.06809239 0.13193562

Nhận xét:

Dựa trên kết quả kiểm định hiệu tỷ lệ hai mẫu với p-value < 2.2e-16, nhỏ hơn mức ý nghĩa α = 0.05, ta bác bỏ giả thuyết không (\(H_0\)). Điều này cho thấy có bằng chứng thống kê để khẳng định rằng tỷ lệ mắc bệnh tim ở nhóm không hút thuốc thấp hơn rõ rệt so với nhóm hút thuốc.

Sự khác biệt này cũng được củng cố qua khoảng tin cậy 95% cho hiệu tỷ lệ nằm hoàn toàn dưới 0, cho thấy mối liên hệ giữa hút thuốc và bệnh tim là có ý nghĩa thống kê và mang tính thực tiễn.

3.1.7 Mô hình hồi quy cho dữ liệu nhị phân

3.1.7.1 Mô hình xác suất tuyến tính

## 
## Call:
## glm(formula = Heart ~ Smoking, family = binomial, data = dt)
## 
## Coefficients:
##                  Estimate Std. Error z value Pr(>|z|)    
## (Intercept)      -2.61637    0.05192  -50.39   <2e-16 ***
## SmokingHút thuốc  0.73242    0.06742   10.86   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 6712.1  on 10566  degrees of freedom
## Residual deviance: 6590.7  on 10565  degrees of freedom
## AIC: 6594.7
## 
## Number of Fisher Scoring iterations: 5

Nhận xét:

Hàm hồi quy được ước lượng như sau: \[ \hat{Heart} = -2.6164 + 0.7324 \times \text{Smoking} \] Có thể thấy rằng, với hệ số hồi quy \(𝛽_1 = 0.7324\), xác suất mắc bệnh tim của những người hút thuốc cao hơn so với những người không hút thuốc với mức tăng tương ứng 0.7324.

Từ kết quả trên, có thể khẳng định rằng việc hút thuốc ảnh hưởng rõ ràng đến nguy cơ mắc bệnh tim của người tham gia nghiên cứu. Kết quả kiểm định cho thấy ý nghĩa thống kê ở mức 1% với p-value < 2.2 × 10⁻¹⁶ < 0.05, củng cố vai trò quan trọng của biến hút thuốc.

3.1.7.2 Mô hình Logit

## 
## Call:
## glm(formula = Heart ~ Smoking, family = binomial(link = "logit"), 
##     data = dt)
## 
## Coefficients:
##                  Estimate Std. Error z value Pr(>|z|)    
## (Intercept)      -2.61637    0.05192  -50.39   <2e-16 ***
## SmokingHút thuốc  0.73242    0.06742   10.86   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 6712.1  on 10566  degrees of freedom
## Residual deviance: 6590.7  on 10565  degrees of freedom
## AIC: 6594.7
## 
## Number of Fisher Scoring iterations: 5

Nhận xét:

Hàm hồi quy được ước lượng như sau:

\[ \log\left(\frac{1 - \hat{\pi}}{\hat{\pi}}\right) = -2.6164 + 0.7324 \times \text{Smoking} \] Mô hình hồi quy logistic được sử dụng để đánh giá mối liên hệ giữa hành vi hút thuốc (Smoking) và khả năng mắc bệnh tim (Heart), với hàm liên kết logit.

  • Hệ số chặn (Intercept) là -2.6164, biểu diễn log-odds mắc bệnh tim ở nhóm không hút thuốc – tức nhóm tham chiếu. Hệ số này không mang nhiều ý nghĩa thực tế riêng lẻ, nhưng là cơ sở để tính toán xác suất trong mô hình.

  • Biến hút thuốc (Smoking) có hệ số ước lượng là 0.7324, với p-value < 2e-16, chứng tỏ mối liên hệ giữa hút thuốc và bệnh tim là có ý nghĩa thống kê rất cao (ở mức ý nghĩa 0.001).

  • Khi chuyển hệ số logit sang Odds Ratio, ta có: OR=exp(0.7324)≈2.08

  • Nghĩa là, người có hút thuốc có nguy cơ mắc bệnh tim cao hơn khoảng 2.08 lần so với người không hút thuốc.

  • Chỉ số AIC = 6594.7, phản ánh mức độ phù hợp của mô hình.

Khoảng tin cậy cho các hệ số mô hình:

## Waiting for profiling to be done...
##                       2.5 %     97.5 %
## (Intercept)      -2.7196596 -2.5160645
## SmokingHút thuốc  0.6007729  0.8651222

Kết luận:

  • Kết quả hồi quy logistic cho thấy hành vi hút thuốc có mối liên hệ rõ rệt và có ý nghĩa thống kê cao với nguy cơ mắc bệnh tim. Cụ thể, những người hút thuốc có odds mắc bệnh tim cao hơn khoảng 2.08 lần so với những người không hút thuốc (p-value < 2.2e-16). Khoảng tin cậy 95% cho odds ratio nằm trong khoảng từ 1.82 đến 2.38, cho thấy độ tin cậy cao của ước lượng.

  • Điều này khẳng định rằng hút thuốc là một yếu tố nguy cơ đáng kể đối với bệnh tim và cần được xem xét nghiêm túc trong các chiến lược can thiệp và phòng ngừa bệnh lý tim mạch trong cộng đồng.

  • Phân tích cho thấy hút thuốc làm tăng nguy cơ mắc bệnh tim, củng cố giả thuyết về vai trò tiêu cực của hành vi này trong sức khỏe tim mạch.

3.1.7.3 Mô hình Probit

## 
## Call:
## glm(formula = Heart ~ Smoking, family = binomial(link = "probit"), 
##     data = dt)
## 
## Coefficients:
##                  Estimate Std. Error z value Pr(>|z|)    
## (Intercept)      -1.49015    0.02507  -59.44   <2e-16 ***
## SmokingHút thuốc  0.37286    0.03405   10.95   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 6712.1  on 10566  degrees of freedom
## Residual deviance: 6590.7  on 10565  degrees of freedom
## AIC: 6594.7
## 
## Number of Fisher Scoring iterations: 5

Nhận xét:

Hàm Probit ước lượng như sau:

\[ \Phi^{-1}(\hat{\pi}) = -1.49015 + 0.37286 \times \text{Smoking} \] Mô hình hồi quy Probit được sử dụng để phân tích mối liên hệ giữa hành vi hút thuốc và khả năng mắc bệnh tim. Kết quả cho thấy:

  • Hệ số ước lượng của biến hút thuốc là 0.3729, với p-value < 2e-16, cho thấy mối liên hệ có ý nghĩa thống kê rất cao.

  • Hệ số này mang dấu dương, cho thấy người hút thuốc có xác suất mắc bệnh tim cao hơn so với người không hút (nhóm tham chiếu).

  • Hệ số chặn (Intercept = -1.4902) thể hiện log-probit của nhóm không hút thuốc, không mang ý nghĩa trực tiếp nhưng là cơ sở tính xác suất trong mô hình.

  • Giá trị AIC = 6594.7, tương đương với mô hình logit, cho thấy mức độ phù hợp của mô hình là ổn định.

Khoảng tin cậy cho các hệ số của mô hình:

## Waiting for profiling to be done...
##                       2.5 %    97.5 %
## (Intercept)      -1.5396465 -1.441373
## SmokingHút thuốc  0.3062204  0.439705

Kết luận:

Khoảng tin cậy 95% của hệ số biến “hút thuốc” (từ 0.306 đến 0.440) không bao gồm giá trị 0, cho thấy hút thuốc có ảnh hưởng rõ rệt đến nguy cơ mắc bệnh tim và kết quả này có ý nghĩa thống kê.

3.1.7.4 Mô hình Cloglog

## 
## Call:
## glm(formula = Heart ~ Smoking, family = binomial(link = "cloglog"), 
##     data = dt)
## 
## Coefficients:
##                  Estimate Std. Error z value Pr(>|z|)    
## (Intercept)      -2.65184    0.05013  -52.90   <2e-16 ***
## SmokingHút thuốc  0.69631    0.06419   10.85   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 6712.1  on 10566  degrees of freedom
## Residual deviance: 6590.7  on 10565  degrees of freedom
## AIC: 6594.7
## 
## Number of Fisher Scoring iterations: 5

Dựa trên kết quả mô hình hồi quy với hàm liên kết cloglog, ta có phương trình:

\[ \log(-\log(1 - P(\text{sleep} = 1))) = -2.65184 + 0.69631 \times \text{Smoking} \] Nhận xét:

Kết quả hồi quy Cloglog đơn biến cho thấy hút thuốc có mối liên hệ rõ rệt với xác suất mắc bệnh tim, với p-value < 2e-16, khẳng định ý nghĩa thống kê ở mức 5%. Hệ số ước lượng là 0.696, cho thấy nhóm người hút thuốc có giá trị hàm cloglog cao hơn, tương ứng với khả năng mắc bệnh tim cao hơn so với nhóm không hút.

Điều này cho thấy hành vi hút thuốc làm gia tăng nguy cơ mắc bệnh tim theo mô hình Cloglog, và mối quan hệ này là có ý nghĩa thống kê mạnh, góp phần làm rõ vai trò tiêu cực của hút thuốc đối với sức khỏe tim mạch.

3.1.8 Đánh giá mô hình

##     Model      AIC
## 1   Logit 6594.656
## 2  Probit 6594.656
## 3 Cloglog 6594.656

Nhận xét:

AIC của cả ba mô hình hoàn toàn giống nhau, cho thấy mức độ phù hợp của các mô hình là tương đương khi sử dụng biến Smoking.

Không có mô hình nào vượt trội hơn về mặt thống kê giữa 3 loại mô hình (logit, probit, cloglog) trong trường hợp này.

3.2 Phân tích tác động của đột quỵ đến bệnh tim

3.2.1 Thống kê mô tả biến Stroke

Bảng tần số

## 
## Không đột quỵ       Đột quỵ 
##         10070           497

Bảng tần suất

## 
## Không đột quỵ       Đột quỵ 
##    0.95296678    0.04703322

Biểu đồ

Nhận xét:

Trong tổng số 10.567 người, có 497 người từng bị đột quỵ (chiếm 4.7%) và 10.070 người không bị đột quỵ (chiếm 95.3%).

Mặc dù nhóm từng bị đột quỵ chiếm tỷ lệ nhỏ, nhưng đây là một yếu tố sức khỏe quan trọng cần xem xét. Đột quỵ thường liên quan đến rối loạn mạch máu não và tim, có thể là dấu hiệu cảnh báo sớm của bệnh tim. Do đó, việc phân tích mối liên hệ giữa đột quỵ và bệnh tim là cần thiết để làm rõ vai trò của các bệnh lý mạch máu trong quá trình hình thành nguy cơ tim mạch.

3.2.2 Thống kê mô tả cho hai biến HeartDisease và Stroke

Bảng tần số

##                 
##                  Không đột quỵ Đột quỵ   Sum
##   Không bệnh tim          9225     321  9546
##   Bệnh tim                 845     176  1021
##   Sum                    10070     497 10567

Bảng tần suất

##                 
##                  Không đột quỵ    Đột quỵ        Sum
##   Không bệnh tim    0.87300085 0.03037759 0.90337844
##   Bệnh tim          0.07996593 0.01665563 0.09662156
##   Sum               0.95296678 0.04703322 1.00000000

Biểu đồ

## Warning: Unknown palette: "Paste2"

Nhận xét:

Biểu đồ trên cho thấy trong nhóm không bị đột quỵ, có 9225 người không mắc bệnh tim (chiếm khoảng 87.3%) và 845 người có mắc bệnh tim (chiếm 8.0%). Trong khi đó, ở nhóm bị đột quỵ, có 321 người không mắc bệnh tim (chiếm 3.0%) và 176 người có mắc bệnh tim (chiếm 1.7%).

Tổng quan, ta thấy rằng tỷ lệ người mắc bệnh tim cao hơn đáng kể trong nhóm từng bị đột quỵ so với nhóm không bị. Điều này cho thấy đột quỵ có thể là một yếu tố làm tăng nguy cơ mắc bệnh tim, đồng thời góp phần củng cố thêm mối liên hệ giữa các bệnh lý tim mạch trong phân tích định tính của nghiên cứu.

3.2.3 Phân tích Relative Risk và khoảng ước lượng cho Relative Risk

##                
##                 Bệnh tim Không bệnh tim   Sum
##   Không đột quỵ      845           9225 10070
##   Đột quỵ            176            321   497
##   Sum               1021           9546 10567
## === Risk Ratio (RR) và khoảng tin cậy ===
##                risk ratio with 95% C.I.
##                 estimate   lower    upper
##   Không đột quỵ 1.000000      NA       NA
##   Đột quỵ       4.220161 3.68672 4.830788

Nhận xét:

  • Risk Ratio giữa biến HeartDisease và Stroke là 4.2202, lớn hơn 1. Điều này cho thấy người từng bị đột quỵ có nguy cơ mắc bệnh tim cao hơn khoảng 4,22 lần so với người chưa từng bị đột quỵ.

  • Khoảng tin cậy 95% từ 3.6867 đến 4.8308 khẳng định mối liên hệ này có ý nghĩa thống kê. Kết quả củng cố giả thuyết rằng đột quỵ là một yếu tố nguy cơ nghiêm trọng đối với bệnh tim, và những người chưa từng bị đột quỵ có xu hướng ít bị ảnh hưởng hơn đến sức khỏe tim mạch.

3.2.4 Phân tích Odd Ratio

##                
##                 Bệnh tim Không bệnh tim   Sum
##   Không đột quỵ      845           9225 10070
##   Đột quỵ            176            321   497
##   Sum               1021           9546 10567
## === Odds Ratio (OR) và khoảng tin cậy ===
##                odds ratio with 95% C.I.
##                 estimate    lower    upper
##   Không đột quỵ 1.000000       NA       NA
##   Đột quỵ       5.986006 4.908582 7.280183

Nhận xét:

  • Odds Ratio giữa biến HeartDisease và Stroke là 5.99, lớn hơn 1. Điều này cho thấy rằng những người từng bị đột quỵ có khả năng mắc bệnh tim cao hơn gần 6 lần so với những người không bị đột quỵ.

  • Khoảng tin cậy 95% từ 4.91 đến 7.28 không chứa giá trị 1, chứng tỏ mối liên hệ này có ý nghĩa thống kê.

  • Kết quả này cho thấy tiền sử đột quỵ là một yếu tố nguy cơ mạnh đối với bệnh tim, và những người không bị đột quỵ thường có nguy cơ thấp hơn đáng kể.

3.2.5 Thống kê suy diễn

3.2.5.1. Kiểm định tính độc lập

Giả thuyết kiểm định:

  • H₀:Bệnh tim và đột quỵ là hai biến độc lập.

  • H₁: Bệnh tim và đột quỵ có liên quan với nhau.

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  dl2
## X-squared = 393.1, df = 1, p-value < 2.2e-16

Nhận xét kết quả kiểm định:

  • Giá trị Chi-bình phương (X²): 393.1

  • Bậc tự do (df): 1

  • Giá trị p-value < 2.2e-16 nhỏ hơn mức ý nghĩa 5%. Do đó, ta bác bỏ giả thuyết \(H_0\).

Kết luận:

Điều này cho thấy tồn tại mối quan hệ thống kê có ý nghĩa giữa bệnh tim và đột quỵ trong mẫu nghiên cứu. Nói cách khác, nguy cơ mắc đột quỵ có sự liên quan mật thiết đến tình trạng bệnh tim của người tham gia.

3.2.5.2 Kiểm định hiệu tỷ lệ

##                 
##                  Không đột quỵ Đột quỵ   Sum
##   Không bệnh tim          9225     321  9546
##   Bệnh tim                 845     176  1021
##   Sum                    10070     497 10567

\(p_1\) = P (Bệnh tim | Không đột quỵ) = \(\frac{845}{10070} \approx 8.39\%\) (Tỷ lệ bị bệnh tim ở nhóm không đột quỵ)

\(p_2\) = P (Bệnh tim | Đột quỵ) = \(\frac{176}{497} \approx 35.41\%\) (Tỷ lệ bị bệnh tim ở nhóm đột quỵ)

Giả thuyết kiểm định

\(H_0: p_1 - p_2 = 0\) (Tỷ lệ bệnh tim ở hai nhóm bằng nhau)

\(H_1: p_1 - p_2 < 0\) (Tỷ lệ bệnh tim ở nhóm không đột quỵ thấp hơn nhóm đột quỵ)

## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  counts_Stroke out of totals_Stroke
## X-squared = 396.19, df = 1, p-value < 2.2e-16
## alternative hypothesis: less
## 95 percent confidence interval:
##  -1.0000000 -0.2346348
## sample estimates:
##     prop 1     prop 2 
## 0.08391261 0.35412475

Nhận xét:

Kết quả kiểm định hiệu tỷ lệ hai mẫu cho thấy p-value < 2.2e-16, nhỏ hơn mức ý nghĩa α = 0.05, do đó ta bác bỏ giả thuyết không (\(H_0\)). Điều này cho thấy có bằng chứng thống kê để kết luận rằng tỷ lệ mắc bệnh tim ở nhóm không đột quỵ thấp hơn rõ rệt so với nhóm từng bị đột quỵ.

Tỷ lệ bệnh tim ở nhóm không đột quỵ là 8.39%, trong khi ở nhóm đột quỵ là 35.41%. Khoảng tin cậy 95% cho hiệu tỷ lệ nằm hoàn toàn dưới 0 (từ -1.0000 đến -0.2346), cho thấy sự chênh lệch là có ý nghĩa thống kê và thực tế.

3.2.6 Mô hình hồi quy cho dữ liệu nhị phân

3.2.6.1 Mô hình xác suất tuyến tính

## 
## Call:
## glm(formula = Heart ~ Stroke, data = dt)
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   0.083913   0.002889   29.05   <2e-16 ***
## StrokeĐột quỵ 0.270212   0.013320   20.29   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 0.08402914)
## 
##     Null deviance: 922.35  on 10566  degrees of freedom
## Residual deviance: 887.77  on 10565  degrees of freedom
## AIC: 3821.7
## 
## Number of Fisher Scoring iterations: 2

Nhận xét:

Hàm hồi quy được ước lượng như sau: \[ \hat{Heart} = 0.0839 + 0.2702 \times \text{Stroke} \]

Có thể nhận thấy, với hệ số hồi quy \(𝛽_1=0.2702\), điều này cho biết giá trị trung bình của biến bệnh tim (Heart) ở những người từng bị đột quỵ cao hơn so với những người không bị đột quỵ là 0.2702.

Từ đó, có thể kết luận rằng việc từng bị đột quỵ có ảnh hưởng rõ ràng đến nguy cơ mắc bệnh tim của người tham gia khảo sát. Kết quả kiểm định có ý nghĩa thống kê rất cao với p-value < 2.2 × 10⁻¹⁶ < 0.05, xác nhận ảnh hưởng của biến đột quỵ là có ý nghĩa.

3.2.6.2 Mô hình Logit

## 
## Call:
## glm(formula = Heart ~ Stroke, family = binomial(link = "logit"), 
##     data = dt)
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)    
## (Intercept)   -2.39034    0.03594  -66.50   <2e-16 ***
## StrokeĐột quỵ  1.78938    0.10044   17.82   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 6712.1  on 10566  degrees of freedom
## Residual deviance: 6450.9  on 10565  degrees of freedom
## AIC: 6454.9
## 
## Number of Fisher Scoring iterations: 5

Nhận xét:

Hàm hồi quy được ước lượng như sau:

\[ \log\left(\frac{1 - \hat{\pi}}{\hat{\pi}}\right) = -2.39034 + 1.78938 \times \text{Stroke} \] Kết quả hồi quy logistic cho thấy đột quỵ là một yếu tố có ảnh hưởng mạnh mẽ và có ý nghĩa thống kê cao đến nguy cơ mắc bệnh tim (p-value < 2.2e-16). Hệ số hồi quy ước lượng là 1.789 cho thấy, khi một người từng bị đột quỵ, odds (tỷ số khả năng) mắc bệnh tim của họ cao hơn khoảng 5.98 lần so với người không bị đột quỵ.

Điều này phản ánh mối liên hệ rất rõ rệt giữa tiền sử đột quỵ và bệnh tim, và cho thấy đột quỵ là một yếu tố nguy cơ nghiêm trọng cần được kiểm soát trong các chiến lược phòng ngừa bệnh tim mạch.

Khoảng tin cậy cho các hệ số mô hình:

## Waiting for profiling to be done...
##                   2.5 %    97.5 %
## (Intercept)   -2.461479 -2.320571
## StrokeĐột quỵ  1.591049  1.985011

Kết luận:

Kết quả hồi quy logistic cho thấy đột quỵ có mối liên hệ rất mạnh và có ý nghĩa thống kê với nguy cơ mắc bệnh tim. Cụ thể, những người từng bị đột quỵ có odds mắc bệnh tim cao hơn khoảng 5.98 lần so với người chưa từng bị đột quỵ (p-value < 2.2e-16). Khoảng tin cậy 95% cho odds ratio nằm trong khoảng từ 4.91 đến 7.28, khẳng định tính ổn định và đáng tin cậy của kết quả. Điều này cho thấy đột quỵ là một yếu tố nguy cơ nghiêm trọng cần được kiểm soát trong phòng ngừa bệnh tim.

3.2.6.3 Mô hình Probit

## 
## Call:
## glm(formula = Heart ~ Stroke, family = binomial(link = "probit"), 
##     data = dt)
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)    
## (Intercept)   -1.37923    0.01793  -76.93   <2e-16 ***
## StrokeĐột quỵ  1.00502    0.06040   16.64   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 6712.1  on 10566  degrees of freedom
## Residual deviance: 6450.9  on 10565  degrees of freedom
## AIC: 6454.9
## 
## Number of Fisher Scoring iterations: 5

Nhận xét:

Hàm Probit ước lượng như sau:

\[ \Phi^{-1}(\hat{\pi}) = -1.37923 + 1.00502 \times \text{Stroke} \]

Kết quả hồi quy Probit cho thấy tiền sử đột quỵ có ảnh hưởng đáng kể đến xác suất mắc bệnh tim. Hệ số ước lượng cho biến “Đột quỵ” là 1.005 với p-value < 2e-16, cho thấy mối quan hệ này có ý nghĩa thống kê rất mạnh. Điều này cho thấy những người từng bị đột quỵ có xác suất mắc bệnh tim cao hơn rõ rệt so với những người không bị. Kết quả này củng cố giả thuyết rằng đột quỵ là một yếu tố nguy cơ nghiêm trọng đối với bệnh tim mạch.

Khoảng tin cậy cho các hệ số của mô hình:

## Waiting for profiling to be done...
##                    2.5 %    97.5 %
## (Intercept)   -1.4145301 -1.344251
## StrokeĐột quỵ  0.8863098  1.123078

Kết luận:

Với độ tin cậy 95%, hệ số Intercept nằm trong khoảng từ -1.4145 đến -1.3443, cho thấy xác suất mắc bệnh tim ở nhóm chưa từng bị đột quỵ là tương đối thấp.

Hệ số của biến “Đột quỵ” nằm trong khoảng 0.8863 đến 1.1231, hoàn toàn dương và không chứa 0. Điều này cho thấy tiền sử đột quỵ làm tăng xác suất mắc bệnh tim một cách có ý nghĩa thống kê.

3.2.6.4 Mô hình Cloglog

## 
## Call:
## glm(formula = Heart ~ Stroke, family = binomial(link = "cloglog"), 
##     data = dt)
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)    
## (Intercept)   -2.43448    0.03441  -70.75   <2e-16 ***
## StrokeĐột quỵ  1.60700    0.08341   19.27   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 6712.1  on 10566  degrees of freedom
## Residual deviance: 6450.9  on 10565  degrees of freedom
## AIC: 6454.9
## 
## Number of Fisher Scoring iterations: 5

Dựa trên kết quả mô hình hồi quy với hàm liên kết cloglog, ta có phương trình:

\[ \log(-\log(1 - P(\text{sleep} = 1))) = -2.43448 + 1.60700 \times \text{Stroke} \] Nhận xét:

Kết quả hồi quy Cloglog đơn biến cho thấy biến “Đột quỵ” có ảnh hưởng đáng kể đến xác suất mắc bệnh tim, với p-value < 2e-16, cho thấy mối liên hệ này là có ý nghĩa thống kê rất mạnh. Hệ số ước lượng là 1.607, cho thấy những người từng bị đột quỵ có giá trị hàm cloglog cao hơn đáng kể, đồng nghĩa với xác suất mắc bệnh tim cũng lớn hơn so với nhóm không có tiền sử đột quỵ.

Kết quả này cho thấy, trong khuôn khổ mô hình Cloglog – vốn nhạy với các sự kiện hiếm – đột quỵ là một yếu tố nguy cơ có tác động mạnh đến khả năng mắc bệnh tim, và mối liên hệ này có ý nghĩa thống kê rõ ràng.

3.2.7 Đánh giá mô hình

##     Model      AIC
## 1   Logit 6454.871
## 2  Probit 6454.871
## 3 Cloglog 6454.871

Nhận xét:

Các chỉ số AIC hoàn toàn giống nhau ở cả 3 mô hình, cho thấy hiệu suất dự đoán tương đương giữa logit, probit và cloglog khi chỉ sử dụng biến Stroke.

3.3 Phân tích tác động của bệnh tiểu đường đến bệnh tim

3.3.1 Thống kê mô tả biến Diabetic

Bảng tần số

## 
## Không tiểu đường       Tiểu đường 
##             9002             1565

Bảng tần suất

## 
## Không tiểu đường       Tiểu đường 
##        0.8518974        0.1481026

Biểu đồ

Nhận xét:

Biểu đồ tròn trên minh họa tỷ lệ người mắc và không mắc bệnh tiểu đường trong tổng số 10.567 người tham gia khảo sát. Trong đó, có 1.565 người (chiếm khoảng 14.8%) được xác định mắc bệnh tiểu đường, trong khi 9.002 người còn lại (85.2%) không mắc bệnh.

Như vậy, phần lớn người tham gia không bị tiểu đường. Tuy nhiên, tỷ lệ 14.8% vẫn là một con số đáng kể, cho thấy tiểu đường là một vấn đề sức khỏe phổ biến và có thể đóng vai trò quan trọng khi phân tích mối liên hệ với các bệnh lý tim mạch trong nghiên cứu này.

3.3.2 Thống kê mô tả cho hai biến HeartDisease và Diabetic

Bảng tần số

##                 
##                  Không tiểu đường Tiểu đường   Sum
##   Không bệnh tim             8354       1192  9546
##   Bệnh tim                    648        373  1021
##   Sum                        9002       1565 10567

Bảng tần suất

##                 
##                  Không tiểu đường Tiểu đường        Sum
##   Không bệnh tim       0.79057443 0.11280401 0.90337844
##   Bệnh tim             0.06132299 0.03529857 0.09662156
##   Sum                  0.85189742 0.14810258 1.00000000

Biểu đồ

## Warning: Unknown palette: "Paste11"

Nhận xét:

Biểu đồ trên cho thấy, trong nhóm không bị tiểu đường, có 8354 người không mắc bệnh tim (chiếm khoảng 79.0%) và 648 người có mắc bệnh tim (chiếm 6.1%). Trong khi đó, ở nhóm bị tiểu đường, có 1192 người không mắc bệnh tim (chiếm 11.3%) và 373 người có mắc bệnh tim (chiếm 3.5%).

Tổng quan, tỷ lệ mắc bệnh tim ở nhóm có tiểu đường cao hơn rõ rệt so với nhóm không tiểu đường. Sự khác biệt này cho thấy tiểu đường có thể là một yếu tố làm gia tăng nguy cơ mắc bệnh tim

3.3.3 Phân tích Relative Risk và khoảng ước lượng cho Relative Risk

##                   
##                    Bệnh tim Không bệnh tim   Sum
##   Không tiểu đường      648           8354  9002
##   Tiểu đường            373           1192  1565
##   Sum                  1021           9546 10567
## === Risk Ratio (RR) và khoảng tin cậy ===
##                   risk ratio with 95% C.I.
##                    estimate    lower    upper
##   Không tiểu đường 1.000000       NA       NA
##   Tiểu đường       3.310995 2.949764 3.716462

Nhận xét:

  • Risk Ratio giữa biến HeartDisease và Diabetes là 3.3110, lớn hơn 1. Điều này cho thấy người mắc tiểu đường có nguy cơ mắc bệnh tim cao hơn khoảng 3,31 lần so với người không mắc tiểu đường.

  • Khoảng tin cậy 95% từ 2.9498 đến 3.7165 cho thấy kết quả này có ý nghĩa thống kê. Phát hiện này củng cố giả thuyết rằng tiểu đường là một yếu tố nguy cơ rõ rệt đối với bệnh tim, và những người không mắc tiểu đường có xu hướng ít bị ảnh hưởng hơn đến sức khỏe tim mạch.

3.3.4 Phân tích Odd Ratio

##                   
##                    Bệnh tim Không bệnh tim   Sum
##   Không tiểu đường      648           8354  9002
##   Tiểu đường            373           1192  1565
##   Sum                  1021           9546 10567
## === Odds Ratio (OR) và khoảng tin cậy ===
##                   odds ratio with 95% C.I.
##                    estimate    lower    upper
##   Không tiểu đường 1.000000       NA       NA
##   Tiểu đường       4.033926 3.501022 4.643448

Nhận xét:

  • Odds Ratio giữa biến HeartDisease và Diabetes là 4.03, lớn hơn 1. Điều này cho thấy người mắc tiểu đường có khả năng mắc bệnh tim cao hơn khoảng 4 lần so với người không mắc tiểu đường.

  • Khoảng tin cậy 95% từ 3.50 đến 4.64 không bao gồm giá trị 1, cho thấy kết quả có ý nghĩa thống kê.

  • Kết quả này củng cố giả thuyết rằng bệnh tiểu đường là một yếu tố nguy cơ quan trọng của bệnh tim, và người không mắc tiểu đường có xu hướng ít bị bệnh tim hơn.

3.3.5 Thống kê suy diễn

3.3.5.1. Kiểm định tính độc lập

Giả thuyết kiểm định:

  • H₀:Bệnh tim và tiểu đường là hai biến độc lập.

  • H₁: Bệnh tim và tiểu đường có liên quan với nhau.

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  dl3
## X-squared = 420.79, df = 1, p-value < 2.2e-16

Nhận xét kết quả kiểm định:

  • Giá trị Chi-bình phương (X²): 420.79

  • Bậc tự do (df): 1

  • Giá trị p-value < 2.2e-16 nhỏ hơn mức ý nghĩa 5%. Do đó, ta bác bỏ giả thuyết \(H_0\).

Kết luận:

Kết quả này chỉ ra rằng có mối liên hệ có ý nghĩa thống kê giữa bệnh tim và tiểu đường trong mẫu nghiên cứu. Nói cách khác, tiểu đường là một yếu tố liên quan mật thiết đến nguy cơ mắc bệnh tim.

3.3.5.2 Kiểm định hiệu tỷ lệ

##                 
##                  Không tiểu đường Tiểu đường   Sum
##   Không bệnh tim             8354       1192  9546
##   Bệnh tim                    648        373  1021
##   Sum                        9002       1565 10567

\(p_1\) = P (Bệnh tim | Không tiểu đường) = \(\frac{648}{9002} \approx 7.2\%\) (Tỷ lệ bị bệnh tim ở nhóm không tiểu đường)

\(p_2\) = P (Bệnh tim | Tiểu đường) = \(\frac{373}{1565} \approx 23.8\%\) (Tỷ lệ bị bệnh tim ở nhóm tiểu đường)

Giả thuyết kiểm định

\(H_0: p_1 - p_2 = 0\) (Tỷ lệ bệnh tim ở hai nhóm bằng nhau)

\(H_1: p_1 - p_2 < 0\) (Tỷ lệ bệnh tim ở nhóm không tiểu đường thấp hơn nhóm tiểu đường)

## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  counts_Diabetic out of totals_Diabetic
## X-squared = 422.7, df = 1, p-value < 2.2e-16
## alternative hypothesis: less
## 95 percent confidence interval:
##  -1.0000000 -0.1480815
## sample estimates:
##    prop 1    prop 2 
## 0.0719840 0.2383387

Nhận xét:

Kết quả kiểm định cho thấy p-value < 2.2e-16, nhỏ hơn mức ý nghĩa α = 0.05, do đó bác bỏ giả thuyết không (\(H_0\)). Điều này cho thấy có đủ bằng chứng thống kê để kết luận rằng tỷ lệ mắc bệnh tim ở nhóm không tiểu đường thấp hơn so với nhóm có tiểu đường.

Tỷ lệ mắc bệnh tim ở nhóm không tiểu đường là 7.20%, trong khi ở nhóm tiểu đường là 23.83%. Khoảng tin cậy 95% cho hiệu tỷ lệ nằm hoàn toàn dưới 0 (từ -1.0000 đến -0.1481), càng củng cố cho kết luận rằng sự khác biệt này là có ý nghĩa thống kê và mang giá trị thực tiễn.

3.3.6 Mô hình hồi quy cho dữ liệu nhị phân

3.3.6.1 Mô hình xác suất tuyến tính

## 
## Call:
## glm(formula = Heart ~ Diabetic, data = dt)
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)        0.071984   0.003051   23.59   <2e-16 ***
## DiabeticTiểu đường 0.166355   0.007929   20.98   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 0.08381013)
## 
##     Null deviance: 922.35  on 10566  degrees of freedom
## Residual deviance: 885.45  on 10565  degrees of freedom
## AIC: 3794.1
## 
## Number of Fisher Scoring iterations: 2

Nhận xét:

Hàm hồi quy được ước lượng như sau: \[ \hat{Heart} = 0.07198 + 0.16636 \times \text{Diabetic} \] Hệ số hồi quy \(β_1=0.16636\) cho biết, trung bình, những người mắc tiểu đường có giá trị biến bệnh tim cao hơn 0.16636 đơn vị so với những người không mắc tiểu đường, khi giữ các yếu tố khác không đổi.

Kết quả kiểm định thống kê cho thấy hệ số này có ý nghĩa rất cao với p-value < 2.2 × 10⁻¹⁶, cho thấy biến tiểu đường có ảnh hưởng thực nghiệm rõ rệt đến nguy cơ mắc bệnh tim.

3.3.6.2 Mô hình Logit

## 
## Call:
## glm(formula = Heart ~ Diabetic, family = binomial(link = "logit"), 
##     data = dt)
## 
## Coefficients:
##                    Estimate Std. Error z value Pr(>|z|)    
## (Intercept)        -2.55661    0.04078  -62.70   <2e-16 ***
## DiabeticTiểu đường  1.39480    0.07199   19.37   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 6712.1  on 10566  degrees of freedom
## Residual deviance: 6377.2  on 10565  degrees of freedom
## AIC: 6381.2
## 
## Number of Fisher Scoring iterations: 5

Nhận xét:

Hàm hồi quy được ước lượng như sau:

\[ \log\left(\frac{1 - \hat{\pi}}{\hat{\pi}}\right) = -2.5566 + 1.3948 \times \text{Diabetic} \] Dựa trên kết quả hồi quy logistic, tiểu đường là một yếu tố có ảnh hưởng rõ rệt và có ý nghĩa thống kê rất cao đến nguy cơ mắc bệnh tim (p-value < 2.2e-16). Hệ số hồi quy ước lượng là 1.395, tương ứng với odds ratio khoảng 4.03, nghĩa là người mắc tiểu đường có khả năng mắc bệnh tim cao hơn khoảng 4 lần so với người không mắc tiểu đường.

Kết quả này cho thấy tiểu đường là một yếu tố nguy cơ quan trọng đối với bệnh tim mạch và cần được theo dõi, kiểm soát nghiêm ngặt trong các chương trình phòng ngừa và chăm sóc sức khỏe cộng đồng.

Khoảng tin cậy cho các hệ số mô hình:

## Waiting for profiling to be done...
##                        2.5 %    97.5 %
## (Intercept)        -2.637456 -2.477580
## DiabeticTiểu đường  1.253149  1.535423

Kết luận:

Khoảng tin cậy 95% cho odds ratio nằm trong khoảng từ 3.50 đến 4.64, tương ứng với hệ số hồi quy từ 1.25 đến 1.54, cho thấy kết quả ước lượng ổn định và đáng tin cậy.

Điều này khẳng định tiểu đường là một yếu tố nguy cơ đáng lưu ý đối với bệnh tim và cần được ưu tiên kiểm soát trong các chính sách chăm sóc sức khỏe dự phòng.

3.3.6.3 Mô hình Probit

## 
## Call:
## glm(formula = Heart ~ Diabetic, family = binomial(link = "probit"), 
##     data = dt)
## 
## Coefficients:
##                    Estimate Std. Error z value Pr(>|z|)    
## (Intercept)        -1.46117    0.01986  -73.58   <2e-16 ***
## DiabeticTiểu đường  0.74952    0.04005   18.72   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 6712.1  on 10566  degrees of freedom
## Residual deviance: 6377.2  on 10565  degrees of freedom
## AIC: 6381.2
## 
## Number of Fisher Scoring iterations: 5

Nhận xét:

Hàm Probit ước lượng như sau:

\[ \Phi^{-1}(\hat{\pi}) = -1.46117 + 0.74952 \times \text{Diabetic} \] Kết quả hồi quy Probit cho thấy tình trạng tiểu đường có ảnh hưởng đáng kể đến xác suất mắc bệnh tim. Hệ số ước lượng cho biến “Tiểu đường” là 0.750 với p-value < 2e-16, cho thấy mối liên hệ này có ý nghĩa thống kê rất mạnh. Điều này cho thấy những người mắc tiểu đường có xác suất mắc bệnh tim cao hơn rõ rệt so với những người không mắc. Kết quả này củng cố giả thuyết rằng tiểu đường là một yếu tố nguy cơ quan trọng đối với bệnh tim.

Khoảng tin cậy cho các hệ số của mô hình:

## Waiting for profiling to be done...
##                         2.5 %   97.5 %
## (Intercept)        -1.5003151 -1.42247
## DiabeticTiểu đường  0.6708712  0.82786

Kết luận:

Với độ tin cậy 95%, hệ số Intercept nằm trong khoảng -1.5003 đến -1.4225, phản ánh xác suất mắc bệnh tim ở nhóm không bị tiểu đường là tương đối thấp.

Hệ số của biến “Tiểu đường” nằm trong khoảng từ 0.6709 đến 0.8279, đều dương và không chứa 0. Điều này cho thấy tình trạng tiểu đường làm tăng xác suất mắc bệnh tim một cách có ý nghĩa thống kê.

3.3.6.4 Mô hình Cloglog

## 
## Call:
## glm(formula = Heart ~ Diabetic, family = binomial(link = "cloglog"), 
##     data = dt)
## 
## Coefficients:
##                    Estimate Std. Error z value Pr(>|z|)    
## (Intercept)        -2.59419    0.03929  -66.03   <2e-16 ***
## DiabeticTiểu đường  1.29317    0.06512   19.86   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 6712.1  on 10566  degrees of freedom
## Residual deviance: 6377.2  on 10565  degrees of freedom
## AIC: 6381.2
## 
## Number of Fisher Scoring iterations: 5

Dựa trên kết quả mô hình hồi quy với hàm liên kết cloglog, ta có phương trình:

\[ \log(-\log(1 - P(\text{sleep} = 1))) = -2.59419 + 1.29317 \times \text{Diabetic} \] Nhận xét:

Kết quả hồi quy Cloglog đơn biến cho thấy tình trạng tiểu đường có mối liên hệ rõ rệt với xác suất mắc bệnh tim, với p-value < 2e-16, khẳng định ý nghĩa thống kê ở mức 5%. Hệ số ước lượng là 1.293, cho thấy nhóm người mắc tiểu đường có giá trị hàm cloglog cao hơn, tương ứng với khả năng mắc bệnh tim cao hơn đáng kể so với nhóm không bị tiểu đường.

Kết quả này cho thấy tiểu đường là một yếu tố nguy cơ có ảnh hưởng đáng kể đến bệnh tim theo mô hình Cloglog – đặc biệt trong bối cảnh các sự kiện sức khỏe nghiêm trọng và có tỷ lệ tương đối thấp trong dân số.

3.3.7 Đánh giá mô hình

##     Model      AIC
## 1   Logit 6381.235
## 2  Probit 6381.235
## 3 Cloglog 6381.235

Nhận xét:

Các chỉ số AIC ở cả ba mô hình đều giống nhau, cho thấy mức độ phù hợp và khả năng dự đoán là tương đương nhau giữa logit, probit và cloglog khi chỉ xét biến Diabetic.

3.4 Phân tích tác động của bệnh thận đến bệnh tim

3.4.1 Thống kê mô tả biến KidneyDisease

Bảng tần số

## 
## Không bệnh thận       Bệnh thận 
##           10106             461

Bảng tần suất

## 
## Không bệnh thận       Bệnh thận 
##      0.95637362      0.04362638

Biểu đồ

Nhận xét:

Biểu đồ tròn trên thể hiện tỷ lệ người có và không mắc bệnh thận trong tổng số 10.567 người tham gia khảo sát. Trong đó, có 461 người (chiếm khoảng 4.4%) được ghi nhận mắc bệnh thận, trong khi 10.106 người còn lại (95.6%) không mắc bệnh.

Tuy tỷ lệ người mắc bệnh thận tương đối thấp so với các yếu tố sức khỏe khác, nhưng con số này vẫn đủ để cho thấy đây là một vấn đề cần được quan tâm.

3.4.2 Thống kê mô tả cho hai biến HeartDisease và KidneyDisease

Bảng tần số

##                 
##                  Không bệnh thận Bệnh thận   Sum
##   Không bệnh tim            9211       335  9546
##   Bệnh tim                   895       126  1021
##   Sum                      10106       461 10567

Bảng tần suất

##                 
##                  Không bệnh thận  Bệnh thận        Sum
##   Không bệnh tim      0.87167597 0.03170247 0.90337844
##   Bệnh tim            0.08469764 0.01192391 0.09662156
##   Sum                 0.95637362 0.04362638 1.00000000

Biểu đồ

## Warning: Unknown palette: "Paste12"

Nhận xét:

Biểu đồ trên cho thấy trong nhóm không mắc bệnh thận, có 9211 người không mắc bệnh tim (chiếm khoảng 87.2%) và 895 người mắc bệnh tim (chiếm khoảng 8.5%). Trong khi đó, ở nhóm có bệnh thận, có 335 người không mắc bệnh tim (chiếm 3.2%) và 126 người mắc bệnh tim (chiếm 1.2%).

Tổng quan, ta thấy rằng tỷ lệ người mắc bệnh tim trong nhóm có bệnh thận cao hơn rõ rệt so với nhóm không mắc. Điều này cho thấy bệnh thận có thể là một yếu tố nguy cơ đáng kể dẫn đến bệnh tim, đồng thời góp phần củng cố mối liên hệ giữa các bệnh lý mãn tính trong phân tích định tính của nghiên cứu.

3.4.3 Phân tích Relative Risk và khoảng ước lượng cho Relative Risk

##                  
##                   Bệnh tim Không bệnh tim   Sum
##   Không bệnh thận      895           9211 10106
##   Bệnh thận            126            335   461
##   Sum                 1021           9546 10567
## === Risk Ratio (RR) và khoảng tin cậy ===
##                  risk ratio with 95% C.I.
##                   estimate   lower    upper
##   Không bệnh thận 1.000000      NA       NA
##   Bệnh thận       3.086213 2.62608 3.626969

Nhận xét:

  • Risk Ratio giữa biến HeartDisease và KidneyDisease là 3.0862, lớn hơn 1. Điều này cho thấy người mắc bệnh thận có nguy cơ mắc bệnh tim cao hơn khoảng 3,09 lần so với người không mắc bệnh thận.

  • Khoảng tin cậy 95% từ 2.6261 đến 3.6270 cho thấy kết quả có ý nghĩa thống kê. Phát hiện này củng cố giả thuyết rằng bệnh thận làm gia tăng đáng kể nguy cơ mắc bệnh tim, và những người không mắc bệnh thận có xu hướng ít bị ảnh hưởng hơn về sức khỏe tim mạch.

3.4.4 Phân tích Odd Ratio

##                  
##                   Bệnh tim Không bệnh tim   Sum
##   Không bệnh thận      895           9211 10106
##   Bệnh thận            126            335   461
##   Sum                 1021           9546 10567
## === Odds Ratio (OR) và khoảng tin cậy ===
##                  odds ratio with 95% C.I.
##                   estimate    lower   upper
##   Không bệnh thận 1.000000       NA      NA
##   Bệnh thận       3.872891 3.110778 4.79479

Nhận xét

  • Odds Ratio giữa biến HeartDisease và KidneyDisease là 3.87, lớn hơn 1. Điều này cho thấy người mắc bệnh thận có khả năng mắc bệnh tim cao hơn gần 3.9 lần so với người không mắc bệnh thận.

  • Khoảng tin cậy 95% từ 3.11 đến 4.79 không bao gồm giá trị 1, cho thấy mối liên hệ có ý nghĩa thống kê.

  • Kết quả này củng cố giả thuyết rằng bệnh thận là một yếu tố nguy cơ đáng kể đối với bệnh tim, và những người không mắc bệnh thận có xu hướng ít bị bệnh tim hơn.

3.4.5 Thống kê suy diễn

3.4.5.1. Kiểm định tính độc lập

Giả thuyết kiểm định:

  • H₀:Bệnh tim và bệnh thận là hai biến độc lập.

  • H₁: Bệnh tim và bệnh thận có liên quan với nhau.

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  dl4
## X-squared = 170.31, df = 1, p-value < 2.2e-16

Nhận xét kết quả kiểm định:

  • Giá trị Chi-bình phương (X²): 170.31

  • Bậc tự do (df): 1

  • Giá trị p-value < 2.2e-16 nhỏ hơn mức ý nghĩa 5%. Do đó, ta bác bỏ giả thuyết \(H_0\).

Kết luận:

Điều này cho thấy tồn tại mối quan hệ có ý nghĩa thống kê giữa bệnh tim và bệnh thận trong mẫu nghiên cứu. Nói cách khác, tình trạng mắc bệnh thận có liên quan chặt chẽ đến nguy cơ mắc bệnh tim.

3.4.5.2 Kiểm định hiệu tỷ lệ

##                 
##                  Không bệnh thận Bệnh thận   Sum
##   Không bệnh tim            9211       335  9546
##   Bệnh tim                   895       126  1021
##   Sum                      10106       461 10567

\(p_1\) = P (Bệnh tim | Không bệnh thận) = \(\frac{895}{10106} \approx 8.9\%\) (Tỷ lệ bị bệnh tim ở nhóm không bệnh thận)

\(p_2\) = P (Bệnh tim | Bệnh thận) = \(\frac{126}{461} \approx 27.3\%\) (Tỷ lệ bị bệnh tim ở nhóm bệnh thận)

Giả thuyết kiểm định

\(H_0: p_1 - p_2 = 0\) (Tỷ lệ bệnh tim ở hai nhóm bằng nhau)

\(H_1: p_1 - p_2 < 0\) (Tỷ lệ bệnh tim ở nhóm không bệnh thận thấp hơn nhóm bệnh thận)

## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  counts_Kidney out of totals_Kidney
## X-squared = 172.42, df = 1, p-value < 2.2e-16
## alternative hypothesis: less
## 95 percent confidence interval:
##  -1.000000 -0.150301
## sample estimates:
##     prop 1     prop 2 
## 0.08856125 0.27331887

Nhận xét:

Kết quả kiểm định cho thấy p-value < 2.2e-16, nhỏ hơn mức ý nghĩa α=0.05, do đó bác bỏ giả thuyết không \(H_0\). Điều này cho thấy có đủ bằng chứng thống kê để kết luận rằng tỷ lệ mắc bệnh tim ở nhóm không mắc bệnh thận thấp hơn so với nhóm có mắc bệnh thận.

Cụ thể, tỷ lệ mắc bệnh ở nhóm 1 là 8.86%, trong khi ở nhóm 2 là 27.33%. Khoảng tin cậy 95% cho hiệu tỷ lệ là từ -1.0000 đến -0.1503, nằm hoàn toàn dưới 0, càng củng cố kết luận rằng sự khác biệt này không chỉ có ý nghĩa thống kê mà còn mang giá trị thực tiễn.

3.4.6 Mô hình hồi quy cho dữ liệu nhị phân

3.4.6.1 Mô hình xác suất tuyến tính

## 
## Call:
## glm(formula = Heart ~ KidneyDisease, data = dt)
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            0.088561   0.002915   30.38   <2e-16 ***
## KidneyDiseaseBệnh thận 0.184758   0.013956   13.24   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 0.08587785)
## 
##     Null deviance: 922.35  on 10566  degrees of freedom
## Residual deviance: 907.30  on 10565  degrees of freedom
## AIC: 4051.7
## 
## Number of Fisher Scoring iterations: 2

Nhận xét:

Hàm hồi quy được ước lượng như sau: \[ \hat{Heart} = 0.08856 + 0.18476 \times \text{KidneyDisease} \] Hệ số hồi quy \(β_1=0.18476\) cho biết, trung bình, những người mắc bệnh thận có giá trị biến bệnh tim cao hơn 0.18476 đơn vị so với những người không mắc bệnh thận.

Kết quả kiểm định thống kê cho thấy hệ số này có ý nghĩa rất mạnh với p-value < 2.2 × 10⁻¹⁶, cho thấy biến bệnh thận có ảnh hưởng thực nghiệm rõ rệt đến nguy cơ mắc bệnh tim trong mẫu khảo sát.

3.4.6.2 Mô hình Logit

## 
## Call:
## glm(formula = Heart ~ KidneyDisease, family = binomial(link = "logit"), 
##     data = dt)
## 
## Coefficients:
##                        Estimate Std. Error z value Pr(>|z|)    
## (Intercept)            -2.33133    0.03501  -66.58   <2e-16 ***
## KidneyDiseaseBệnh thận  1.35348    0.11022   12.28   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 6712.1  on 10566  degrees of freedom
## Residual deviance: 6588.1  on 10565  degrees of freedom
## AIC: 6592.1
## 
## Number of Fisher Scoring iterations: 5

Nhận xét:

Hàm hồi quy được ước lượng như sau: \[ \log\left(\frac{\hat{\pi}}{1 - \hat{\pi}}\right) = -2.3313 + 1.3535 \times \text{KidneyDisease} \] Kết quả hồi quy logistic cho thấy bệnh thận là một yếu tố có ảnh hưởng đáng kể và có ý nghĩa thống kê cao đến nguy cơ mắc bệnh tim (p-value < 2.2e-16). Hệ số hồi quy ước lượng là 1.353 cho thấy, khi một người mắc bệnh thận, odds (tỷ số khả năng) mắc bệnh tim của họ cao hơn khoảng 3.87 lần so với người không mắc bệnh thận.

Điều này phản ánh mối liên hệ chặt chẽ giữa bệnh thận và bệnh tim, đồng thời nhấn mạnh vai trò quan trọng của việc kiểm soát và điều trị bệnh thận trong việc phòng ngừa các biến chứng tim mạch.

Khoảng tin cậy cho các hệ số mô hình:

## Waiting for profiling to be done...
##                            2.5 %    97.5 %
## (Intercept)            -2.400609 -2.263345
## KidneyDiseaseBệnh thận  1.134493  1.566883

Kết luận:

Kết quả hồi quy logistic cho thấy bệnh thận là một yếu tố có ảnh hưởng đáng kể đến nguy cơ mắc bệnh tim. Hệ số hồi quy ước lượng là 1.353, với khoảng tin cậy 95% từ 1.134 đến 1.567. Điều này có nghĩa là, với độ tin cậy 95%, odds mắc bệnh tim ở người bị bệnh thận cao hơn từ 3.11 đến 4.79 lần so với người không bị bệnh thận. Khoảng tin cậy hoàn toàn nằm trên 1, cho thấy mối liên hệ này là có ý nghĩa thống kê và không phải do ngẫu nhiên.

3.4.6.3 Mô hình Probit

## 
## Call:
## glm(formula = Heart ~ KidneyDisease, family = binomial(link = "probit"), 
##     data = dt)
## 
## Coefficients:
##                        Estimate Std. Error z value Pr(>|z|)    
## (Intercept)            -1.34967    0.01761  -76.63   <2e-16 ***
## KidneyDiseaseBệnh thận  0.74686    0.06483   11.52   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 6712.1  on 10566  degrees of freedom
## Residual deviance: 6588.1  on 10565  degrees of freedom
## AIC: 6592.1
## 
## Number of Fisher Scoring iterations: 4

Nhận xét:

Hàm Probit ước lượng như sau:

\[ \Phi^{-1}(\hat{\pi}) = -1.34967 + 0.74686 \times \text{KidneyDisease} \] Kết quả hồi quy Probit cho thấy tình trạng mắc bệnh thận có ảnh hưởng đáng kể đến xác suất mắc bệnh tim. Hệ số ước lượng cho biến “Bệnh thận” là 0.747 với p-value < 2e-16, cho thấy mối liên hệ này có ý nghĩa thống kê rất mạnh. Điều này cho thấy những người mắc bệnh thận có xác suất mắc bệnh tim cao hơn rõ rệt so với những người không mắc. Kết quả này củng cố giả thuyết rằng bệnh thận là một yếu tố nguy cơ liên quan đến tim mạch.

Khoảng tin cậy cho các hệ số của mô hình:

## Waiting for profiling to be done...
##                             2.5 %     97.5 %
## (Intercept)            -1.3843456 -1.3152998
## KidneyDiseaseBệnh thận  0.6191111  0.8732953

Kết luận:

Với độ tin cậy 95%, hệ số Intercept nằm trong khoảng -1.3843 đến -1.3153, phản ánh xác suất mắc bệnh tim ở nhóm không có bệnh thận là tương đối thấp.

Hệ số của biến “Bệnh thận” nằm trong khoảng 0.6191 đến 0.8733, hoàn toàn dương và không chứa 0. Điều này cho thấy bệnh thận làm tăng xác suất mắc bệnh tim một cách có ý nghĩa thống kê.

3.4.6.4 Mô hình Cloglog

## 
## Call:
## glm(formula = Heart ~ KidneyDisease, family = binomial(link = "cloglog"), 
##     data = dt)
## 
## Coefficients:
##                        Estimate Std. Error z value Pr(>|z|)    
## (Intercept)            -2.37805    0.03344  -71.12   <2e-16 ***
## KidneyDiseaseBệnh thận  1.23633    0.09551   12.94   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 6712.1  on 10566  degrees of freedom
## Residual deviance: 6588.1  on 10565  degrees of freedom
## AIC: 6592.1
## 
## Number of Fisher Scoring iterations: 5

Dựa trên kết quả mô hình hồi quy với hàm liên kết cloglog, ta có phương trình:

\[ \log(-\log(1 - P(\text{Heart} = 1))) = -2.37805 + 1.23633 \times \text{KidneyDisease} \] Nhận xét:

Kết quả hồi quy Cloglog đơn biến cho thấy tình trạng mắc bệnh thận có ảnh hưởng có ý nghĩa thống kê đến xác suất mắc bệnh tim, với p-value < 2e-16, nhỏ hơn mức ý nghĩa 5%. Hệ số ước lượng là 1.236, cho thấy nhóm người có bệnh thận có giá trị hàm cloglog cao hơn, đồng nghĩa với việc xác suất mắc bệnh tim cũng cao hơn so với nhóm không có bệnh thận.

Điều này cho thấy, theo mô hình Cloglog, bệnh thận là một yếu tố nguy cơ có mối liên hệ đáng kể với khả năng mắc bệnh tim, và mối liên hệ này mang ý nghĩa thống kê rõ rệt.

3.4.7 Đánh giá mô hình

##     Model     AIC
## 1   Logit 6592.14
## 2  Probit 6592.14
## 3 Cloglog 6592.14

Nhận xét:

Cả ba mô hình logit, probit và cloglog đều cho kết quả hoàn toàn giống nhau ở chỉ số đánh giá AIC, cho thấy sự tương đồng về chất lượng mô hình khi xét riêng biến KidneyDisease.

3.5 Phân tích đa biến tác động đến bệnh tim

3.5.1 Mô hình xác suất tuyến tính

## 
## Call:
## glm(formula = Heart ~ Smoking + Stroke + Diabetic + KidneyDisease, 
##     data = dt)
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            0.035330   0.003882   9.101   <2e-16 ***
## SmokingHút thuốc       0.054535   0.005538   9.847   <2e-16 ***
## StrokeĐột quỵ          0.227759   0.013104  17.381   <2e-16 ***
## DiabeticTiểu đường     0.138866   0.007854  17.681   <2e-16 ***
## KidneyDiseaseBệnh thận 0.129358   0.013624   9.495   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 0.07979277)
## 
##     Null deviance: 922.35  on 10566  degrees of freedom
## Residual deviance: 842.77  on 10562  degrees of freedom
## AIC: 3278.1
## 
## Number of Fisher Scoring iterations: 2

Nhận xét:

Hàm hồi quy đa biến được ước lượng như sau: \[ \hat{Heart} = 0.03533 + 0.05454 \times \text{Smoking} + 0.22776 \times \text{Stroke} + 0.13887 \times \text{Diabetic} + 0.12936 \times \text{KidneyDisease} \] Ý nghĩa các hệ số hồi quy:

Hệ số \(β_1=0.05454\) cho thấy trung bình, nhóm hút thuốc có giá trị biến bệnh tim cao hơn 0.05454 đơn vị so với nhóm không hút thuốc, giữ các yếu tố khác cố định.

Hệ số \(β_2=0.22776\) biểu thị những người từng bị đột quỵ có giá trị bệnh tim cao hơn 0.22776 đơn vị so với người chưa từng bị, khi các biến còn lại không đổi.

Hệ số \(β_3=0.13887\) cho biết nhóm mắc tiểu đường có giá trị bệnh tim cao hơn 0.13887 đơn vị so với nhóm không mắc tiểu đường.

Hệ số \(β_4=0.12936\) cho thấy những người mắc bệnh thận có giá trị bệnh tim cao hơn 0.12936 đơn vị so với những người không mắc bệnh thận.

Tất cả các hệ số đều có ý nghĩa thống kê rất cao với p-value < 2.2 × 10⁻¹⁶, cho thấy tất cả các yếu tố:hút thuốc, đột quỵ, tiểu đường và bệnh thận đều có ảnh hưởng có ý nghĩa đến nguy cơ mắc bệnh tim.

3.5.2 Mô hình Logit

## 
## Call:
## glm(formula = Heart ~ Smoking + Stroke + Diabetic + KidneyDisease, 
##     family = binomial(link = "logit"), data = dt)
## 
## Coefficients:
##                        Estimate Std. Error z value Pr(>|z|)    
## (Intercept)            -3.06431    0.06013 -50.959  < 2e-16 ***
## SmokingHút thuốc        0.68392    0.07022   9.740  < 2e-16 ***
## StrokeĐột quỵ           1.50422    0.10665  14.104  < 2e-16 ***
## DiabeticTiểu đường      1.21072    0.07574  15.985  < 2e-16 ***
## KidneyDiseaseBệnh thận  0.96577    0.11933   8.093  5.8e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 6712.1  on 10566  degrees of freedom
## Residual deviance: 6020.0  on 10562  degrees of freedom
## AIC: 6030
## 
## Number of Fisher Scoring iterations: 5

Phương trình hồi quy logistic ước lượng là:

\[ \log\left(\frac{\hat{\pi}}{1 - \hat{\pi}}\right) = -3.06431 + 0.68392 \times \text{Smoking} + 1.50422 \times \text{Stroke} + 1.21072 \times \text{Diabetic} + 0.96577 \times \text{KidneyDisease} \]

Biến Nhóm so sánh Hệ số (β) p-value Odds Ratio (e^β) Diễn giải chi tiết
Hút thuốc So với không hút 0.68392 < 2e-16 1.98 Người hút thuốc có xác suất mắc bệnh tim cao gấp 1.98 lần so với người không hút thuốc.
Đột quỵ So với không đột quỵ 1.50422 < 2e-16 4.50 Người từng bị đột quỵ có xác suất mắc bệnh tim cao gấp 4.50 lần so với người không có đột quỵ.
Tiểu đường So với không tiểu đường 1.21072 < 2e-16 3.36 Người mắc tiểu đường có xác suất mắc bệnh tim cao gấp 3.36 lần so với người không mắc tiểu đường.
Bệnh thận So với không bệnh thận 0.96577 5.8e-16 2.63 Người mắc bệnh thận có xác suất mắc bệnh tim cao gấp 2.63 lần so với người không mắc bệnh thận.

Nhận xét:

Kết quả hồi quy logit đa biến cho thấy bốn yếu tố sức khỏe gồm hút thuốc, đột quỵ, tiểu đường, và bệnh thận đều ảnh hưởng có ý nghĩa thống kê rất mạnh đến nguy cơ mắc bệnh tim (p-value < 0.001).

Cụ thể, biến đột quỵ có hệ số ước lượng cao nhất (1.504), cho thấy đây là yếu tố có tác động mạnh nhất làm tăng khả năng mắc bệnh tim. Tiếp theo là tiểu đường (1.211), bệnh thận (0.966) và cuối cùng là hút thuốc (0.684).

Mô hình cho thấy các bệnh lý mãn tính và thói quen sức khỏe đều đóng vai trò quan trọng trong việc tăng nguy cơ mắc bệnh tim, phù hợp với các nghiên cứu y học hiện hành. Vì vậy, việc kiểm soát các yếu tố này có thể giúp giảm thiểu nguy cơ mắc bệnh tim trong cộng đồng.

3.5.3 Mô hình Probit

## 
## Call:
## glm(formula = Heart ~ Smoking + Stroke + Diabetic + KidneyDisease, 
##     family = binomial(link = "probit"), data = dt)
## 
## Coefficients:
##                        Estimate Std. Error z value Pr(>|z|)    
## (Intercept)            -1.72589    0.02889 -59.731  < 2e-16 ***
## SmokingHút thuốc        0.35883    0.03573  10.042  < 2e-16 ***
## StrokeĐột quỵ           0.84968    0.06263  13.566  < 2e-16 ***
## DiabeticTiểu đường      0.65270    0.04178  15.622  < 2e-16 ***
## KidneyDiseaseBệnh thận  0.53934    0.06852   7.871 3.51e-15 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 6712.1  on 10566  degrees of freedom
## Residual deviance: 6011.9  on 10562  degrees of freedom
## AIC: 6021.9
## 
## Number of Fisher Scoring iterations: 5

Phương trình Probit ước lượng là:

\[ \Phi^{-1}(\hat{\pi}) = -1.7259 + 0.3588 \times \text{Smoking} + 0.8497 \times \text{Stroke} + 0.6527 \times \text{Diabetic} + 0.5393 \times \text{KidneyDisease} \]

Biến Nhóm so sánh Hệ số (β) p-value Diễn giải chi tiết
Hút thuốc So với không hút thuốc 0.3588 < 2e-16 Người hút thuốc có xác suất mắc bệnh tim cao hơn đáng kể so với người không hút.
Đột quỵ So với không đột quỵ 0.8497 < 2e-16 Người từng bị đột quỵ có xác suất mắc bệnh tim cao hơn đáng kể so với người không đột quỵ.
Tiểu đường So với không tiểu đường 0.6527 < 2e-16 Người mắc tiểu đường có xác suất mắc bệnh tim cao hơn đáng kể so với người không mắc.
Bệnh thận So với không bệnh thận 0.5300 < 2e-16 Người mắc bệnh thận có xác suất mắc bệnh tim cao hơn đáng kể so với người không mắc.

Nhận xét:

Kết quả hồi quy Probit đa biến cho thấy các biến hút thuốc, đột quỵ, tiểu đường và bệnh thận đều ảnh hưởng có ý nghĩa thống kê rất mạnh đến nguy cơ mắc bệnh tim (p-value < 0.001).

Hệ số ước lượng lớn nhất thuộc về biến đột quỵ (0.8497), cho thấy đây là yếu tố có tác động mạnh nhất đến khả năng mắc bệnh tim. Tiếp theo là tiểu đường (0.6527), bệnh thận (0.5393) và hút thuốc (0.3588).

Điều này cho thấy các bệnh lý mãn tính và thói quen sức khỏe đều đóng vai trò quan trọng trong việc làm tăng nguy cơ mắc bệnh tim, phù hợp với các nghiên cứu y học hiện nay.

3.5.4 Mô hình Cloglog

## 
## Call:
## glm(formula = Heart ~ Smoking + Stroke + Diabetic + KidneyDisease, 
##     family = binomial(link = "cloglog"), data = dt)
## 
## Coefficients:
##                        Estimate Std. Error z value Pr(>|z|)    
## (Intercept)            -3.03162    0.05605 -54.089  < 2e-16 ***
## SmokingHút thuốc        0.60863    0.06461   9.420  < 2e-16 ***
## StrokeĐột quỵ           1.25091    0.08713  14.357  < 2e-16 ***
## DiabeticTiểu đường      1.07849    0.06744  15.993  < 2e-16 ***
## KidneyDiseaseBệnh thận  0.80834    0.10025   8.063 7.45e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 6712.1  on 10566  degrees of freedom
## Residual deviance: 6034.6  on 10562  degrees of freedom
## AIC: 6044.6
## 
## Number of Fisher Scoring iterations: 6

Phương trình hồi quy Cloglog được ước lượng như sau:

\[ \log\left(-\log\left(1 - \hat{\pi}\right)\right) = -3.0316 + 0.6086 \times \text{Smoking} + 1.2509 \times \text{Stroke} + 1.0785 \times \text{Diabetic} + 0.8083 \times \text{KidneyDisease} \]

Biến Nhóm so sánh Hệ số (β) p-value exp(β) (Hazard Ratio) Diễn giải chi tiết
Hút thuốc So với không hút thuốc 0.6086 < 2e-16 1.84 Người hút thuốc có xác suất mắc bệnh tim cao hơn khoảng 1.84 lần so với người không hút thuốc.
Đột quỵ So với không đột quỵ 1.2509 < 2e-16 3.49 Người từng bị đột quỵ có xác suất mắc bệnh tim cao hơn khoảng 3.49 lần so với người không đột quỵ.
Tiểu đường So với không tiểu đường 1.0785 < 2e-16 2.94 Người mắc tiểu đường có xác suất mắc bệnh tim cao hơn khoảng 2.94 lần so với người không mắc tiểu đường.
Bệnh thận So với không bệnh thận 0.8083 7.45e-16 2.24 Người mắc bệnh thận có xác suất mắc bệnh tim cao hơn khoảng 2.24 lần so với người không mắc bệnh thận.

Nhận xét:

Kết quả hồi quy Cloglog đa biến cho thấy các biến hút thuốc, đột quỵ, tiểu đường và bệnh thận đều có ảnh hưởng có ý nghĩa thống kê rất mạnh đến nguy cơ mắc bệnh tim (p-value < 0.001).

Biến có hệ số ước lượng lớn nhất là đột quỵ (1.2509), cho thấy đây là yếu tố ảnh hưởng mạnh nhất đến xác suất mắc bệnh tim. Tiếp theo là tiểu đường (1.0785), bệnh thận (0.8083) và cuối cùng là hút thuốc (0.6086).

Điều này chứng tỏ các bệnh lý mãn tính cùng thói quen hút thuốc đóng vai trò quan trọng trong việc làm tăng nguy cơ mắc bệnh tim, phù hợp với các nghiên cứu trước đây.

3.5.5 Đánh giá mô hình hồi quy bội

## Warning: package 'pscl' was built under R version 4.4.3
## Classes and Methods for R originally developed in the
## Political Science Computational Laboratory
## Department of Political Science
## Stanford University (2002-2015),
## by and under the direction of Simon Jackman.
## hurdle and zeroinfl functions by Achim Zeileis.
So sánh các mô hình Logit, Probit và Cloglog theo AIC
Mô_hình AIC
Logit 6030.04
Probit 6021.92
Cloglog 6044.61

Nhận xét:

Dựa trên chỉ số AIC, mô hình Probit có giá trị thấp nhất (6021.92), cho thấy đây là mô hình phù hợp nhất với dữ liệu trong số ba mô hình được so sánh. Mô hình Logit có AIC cao hơn một chút (6030.04), trong khi mô hình Cloglog có AIC cao nhất (6044.61), cho thấy mức độ phù hợp kém hơn. Vì AIC càng thấp thì mô hình càng tốt, nên mô hình Probit được ưu tiên lựa chọn trong phân tích này.

3.6 Dự báo

##         1 
## 0.7500552
##         1 
## 0.6746634

Nhận xét:

Dựa trên kết quả dự báo từ mô hình Probit, cá nhân có đặc điểm như trong new_person được ước tính có xác suất mắc bệnh tim là khoảng 75%, với giá trị tuyến tính tương ứng là 0.6747. Đây là mức xác suất khá cao, phản ánh sự hiện diện của các yếu tố nguy cơ như tiểu đường, đột quỵ hoặc bệnh thận trong hồ sơ sức khỏe. Giá trị tuyến tính dương cho thấy các biến giải thích đang góp phần tăng xác suất xảy ra bệnh. Việc chuyển đổi giá trị tuyến tính thông qua hàm liên kết Probit cho kết quả hợp lý, sát với thực tiễn. Nhìn chung, mô hình Probit không chỉ phù hợp về mặt thống kê mà còn hiệu quả trong việc đánh giá rủi ro cá nhân, hỗ trợ tốt cho dự báo và phòng ngừa bệnh tim.

CHƯƠNG 4: KẾT LUẬN VÀ KIẾN NGHỊ

4.1 Kết luận

Thông qua phân tích định tính và mô hình hồi quy logistic, bài nghiên cứu đã chỉ ra rằng các yếu tố sức khỏe như hút thuốc, tiền sử đột quỵ, tiểu đường và bệnh thận đều có mối liên hệ chặt chẽ với khả năng mắc bệnh tim. Kết quả cho thấy các biến này đều có hệ số hồi quy dương và ý nghĩa thống kê cao (p-value < 0.05), đồng thời giá trị Odds Ratio đều lớn hơn 1, cho thấy mức độ gia tăng rủi ro khi người bệnh có các yếu tố trên.

Kết quả phân tích không chỉ giúp làm rõ mối liên hệ giữa các yếu tố sức khỏe và bệnh tim, mà còn cung cấp cơ sở dữ liệu hữu ích cho việc định hướng chính sách y tế dự phòng, đồng thời nhấn mạnh sự cần thiết của việc tầm soát và can thiệp sớm đối với các nhóm nguy cơ cao trong cộng đồng.

4.2 Kiến nghị

Từ kết quả phân tích, tác giả kiến nghị đẩy mạnh truyền thông và giáo dục sức khỏe để nâng cao nhận thức về các yếu tố nguy cơ như hút thuốc, đột quỵ, tiểu đường và bệnh thận đối với bệnh tim. Đồng thời, cần tăng cường tầm soát định kỳ cho nhóm nguy cơ cao nhằm phát hiện sớm và can thiệp kịp thời.

Việc ứng dụng các mô hình dự báo như hồi quy logistic cũng được khuyến nghị nhằm hỗ trợ cơ sở y tế đánh giá nguy cơ, tối ưu hóa nguồn lực và xây dựng chính sách phòng ngừa hiệu quả. Các chính sách nên ưu tiên can thiệp sớm cho nhóm dân số dễ tổn thương, góp phần bảo vệ sức khỏe cộng đồng bền vững.

TÀI LIỆU THAM KHẢO

[1] American Heart Association. (2019). Diabetes and heart disease.

[2] National Kidney Foundation. (2020). Heart disease and chronic kidney disease.

[3] Towfighi, A., & Saver, J. L. (2011). Stroke declines more rapidly among men than among women in the United States: 1997 to 2006. Neurology, 77(12), 1172–1179.

[4] U.S. Department of Health and Human Services. (2020). Smoking and cardiovascular disease: A report of the Surgeon General.

[5] World Health Organization. (2021). Cardiovascular diseases (CVDs).

[6] Yancy, C. W., Jessup, M., Bozkurt, B., Butler, J., Casey Jr, D. E., Colvin, M. M., … & Westlake, C. (2017). 2017 ACC/AHA/HFSA Focused update of the 2013 ACCF/AHA guideline for the management of heart failure. Journal of the American College of Cardiology, 70(6), 776–803.