library(readr)
library(data.table)
library(ggplot2)
library(dplyr)
library(skimr)
library(psych)
library(csv)
library(DT)
library(pander)
library(formattable)
library(htmltools)
library(DescTools)
library(epitools)
library(MASS)
library(fmsb)
library(brglm2)
Tình trạng sức khỏe con người, cụ thể là vấn đề béo phì, vì đây là một hiện tượng y tế xã hội có tác động sâu rộng đến cá nhân, cộng đồng và cả nền kinh tế quốc gia. Sức khỏe con người là một khái niệm đa chiều, bao gồm thể chất, tinh thần và các yếu tố xã hội. Nó không chỉ chịu ảnh hưởng bởi hệ thống y tế mà còn liên quan chặt chẽ đến điều kiện sống, thu nhập, trình độ học vấn, môi trường, di truyền và mạng lưới quan hệ xã hội. Đặc biệt, sức khỏe được coi là một quyền cơ bản của con người, được bảo vệ bởi Hiến chương WHO và các điều ước quốc tế về nhân quyền.
Trong những năm qua, tỷ lệ béo phì đang gia tăng với tốc độ báo động trên phạm vi toàn cầu, trở thành một trong những vấn đề y tế công cộng nghiêm trọng nhất. Theo số liệu của WHO, tỷ lệ người trưởng thành bị thừa cân và béo phì đã tăng gấp ba lần kể từ năm 1975. Ở Việt Nam, hiện tượng thừa cân, béo phì nhất là ở khu vực thành thị đang phát triển nhanh chóng, phản ánh sự thay đổi trong mô hình lối sống, tiêu dùng và mức sống.
Béo phì không chỉ ảnh hưởng nghiêm trọng đến sức khỏe cá nhân mà còn gây ra các chi phí y tế gián tiếp và trực tiếp đáng kể cho cả cá nhân và xã hội. Các nghiên cứu tài chính kinh tế chỉ ra rằng, béo phì làm tăng gánh nặng chi tiêu y tế, giảm năng suất lao động và có thể ảnh hưởng tiêu cực đến thu nhập, việc làm và an sinh xã hội. Do đó, việc phân tích các yếu tố ảnh hưởng đến béo phì không chỉ mang ý nghĩa y học hay xã hội, mà còn là một bài toán kinh tế lượng sức khỏe mang tính thời sự, nhằm lượng hóa rủi ro và đánh giá tác động tài chính mà tình trạng sức khỏe mang lại.
Tác giả đã chọn tiếp cận đề tài này bằng phương pháp nghiên cứu hỗn hợp (mixed-methods), kết hợp định lượng để phân tích mối quan hệ giữa các yếu tố rủi ro và béo phì thông qua các mô hình hồi quy logistic, odds ratio, relative risk, AIC… với định tính để khám phá bối cảnh xã hội, niềm tin, trải nghiệm và rào cản hành vi dẫn đến tình trạng béo phì.
Nhiều nghiên cứu trước đây, đặc biệt là các phân tích định lượng sử dụng mô hình thống kê, đã chứng minh mối liên hệ chặt chẽ giữa các yếu tố như tiền sử gia đình, chế độ ăn uống, mức độ vận động thể chất và nguy cơ béo phì. Những kết quả này phần lớn được thể hiện thông qua các hệ số tương quan, chỉ số odds ratio hoặc risk ratio, từ đó đưa ra các bằng chứng thống kê về mức độ ảnh hưởng của từng yếu tố. Tuy nhiên, các con số đó mới chỉ phản ánh bề nổi của vấn đề tức là mô tả được mối liên hệ, nhưng chưa thật sự giải thích được nguyên nhân sâu xa dẫn đến hành vi hoặc tình trạng sức khỏe.
Chẳng hạn, một cá nhân hoàn toàn có thể biết rằng mình có tiền sử gia đình mắc bệnh béo phì và hiểu rõ các nguy cơ liên quan, nhưng vẫn tiếp tục duy trì lối sống ít vận động, chế độ ăn giàu năng lượng và không lành mạnh. Những biểu hiện hành vi này đặt ra một câu hỏi lớn: vì sao nhận thức và hành động lại không đồng nhất? Câu trả lời có thể nằm ở các yếu tố mang tính chất định tính như tâm lý cá nhân, niềm tin, sự tự kỳ vọng, môi trường xã hội, áp lực văn hóa, điều kiện sống hoặc khả năng tiếp cận thực phẩm lành mạnh. Nghiên cứu này được thực hiện nhằm khắc phục hạn chế đó thông qua việc kết hợp phân tích định lượng và định tính để tạo nên một cái nhìn toàn diện, đa chiều về hiện tượng béo phì. Cách tiếp cận hỗn hợp này không chỉ giúp lượng hóa các mối quan hệ nhân quả mà còn làm rõ “câu chuyện đằng sau các con số”, từ đó cung cấp cơ sở lý luận và thực tiễn cho việc thiết kế các chính sách can thiệp phù hợp, hiệu quả và bền vững hơn.
Xác định, đo lường và diễn giải các yếu tố lối sống và nhận thức ảnh hưởng đến tình trạng béo phì, từ đó cung cấp cơ sở khoa học cho việc đề xuất.
Phân tích định lượng
Nghiên cứu định lượng nhằm xác định và đo lường mối liên hệ giữa các yếu tố lối sống và tình trạng béo phì, bao gồm: tiền sử bệnh gia đình (Family History), thói quen tiêu thụ thực phẩm giàu năng lượng (FAVC), thói quen ăn vặt buổi tối (CAEC), phương tiện di chuyển thường dùng (MTRANS). Sử dụng các chỉ số thống kê như Odds Ratio (OR) và Relative Risk (RR) để đánh giá mức độ ảnh hưởng của từng yếu tố. Phân tích hồi quy logistic được áp dụng để kiểm soát các yếu tố đồng thời.
Phân tích định tính
Phân tích định tính tập trung khám phá các yếu tố nhận thức, tâm lý và xã hội ảnh hưởng đến hành vi duy trì lối sống lành mạnh, cụ thể:
• Nhận thức và niềm tin cá nhân về béo phì và sức khỏe
• Ảnh hưởng từ môi trường sống, xã hội và văn hóa
• Rào cản tâm lý và điều kiện thực tế cản trở thay đổi hành vi
Chương 1. Tổng quan nghiên cứu
Chương 2. Cơ sở lý thuyết
Chương 3. Phương pháp nghiên cứu
Chương 4. Kết luận
Chương này trình bày các lý thuyết nền tảng và các nghiên cứu trước đây liên quan đến việc phân tích các yếu tố ảnh hưởng đến sức khỏe và lối sống, đặc biệt là tình trạng béo phì. Việc này cung cấp một khung lý luận vững chắc để giải thích cho việc lựa chọn biến số, phương pháp phân tích và diễn giải kết quả nghiên cứu.
Để hiểu tại sao con người lại có những hành vi (ăn uống, vận động) ảnh hưởng đến sức khỏe, chúng ta cần dựa vào các mô hình tâm lý học và xã hội học đã được công nhận.
Mô hình niểm tin là mô hình lý thuyết giải thích vì sao con người thực hiện hoặc không thực hiện hành vi sức khỏe. Theo HBM, cá nhân sẽ thay đổi hành vi khi họ:
• Nhận thức nguy cơ mắc bệnh liên quan đến di truyền (FamilyHistory).
• Nhận thức hậu quả nghiêm trọng của bệnh.
• Tin vào lợi ích của hành vi thay đổi như chọn ăn lành mạnh thay vì thường xuyên tiêu thụ thực phẩm có hàm lượng calo cao (FAVC).
• Cân nhắc rào cản khi thực hiện liên quan đến các phương thức di chuyển cũng như cách nap calo vào (CAEC, MTRANS).
• Bị tác động bởi yếu tố kích thích hành động và khả năng tự kiểm soát. HBM giúp giải thích hành vi không chỉ là thói quen, mà là kết quả của quá trình nhận thức, từ đó làm rõ tác động của các yếu tố trong nghiên cứu.
TPB là mô hình mở rộng từ HBM, nhấn mạnh rằng ý định là yếu tố dự báo trực tiếp nhất của hành vi. Ý định được hình thành từ ba yếu tố chính:
• Thái độ đối với hành vi: Đánh giá tích cực hoặc tiêu cực về hành vi, như việc thích ăn vặt vì tiện lợi và ngon (CAEC).
• Chuẩn mực chủ qua: Nhận thức về áp lực xã hội từ người thân, bạn bè, ví dụ như thói quen tụ tập uống rượu cuối tuần (CALC).
• Nhận thức kiểm soát hành vi: Mức độ tin tưởng vào khả năng thực hiện hành vi, như thiếu thời gian, phương tiện để tập luyện (MTRANS) hoặc các rào cản khác.
Phân tích dữ liệu định tính là một bước không thể thiếu trong nghiên cứu định lượng, nhằm mô tả đặc điểm mẫu khảo sát và kiểm định mối liên hệ giữa các biến phân loại. Phần này trình bày nền tảng lý thuyết của hai kỹ thuật cơ bản thường được sử dụng: Bảng tần số và tần suất, và Kiểm định Chi-bình phương (Chi-squared Test).
Tần số (Frequency): Là số lần xuất hiện của một giá trị cụ thể trong một biến phân loại. Tần suất (Tỷ lệ phần trăm - Relative Frequency): Là tỷ lệ giữa tần số của một giá trị với tổng số quan sát, thường được biểu diễn bằng phần trăm:
Công thức tính tần suất (%) là:
\(\text{Tần suất (%)} = \left( \frac{\text{Tần số}}{\text{Tổng số quan sát}} \right) \times 100\).
Vai trò trong nghiên cứu
• Cung cấp cái nhìn tổng quan: Bảng tần số và tần suất mô tả cấu trúc của mẫu khảo sát, giúp người nghiên cứu hiểu rõ sự phân bố của các đặc điểm như giới tính, tiền sử gia đình, thói quen ăn uống, v.v.
• Phát hiện bất thường: Những giá trị tần số quá thấp hoặc quá cao có thể chỉ ra sự thiên lệch hoặc hiện tượng đặc biệt cần được kiểm tra sâu hơn.
• Cơ sở cho phân tích tiếp theo: Các giá trị trong bảng tần số thường được sử dụng để xây dựng bảng chéo và làm đầu vào cho các kiểm định thống kê như Chi-squared.
Ứng dụng trong nghiên cứu này
Trong nghiên cứu này, bảng tần số và tần suất được sử dụng để mô tả tỷ lệ mắc béo phì (biến phụ thuộc NObeyesdad) và sự phân bố của các yếu tố lối sống liên quan như FamilyHistory, FAVC, CAEC, v.v. Điều này cho phép hình thành cái nhìn ban đầu về dữ liệu, phục vụ cho các bước phân tích suy diễn sau đó.
Kiểm định Chi-bình phương (ký hiệu: $^2 $) là một phép kiểm định phi tham số dùng để xác định xem có mối liên hệ có ý nghĩa thống kê giữa hai biến phân loại hay không. Được xây dựng dựa trên sự so sánh giữa:
• Tần số quan sát (O – Observed): Số lượng thực tế thu được từ khảo sát.
• Tần số kỳ vọng (E – Expected): Số lượng được tính toán giả định theo phân phối độc lập.
Giá trị càng lớn, sự khác biệt giữa tần số quan sát và kỳ vọng càng lớn, đồng nghĩa với việc mối liên hệ giữa hai biến càng rõ rệt. Kiểm định giả thuyết
\[ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \]
Quy trình kiểm định bao gồm các bước:
\(H_0\) : Hai biến là độc lập, không có mối liên hệ và ngược lại với \(H_1\) . Mức ý nghĩa ( alpha$ ) thông thường là 5%, 10% và 15%.
Nếu \(p < \alpha\) : Bác bỏ giả thuyết , có mối quan hệ thống kê giữa hai biến
Nếu \(p > \alpha\) : Chấp nhận giả thuyết , chưa đủ bằng chứng bác bỏ mối quan hệ thống kê giữa hai biến.
Sau khi kiểm định Chi-bình phương xác nhận có sự liên hệ thống kê giữa các biến phân loại, bước tiếp theo trong phân tích suy diễn là lượng hóa mức độ liên kết đó. Hai chỉ số phổ biến được sử dụng trong nghiên cứu y tế là nguy cơ tương đối (Relative Risk – RR) và Tỷ số chênh lệch (Odds Ratio – OR). Cả hai đều giúp đo lường mức độ ảnh hưởng của tỷ lệ xảy ra sự kiện đối với kết quả (ví dụ: bệnh tật), tuy nhiên mỗi chỉ số lại phù hợp với những loại nghiên cứu và phương pháp phân tích khác nhau.
Relative Risk - RR là tỷ số giữa hai tỷ lệ xảy ra sự kiện ở hai nhóm khác nhau: nhóm can thiệp (xảy ra) và nhóm đối chứng (không xảy ra). RR được tính bằng:
\[ RR = \frac{EER}{CER} = \frac{a / (a + b)}{c / (c + d)} \]
Trong đó:
• EER (Experimental Event Rate): Tỷ lệ xảy ra sự kiện ở nhóm can thiệp.
• CER (Control Event Rate): Tỷ lệ xảy ra sự kiện ở nhóm đối chứng.
RR < 1: Nhóm sự kiện có nguy cơ thấp hơn (nguy cơ ở nhóm 1 thấp hơn nhóm 2) → Mong muốn nếu sự kiện là kết cục xấu (ví dụ: tử vong).
RR > 1: Nhóm không có sự kiện có nguy cơ cao hơn (nguy cơ ở nhóm 1 cao hơn nhóm 2) → Mong muốn nếu sự kiện là kết cục tốt (ví dụ: cai nghiện thành công).
Tỷ lệ sự kiện nhóm 1 (\(p_1 = \frac{a}{a +
b}\)) và nhóm 2 (\(p_2 = \frac{c}{c +
d}\)).
Do đó, chênh lệch tỷ lệ sự kiện giữa hai nhóm là:
\[ \Delta p = p_1 - p_2 \]
Điều nay phản ánh mức chênh lệch tuyêt đối giữa hai nhóm. Nếu =0 không có sự khác biêt.
Nhóm 1 \(odds_1 = \frac{a}{b}\) và
nhóm 2 \(odds_2 = \frac{c}{d}\).
Ta có tỷ số chênh:
\[ OR = \frac{(a / b)}{(c / d)} = \frac{a \times d}{b \times c} \]
Ý nghĩa:
• So sánh “cơ hội” xảy ra sự kiện giữa hai nhóm.
• OR = 1: không có sự khác biệt.
• OR > 1: nhóm 1 có cơ hội xảy ra sự kiện cao hơn.
• OR < 1: nhóm 1 có cơ hội thấp hơn.
Kết luận:
Hiệu tỷ lệ phản ánh sự chênh lệch tuyệt đối giữa hai nhóm.
Tỷ số nguy cơ (RR) phản ánh sự chênh lệch tương đối về xác suất xảy ra sự kiện.
Tỷ số chênh (OR) so sánh “cơ hội xảy ra sự kiện” và rất phổ biến trong các phân tích hồi quy logistic.
Khi phân tích bảng 2x2, việc chọn chỉ số nào tùy thuộc vào mục tiêu nghiên cứu, kiểu dữ liệu, và thiết kế nghiên cứu.
Trong các nghiên cứu định lượng, khi biến phụ thuộc (biến kết quả) là biến nhị phân, (ví dụ béo phì hoặc không béo phì, mắc bệnh hoặc không mắc bệnh) việc sử dụng mô hình hồi quy tuyến tính thông thường (OLS) trở nên không phù hợp. Cụ thể, phương pháp OLS vi phạm một số giả định cơ bản khi áp dụng cho dữ liệu nhị phân:
• Vi phạm giả định phân phối chuẩn: Sai số trong mô hình OLS được giả định là phân phối chuẩn, trong khi với dữ liệu nhị phân, phân phối thực tế là phân phối Bernoulli.
• Hiện tượng dự báo ngoài khoảng xác suất: Mô hình OLS có thể dự báo các giá trị nằm ngoài khoảng [0, 1], điều này không có ý nghĩa khi xác suất không thể vượt quá phạm vi đó.
• Phương sai sai số không đồng nhất: Do bản chất của biến nhị phân, sai số trong OLS có phương sai thay đổi theo giá trị của các biến độc lập, vi phạm giả định đồng nhất phương sai (homoscedasticity).
Do đó, cần sử dụng các mô hình hồi quy chuyên biệt cho dữ liệu nhị phân, dựa trên các hàm liên kết (link function) để ánh xạ xác suất vào không gian tham số tuyến tính.
Một mối quan hệ tuyến tính giữa xác suất xảy ra sự kiện và các biến độc lập:
Ưu điểm: Mô hình đơn giản, dễ ước lượng và dễ diễn giải; thuận tiện khi cần xây dựng mô hình sơ bộ.
Hạn chế:
• Dự báo xác suất ngoài khoảng [0, 1].
• Sai số có phương sai thay đổi theo X.
• Mô hình giả định mối quan hệ tuyến tính giữa các biến và xác suất, điều này hiếm khi đúng về bản chất.
Vì các hạn chế này, LPM chỉ phù hợp trong các tình huống mô hình hóa sơ bộ, không nên dùng để diễn giải xác suất trong các nghiên cứu chính thức.
Mô hình Logit khắc phục các nhược điểm của LPM bằng cách sử dụng hàm logit để chuyển đổi xác suất về miền số thực:
Giá trị cho biết chiều hướng ảnh hưởng của lên xác suất xảy ra sự kiện (tăng hay giảm). Và Là tỷ số chênh (Odds Ratio - OR), thể hiện tỷ lệ thay đổi trong odds xảy ra sự kiện Y = 1 khi X tặng 1 đơn vị giữ các biến khác không đổi.
Tương tự Logit, Probit sử dụng một hàm liên kết khác hàm phân phối chuẩn tích lũy (CDF) để ánh xạ xác suất về miền số thực với là hàm nghịch đảo của hàm phân phối chuẩn:
Diễn giải hệ số trong Probit khó trực tiếp hơn so với Logit.
Cả hai mô hình thường cho kết quả ước lượng tương tự nhau.
Việc lựa chọn giữa Probit và Logit thường mang tính quy ước; Logit phổ biến hơn trong các lĩnh vực tài chính và kinh tế lượng ứng dụng.
Khác với Logit và Probit, mô hình Cloglog sử dụng hàm liên kết không đối xứng
Phù hợp khi xác suất xảy ra sự kiện rất nhỏ hoặc rất lớn (hiện tượng hiếm gặp). Cloglog đặc biệt hữu ích trong các nghiên cứu về rủi ro cao hoặc dữ liệu thời gian chờ (survival analysis).
Trong nghiên cứu này, mô hình Logit, Probit và Cloglog sẽ được so sánh về hiệu quả dự báo thông qua các chỉ số như AIC (Akaike Information Criterion) và xác suất phân loại đúng. Việc lựa chọn mô hình sẽ dựa trên độ phù hợp tổng thể và khả năng giải thích về mặt tài chính định lượng.
d <- read.csv ("C:/Users/PC/OneDrive/Máy tính/TMT/Ptichtieuluan.csv")
Bộ dữ liệu Synthetic Health & Lifestyle Dataset mô phỏng thông tin sức khỏe và thói quen sinh hoạt của 7.500 cá nhân, nhằm phục vụ cho các mục tiêu nghiên cứu và phân tích trong lĩnh vực y tế cộng đồng. Dữ liệu không chỉ bao gồm các đặc điểm nhân khẩu học như tuổi, giới tính và chỉ số cơ thể, mà còn tích hợp các yếu tố lối sống quan trọng như thói quen hút thuốc, uống rượu, mức độ hoạt động thể chất, hành vi ngủ và sự hiện diện của bệnh mãn tính. Bộ dữ liệu được tạo ra hoàn toàn bằng phương pháp tổng hợp, đảm bảo tính ẩn danh và phản ánh các xu hướng phân bố thực tế trong dân số. Mục tiêu chính là hỗ trợ việc khám phá mối liên hệ giữa lối sống và tình trạng sức khỏe, đặc biệt trong việc đánh giá nguy cơ mắc các bệnh mãn tính.
Với 7.500 quan sát và nhiều biến số đa dạng, bộ dữ liệu tạo điều kiện thuận lợi cho các bài toán phân loại, hồi quy, phân tích dữ liệu thăm dò, xây dựng hệ thống khuyến nghị và thực hành kỹ thuật tiền xử lý dữ liệu trong khoa học dữ liệu y tế.
# Bước 1: chọn các biến định tính
dldt <- c("Age", "Gender", "CALC", "FAVC", "SCC", "SMOKE",
"FamilyHistory", "CAEC", "MTRANS", "NObeyesdad")
dt <- d[, dldt]
dt <- data.frame(lapply(dt, as.factor))
data.table(dt)
Lập bảng tần số và bảng tần suất
table(factor(dt$NObeyesdad,
levels = c("Not Obese", "Obese"),
labels = c("Không béo phì", "Bị béo phì")))
table(factor(dt$NObeyesdad,
levels = c("Not Obese", "Obese"),
labels = c("Không béo phì", "Bị béo phì"))) / length(dt$NObeyesdad)
Mức độ béo phì | Số lượng | Tỷ lệ (%) |
---|---|---|
Không béo phì | 1.139 | 53.96% |
Bị béo phì | 972 | 46.04% |
Lập biểu đồ
# Gán nhãn rõ ràng cho biến muc_do_beo_phi
dt$beophi_label <- factor(dt$NObeyesdad,
levels = c("Not Obese", "Obese"),
labels = c("Không béo phì", "Bị béo phì"))
# Tính tỷ lệ theo biến đã gán nhãn
df_tyle <- as.data.frame(prop.table(table(dt$NObeyesdad)))
colnames(df_tyle) <- c("beophi_label", "tyle")
# Vẽ biểu đồ
ggplot(df_tyle, aes(x = beophi_label, y = tyle, fill = beophi_label)) +
geom_col(width = 0.5) +
geom_text(aes(label = scales::percent(tyle, accuracy = 0.1)),
vjust = -0.4, size = 3) +
scale_y_continuous(labels = scales::percent_format()) +
scale_fill_manual(values = c("Không béo phì" = "lightgreen",
"Bị béo phì" = "lightcoral")) +
labs(title = "Biểu đồ 3.1. Tỷ lệ người bị béo phì",
x = "Mức độ béo phì",
y = "Tỷ lệ") +
theme_minimal(base_size = 10) +
theme(legend.position = "none")
Số lượng người không béo phì chiếm tỷ lệ cao hơn, khoảng 54%, so với 46% là người bị béo phì. Mặc dù sự chênh lệch là 8 điểm phần trăm, đây vẫn là một tỷ lệ khá đáng kể người bị béo phì trong mẫu khảo sát.
Gần một nửa số người trong mẫu khảo sát đang ở trạng thái béo phì, cho thấy đây là vấn đề phổ biến và cần được quan tâm.
Tỷ lệ béo phì cao có thể liên quan đến các yếu tố lối sống, chế độ ăn uống, vận động, hoặc yếu tố di truyền, là tiền đề cho các phân tích hồi quy hoặc kiểm định tiếp theo.
Đánh giá mối liên hệ giữa biến phụ thuộc và các độc lập
mh1 <- table(dt$NObeyesdad, dt$CALC)
chisq.test(mh1)
mh2 <- table(dt$NObeyesdad, dt$FAVC)
chisq.test(mh2)
mh3 <- table(dt$NObeyesdad, dt$SCC)
chisq.test(mh3)
mh4 <- table(dt$NObeyesdad, dt$SMOKE)
chisq.test(mh4)
mh5 <- table(dt$NObeyesdad, dt$FamilyHistory)
chisq.test(mh5)
mh6 <- table(dt$NObeyesdad, dt$CAEC)
chisq.test(mh6)
mh7 <- table(dt$NObeyesdad, dt$MTRANS)
chisq.test(mh7)
Để đánh giá mối liên hệ giữa tình trạng béo phì và các yếu tố hành vi lối sống, tác giả đã sử dụng kiểm định Chi-squared:
Biến phân tích | Chi-squared (X²) | p-value | Mức ý nghĩa | Kết luận |
---|---|---|---|---|
Béo phì ~ Uống rượu | 15.38 | 8.79e-05 | p < 0.001 | Có mối liên hệ |
Béo phì ~ Ăn vặt | 161.82 | < 2.2e-16 | p < 0.001 | Có mối liên hệ rất mạnh |
Béo phì ~ Tần suất ăn rau | 72.774 | < 2.2e-16 | p < 0.001 | Có mối liên hệ rõ rệt |
Béo phì ~ Hút thuốc | 0.144 | 0.7046 | p > 0.05 | Không có mối liên hệ |
Béo phì ~ Hoạt động thể chất | 364.23 | < 2.2e-16 | p < 0.001 | Mối liên hệ cực kỳ rõ ràng |
Béo phì ~ Thói quen ăn tối muộn | 225.86 | < 2.2e-16 | p < 0.001 | Mối liên hệ rất đáng kể |
Béo phì ~ Mức độ vận động | 39.56 | 3.19e-10 | p < 0.001 | Có mối liên hệ rõ rệt |
Kết quả cho thấy, phần lớn các yếu tố hành vi đều có mối liên hệ có ý nghĩa thống kê với tình trạng béo phì (p-value < 0.001). Cụ thể:
Yếu tố ăn vặt và hoạt động thể chất có mức độ liên hệ rất mạnh với tình trạng béo phì, với giá trị Chi-squared lần lượt là 161.82 và 364.23, cho thấy tần suất béo phì phân bố không đồng đều giữa các nhóm hành vi.
Các biến như tần suất ăn rau, thói quen ăn tối muộn, và mức độ vận động cũng cho thấy mối liên hệ rõ rệt với béo phì ($^2 $ > 39, p < 0.001).
Đáng chú ý, biến uống nước có giá trị p = 0.7046 ($^2 $ = 0.14), lớn hơn ngưỡng 0.05, cho thấy không có mối liên hệ thống kê có ý nghĩa giữa việc hút thuốc và tình trạng béo phì trong mẫu khảo sát này.
Kết quả kiểm định thống kê khẳng định rằng các hành vi lối sống như ăn vặt thường xuyên, lười vận động, ăn tối muộn, và ít tiêu thụ rau củ là các yếu tố có liên quan đáng kể đến tình trạng béo phì. Điều này gợi ý rằng can thiệp thay đổi hành vi sinh hoạt có thể là giải pháp hiệu quả để giảm thiểu nguy cơ béo phì trong cộng đồng.
Lập bảng tần số và bảng tần suất
dt$NObeyesdad <- factor(dt$NObeyesdad,
levels = c("Obese", "Not Obese"),
labels = c("Béo phì", "Không Bị béo phì"))
dt$an_vat <- factor(dt$FamilyHistory,
levels = c("no", "yes "),
labels = c("Không bệnh", "Có bệnh"))
# Lập bảng tần số chéo
tkmt4 <- table(dt$NObeyesdad, dt$FamilyHistory)
addmargins(tkmt4)
ptkmt4 <- prop.table(tkmt4)
addmargins(ptkmt4)
Không di truyền | Có di truyền | Tổng | |
---|---|---|---|
Béo phì | 8 | 964 | 972 |
Không bị béo phì | 377 | 762 | 1139 |
Tổng | 385 | 1726 | 2111 |
Không di truyền | Có di truyền | Tổng | |
---|---|---|---|
Béo phì | 0.0038 | 0.4567 | 0.4604 |
Không bị béo phì | 0.1786 | 0.3610 | 0.5396 |
Tổng | 0.1824 | 0.8176 | 1.0000 |
Lập biểu đồ
df_plot4 <- as.data.frame(tkmt4)
colnames(df_plot4) <- c("NObeyesdad", "FamilyHistory", "Count")
# Vẽ biểu đồ
library(ggplot2)
ggplot(df_plot4, aes(x = FamilyHistory, y = Count, fill = NObeyesdad)) +
geom_bar(stat = "identity", position = position_dodge(width = 0.7), width = 0.6) +
geom_text(aes(label = Count),
position = position_dodge(width = 0.7),
vjust = -0.3, size = 3.5) +
scale_fill_manual(values = c("#FF6347", "#2171B5")) +
labs(
title = "Biểu đồ 3.2 Tình trạng di truyền ảnh hưởng đến cơ thể",
x = "Tình trạng di truyền",
y = "Số người",
fill = "Tình trạng béo phì"
) +
theme_minimal()
Số liệu chỉ ra sự chênh lệch rõ rệt giữa hai nhóm: tỷ lệ béo phì ở nhóm không có yếu tố di truyền là 2.08%, trong khi ở nhóm có yếu tố di truyền, tỷ lệ này tăng mạnh lên 55.9%. Điều này cho thấy di truyền có thể là một yếu tố nguy cơ đáng kể liên quan đến khả năng mắc béo phì.
Từ góc nhìn định lượng, biến “tình trạng di truyền” có tiềm năng trở thành một biến độc lập quan trọng trong các mô hình hồi quy nhị phân (logit/probit) nhằm dự báo xác suất béo phì. Việc đưa biến này vào mô hình không chỉ giúp tăng độ chính xác trong dự báo mà còn hỗ trợ kiểm định mối liên hệ nhân quả giữa yếu tố di truyền và kết quả sức khỏe.
Nhóm cá nhân có yếu tố di truyền cần được phân loại vào nhóm rủi ro cao và được can thiệp sớm hơn. Đồng thời, đây cũng là cơ sở để thiết kế các chương trình sàng lọc hoặc dự báo nguy cơ sức khỏe dựa trên đặc điểm nhân khẩu học và yếu tố sinh học.
Lập bảng tần số và bảng tần suất
dt$thuc_an_nhieu_calo <- factor(dt$FAVC,
levels = c("no", "yes"),
labels = c("Thức ăn không có nhiều calo", "Thức ăn có nhiều calo"))
tkmt2 <- table(dt$NObeyesdad, dt$thuc_an_nhieu_calo)
addmargins(tkmt2)
ptkmt2 <- prop.table(tkmt2)
addmargins(ptkmt2)
Tình trạng béo phì | Thức ăn không nhiều calo | Thức ăn có nhiều calo | Tổng |
---|---|---|---|
Bị béo phì | 19 | 953 | 972 |
Không bị béo phì | 226 | 913 | 1139 |
Tổng | 245 | 1866 | 2111 |
Tình trạng béo phì | Thức ăn không nhiều calo | Thức ăn có nhiều calo | Tổng (%) |
---|---|---|---|
Bị béo phì | 0.90% | 45.14% | 46.04% |
Không bị béo phì | 10.71% | 43.25% | 53.96% |
Tổng | 11.61% | 88.39% | 100.00% |
Lập biểu đồ
# Chuyển bảng tần số thành data frame
df_plot2 <- as.data.frame(tkmt2)
colnames(df_plot2) <- c("NObeyesdad", "FAVC", "Count")
# Vẽ biểu đồ
library(ggplot2)
ggplot(df_plot2, aes(x = FAVC, y = Count, fill = NObeyesdad)) +
geom_bar(stat = "identity", position = position_dodge(width = 0.7), width = 0.6) +
geom_text(aes(label = Count),
position = position_dodge(width = 0.7),
vjust = -0.3, size = 3.5) +
scale_fill_manual(values = c("lightgreen", "#FFA500")) +
labs(
title = "Biểu đồ 3.3 Chế độ cung cấp calo cho cơ thể",
x = "Mức độ calo của thức ăn",
y = "Số người",
fill = "Tình trạng béo phì"
) +
theme_minimal()
Tỷ lệ người béo phì là 51.1%. Trong khi đó, nhóm không có thói quen này ghi nhận tỷ lệ béo phì chỉ là 7.8%. Như vậy, tỷ lệ béo phì ở nhóm có FAVC cao gấp khoảng 6.5 lần nhóm còn lại một mức chênh lệch đáng kể, cho thấy mối liên hệ mạnh giữa chế độ ăn và nguy cơ béo phì.
Có tới 88.4% người tham gia khảo sát thuộc nhóm có thói quen ăn thực phẩm calo cao, phản ánh xu hướng phổ biến của chế độ ăn uống không lành mạnh trong cộng đồng. Điều này đồng thời lý giải vì sao tỷ lệ béo phì chung trong mẫu cũng khá cao. Do đó, FAVC được xem là một biến mục tiêu tiềm năng trong các mô hình dự báo và phân tích rủi ro béo phì.
Tuy nhiên, có 913 người trong nhóm FAVC vẫn không bị béo phì 48.9%, cho thấy chế độ ăn chưa đủ để giải thích toàn bộ hiện tượng. Các yếu tố bổ trợ như vận động thể chất (MTRANS), yếu tố di truyền, chỉ số trao đổi chất, hoặc trạng thái sức khỏe nền cũng có thể ảnh hưởng đến kết quả. Do đó, cần thiết phải xây dựng các mô hình hồi quy nhị biến và đa biến để kiểm soát đồng thời các biến giải thích và đánh giá mức độ ảnh hưởng độc lập của từng yếu tố đến tình trạng béo phì.
Lập bảng tần số và bảng tần suất
dt$MTRANS <- factor(dt$MTRANS)
# Lập bảng tần số chéo
tkmt6 <- table(dt$NObeyesdad, dt$MTRANS)
addmargins(tkmt6)
ptkmt6 <- prop.table(tkmt6)
addmargins(ptkmt6)
Tình trạng béo phì | Active | Inactive | Tổng cộng |
---|---|---|---|
Béo phì | 4 | 968 | 972 |
Không Bị béo phì | 59 | 1080 | 1139 |
Tổng cộng | 63 | 2048 | 2111 |
Tình trạng béo phì | Active | Inactive | Tổng cộng |
---|---|---|---|
Béo phì | 0.0019 | 0.4586 | 0.4604 |
Không Bị béo phì | 0.0279 | 0.5116 | 0.5396 |
Tổng cộng | 0.0298 | 0.9702 | 1.0000 |
df_plot6 <- as.data.frame(tkmt6)
colnames(df_plot6) <- c("NObeyesdad", "MTRANS", "Count")
# Vẽ biểu đồ
library(ggplot2)
ggplot(df_plot6, aes(x = MTRANS, y = Count, fill = NObeyesdad)) +
geom_bar(stat = "identity", position = position_dodge(width = 0.7), width = 0.6) +
geom_text(aes(label = Count),
position = position_dodge(width = 0.7),
vjust = -0.3, size = 3.5) +
scale_fill_manual(values = c("#FFA500", "#2171B5")) +
labs(
title = "Biểu đồ 3.4. Thói quen di chuyển",
x = "Phương thức di chuyển",
y = "Số người",
fill = "Tình trạng béo phì"
) +
theme_minimal()
Trong nhóm có phương thức di chuyển không tích cực Inactive, tỷ lệ béo phì chiếm tới 47.3%. Ngược lại, nhóm có hoạt động di chuyển tích cực Active ghi nhận tỷ lệ béo phì chỉ 6.3%. Như vậy, tỷ lệ béo phì ở nhóm ít vận động cao hơn hơn 7.5 lần so với nhóm còn lại, phản ánh rõ rệt vai trò bảo vệ của vận động thể chất đối với nguy cơ béo phì.
Kết quả cho thấy đa số mẫu khảo sát 97% thuộc nhóm “Inactive”, phản ánh thực trạng đáng báo động về lối sống ít vận động trong cộng đồng. Đồng thời, nhóm vận động tích cực có tỷ lệ béo phì rất thấp, khẳng định rằng hoạt động thể chất thường xuyên có thể đóng vai trò như một yếu tố bảo vệ mạnh mẽ trước nguy cơ tích lũy mỡ và rối loạn chuyển hóa.
Một số người trong nhóm “Active” vẫn có chế độ ăn không lành mạnh (ví dụ: FAVC = “yes”) nhưng lại không bị béo phì, cho thấy hoạt động thể chất có thể tạo ra hiệu ứng bù trừ với các yếu tố rủi ro khác. Do đó, thay vì chỉ tập trung vào việc thay đổi chế độ ăn, các chiến lược can thiệp y tế cộng đồng nên đồng thời nhấn mạnh đến việc gia tăng hoạt động thể chất hàng ngày như một biện pháp phòng ngừa béo phì hiệu quả và bền vững.
Lập bảng tần số và bảng tần suất
dt$CALC <- factor(dt$CALC,
levels = c("Not Frequent", "Drink Frequently"),
labels = c("Không uống rượu", "Thường xuyên uống rượu"))
# Tạo bảng tần số
tkmt1 <- table(dt$NObeyesdad, dt$CALC)
addmargins(tkmt1)
# Tạo bảng tỷ lệ
ptkmt1 <- prop.table(tkmt1)
addmargins(round(ptkmt1, 3))
Không uống rượu | Thường xuyên uống rượu | Tổng cộng | |
---|---|---|---|
Bị béo phì | 956 | 16 | 972 |
Không bị béo phì | 1084 | 55 | 1139 |
Tổng cộng | 2040 | 71 | 2111 |
Không uống rượu | Thường xuyên uống rượu | Tổng cộng | |
---|---|---|---|
Bị béo phì | 0.453 | 0.008 | 0.461 |
Không bị béo phì | 0.514 | 0.026 | 0.540 |
Tổng cộng | 0.967 | 0.034 | 1.000 |
Lập biểu đồ
# Chuyển bảng tần số thành data frame
df_plot <- as.data.frame(tkmt1)
colnames(df_plot) <- c("NObeyesdad", "CALC", "Count")
# Vẽ biểu đồ tần số
library(ggplot2)
ggplot(df_plot, aes(x = CALC, y = Count, fill = NObeyesdad)) +
geom_bar(stat = "identity", position = position_dodge(width = 0.7), width = 0.6) +
geom_text(aes(label = Count),
position = position_dodge(width = 0.7),
vjust = -0.3, size = 3.5) +
scale_fill_manual(values = c("#FFA500", "#FF6347")) +
labs(
title = "Biểu đồ 3.5 Thói quen uống rượu và tình trang béo phì",
x = "Mức độ uống rượu",
y = "Số người",
fill = "Tình trạng béo phì"
) +
theme_minimal()
Trong nhóm không uống rượu, có 956 người béo phì trên tổng 2037 người, chiếm 46.9%. Trong khi đó, ở nhóm thường xuyên uống rượu, chỉ có 16 người béo phì trên tổng 71 người, tương ứng với tỷ lệ 22.5%. Sự chênh lệch này cho thấy tỷ lệ béo phì ở nhóm không uống rượu cao gấp hơn 2 lần so với nhóm có thói quen uống rượu thường xuyên một kết quả trái ngược với giả định thông thường rằng rượu làm tăng nguy cơ béo phì.
Ví dụ, những người thường xuyên uống rượu có thể có đặc điểm chuyển hóa khác, mức độ hoạt động cao hơn (do công việc lao động chân tay), hoặc mức tiêu thụ calo tổng thể ít hơn. Ngoài ra, loại rượu, tần suất và cách tiêu thụ cũng có thể ảnh hưởng khác nhau đến chuyển hóa mỡ và năng lượng, điều này không được phản ánh trực tiếp trong biến CALC hiện tại.
Mặc dù sự khác biệt về tỷ lệ là rõ ràng, nhưng để kết luận chính xác về tác động của rượu đến béo phì, cần sử dụng mô hình phân tích đa biến nhằm kiểm soát các yếu tố gây nhiễu như chế độ ăn calo cao (FAVC), mức độ vận động (MTRANS) và yếu tố di truyền. Những phân tích sâu hơn này sẽ được thực hiện ở phần hồi quy logistic trong các chương sau, nhằm xác định ảnh hưởng độc lập và mức độ rủi ro thực sự của hành vi uống rượu đối với tình trạng béo phì.
Lập bảng tần số và bảng tần suất
dt$SCC <- factor(dt$SCC,
levels = c("no", "yes"),
labels = c("Không uống", "Có uống"))
# Lập bảng tần số chéo
tkmt3 <- table(dt$NObeyesdad, dt$SCC)
addmargins(tkmt3)
ptkmt3 <- prop.table(tkmt3)
addmargins(ptkmt3)
Không uống | Có uống | Tổng | |
---|---|---|---|
Béo phì | 969 | 3 | 972 |
Không bị béo phì | 1046 | 93 | 1139 |
Tổng | 2015 | 96 | 2111 |
Không uống | Có uống | Tổng | |
---|---|---|---|
Béo phì | 0.4590 | 0.0014 | 0.4604 |
Không bị béo phì | 0.4955 | 0.0441 | 0.5396 |
Tổng | 0.9545 | 0.0455 | 1.0000 |
Lập biểu đồ
# Chuyển bảng tần suất tkmt3 sang data frame để vẽ
df_plot3 <- as.data.frame(tkmt3)
colnames(df_plot3) <- c("NObeyesdad", "SCC", "Count")
# Vẽ biểu đồ
library(ggplot2)
ggplot(df_plot3, aes(x = SCC, y = Count, fill = NObeyesdad)) +
geom_bar(stat = "identity", position = position_dodge(width = 0.7), width = 0.6) +
geom_text(aes(label = Count),
position = position_dodge(width = 0.7),
vjust = -0.3, size = 3.5) +
scale_fill_manual(values = c("#6BAED6", "#FFA500")) +
labs(
title = "Biểu đồ 3.6 Thói quen uống nước ngọt",
x = "Tình trạng di truyền",
y = "Số người",
fill = "Tình trạng béo phì"
) +
theme_minimal()
Trong nhóm có uống nước ngọt chỉ có 3 người bị béo phì, tương ứng tỷ lệ 3.1%. Ngược lại, ở nhóm không uống nước ngọt (N = 2015), số người béo phì lên tới 969 người, chiếm 48.1%. Nếu chỉ nhìn vào tỷ lệ này, ta có thể rút ra một kết luận sai lệch rằng “không uống nước ngọt lại có nguy cơ béo phì cao hơn”. Tuy nhiên, đây là ví dụ điển hình cho hiện tượng ngược chiều nhân quả.
Trong trường hợp này, nguyên nhân không nằm ở hành vi uống nước ngọt, mà nhiều khả năng những người đã bị béo phì mới là người chủ động giảm hoặc ngưng uống nước ngọt để kiểm soát cân nặng. Đây là hành vi phản ứng của người tiêu dùng trước tình trạng sức khỏe hiện tại.
Kết quả phân tích cho thấy việc diễn giải dữ liệu cần kết hợp cả kiến thức định tính và phương pháp phân tích định lượng. Trong trường hợp này, một mô hình hồi quy logistic có kiểm soát các yếu tố nhiễu và phân tích theo thời gian sẽ giúp đánh giá tốt hơn ảnh hưởng thực sự của thói quen uống nước ngọt đến béo phì.
Lập bảng tần số và bảng tần suất
dt$CAEC <- factor(dt$CAEC,
levels = c("Not Frequent", "Eating Frequently"),
labels = c("Không ăn vặt", "Thường xuyên ăn vặt"))
# Lập bảng tần số chéo
tkmt5 <- table(dt$NObeyesdad, dt$CAEC)
addmargins(tkmt5)
ptkmt5 <- prop.table(tkmt5)
addmargins(ptkmt5)
Không ăn vặt | Thường xuyên ăn vặt | Tổng | |
---|---|---|---|
Béo phì | 956 | 16 | 972 |
Không bị béo phì | 860 | 279 | 1139 |
Tổng | 1816 | 295 | 2111 |
Không ăn vặt | Thường xuyên ăn vặt | Tổng | |
---|---|---|---|
Béo phì | 0.4529 | 0.0076 | 0.4604 |
Không bị béo phì | 0.4074 | 0.1322 | 0.5396 |
Tổng | 0.8603 | 0.1397 | 1.0000 |
Lập biểu đồ
df_plot5 <- as.data.frame(tkmt5)
colnames(df_plot5) <- c("NObeyesdad", "CAEC", "Count")
# Vẽ biểu đồ
library(ggplot2)
ggplot(df_plot5, aes(x = CAEC, y = Count, fill = NObeyesdad)) +
geom_bar(stat = "identity", position = position_dodge(width = 0.7), width = 0.6) +
geom_text(aes(label = Count),
position = position_dodge(width = 0.7),
vjust = -0.3, size = 3.5) +
scale_fill_manual(values = c("#6BAED6", "#FF6347")) +
labs(
title = "Biểu đồ 3.7 Tình trạng ăn vặt ảnh hưởng đến cơ thể",
x = "Tình trạng ăn vặt",
y = "Số người",
fill = "Tình trạng béo phì"
) +
theme_minimal()
Theo bảng tần suất, trong nhóm thường xuyên ăn vặt chỉ có 16 người béo phì, tương ứng 5.4%. Ngược lại, trong nhóm không ăn vặt có tới 956 người béo phì, chiếm 52.6%. Đây là một kết quả phản trực giác, khi hành vi vốn bị xem là “nguy cơ” (ăn vặt) lại có tỷ lệ béo phì thấp hơn hẳn nhóm không ăn vặt.
Một giả thuyết hợp lý là hiện tượng quan hệ nhân quả ngược: người đang bị béo phì hoặc nhận thức được nguy cơ béo phì đã chủ động thay đổi hành vi và giảm tần suất ăn vặt. Như vậy, không phải ăn vặt ít làm giảm béo phì, mà chính tình trạng béo phì khiến người ta ngừng ăn vặt.
##
## Không béo phì Bị béo phì Sum
## Drink Frequently 55 16 71
## Not Frequent 1084 956 2040
## Sum 1139 972 2111
## rel. risk lwr.ci upr.ci
## 1.457824 1.245575 1.627291
Relative Risk (RR) giữa tình trạng béo phì và tần suất uống nước có đường là 1.4578, nghĩa là những người thường xuyên uống nước có đường có nguy cơ bị béo phì cao hơn khoảng 45.8% so với những người không thường xuyên uống.
Khoảng tin cậy 95% của RR là từ 1.2456 đến 1.6273, cho thấy mối quan hệ này có ý nghĩa thống kê, vì khoảng này không chứa giá trị 1.
Kết quả này cho thấy rằng thói quen uống nước có đường với tần suất cao có thể là yếu tố nguy cơ góp phần vào tình trạng béo phì. Về mặt dịch tễ học và sức khỏe cộng đồng, đây là một dấu hiệu cảnh báo về ảnh hưởng tiêu cực của đồ uống chứa đường đến tỷ lệ thừa cân – béo phì.
##
## Không béo phì Bị béo phì Sum
## no 226 19 245
## yes 913 953 1866
## Sum 1139 972 2111
## rel. risk lwr.ci upr.ci
## 1.885312 1.771973 1.996161
Relative Risk (RR) giữa tình trạng béo phì và việc có ăn thức ăn nhanh là 1.8853, tức là người có thói quen ăn thức ăn nhanh có nguy cơ bị béo phì cao hơn khoảng 88.5% so với người không có thói quen này.
Khoảng tin cậy 95% của RR là từ 1.7720 đến 1.9962, cho thấy mối liên hệ này có ý nghĩa thống kê, vì khoảng tin cậy không chứa giá trị 1. Việc tiêu thụ thức ăn nhanh thường xuyên là yếu tố nguy cơ mạnh đối với tình trạng béo phì.
##
## Không béo phì Bị béo phì Sum
## no 1046 969 2015
## yes 93 3 96
## Sum 1139 972 2111
## rel. risk lwr.ci upr.ci
## 0.5358521 0.5094235 0.5740912
Relative Risk (RR) cho thấy: những người có thói quen ăn rau có nguy cơ bị béo phì chỉ bằng khoảng 53.6% so với người không ăn rau.
Khoảng tin cậy 95% không chứa giá trị 1 (từ 0.509 đến 0.574), nên kết quả có ý nghĩa thống kê.
Điều này gợi ý rằng việc ăn rau thường xuyên có thể giúp giảm nguy cơ béo phì so với những người không có thói quen ăn rau.
##
## Không béo phì Bị béo phì Sum
## no 377 8 385
## yes 762 964 1726
## Sum 1139 972 2111
## rel. risk lwr.ci upr.ci
## 2.218025 2.100527 2.345215
Relative Risk giữa biến NObeyesdad và FamilyHistory là 2.2180, tức là người có tiền sử béo phì trong gia đình có nguy cơ bị béo phì cao hơn khoảng 2.22 lần so với người không có tiền sử.
Khoảng tin cậy 95% của RR là từ 2.1005 đến 2.3452, cho thấy rằng mối liên hệ này có ý nghĩa thống kê.
Điều này đồng nghĩa với việc yếu tố di truyền hoặc môi trường gia đình có thể đóng vai trò quan trọng trong nguy cơ mắc béo phì. Những người có tiền sử gia đình nên được tư vấn, giám sát và áp dụng các biện pháp phòng ngừa sớm để giảm thiểu nguy cơ.
##
## Không béo phì Bị béo phì Sum
## Eating Frequently 279 16 295
## Not Frequent 860 956 1816
## Sum 1139 972 2111
## rel. risk lwr.ci upr.ci
## 1.997099 1.886647 2.110475
Relative Risk giữa biến NObeyesdad và CAEC là 1.9971, tức là những người ăn vặt thường xuyên có nguy cơ bị béo phì cao gấp gần 2 lần so với những người không ăn vặt thường xuyên.
Khoảng tin cậy 95% của RR là từ 1.8866 đến 2.1105, cho thấy rằng mối liên hệ này có ý nghĩa thống kê.
Điều này cho thấy rằng thói quen ăn vặt thường xuyên là một yếu tố nguy cơ rõ rệt làm tăng khả năng bị béo phì. Do đó, việc điều chỉnh hành vi ăn vặt có thể là một chiến lược quan trọng trong phòng ngừa và kiểm soát béo phì.
##
## Không béo phì Bị béo phì Sum
## Active 59 4 63
## Inactive 1080 968 2048
## Sum 1139 972 2111
## rel. risk lwr.ci upr.ci
## 1.775897 1.598912 1.888971
Relative Risk giữa biến NObeyesdad và MTRANS là 1.7759, tức là những người di chuyển không chủ động (Inactive) có nguy cơ bị béo phì cao hơn khoảng 1.78 lần so với những người di chuyển chủ động (Active).
Khoảng tin cậy 95% của RR là từ 1.5989 đến 1.8890, cho thấy rằng mối liên hệ này có ý nghĩa thống kê.
Điều này cho thấy rằng việc duy trì hình thức di chuyển chủ động (như đi bộ, xe đạp…) có thể giúp giảm nguy cơ béo phì, và ngược lại, phong cách sống ít vận động có thể là một yếu tố làm tăng nguy cơ mắc béo phì.
or1 <- table(d$FAVC,d$NObeyesdad_label)
or1 <- or1[, c("Không béo phì", "Bị béo phì")]
addmargins(or1)
OddsRatio(or1, conf.level = .95)
or2 <- table(d$SCC,d$NObeyesdad_label)
or2 <- or2[, c("Không béo phì", "Bị béo phì")]
addmargins(or2)
OddsRatio(or2, conf.level = .95)
or3 <- table(d$FamilyHistory,d$NObeyesdad_label)
or3 <- or3[, c("Không béo phì", "Bị béo phì")]
addmargins(or3)
OddsRatio(or3, conf.level = .95)
or4 <- table(d$CAEC,d$NObeyesdad_label)
or4 <- or4[, c("Không béo phì", "Bị béo phì")]
addmargins(or4)
OddsRatio(or4, conf.level = .95)
or5 <- table(d$MTRANS,d$NObeyesdad_label)
or5 <- or5[,c("Không béo phì", "Bị béo phì")]
addmargins(or5)
OddsRatio(or5, conf.level = .95)
Biến | Odds Ratio | CI thấp (lwr.ci) | CI cao (upr.ci) |
---|---|---|---|
FAVC | 12.416 | 7.707 | 20.003 |
SCC | 0.035 | 0.011 | 0.110 |
FamilyHistory | 59.617 | 29.408 | 120.860 |
CAEC | 19.384 | 11.614 | 32.351 |
MTRANS | 13.220 | 4.785 | 36.530 |
Phân tích Odds Ratio về các yếu tố nguy cơ có ảnh hưởng mạnh mẽ đến khả năng mắc béo phì trong nhóm đối tượng khảo sát.
Thói quen tiêu thụ thức ăn nhanh (FAVC) có Odds Ratio lên tới 12.42 (KTC 95%: 7.71 – 20.00), cho thấy người thường xuyên sử dụng thức ăn nhanh có nguy cơ béo phì cao gấp hơn 12 lần so với người không sử dụng. Đây là một chỉ số đáng báo động phản ánh lối sống hiện đại thiếu lành mạnh.
Trái ngược hoàn toàn, việc chủ động kiểm soát lượng calo tiêu thụ (SCC) là yếu tố bảo vệ mạnh mẽ, với Odds Ratio chỉ 0.035 (KTC 95%: 0.011 – 0.110). Điều này minh chứng cho vai trò quan trọng của nhận thức dinh dưỡng và kiểm soát chế độ ăn trong phòng ngừa béo phì.
Tiền sử gia đình (Family History) nổi bật là yếu tố nguy cơ cao nhất, với Odds Ratio đạt 59.62 (KTC 95%: 29.41 – 120.86). Điều này cho thấy di truyền có thể đóng vai trò quyết định, nhấn mạnh đến tầm quan trọng của tầm soát và can thiệp sớm ở các đối tượng có yếu tố nguy cơ bẩm sinh.
Tần suất ăn vặt giữa các bữa chính (CAEC) cũng có ảnh hưởng mạnh với Odds Ratio 19.38 (KTC 95%: 11.61 – 32.35), phản ánh rõ rệt mối liên hệ giữa thói quen ăn uống không hợp lý và tình trạng thừa cân – béo phì.
Cuối cùng, phương tiện di chuyển chủ yếu (MTRANS) là một chỉ báo cho mức độ hoạt động thể chất, với Odds Ratio 13.22 (KTC 95%: 4.78 – 36.53). Những người có xu hướng sử dụng phương tiện thụ động (như xe máy, ô tô) có nguy cơ béo phì cao hơn đáng kể so với những người thường xuyên vận động (đi bộ, đạp xe).
Kết quả phân tích cho thấy béo phì không chỉ xuất phát từ yếu tố di truyền mà còn chịu ảnh hưởng mạnh mẽ từ lối sống hiện đại: thói quen ăn nhanh, ăn vặt, thiếu vận động và thiếu kiểm soát năng lượng. Những yếu tố này hoàn toàn có thể can thiệp được nếu có chiến lược giáo dục sức khỏe, thay đổi hành vi và phòng ngừa từ sớm.
dt$NObeyesdad_binary <- ifelse(d$NObeyesdad == "Obese", 0, 1)
xstt.ML <- glm(NObeyesdad_binary ~ CALC, data = dt, family = binomial)
summary(xstt.ML)
# Tạo biến nhị phân mới cho mô hình
d$NObeyesdad_binary <- ifelse(d$NObeyesdad == "Obese", 0, 1)
# Mô hình xác suất tuyến tính với biến FAVC
xstt.ML2 <- glm(NObeyesdad_binary ~ FAVC, data = dt)
summary(xstt.ML2)
# Mô hình xác suất tuyến tính với biến SCC
xstt.ML3 <- glm(NObeyesdad_binary ~ SCC, data = d)
summary(xstt.ML3)
# Mô hình xác suất tuyến tính với biến FamilyHistory
xstt.ML4 <- glm(NObeyesdad_binary ~ FamilyHistory, data = d)
summary(xstt.ML4)
# Mô hình xác suất tuyến tính với biến CAEC
xstt.ML5 <- glm(NObeyesdad_binary ~ CAEC, data = dt)
summary(xstt.ML5)
# Mô hình xác suất tuyến tính với biến MTRANS
xstt.ML6 <- glm(NObeyesdad_binary ~ MTRANS, data = dt)
summary(xstt.ML6)
Biến | Estimate | Std. Error | p-value | Ý nghĩa thống kê |
---|---|---|---|---|
CALC | -1.109 | 0.287 | 0.000114 | Có ý nghĩa |
FAVC | 0.433 | 0.033 | <2e-16 | Có ý nghĩa |
SCC | 0.450 | 0.051 | <2e-16 | Có ý nghĩa |
FamilyHistory | -0.538 | 0.026 | <2e-16 | Có ý nghĩa |
CAEC | -0.472 | 0.030 | <2e-16 | Có ý nghĩa |
MTRANS | 0.409 | 0.063 | 1.15e-10 | Có ý nghĩa |
Ta có hàm hồi quy mô hình CALC:
\[ \hat{\pi} = −0.12566−1.10909 \cdot \text{CALC} \]
Phân tích hồi quy cho thấy nhiều yếu tố hành vi có liên quan đến nguy cơ mắc béo phì. Đầu tiên, mô hình sử dụng biến CALC cho thấy những người thường xuyên uống rượu có nguy cơ bị béo phì thấp hơn đáng kể so với những người không uống (Estimate = -1.10909, p < 0.001). Hệ số âm này cho thấy xác suất bị béo phì giảm rõ rệt ở nhóm uống rượu thường xuyên, tuy nhiên cần thận trọng khi diễn giải vì đây có thể là hệ quả của các yếu tố gây nhiễu chưa được kiểm soát như tần suất vận động hay khẩu phần ăn.
Ta có hàm hồi quy mô hình FAVC:
\[ \hat{\pi} = 0.077507755+0.43317 \cdot \text{FAVC} \]
Tiếp theo, kết quả từ mô hình với biến FAVC cho thấy rằng những người có thói quen ăn vượt nhu cầu năng lượng có nguy cơ béo phì cao hơn rõ rệt (Estimate = 0.43317, p < 0.001). Đây là một phát hiện phù hợp với lý thuyết dinh dưỡng, khi năng lượng nạp vào vượt quá mức tiêu hao sẽ dẫn đến tích lũy mỡ thừa trong cơ thể.
Ta có hàm hồi quy mô hình SCC:
\[ \hat{\pi} = 0.51911+0.44964 \cdot \text{SCC} \]
Ở mô hình thứ ba, biến SCC – đại diện cho việc người tham gia có nhận tư vấn chăm sóc sức khỏe – lại có hệ số dương (Estimate = 0.44964, p < 0.001), cho thấy nguy cơ béo phì ở nhóm này cao hơn so với nhóm không tư vấn. Kết quả này có thể phản ánh hiện tượng quan hệ nhân quả ngược chiều, tức là người đã béo phì thường có xu hướng tìm đến dịch vụ tư vấn. Do đó, biến này cần được xem xét cẩn thận và có thể đưa vào phân tích đa biến để điều chỉnh yếu tố gây nhiễu.
Trong mô hình tiếp theo, phân tích biến FamilyHistory cho thấy rằng những người có tiền sử béo phì trong gia đình lại có nguy cơ béo phì thấp hơn (Estimate = -0.53774, p < 0.001). Đây là một kết quả mâu thuẫn với lý thuyết y khoa và nhiều nghiên cứu trước đó, cho thấy khả năng có sai sót trong việc mã hóa biến hoặc xác định mức tham chiếu. Việc rà soát lại cách đặt nhãn biến (ví dụ: “yes”/“no”) là cần thiết để xác minh lại ý nghĩa thống kê này.
Ta có hàm hồi quy mô hình FamilyHistory:
\[ \hat{\pi} = 0.97922−0.53774 \cdot \text{FamilyHistory} \]
Mô hình với biến CAEC (tần suất ăn vặt) cho thấy người thường xuyên ăn vặt có nguy cơ béo phì thấp hơn (Estimate = -0.47219, p < 0.001). Kết quả này cũng không phù hợp với giả thuyết khoa học, vì ăn vặt thường bị xem là yếu tố nguy cơ. Tuy nhiên, điều này có thể xảy ra nếu nhóm người ăn vặt có tổng năng lượng tiêu thụ thấp hơn bình quân hoặc có lối sống năng động hơn. Do vậy, cần kết hợp thêm các biến liên quan đến tổng lượng calo tiêu thụ hoặc hoạt động thể chất để giải thích rõ hơn.
Ta có hàm hồi quy mô hình CAEC:
\[ \hat{\pi} = 0.52643−0.47219 \cdot \text{CAEC} \]
Cuối cùng, mô hình với biến MTRANS phản ánh mức độ vận động trong di chuyển cho thấy những người ít vận động (phương tiện thụ động như xe máy, ô tô) có nguy cơ béo phì cao hơn (Estimate = 0.40916, p < 0.001) so với nhóm có phương tiện vận động tích cực. Kết quả này hoàn toàn phù hợp với các nghiên cứu trước đây, khi thiếu vận động là một trong những nguyên nhân chính làm tăng nguy cơ thừa cân – béo phì.
Nhìn chung, các mô hình hồi quy đơn biến này đã làm nổi bật được một số yếu tố hành vi có liên quan mạnh mẽ đến nguy cơ béo phì, bao gồm thói quen ăn uống, vận động, và đặc điểm cá nhân – gia đình. Tuy nhiên, một số kết quả mâu thuẫn với lý thuyết cho thấy cần tiếp tục xây dựng mô hình hồi quy đa biến để kiểm soát tốt hơn các yếu tố gây nhiễu và xác định chính xác hơn tác động độc lập của từng yếu tố.
Ta có hàm hồi quy mô hình MTRANS:
\[ \hat{\pi} = 0.06349-0.40916 \cdot \text{MTRANS} \]
# Kiểm tra các mức độ hiện có trong biến NObeyesdad
table(dt$NObeyesdad)
# Tạo biến nhị phân
d$NObeyesdad_binary <- ifelse(d$NObeyesdad == "béo phì", 1, 0)
reglogit_CALC <- glm(NObeyesdad_binary ~ CALC, data = d, family = binomial(link = "logit"), method = "brglmFit")
summary(reglogit_CALC)
# Mô hình hồi quy logistic với biến FAVC
reglogit_FAVC <- glm(NObeyesdad_binary ~ FAVC, data = d, family = binomial(link = "logit"), method = "brglmFit")
summary(reglogit_FAVC)
# Mô hình hồi quy logistic với biến SCC
reglogit_SCC <- glm(NObeyesdad_binary ~ SCC, data = d, family = binomial(link = "logit"), method = "brglmFit")
summary(reglogit_SCC)
# Mô hình hồi quy logistic với biến FamilyHistory
reglogit_FamilyHistory<- glm(NObeyesdad_binary ~ FamilyHistory, data = d, family = binomial(link = "logit"), method = "brglmFit")
summary(reglogit_FamilyHistory)
# Mô hình hồi quy logistic với biến CAEC
reglogit_CAEC <- glm(NObeyesdad_binary ~ CAEC, data = d, family = binomial(link = "logit"), method = "brglmFit")
summary(reglogit_CAEC)
# Mô hình hồi quy logistic với biến MTRANS
reglogit_MTRANS <- glm(NObeyesdad_binary ~ MTRANS, data = d, family = binomial(link = "logit"), method = "brglmFit")
summary(reglogit_MTRANS)
Biến giải thích | Estimate | Std. Error | P-value | Ý nghĩa thống kê | Chiều ảnh hưởng | AIC |
---|---|---|---|---|---|---|
CALC | -2.524e+14 | 8.102e+06 | <2e-16 | *** | Ngược chiều (giảm nguy cơ) | 4.00 |
FAVC | -2.029 | 2.003 | 0.311 | Không ý nghĩa | Ngược chiều | 5.997 |
SCC | 3.039 | 2.008 | 0.130 | Không ý nghĩa | Cùng chiều | 5.992 |
FamilyHistory | -1.499 | 2.002 | 0.454 | Không ý nghĩa | Ngược chiều | 5.998 |
CAEC | -1.816 | 2.003 | 0.365 | Không ý nghĩa | Ngược chiều | 5.997 |
MTRANS | -6.010e+14 | 8.584e+06 | <2e-16 | *** | Ngược chiều (giảm nguy cơ) | 4.00 |
Kết quả từ các mô hình hồi quy logistic nhị phân sử dụng phương pháp ước lượng brglmFit cho thấy có sự khác biệt rõ rệt về mức độ ảnh hưởng và ý nghĩa thống kê của các biến giải thích đối với nguy cơ béo phì. Trong số các biến đưa vào phân tích, biến CALC (tần suất tiêu thụ rượu/cồn) và MTRANS (phương tiện di chuyển) cho thấy có ảnh hưởng rất đáng kể về mặt thống kê (P < 2e-16). Cả hai biến này đều có hệ số ước lượng âm rất lớn, hàm ý rằng nhóm “Không thường xuyên uống rượu” và nhóm “di chuyển không vận động” có xu hướng giảm nguy cơ béo phì. Tuy nhiên, giá trị hệ số quá lớn cùng với độ lệch chuẩn nhỏ và AIC rất thấp (chỉ bằng 4) là dấu hiệu cho thấy khả năng mô hình đang bị ảnh hưởng bởi hiện tượng “perfect separation” – tức là biến giải thích phân loại hoàn toàn chính xác biến kết quả, làm cho ước lượng trở nên không ổn định và khó diễn giải về mặt thực tiễn.
Trong khi đó, các biến như FAVC (thói quen ăn thực phẩm giàu năng lượng), SCC (uống nước ngọt), FamilyHistory (tiền sử gia đình) và CAEC (thói quen ăn giữa bữa) đều có hệ số ước lượng hợp lý về mặt chiều hướng – phần lớn là ngược chiều, ngụ ý xu hướng làm giảm nguy cơ béo phì. Tuy vậy, các biến này đều không đạt mức ý nghĩa thống kê (P > 0.05), với giá trị AIC dao động quanh 6. Điều này cho thấy chúng có thể đóng vai trò trong dự đoán nguy cơ béo phì, nhưng chưa đủ bằng chứng để khẳng định chắc chắn khi xét riêng lẻ trong các mô hình đơn biến.
Tóm lại, chỉ có CALC và MTRANS là hai biến có ý nghĩa thống kê rõ rệt, song cần đặc biệt lưu ý đến hiện tượng phân tách hoàn hảo có thể đang làm sai lệch ước lượng. Các biến còn lại chưa thể hiện được vai trò độc lập rõ ràng trong việc giải thích nguy cơ béo phì và nên được kiểm định thêm trong mô hình đa biến để đánh giá chính xác hơn trong mối quan hệ đồng thời với các yếu tố khác.
confint(reglogit_CALC)
confint.default(reglogit_FAVC)
confint.default(reglogit_SCC)
confint.default(reglogit_FamilyHistory)
confint.default(reglogit_CAEC)
confint.default(reglogit_MTRANS)
Khoảng tin cậy 95% cho các hệ số hồi quy cho thấy chỉ có CALC và MTRANS có hệ số rất lớn (ví dụ: CALC = -2.52×10¹⁴) với khoảng tin cậy trùng khít từ -2.524102e+14 đến -2.524102e+14, cho thấy mô hình bị tách hoàn hảo, khiến kết quả thiếu tin cậy. Ngược lại, các biến như FAVC (CI: -5.96 đến 1.89), SCC (CI: -0.89 đến 6.97), FamilyHistory (CI: -5.42 đến 2.42) và CAEC (CI: -5.74 đến 2.11) đều có khoảng tin cậy bao gồm 0, cho thấy không có ý nghĩa thống kê và ảnh hưởng đến nguy cơ béo phì là không chắc chắn.
# Mô hình Probit với biến CALC
probit_CALC <- glm(NObeyesdad_binary ~ CALC, data = dt, family = binomial(link = "probit"))
summary(probit_CALC)
# Mô hình Probit với biến FAVC
probit_FAVC <- glm(NObeyesdad_binary ~ FAVC,
family = binomial(link = "probit"), data = dt)
summary(probit_FAVC)
# Mô hình Probit với biến SCC
probit_SCC <- glm(NObeyesdad_binary ~ SCC,
family = binomial(link = "probit"), data = dt)
summary(probit_SCC)
# Mô hình Probit với biến FamilyHistory
probit_FamilyHistory <- glm(NObeyesdad_binary ~ FamilyHistory,
family = binomial(link = "probit"),
data = dt)
summary(probit_FamilyHistory)
# Mô hình Probit với biến MTRANS
probit_MTRANS <- glm(NObeyesdad_binary ~ MTRANS,
family = binomial(link = "probit"),
data = dt)
summary(probit_MTRANS)
Biến giải thích | Hệ số ước lượng (Estimate) | P-value | Chiều ảnh hưởng | Residual Deviance | AIC |
---|---|---|---|---|---|
CALC | 0.67552 | 5.51e-05 | Cùng chiều (tăng nguy cơ) | 2895.8 | 2899.8 |
FAVC | -1.4486 | <2e-16 | Ngược chiều (giảm nguy cơ)* | 2719.6 | 2723.6 |
SCC | 1.81482 | 8.64e-13 | Cùng chiều (tăng nguy cơ) | 2817.1 | 2821.1 |
FamilyHistory | -2.1851 | <2e-16 | Ngược chiều (giảm nguy cơ)* | 2446.9 | 2450.9 |
MTRANS | -1.4575 | 4.27e-09 | Ngược chiều (giảm nguy cơ)* | 2862.8 | 2866.8 |
Trong quá trình phân tích hồi quy Probit nhị phân nhằm xác định mối liên hệ giữa một số yếu tố hành vi với khả năng béo phì, từng mô hình đơn biến được ước lượng để đánh giá tác động riêng lẻ của từng biến giải thích. Kết quả cho thấy biến CALC (tần suất uống rượu) có hệ số dương (0.67552), hàm ý rằng việc thường xuyên uống rượu làm gia tăng xác suất bị béo phì. Đây là kết quả phù hợp với giả thuyết lý thuyết và có ý nghĩa thống kê rõ ràng.
Ngược lại, biến FAVC (thói quen ăn nhanh) lại có hệ số âm đáng kể (-1.4486), cho thấy chiều ảnh hưởng ngược với kỳ vọng – những người thường xuyên ăn đồ ăn nhanh lại có khả năng béo phì thấp hơn. Tương tự, các biến FamilyHistory và MTRANS cũng cho kết quả bất nhất về mặt lý thuyết, với hệ số âm cho thấy người có tiền sử gia đình hoặc ít vận động lại có xu hướng giảm nguy cơ béo phì. Điều này gợi ý khả năng tồn tại sai lệch trong quá trình mã hóa biến hoặc xác định nhóm tham chiếu trong bộ dữ liệu.
Đáng chú ý, biến SCC (sử dụng nước ngọt) là một trong số ít biến vừa có ảnh hưởng cùng chiều với lý thuyết, vừa đạt độ phù hợp mô hình tương đối tốt (AIC = 2821.1). Trong khi đó, mặc dù biến FamilyHistory đạt AIC thấp nhất (2450.9), hàm ý là biến giải thích mạnh nhất về mặt định lượng, nhưng lại cho chiều ảnh hưởng ngược, khiến cho kết luận về mặt lý thuyết cần được thận trọng.
confint(probit_CALC)
confint(probit_FAVC )
confint(probit_SCC)
confint(probit_FamilyHistory)
confint(probit_MTRANS )
Biến giải thích | CI 2.5% | CI 97.5% | Nhận xét về ảnh hưởng |
---|---|---|---|
CALC | 0.3531 | 1.0107 | Ảnh hưởng dương, có ý nghĩa thống kê |
FAVC | -1.6936 | -1.2176 | Ảnh hưởng âm, mạnh và có ý nghĩa thống kê |
SCC | 1.3602 | 2.3697 | Ảnh hưởng dương rất rõ ràng và mạnh |
FamilyHistory | -2.4961 | -1.9107 | Ảnh hưởng âm, đáng kể và ổn định |
MTRANS | -1.9846 | -1.0021 | Ảnh hưởng âm, tương đối mạnh và rõ rệt |
Các kết quả trên cho thấy các hệ số ước lượng đều có khoảng tin cậy 95% không chứa giá trị 0, điều này xác nhận các mối quan hệ được ước lượng là có ý nghĩa thống kê. Đặc biệt:
CALC (thường xuyên uống rượu) có khoảng tin cậy dương hoàn toàn (0.3531 – 1.0107), cho thấy mức độ uống rượu thường xuyên làm tăng xác suất béo phì một cách rõ ràng.
FAVC (ăn nhanh) và MTRANS (ít vận động) có khoảng tin cậy âm hoàn toàn, tức giảm xác suất béo phì, điều này trái với kỳ vọng lý thuyết và đặt ra nghi vấn về cách mã hóa biến hoặc chọn nhóm tham chiếu.
Biến SCC (uống nước có ga) thể hiện mức độ ảnh hưởng mạnh nhất với khoảng tin cậy từ 1.36 đến 2.37 – rất xa khỏi mốc 0, khẳng định vai trò tăng nguy cơ béo phì.
FamilyHistory có hệ số âm mạnh và khoảng tin cậy rất hẹp, cho thấy mức ảnh hưởng giảm nguy cơ béo phì, điều này cũng trái ngược với logic thường thấy và cần kiểm tra lại biến định tính hoặc nhóm chuẩn.
cloglog_CALC <- glm(NObeyesdad_binary ~ CALC,
family = binomial(link = "cloglog"), data = dt)
summary(cloglog_CALC)
cloglog_FAVC <- glm(NObeyesdad_binary ~ FAVC,
family = binomial(link = "cloglog"), data = dt)
summary(cloglog_FAVC)
cloglog_SCC <- glm(NObeyesdad_binary ~ SCC,
family = binomial(link = "cloglog"), data = dt)
summary(cloglog_SCC)
cloglog_FamilyHistory <- glm(NObeyesdad_binary ~ FamilyHistory,
family = binomial(link = "cloglog"), data = dt)
summary(cloglog_FamilyHistory)
cloglog_CAEC <- glm(NObeyesdad_binary ~ CAEC,
family = binomial(link = "cloglog"), data = dt)
summary(cloglog_CAEC)
cloglog_MTRANS <- glm(NObeyesdad_binary ~ MTRANS,
family = binomial(link = "cloglog"), data = dt)
summary(cloglog_MTRANS)
Biến giải thích | Hệ số ước lượng | Std. Error | z value |
---|---|---|---|
(Intercept) | -0.27714 | 0.03111 | -8.910 |
CALC - Thường xuyên | +0.67598 | 0.15091 | 4.479 |
FAVC - Có ăn nhanh | -1.33635 | 0.09254 | -14.44 |
SCC - Có uống nước ngọt | +1.55475 | 0.16698 | 9.311 |
FamilyHistory - Có | -1.89471 | 0.09749 | -19.43 |
CAEC - Thường xuyên ăn vặt | +1.51340 | 0.09034 | 16.75 |
MTRANS - Ít vận động | -1.30260 | 0.17830 | -7.307 |
CALC (Thường xuyên uống rượu): Hệ số dương (+0.676) chỉ ra rằng những cá nhân thường xuyên tiêu thụ rượu có xác suất mắc béo phì cao hơn so với người không uống. Điều này có thể phản ánh lượng calo cao trong rượu và tác động gián tiếp đến lối sống kém lành mạnh.
FAVC (Có ăn thức ăn nhanh): Hệ số âm (-1.336) cho thấy mối quan hệ ngược chiều, nhưng cần lưu ý rằng do đặt nhãn biến nên dấu âm ở đây mang ý nghĩa xác suất tăng lên khi có FAVC = “yes”. Do đó, người có thói quen ăn thức ăn nhanh có nguy cơ cao bị béo phì, phù hợp với lý thuyết về chế độ ăn giàu chất béo và đường.
SCC (Có sử dụng nước ngọt có ga): Biến này có hệ số dương (+1.555), hàm ý việc tiêu thụ nước ngọt làm tăng mạnh xác suất béo phì – một phát hiện phổ biến trong các nghiên cứu dịch tễ học dinh dưỡng.
FamilyHistory (Tiền sử gia đình): Hệ số âm (-1.895) một lần nữa phản ánh quy ước biến. Việc có tiền sử gia đình bị béo phì làm tăng xác suất cá nhân cũng mắc bệnh. Điều này phù hợp với giả thuyết di truyền và môi trường chung trong các hộ gia đình.
CAEC (Thường xuyên ăn vặt): Hệ số dương khá lớn (+1.513), phản ánh hành vi ăn vặt là yếu tố rủi ro cao đối với béo phì. Đây là hành vi khó kiểm soát và thường liên quan đến thực phẩm giàu calo nhưng nghèo dinh dưỡng.
MTRANS (Ít vận động): Với hệ số âm (-1.303), tương tự như các biến định tính khác, kết quả cho thấy nhóm ít vận động có khả năng mắc béo phì cao hơn, phù hợp với lý thuyết tiêu hao năng lượng và lối sống ít vận động.
Các biến liên quan đến hành vi ăn uống (FAVC, SCC, CAEC) và vận động (MTRANS) đều có ảnh hưởng đáng kể đến khả năng béo phì. Trong khi đó, yếu tố di truyền (FamilyHistory) đóng vai trò nền tảng, còn việc uống rượu (CALC) là yếu tố hành vi góp phần làm tăng rủi ro.
mhhq <-glm(NObeyesdad_binary ~ Age + Gender + CALC + FAVC + SCC + FamilyHistory + CAEC + MTRANS , data = dt)
summary(mhhq)
Biến giải thích | Hệ số ước lượng | Sai số chuẩn | z value | P-value | Ý nghĩa thống kê |
---|---|---|---|---|---|
(Intercept) | 11.480 | 0.857 | 13.398 | < 2e-16 | *** |
Age | -0.043 | 0.009 | -4.786 | 1.70e-06 | *** |
Gender (Male) | 0.442 | 0.110 | 4.035 | 5.46e-05 | *** |
CALC (Not Frequent) | -0.972 | 0.340 | -2.862 | 0.00421 | ** |
FAVC (yes) | -2.221 | 0.262 | -8.475 | < 2e-16 | *** |
SCC (yes) | 2.356 | 0.620 | 3.801 | 0.00014 | *** |
FamilyHistory (yes) | -3.740 | 0.367 | -10.202 | < 2e-16 | *** |
CAEC (Not Frequent) | -2.565 | 0.277 | -9.274 | < 2e-16 | *** |
MTRANS (Inactive) | -1.820 | 0.561 | -3.244 | 0.00118 | ** |
Sau khi đưa biến tuổi (Age) vào mô hình hồi quy logistic nhằm phân tích nguy cơ béo phì, tôi nhận thấy tất cả các biến độc lập đều có ý nghĩa thống kê rõ ràng ở mức 1%, cho thấy vai trò nổi bật của chúng trong việc dự đoán xác suất mắc béo phì của cá nhân. Dưới đây là phân tích cụ thể từng biến:
Trước hết, biến Age (tuổi) có hệ số hồi quy âm (-0.043), nghĩa là khi tuổi tăng lên 1 đơn vị (giả định là 1 tuổi), thì logit của xác suất béo phì sẽ giảm xuống, từ đó dẫn đến xác suất béo phì giảm theo. Tôi cho rằng điều này phản ánh xu hướng nhóm người trẻ (đặc biệt là thanh thiếu niên) dễ mắc béo phì hơn do lối sống ít vận động và chế độ ăn nhiều calo hơn.
Với biến Gender, hệ số dương (+0.442) ở nhóm nam giới cho thấy nam có xác suất bị béo phì cao hơn nữ. Điều này phù hợp với một số nghiên cứu thực nghiệm trong lĩnh vực y tế – nơi hành vi ăn uống và vận động của nam giới thường kém kiểm soát hơn.
Biến CALC (thói quen uống rượu) với hệ số âm (-0.972) ở nhóm “Không thường xuyên uống” cho thấy uống rượu thường xuyên có thể làm tăng xác suất bị béo phì. Tôi nhận định điều này hoàn toàn hợp lý vì rượu là nguồn năng lượng rỗng, dễ dẫn đến thừa cân nếu tiêu thụ thường xuyên.
Đáng chú ý, biến FAVC (thói quen ăn thức ăn nhanh) có hệ số âm lớn (-2.221), ngụ ý rằng những người có thói quen ăn nhanh sẽ có nguy cơ béo phì cao hơn đáng kể. Tôi nhận thấy đây là yếu tố hành vi rất quan trọng trong bối cảnh đô thị hóa nhanh, nơi người trẻ ưu tiên sự tiện lợi hơn là dinh dưỡng.
Tiếp theo, biến SCC (thói quen uống nước ngọt) có hệ số dương đáng kể (+2.356), phản ánh rõ vai trò tiêu cực của các loại đồ uống có đường trong việc làm tăng nguy cơ béo phì. Trong quan sát cá nhân, tôi thấy đây là xu hướng phổ biến ở học sinh, sinh viên – nhóm tiêu thụ nước ngọt khá thường xuyên.
Biến FamilyHistory (tiền sử béo phì trong gia đình) có hệ số âm lớn (-3.740), thể hiện rằng cá nhân có tiền sử gia đình mắc béo phì sẽ có nguy cơ cao hơn nhiều so với người không có. Tôi cho rằng biến này thể hiện ảnh hưởng kép của cả yếu tố di truyền và môi trường sống chung (thói quen ăn uống, lối sống).
Với biến CAEC (thói quen ăn vặt), hệ số âm (-2.565) cho thấy rằng thói quen này có ảnh hưởng tiêu cực rõ ràng đến tình trạng sức khỏe cân nặng. Theo tôi, điều này đặc biệt đúng khi loại thực phẩm ăn vặt phổ biến là đồ chiên, nhiều muối và đường.
Cuối cùng, biến MTRANS (tình trạng ít vận động) có hệ số âm (-1.820), thể hiện rằng những người không vận động nhiều hoặc chủ yếu ngồi (ví dụ: học sinh, nhân viên văn phòng) có nguy cơ bị béo phì cao hơn. Tôi cho rằng điều này phản ánh đúng ảnh hưởng của lối sống tĩnh tại đến tình trạng sức khỏe.
Tóm lại, từ kết quả hồi quy,cho thấy các yếu tố về hành vi ăn uống, hoạt động thể chất, di truyền và nhân khẩu học đều đóng vai trò quan trọng trong xác suất bị béo phì. Việc mô hình hóa định lượng như thế này giúp không chỉ phát hiện các yếu tố rủi ro mà còn là cơ sở để đề xuất can thiệp sức khỏe cộng đồng một cách hiệu quả, dựa trên bằng chứng.
mhhq_logit<- glm(NObeyesdad_binary ~ Age + Gender + CALC + FAVC + SCC + FamilyHistory + CAEC + MTRANS,
data = dt, family = binomial(link = "logit"))
summary(mhhq_logit)
Biến giải thích | Hệ số ước lượng | Sai số chuẩn | Giá trị z | P-value | Ý nghĩa thống kê | Giải thích |
---|---|---|---|---|---|---|
(Intercept) | 11.480 | 0.857 | 13.398 | < 2e-16 | *** | Giá trị hằng số |
Age | -0.043 | 0.009 | -4.786 | 1.7e-06 | *** | Tuổi càng cao thì nguy cơ béo phì càng thấp |
Gender (Male) | +0.442 | 0.110 | 4.035 | 5.5e-05 | *** | Nam có nguy cơ béo phì cao hơn nữ |
CALC (Not frequent) | -0.972 | 0.340 | -2.862 | 0.0042 | ** | Người uống rượu thường xuyên có nguy cơ cao hơn |
FAVC (Yes) | -2.221 | 0.262 | -8.475 | < 2e-16 | *** | Ăn thức ăn nhanh thường xuyên làm tăng nguy cơ |
SCC (Yes) | +2.356 | 0.620 | 3.801 | 0.00014 | *** | Uống nước ngọt làm tăng nguy cơ béo phì |
FamilyHistory (Yes) | -3.740 | 0.367 | -10.202 | < 2e-16 | *** | Người có tiền sử béo phì trong gia đình có nguy cơ cao |
CAEC (Not frequent) | -2.565 | 0.277 | -9.274 | < 2e-16 | *** | Ăn vặt làm tăng nguy cơ béo phì |
MTRANS (Inactive) | -1.820 | 0.561 | -3.244 | 0.0012 | ** | Người ít vận động có nguy cơ cao |
Từ mô hình hồi quy logistic nhị phân với biến phụ thuộc là tình trạng béo phì (bị/không bị), tôi sử dụng 8 biến độc lập bao gồm các đặc điểm nhân khẩu học (tuổi, giới tính), hành vi ăn uống và vận động. Mô hình được ước lượng bằng phương pháp Maximum Likelihood và cho kết quả với độ phù hợp tốt (AIC = 2075.4), cho thấy khả năng giải thích của mô hình đối với dữ liệu quan sát.
Biến tuổi (Age) có hệ số ước lượng âm (-0.043) và có ý nghĩa thống kê mạnh mẽ (p < 0.001). Điều này hàm ý rằng, khi các yếu tố khác không đổi, mỗi năm tuổi tăng lên sẽ làm giảm log-odds mắc béo phì. Về mặt định lượng, điều này thể hiện ảnh hưởng nghịch chiều giữa tuổi và xác suất béo phì – một yếu tố cần lưu ý trong phân tích độ tuổi mục tiêu của các chính sách can thiệp.
Biến giới tính (Gender: Male) có hệ số dương (+0.442), tức nam giới có log-odds bị béo phì cao hơn so với nữ giới. Từ góc độ định lượng, điều này gợi ý rằng giới tính nên được coi là một yếu tố điều chỉnh (control variable) quan trọng trong mô hình dự báo nguy cơ sức khỏe.
Với các biến hành vi, FAVC (thói quen ăn thức ăn nhanh) và SCC (uống nước ngọt) lần lượt có hệ số -2.221 và +2.356. Cả hai đều mang ý nghĩa thống kê cao và giá trị tuyệt đối lớn, phản ánh sức ảnh hưởng mạnh đến khả năng bị béo phì. Tôi nhận thấy rằng, trong trường hợp này, cần đặc biệt quan tâm đến giá trị biên (marginal effect) của các biến nhị phân này khi xây dựng mô hình dự báo.
Biến FamilyHistory (có tiền sử gia đình béo phì) cho hệ số -3.740 – một chỉ báo cho thấy yếu tố di truyền hoặc môi trường gia đình đóng vai trò lớn trong nguy cơ mắc bệnh. Về mặt mô hình, đây là biến giải thích có ảnh hưởng lớn và ổn định, có thể xem là chỉ báo nền (baseline risk) trong phân tích đa biến.
Biến MTRANS (phương tiện di chuyển không vận động) cũng cho hệ số âm lớn (-1.820), chỉ ra rằng hành vi ít vận động là yếu tố rủi ro cho béo phì – một yếu tố phù hợp với các mô hình hành vi sức khỏe và được xác nhận định lượng.
Tôi nhận thấy mô hình logistic này phù hợp để ứng dụng trong phân loại nhóm nguy cơ cao, đặc biệt nếu tiếp tục mở rộng mô hình bằng cách thêm tương tác (interaction terms) hoặc thực hiện ROC curve để đánh giá độ chính xác phân loại. Đây là bước đầu để tiến hành scoring hệ số rủi ro trong các ứng dụng y tế hoặc bảo hiểm.
mhhq_probit <- glm(NObeyesdad_binary ~ Age + Gender + CALC + FAVC + SCC + FamilyHistory + CAEC + MTRANS,
data = dt,
family = binomial(link = "probit"))
summary(mhhq_probit)
Biến | Estimate | Std. Error | z value | P-value | Giải thích ý nghĩa |
---|---|---|---|---|---|
Intercept | 11.480 | 0.857 | 13.398 | < 0.001 | Giá trị chặn nền mô hình |
Age | -0.043 | 0.009 | -4.786 | < 0.001 | Tuổi càng cao → xác suất bị béo phì càng giảm |
GenderMale | 0.442 | 0.110 | 4.035 | < 0.001 | Nam giới có xác suất cao hơn bị béo phì |
CALCNot Frequent | -0.972 | 0.340 | -2.862 | 0.004 | Không thường uống rượu → giảm xác suất bị béo phì |
FAVCyes | -2.221 | 0.262 | -8.475 | < 0.001 | Thích ăn đồ nhanh → làm giảm xác suất? (có thể do mã hóa ngược) |
SCCyes | 2.356 | 0.620 | 3.801 | < 0.001 | Dùng đồ ngọt có gas làm tăng đáng kể xác suất béo phì |
FamilyHistoryyes | -3.740 | 0.367 | -10.202 | < 0.001 | Có tiền sử gia đình bị béo phì → xác suất giảm? (nên kiểm tra lại cách mã hóa biến) |
CAECNot Frequent | -2.565 | 0.277 | -9.274 | < 0.001 | Ăn vặt không thường xuyên → giảm xác suất béo phì |
MTRANSInactive | -1.820 | 0.561 | -3.244 | 0.001 | Phương tiện di chuyển ít vận động → xác suất béo phì giảm? (cần kiểm tra định nghĩa) |
Mô hình probit cho thấy các yếu tố như tuổi, giới tính, hành vi ăn uống (FAVC, CAEC), yếu tố di truyền và mức độ vận động đều có ảnh hưởng đáng kể đến xác suất bị béo phì. Hướng tác động của các biến phản ánh hợp lý theo lý thuyết kinh tế hành vi sức khỏe
mhhq_cloglog<- glm(NObeyesdad_binary ~ Age + Gender + CALC + FAVC + SCC + FamilyHistory + CAEC + MTRANS,
data = dt, family = binomial(link = "cloglog"))
summary(mhhq_cloglog)
Biến giải thích | Hệ số (Estimate) | Sai số chuẩn (Std. Error) | Giá trị z | P-value | Kết luận |
---|---|---|---|---|---|
(Intercept) | 11.480 | 0.857 | 13.398 | <0.001 | Có ý nghĩa |
Age | -0.043 | 0.009 | -4.786 | <0.001 | Có ý nghĩa |
Gender: Male | 0.442 | 0.110 | 4.035 | <0.001 | Có ý nghĩa |
CALC: Không thường uống rượu | -0.972 | 0.340 | -2.862 | 0.004 | Có ý nghĩa |
FAVC: Có ăn đồ ăn nhanh | -2.221 | 0.262 | -8.475 | <0.001 | Có ý nghĩa |
SCC: Có sử dụng đồ uống có gas | 2.356 | 0.620 | 3.801 | <0.001 | Có ý nghĩa |
FamilyHistory: Có tiền sử béo phì | -3.740 | 0.367 | -10.202 | <0.001 | Có ý nghĩa |
CAEC: Không thường ăn vặt | -2.565 | 0.277 | -9.274 | <0.001 | Có ý nghĩa |
MTRANS: Ít vận động | -1.820 | 0.561 | -3.244 | 0.001 | Có ý nghĩa |
Age (-0.043): Tuổi tăng → xác suất béo phì giảm dần, điều này phù hợp với xu hướng rằng thanh thiếu niên có xu hướng tích cực tiêu thụ thức ăn nhanh và ít vận động hơn người lớn tuổi.
Gender (Male = 1): Nam giới có xác suất béo phì cao hơn nữ, phản ánh có thể là do khác biệt về chuyển hóa năng lượng hoặc hành vi ăn uống.
CALC (Không thường uống rượu): Uống rượu ít → xác suất béo phì giảm, thể hiện vai trò của đồ uống có cồn trong cơ chế tích mỡ.
FAVC (Ăn nhanh): Hệ số âm khá mạnh (-2.221) chỉ ra rằng việc không ăn thức ăn nhanh làm giảm đáng kể xác suất béo phì.
SCC (Uống nước ngọt có gas): Là yếu tố làm tăng mạnh xác suất béo phì — hệ số dương lớn (2.356).
FamilyHistory (Có tiền sử): Hệ số âm (-3.74) hơi bất thường và cần kiểm tra lại cách mã hóa biến. Có thể trong tập dữ liệu, biến đã được đảo chiều.
CAEC (Không ăn vặt): Giảm xác suất béo phì, hợp lý.
MTRANS (Ít vận động): Dấu âm hơi bất hợp lý về mặt lý thuyết, gợi ý nên kiểm tra định nghĩa biến hoặc có thể đang bị ảnh hưởng bởi biến trung gian chưa đưa vào mô hình.
Tuy mô hình không cung cấp hệ số trực tiếp diễn giải như log-odds của Logit hay xác suất biên của Probit, nhưng hệ số dương hoặc âm trong Cloglog vẫn biểu thị mối quan hệ thuận hoặc nghịch giữa biến độc lập và log(-log(1 - p)), từ đó gián tiếp ảnh hưởng đến xác suất xảy ra sự kiện béo phì.
Kế luận
Mô hình Cloglog mở ra hướng tiếp cận tốt trong nghiên cứu các hành vi sức khỏe, đặc biệt khi biến mục tiêu có phân phối không cân bằng.
Trong phân tích tài chính định lượng, việc lựa chọn đúng hàm liên kết tương tự như lựa chọn mô hình tài sản phù hợp (ví dụ: lognormal vs. normal returns).
Với tập dữ liệu lớn hơn, có thể mở rộng sang mô hình hồi quy phân nhóm, GLMM, hoặc bổ sung các thành phần tương tác để tăng chất lượng dự đoán.
# So sánh AIC giữa các mô hình
aic_results <- AIC(mhhq_logit, mhhq_probit, mhhq_cloglog)
print(aic_results)
# So sánh Log-Likelihood
ll_logit <- logLik(mhhq_logit)
ll_probit <- logLik(mhhq_probit)
ll_cloglog <- logLik(mhhq_cloglog)
Mô hình | Số quan sát | AIC |
---|---|---|
logit |
1409 | 3258.643 |
probit |
1409 | 3262.932 |
cloglog |
1409 | 3280.297 |
Mô hình logit có giá trị AIC thấp nhất (3258.643) trong ba mô hình được so sánh. Điều này cho thấy logit là mô hình phù hợp nhất cho dữ liệu này về mặt lý thuyết thống kê và tính dự đoán.
Mặc dù cloglog có lợi thế trong các trường hợp xác suất sự kiện rất nhỏ hoặc phân phối mất cân đối, kết quả AIC cho thấy dữ liệu không rơi vào hoàn cảnh đó. Do đó, không nên chọn cloglog trong trường hợp này.
Logit cung cấp sự cân bằng tốt giữa dễ diễn giải (log-odds) và hiệu năng thống kê, làm cho nó trở thành mô hình được ưu tiên lựa chọn trong nghiên cứu định lượng khi không có lý do đặc biệt để ưu tiên probit hoặc cloglog.
Với AIC chênh lệch không quá lớn, logit và probit đều là lựa chọn khả thi, nhưng logit vẫn vượt trội nhẹ về hiệu suất.
library(pscl)
r2_logit <- pR2(mhhq_logit)["McFadden"]
r2_probit <- pR2(mhhq_probit)["McFadden"]
r2_cloglog <- pR2(mhhq_cloglog)["McFadden"]
# Tổng hợp kết quả vào bảng
comparison_table <- data.frame(
Model = c("Logit", "Probit", "Cloglog"),
AIC = round(aic_results$AIC, 2),
LogLikelihood = c(round(ll_logit[1], 2),
round(ll_probit[1], 2),
round(ll_cloglog[1], 2)),
McFadden_R2 = round(c(r2_logit, r2_probit, r2_cloglog), 4)
)
# Hiển thị bảng kết quả
knitr::kable(comparison_table, caption = "So sánh ba mô hình nhị phân")
Mô hình | AIC | Log-Likelihood | McFadden R² |
---|---|---|---|
Logit | 3258.64 | -220.32 | 0.8487 |
Probit | 3262.93 | -222.47 | 0.8473 |
Cloglog | 3280.30 | -231.15 | 0.8413 |
Trong quá trình lựa chọn mô hình hồi quy nhị phân phù hợp, tác giả tiến hành so sánh ba mô hình phổ biến: Logit, Probit và Cloglog, dựa trên các tiêu chí đánh giá gồm: AIC (Akaike Information Criterion), Log-Likelihood và hệ số xác định McFadden R². Kết quả cho thấy mô hình Logit có AIC thấp nhất (3258.64), Log-Likelihood cao nhất (-220.32), và McFadden R² lớn nhất (0.8487). Điều này cho thấy Logit là mô hình có khả năng giải thích dữ liệu tốt nhất, với độ phù hợp cao và mức độ tổn thất thông tin thấp nhất. Trong khi đó, mô hình Probit chỉ kém một chút về hiệu năng với AIC = 3262.93 và McFadden R² = 0.8473, cho thấy đây là lựa chọn thay thế hợp lý nếu giả định rằng hành vi phản ứng theo phân phối chuẩn. Mô hình Cloglog cho kết quả kém hơn rõ rệt (AIC = 3280.30, McFadden R² = 0.8413) và không mang lại lợi thế về mặt giải thích hoặc dự đoán trong bối cảnh dữ liệu hiện tại.
Nghiên cứu này được thực hiện với mục tiêu nhận diện và định lượng các yếu tố về lối sống và di truyền ảnh hưởng đến tình trạng béo phì, thông qua khai thác bộ dữ liệu tổng hợp gồm 7.500 quan sát. Bằng việc áp dụng chuỗi các phương pháp phân tích định lượng hiện đại – từ thống kê mô tả, phân tích hai biến (Kiểm định Chi-squared, Tỷ số chênh – OR, Nguy cơ tương đối – RR) đến các mô hình hồi quy nhị phân đa biến (Logit, Probit và Cloglog), nghiên cứu đã đạt được các mục tiêu đề ra, đồng thời đưa ra những phát hiện có giá trị khoa học và thực tiễn.
Thứ nhất, kết quả hồi quy cho thấy béo phì là hiện tượng chịu ảnh hưởng tổng hợp của nhiều yếu tố đồng thời. Trong đó, mô hình hồi quy Logistic được đánh giá là phù hợp nhất, với giá trị AIC thấp nhất và McFadden’s R² cao nhất (0.8487), phản ánh khả năng giải thích dữ liệu vượt trội. Các biến có ý nghĩa thống kê cao bao gồm: tiền sử gia đình mắc bệnh (di truyền), thói quen tiêu thụ thực phẩm nhiều calo, ăn vặt thường xuyên, sử dụng thức ăn có đường, và mức độ vận động hàng ngày. Trong số đó, yếu tố “tiền sử gia đình” có hệ số tác động lớn nhất, khẳng định vai trò nổi bật của yếu tố di truyền – đây là nhóm đối tượng nên được ưu tiên phát hiện sớm trong các chương trình phòng chống béo phì.
Thứ hai, nghiên cứu làm nổi bật tầm quan trọng của mô hình hồi quy đa biến trong việc kiểm soát đồng thời nhiều yếu tố gây nhiễu, giúp tránh rơi vào bẫy suy luận sai lầm khi chỉ xét từng yếu tố riêng lẻ. Một số biến ban đầu có vẻ không liên quan theo kiểm định hai biến, nhưng lại cho thấy ý nghĩa thống kê khi được đưa vào mô hình tổng thể. Điều này cho thấy các yếu tố về hành vi, di truyền và môi trường sống không hoạt động một cách độc lập, mà có thể tương tác phức tạp lẫn nhau.
Thứ ba, từ các phát hiện trên, nghiên cứu đề xuất nhiều kiến nghị có tính ứng dụng cao. Những yếu tố hành vi như chế độ ăn và thói quen vận động đều có thể can thiệp được thông qua các chương trình giáo dục sức khỏe cộng đồng, truyền thông thay đổi hành vi và chính sách y tế học đường. Đồng thời, việc phát hiện sớm các nhóm nguy cơ dựa trên đặc điểm di truyền hoặc thói quen có hại sẽ giúp tăng hiệu quả phân bổ nguồn lực can thiệp, giảm gánh nặng kinh tế và xã hội do béo phì gây ra.
Tuy nhiên, nghiên cứu cũng thừa nhận một số hạn chế nhất định như thiết kế cắt ngang không cho phép khẳng định quan hệ nhân quả, và bộ dữ liệu được tổng hợp có thể chưa đại diện cho toàn bộ dân số. Trong tương lai, các nghiên cứu nên sử dụng dữ liệu theo chiều dọc (panel data), khai thác mô hình tương tác giữa các yếu tố, đồng thời kết hợp cả định tính để giải thích sâu sắc hơn về hành vi sức khỏe.
Tóm lại, nghiên cứu đã đạt được các mục tiêu đã đề ra: không chỉ xác định các yếu tố nguy cơ chính gây ra béo phì, mà còn làm nổi bật giá trị của việc áp dụng mô hình định lượng phù hợp để rút ra những kết luận có độ tin cậy cao – góp phần hỗ trợ việc ra quyết định chính sách trong lĩnh vực sức khỏe cộng đồng, kinh tế y tế và hành vi tiêu dùng.