8 Januari 2026
Obesitas merupakan salah satu permasalahan kesehatan masyarakat yang menjadi perhatian global karena prevalensinya yang terus meningkat dari waktu ke waktu. Kondisi obesitas ditandai dengan akumulasi lemak tubuh yang berlebihan dan berhubungan dengan peningkatan risiko berbagai penyakit tidak menular, seperti diabetes melitus tipe 2, penyakit kardiovaskular, serta gangguan metabolik lainnya. Data epidemiologi terbaru menunjukkan bahwa obesitas masih menjadi masalah kesehatan yang serius, khususnya di negara maju seperti Amerika Serikat (Hales et al., 2020).
Di Amerika Serikat, prevalensi obesitas pada orang dewasa dilaporkan tetap berada pada tingkat yang tinggi berdasarkan data National Health and Nutrition Examination Survey (NHANES) periode 2017–2018. Kondisi ini tidak hanya berdampak pada penurunan kualitas hidup individu, tetapi juga berkontribusi terhadap meningkatnya beban ekonomi dan tekanan terhadap sistem pelayanan kesehatan (Hales et al., 2020; Ward et al., 2019).
Selain menjadi masalah global, obesitas juga merupakan isu kesehatan masyarakat di Indonesia. Studi yang dilakukan oleh Sudikno dan Sandjaja (2015) menunjukkan bahwa prevalensi obesitas dan obesitas sentral pada orang dewasa di Indonesia tergolong cukup tinggi. Hal ini mengindikasikan bahwa obesitas merupakan masalah kesehatan yang relevan baik di tingkat nasional maupun internasional.
Salah satu sumber data yang banyak digunakan dalam penelitian kesehatan dan gizi adalah National Health and Nutrition Examination Survey (NHANES). NHANES merupakan survei kesehatan berskala nasional di Amerika Serikat yang mengumpulkan data demografi, antropometri, serta status kesehatan responden secara komprehensif dan representatif. Data NHANES sering dimanfaatkan dalam penelitian epidemiologi untuk menganalisis faktor-faktor yang berhubungan dengan obesitas dan kondisi kesehatan lainnya.
Dalam penelitian ini, analisis status obesitas dilakukan menggunakan pendekatan regresi logistik biner. Metode ini digunakan karena variabel dependen bersifat dikotomi, yaitu obesitas dan tidak obesitas. Pendekatan regresi logistik biner memungkinkan peneliti untuk menganalisis pengaruh faktor-faktor demografi dan antropometri, seperti usia, jenis kelamin, lingkar pinggang, dan etnisitas, terhadap peluang terjadinya obesitas secara simultan (Hosmer et al., 2013; Agresti, 2019).
Statistika deskriptif merupakan metode statistik yang digunakan untuk menggambarkan karakteristik utama suatu data melalui ukuran pemusatan dan penyebaran, seperti nilai rata-rata, median, simpangan baku, serta distribusi frekuensi. Dalam penelitian kesehatan, statistika deskriptif berperan penting dalam memberikan gambaran awal mengenai karakteristik responden sebelum dilakukan analisis inferensial (Agresti, 2019).
Analisis regresi merupakan metode statistik yang digunakan untuk memodelkan hubungan antara satu variabel dependen dengan satu atau lebih variabel independen. Tujuan utama analisis regresi adalah untuk menjelaskan hubungan antarvariabel serta memprediksi nilai variabel respon berdasarkan variabel prediktor yang digunakan (Kleinbaum & Klein, 2010).
Regresi logistik merupakan metode analisis regresi yang digunakan ketika variabel dependen bersifat kategorik. Metode ini memodelkan probabilitas terjadinya suatu kejadian sebagai fungsi dari variabel independen. Regresi logistik banyak digunakan dalam penelitian kesehatan karena mampu menangani variabel respon yang bersifat dikotomi dan tidak mensyaratkan asumsi normalitas pada variabel dependen (Hosmer et al., 2013).
Regresi logistik biner digunakan ketika variabel dependen memiliki dua kategori, yang umumnya dikodekan sebagai 0 dan 1. Dalam penelitian ini, variabel dependen adalah status obesitas yang diklasifikasikan menjadi obesitas dan tidak obesitas. Model regresi logistik biner secara matematis dinyatakan sebagai:
\[ \pi(x) = \frac{\exp(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_k x_k)} {1 + \exp(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_k x_k)} \]
Transformasi logit dari model tersebut adalah:
\[ \ln\left(\frac{\pi(x)}{1 - \pi(x)}\right) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_k x_k \]
Pendekatan ini banyak digunakan dalam penelitian epidemiologi dan kesehatan masyarakat untuk menganalisis faktor risiko kejadian penyakit, termasuk obesitas (Hosmer et al., 2013).
Uji multikolinearitas dilakukan untuk memastikan bahwa antar variabel independen tidak memiliki hubungan linier yang kuat. Multikolinearitas yang tinggi dapat menyebabkan ketidakstabilan dalam estimasi parameter model regresi. Salah satu metode yang umum digunakan untuk mendeteksi multikolinearitas adalah Variance Inflation Factor (VIF) (Kleinbaum & Klein, 2010).
Uji signifikansi keseluruhan model bertujuan untuk mengetahui apakah variabel prediktor secara bersama-sama berpengaruh terhadap variabel dependen. Dalam regresi logistik, pengujian ini dilakukan menggunakan Likelihood Ratio Test dengan membandingkan model penuh dan model tanpa prediktor (Hosmer et al., 2013).
Uji parsial digunakan untuk menilai pengaruh masing-masing variabel prediktor terhadap variabel dependen secara individual. Dalam regresi logistik, uji Wald digunakan untuk menguji signifikansi parameter regresi (Agresti, 2019).
Odds ratio digunakan untuk menginterpretasikan koefisien regresi logistik. Odds ratio menunjukkan perbandingan peluang terjadinya suatu kejadian akibat perubahan satu satuan variabel prediktor dan dinyatakan dengan rumus:
\[ OR = e^{\beta_i} \]
Interpretasi odds ratio memudahkan pemahaman pengaruh variabel prediktor dalam konteks penelitian kesehatan (Hosmer et al., 2013).
Penelitian ini menggunakan data sekunder yang bersumber dari National Health and Nutrition Examination Survey (NHANES). NHANES merupakan survei kesehatan dan gizi berskala nasional di Amerika Serikat yang dirancang untuk menghasilkan data yang representatif terhadap populasi sipil non-institusional. Survei ini mengombinasikan data wawancara, pemeriksaan fisik, serta pengukuran antropometri yang dilakukan secara langsung oleh tenaga kesehatan terlatih.
Data yang digunakan dalam penelitian ini berasal dari dua dataset utama, yaitu data demografi (DEMO) dan data antropometri (BMX). Dataset DEMO digunakan untuk memperoleh informasi karakteristik responden yang meliputi usia, jenis kelamin, dan etnisitas. Sementara itu, dataset BMX digunakan untuk memperoleh informasi pengukuran antropometri, khususnya lingkar pinggang (waist circumference), serta status obesitas responden.
Status obesitas dalam penelitian ini diperoleh dari variabel BMIOBES yang telah diklasifikasikan oleh NHANES. Variabel ini membedakan responden ke dalam dua kategori, yaitu obesitas dan tidak obesitas, berdasarkan kriteria indeks massa tubuh (Body Mass Index) yang telah ditetapkan. Penggunaan klasifikasi ini memungkinkan analisis status obesitas dalam bentuk variabel dikotomi yang sesuai untuk pemodelan regresi logistik biner.
Lingkar pinggang digunakan sebagai salah satu variabel prediktor utama dalam penelitian ini karena telah direkomendasikan sebagai indikator penting dalam menilai obesitas dan risiko kesehatan terkait. Lingkar pinggang mencerminkan akumulasi lemak abdominal yang berhubungan erat dengan risiko metabolik dan kardiovaskular, bahkan dalam beberapa kondisi lebih informatif dibandingkan indeks massa tubuh (Ross et al., 2020).
Dengan menggunakan data NHANES yang bersifat representatif dan variabel antropometri yang terstandarisasi, penelitian ini diharapkan mampu memberikan gambaran yang valid mengenai hubungan antara faktor demografi, lingkar pinggang, dan status obesitas pada populasi dewasa di Amerika Serikat.
Tujuan dari penelitian ini adalah sebagai berikut:
Penelitian ini diharapkan dapat memberikan manfaat sebagai berikut:
# Library
library(readr)
library(dplyr)
library(ggplot2)
library(car)
library(ResourceSelection)
library(caret)
library(knitr)
Data yang digunakan dalam penelitian ini terdiri dari dua dataset utama, yaitu data demografi (DEMO) dan data antropometri (BMX) yang bersumber dari National Health and Nutrition Examination Survey (NHANES). Dataset DEMO digunakan untuk memperoleh informasi karakteristik responden yang meliputi usia, jenis kelamin, dan etnisitas. Sementara itu, dataset BMX digunakan untuk memperoleh informasi lingkar pinggang serta status obesitas responden.
# Import data
bmx <- read_csv("C:/Users/User/Downloads/NHANES/P_BMX.csv")
demo <- read_csv("C:/Users/User/Downloads/NHANES/P_DEMO.csv")
# Informasi awal data
dim(demo)
## [1] 15560 29
dim(bmx)
## [1] 14300 23
# Cuplikan data
kable(head(demo), caption = "Cuplikan Data Demografi NHANES")
| SEQN | SDDSRVYR | RIDSTATR | RIAGENDR | RIDAGEYR | RIDAGEMN | RIDRETH1 | RIDRETH3 | RIDEXMON | DMDBORN4 | DMDYRUSZ | DMDEDUC2 | DMDMARTZ | RIDEXPRG | SIALANG | SIAPROXY | SIAINTRP | FIALANG | FIAPROXY | FIAINTRP | MIALANG | MIAPROXY | MIAINTRP | AIALANGA | WTINTPRP | WTMECPRP | SDMVPSU | SDMVSTRA | INDFMPIR |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 109263 | 66 | 2 | 1 | 2 | NA | 5 | 6 | 2 | 1 | NA | NA | NA | NA | 1 | 1 | 2 | 1 | 2 | 2 | NA | NA | NA | NA | 7891.762 | 8951.816 | 3 | 156 | 4.66 |
| 109264 | 66 | 2 | 2 | 13 | NA | 1 | 1 | 2 | 1 | NA | NA | NA | NA | 1 | 1 | 2 | 1 | 2 | 2 | 1 | 2 | 2 | 1 | 11689.747 | 12271.157 | 1 | 155 | 0.83 |
| 109265 | 66 | 2 | 1 | 2 | NA | 3 | 3 | 2 | 1 | NA | NA | NA | NA | 1 | 1 | 2 | 1 | 2 | 2 | NA | NA | NA | NA | 16273.826 | 16658.764 | 1 | 157 | 3.06 |
| 109266 | 66 | 2 | 2 | 29 | NA | 5 | 6 | 2 | 2 | 2 | 5 | 3 | 2 | 1 | 2 | 2 | 1 | 2 | 2 | 1 | 2 | 2 | 1 | 7825.646 | 8154.968 | 2 | 168 | 5.00 |
| 109267 | 66 | 1 | 2 | 21 | NA | 2 | 2 | NA | 2 | 3 | 4 | 3 | 3 | 1 | 2 | 2 | 1 | 2 | 2 | NA | NA | NA | NA | 26379.992 | 0.000 | 1 | 156 | 5.00 |
| 109268 | 66 | 1 | 2 | 18 | NA | 3 | 3 | NA | 1 | NA | NA | NA | NA | 1 | 2 | 2 | 1 | 2 | 2 | NA | NA | NA | NA | 19639.221 | 0.000 | 1 | 155 | 1.66 |
kable(head(bmx), caption = "Cuplikan Data BMX NHANES")
| SEQN | BMDSTATS | BMXWT | BMIWT | BMXRECUM | BMIRECUM | BMXHEAD | BMIHEAD | BMXHT | BMIHT | BMXBMI | BMDBMIC | BMXLEG | BMILEG | BMXARML | BMIARML | BMXARMC | BMIARMC | BMXWAIST | BMIWAIST | BMXHIP | BMIHIP | BMIOBES |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 109263 | 4 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA |
| 109264 | 1 | 42.2 | NA | NA | NA | NA | NA | 154.7 | NA | 17.6 | 2 | 36.3 | NA | 33.8 | NA | 22.7 | NA | 63.8 | NA | 85.0 | NA | 0 |
| 109265 | 1 | 12.0 | NA | 91.6 | NA | NA | NA | 89.3 | NA | 15.0 | 2 | NA | NA | 18.6 | NA | 14.8 | NA | 41.2 | NA | NA | NA | 0 |
| 109266 | 1 | 97.1 | NA | NA | NA | NA | NA | 160.2 | NA | 37.8 | NA | 40.8 | NA | 34.7 | NA | 35.8 | NA | 117.9 | NA | 126.1 | NA | 1 |
| 109269 | 3 | 13.6 | NA | 90.9 | NA | NA | NA | NA | 1 | NA | NA | NA | NA | NA | 1 | NA | 1 | NA | 1 | NA | NA | NA |
| 109270 | 1 | 75.3 | NA | NA | NA | NA | NA | 156.0 | NA | 30.9 | 4 | 42.6 | NA | 36.1 | NA | 31.0 | NA | 91.4 | NA | NA | NA | 1 |
Variabel yang digunakan dalam penelitian ini terdiri dari variabel dependen dan variabel independen. Variabel dependen adalah status obesitas responden, sedangkan variabel independen meliputi usia, jenis kelamin, lingkar pinggang, dan etnisitas. Penggabungan data dilakukan berdasarkan variabel identitas responden (SEQN) yang terdapat pada kedua dataset.
data_nhanes <- demo %>%
select(SEQN, RIDAGEYR, RIAGENDR, RIDRETH1) %>%
left_join(
bmx %>% select(SEQN, BMXWAIST, BMIOBES),
by = "SEQN"
)
kable(head(data_nhanes), caption = "Hasil Penggabungan Data")
| SEQN | RIDAGEYR | RIAGENDR | RIDRETH1 | BMXWAIST | BMIOBES |
|---|---|---|---|---|---|
| 109263 | 2 | 1 | 5 | NA | NA |
| 109264 | 13 | 2 | 1 | 63.8 | 0 |
| 109265 | 2 | 1 | 3 | 41.2 | 0 |
| 109266 | 29 | 2 | 5 | 117.9 | 1 |
| 109267 | 21 | 2 | 2 | NA | NA |
| 109268 | 18 | 2 | 3 | NA | NA |
na_table <- colSums(is.na(data_nhanes))
kable(
as.data.frame(na_table),
col.names = c("Jumlah Missing"),
caption = "Missing Value"
)
| Jumlah Missing | |
|---|---|
| SEQN | 0 |
| RIDAGEYR | 0 |
| RIAGENDR | 0 |
| RIDRETH1 | 0 |
| BMXWAIST | 2986 |
| BMIOBES | 2423 |
data_nhanes <- data_nhanes %>%
filter(
!is.na(RIDAGEYR),
!is.na(RIAGENDR),
!is.na(RIDRETH1),
!is.na(BMXWAIST),
!is.na(BMIOBES)
)
data_nhanes_clean <- data_nhanes %>%
rename(
age = RIDAGEYR,
sex = RIAGENDR,
ethnicity = RIDRETH1,
waist = BMXWAIST,
obese = BMIOBES
) %>%
mutate(
sex = factor(sex, levels = c(1,2), labels = c("Male","Female")),
ethnicity = factor(ethnicity),
obese = factor(obese, levels = c(0,1), labels = c("Not Obese","Obese"))
)
str(data_nhanes_clean)
## tibble [12,534 × 6] (S3: tbl_df/tbl/data.frame)
## $ SEQN : num [1:12534] 109264 109265 109266 109270 109271 ...
## $ age : num [1:12534] 13 2 29 11 49 36 68 12 6 17 ...
## $ sex : Factor w/ 2 levels "Male","Female": 2 1 2 2 1 1 1 2 2 2 ...
## $ ethnicity: Factor w/ 5 levels "1","2","3","4",..: 1 3 5 4 3 3 5 1 2 3 ...
## $ waist : num [1:12534] 63.8 41.2 117.9 91.4 120.4 ...
## $ obese : Factor w/ 2 levels "Not Obese","Obese": 1 1 2 2 1 1 2 1 1 1 ...
summary(data_nhanes_clean[, c("age", "waist")])
## age waist
## Min. : 2.00 Min. : 40.00
## 1st Qu.:13.00 1st Qu.: 73.30
## Median :34.00 Median : 91.00
## Mean :36.09 Mean : 89.72
## 3rd Qu.:58.00 3rd Qu.:105.50
## Max. :80.00 Max. :187.50
table(data_nhanes_clean$sex)
##
## Male Female
## 6203 6331
table(data_nhanes_clean$ethnicity)
##
## 1 2 3 4 5
## 1608 1218 4198 3353 2157
prop.table(table(data_nhanes_clean$obese)) * 100
##
## Not Obese Obese
## 69.5229 30.4771
desc_table <- data_nhanes_clean %>%
summarise(
Mean_Age = mean(age),
SD_Age = sd(age),
Mean_Waist = mean(waist),
SD_Waist = sd(waist)
)
kable(desc_table, caption = "Statistik Deskriptif")
| Mean_Age | SD_Age | Mean_Waist | SD_Waist |
|---|---|---|---|
| 36.08529 | 24.0835 | 89.71773 | 23.11989 |
ggplot(data_nhanes_clean, aes(x = waist, fill = obese)) +
geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
labs(
title = "Distribusi Lingkar Pinggang Berdasarkan Status Obesitas",
x = "Lingkar Pinggang (cm)",
y = "Frekuensi",
fill = "Status Obesitas"
) +
theme_minimal()
model_logit <- glm(
obese ~ age + sex + waist + ethnicity,
data = data_nhanes_clean,
family = binomial(link = "logit")
)
model_logit
##
## Call: glm(formula = obese ~ age + sex + waist + ethnicity, family = binomial(link = "logit"),
## data = data_nhanes_clean)
##
## Coefficients:
## (Intercept) age sexFemale waist ethnicity2 ethnicity3
## -31.35381 -0.05195 1.80344 0.32439 0.08975 -0.71400
## ethnicity4 ethnicity5
## 0.36665 -0.48099
##
## Degrees of Freedom: 12533 Total (i.e. Null); 12526 Residual
## Null Deviance: 15410
## Residual Deviance: 4081 AIC: 4097
model_vif <- glm(
obese ~ age + sex + waist + ethnicity,
data = data_nhanes_clean,
family = binomial
)
vif(model_vif)
## GVIF Df GVIF^(1/(2*Df))
## age 1.504621 1 1.226630
## sex 1.258612 1 1.121879
## waist 1.852663 1 1.361126
## ethnicity 1.101432 4 1.012150
anova(model_logit, test = "Chisq")
## Analysis of Deviance Table
##
## Model: binomial, link: logit
##
## Response: obese
##
## Terms added sequentially (first to last)
##
##
## Df Deviance Resid. Df Resid. Dev Pr(>Chi)
## NULL 12533 15413.1
## age 1 1077.5 12532 14335.6 < 2.2e-16 ***
## sex 1 50.0 12531 14285.6 1.546e-12 ***
## waist 1 10084.3 12530 4201.3 < 2.2e-16 ***
## ethnicity 4 120.4 12526 4080.9 < 2.2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(model_logit)
##
## Call:
## glm(formula = obese ~ age + sex + waist + ethnicity, family = binomial(link = "logit"),
## data = data_nhanes_clean)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -31.353812 0.737592 -42.508 < 2e-16 ***
## age -0.051948 0.002380 -21.825 < 2e-16 ***
## sexFemale 1.803442 0.089639 20.119 < 2e-16 ***
## waist 0.324388 0.007602 42.673 < 2e-16 ***
## ethnicity2 0.089752 0.154219 0.582 0.56058
## ethnicity3 -0.713998 0.124848 -5.719 1.07e-08 ***
## ethnicity4 0.366649 0.128820 2.846 0.00442 **
## ethnicity5 -0.480986 0.147248 -3.267 0.00109 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 15413.1 on 12533 degrees of freedom
## Residual deviance: 4080.9 on 12526 degrees of freedom
## AIC: 4096.9
##
## Number of Fisher Scoring iterations: 8
OR_table <- exp(cbind(
OR = coef(model_logit),
confint(model_logit)
))
kable(
OR_table,
digits = 3,
caption = "Odds Ratio Regresi Logistik Biner"
)
| OR | 2.5 % | 97.5 % | |
|---|---|---|---|
| (Intercept) | 0.000 | 0.000 | 0.000 |
| age | 0.949 | 0.945 | 0.954 |
| sexFemale | 6.071 | 5.101 | 7.249 |
| waist | 1.383 | 1.363 | 1.404 |
| ethnicity2 | 1.094 | 0.808 | 1.480 |
| ethnicity3 | 0.490 | 0.383 | 0.625 |
| ethnicity4 | 1.443 | 1.121 | 1.858 |
| ethnicity5 | 0.618 | 0.463 | 0.825 |
prob <- predict(model_logit, type = "response")
pred <- ifelse(prob >= 0.5, "Obese", "Not Obese")
confusionMatrix(
factor(pred, levels = c("Not Obese", "Obese")),
data_nhanes_clean$obese
)
## Confusion Matrix and Statistics
##
## Reference
## Prediction Not Obese Obese
## Not Obese 8318 474
## Obese 396 3346
##
## Accuracy : 0.9306
## 95% CI : (0.926, 0.935)
## No Information Rate : 0.6952
## P-Value [Acc > NIR] : < 2e-16
##
## Kappa : 0.8353
##
## Mcnemar's Test P-Value : 0.00904
##
## Sensitivity : 0.9546
## Specificity : 0.8759
## Pos Pred Value : 0.9461
## Neg Pred Value : 0.8942
## Prevalence : 0.6952
## Detection Rate : 0.6636
## Detection Prevalence : 0.7015
## Balanced Accuracy : 0.9152
##
## 'Positive' Class : Not Obese
##
hoslem.test(
as.numeric(data_nhanes_clean$obese) - 1,
fitted(model_logit),
g = 10
)
##
## Hosmer and Lemeshow goodness of fit (GOF) test
##
## data: as.numeric(data_nhanes_clean$obese) - 1, fitted(model_logit)
## X-squared = 8.9544, df = 8, p-value = 0.3462
Statistik numerik usia dan lingkar pinggang
## age waist
## Min. : 2.00 Min. : 40.00
## 1st Qu.:13.00 1st Qu.: 73.30
## Median :34.00 Median : 91.00
## Mean :36.09 Mean : 89.72
## 3rd Qu.:58.00 3rd Qu.:105.50
## Max. :80.00 Max. :187.50
Distribusi jenis kelamin responden
##
## Male Female
## 6203 6331
Distribusi etnisitas responden
##
## 1 2 3 4 5
## 1608 1218 4198 3353 2157
Proporsi status obesitas (%)
##
## Not Obese Obese
## 69.5229 30.4771
Ringkasan statistik (mean dan standar deviasi)
| Mean_Age | SD_Age | Mean_Waist | SD_Waist |
|---|---|---|---|
| 36.08529 | 24.0835 | 89.71773 | 23.11989 |
Interpretasi:
Berdasarkan hasil statistika deskriptif, usia responden dalam penelitian ini berkisar antara 2 hingga 80 tahun dengan nilai rata-rata sebesar 36,09 tahun dan simpangan baku sebesar 24,08 tahun. Hal ini menunjukkan bahwa responden mencakup kelompok usia yang cukup luas, mulai dari anak-anak hingga lanjut usia.
Lingkar pinggang responden memiliki nilai minimum sebesar 40,00 cm dan maksimum sebesar 187,50 cm, dengan rata-rata 89,72 cm dan simpangan baku 23,12 cm. Variasi lingkar pinggang yang cukup besar menunjukkan adanya perbedaan kondisi antropometri yang signifikan di antara responden.
Distribusi jenis kelamin menunjukkan bahwa jumlah responden perempuan (6.331 orang) sedikit lebih banyak dibandingkan laki-laki (6.203 orang). Sementara itu, distribusi etnisitas responden tersebar pada lima kelompok etnis dengan proporsi yang relatif beragam.
Berdasarkan status obesitas, sebesar 30,48% responden dikategorikan sebagai obesitas, sedangkan 69,52% lainnya tidak obesitas. Temuan ini menunjukkan bahwa prevalensi obesitas pada sampel penelitian ini cukup tinggi, sehingga relevan untuk dianalisis lebih lanjut menggunakan regresi logistik biner.
Visualisasi data digunakan untuk memberikan gambaran awal mengenai pola distribusi variabel lingkar pinggang berdasarkan status obesitas responden. Visualisasi ini membantu memahami perbedaan karakteristik lingkar pinggang antara responden obesitas dan tidak obesitas sebelum dilakukan analisis regresi logistik.
Distribusi lingkar pinggang berdasarkan status obesitas
Interpretasi:
Berdasarkan visualisasi histogram di atas, terlihat bahwa distribusi lingkar pinggang pada responden dengan status obesitas cenderung berada pada nilai yang lebih tinggi dibandingkan responden yang tidak obesitas. Kelompok tidak obesitas didominasi oleh lingkar pinggang yang lebih rendah, sedangkan kelompok obesitas menunjukkan konsentrasi frekuensi pada lingkar pinggang yang lebih besar.
Pola ini mengindikasikan adanya perbedaan karakteristik lingkar pinggang antara kedua kelompok, sehingga variabel lingkar pinggang berpotensi menjadi prediktor yang relevan dalam model regresi logistik biner untuk menentukan status obesitas.
Analisis regresi logistik biner digunakan untuk mengidentifikasi faktor-faktor yang memengaruhi status obesitas responden. Variabel respon adalah status obesitas (obese), sedangkan variabel prediktor meliputi usia, jenis kelamin, lingkar pinggang, dan etnisitas.
##
## Call: glm(formula = obese ~ age + sex + waist + ethnicity, family = binomial(link = "logit"),
## data = data_nhanes_clean)
##
## Coefficients:
## (Intercept) age sexFemale waist ethnicity2 ethnicity3
## -31.35381 -0.05195 1.80344 0.32439 0.08975 -0.71400
## ethnicity4 ethnicity5
## 0.36665 -0.48099
##
## Degrees of Freedom: 12533 Total (i.e. Null); 12526 Residual
## Null Deviance: 15410
## Residual Deviance: 4081 AIC: 4097
Interpretasi:
Berdasarkan hasil estimasi model regresi logistik biner, diperoleh bahwa lingkar pinggang memiliki koefisien positif sebesar 0.32439. Hal ini menunjukkan bahwa peningkatan lingkar pinggang cenderung meningkatkan peluang seseorang mengalami obesitas, dengan asumsi variabel lain konstan.
Variabel jenis kelamin menunjukkan bahwa responden perempuan memiliki peluang obesitas yang lebih tinggi dibandingkan responden laki-laki, ditunjukkan oleh koefisien positif pada kategori sexFemale. Sementara itu, usia memiliki koefisien negatif, yang mengindikasikan bahwa peningkatan usia cenderung menurunkan peluang obesitas, meskipun pengaruhnya relatif kecil.
Untuk variabel etnisitas, beberapa kategori menunjukkan koefisien positif dan negatif dibandingkan kategori referensi. Hal ini menandakan adanya perbedaan peluang obesitas antar kelompok etnis, meskipun arah dan besar pengaruhnya bervariasi.
Secara keseluruhan, model regresi logistik biner ini menunjukkan bahwa variabel lingkar pinggang, jenis kelamin, usia, dan etnisitas memiliki kontribusi dalam menjelaskan variasi status obesitas pada responden.
Uji multikolinearitas dilakukan untuk mengetahui apakah terdapat hubungan linear yang kuat antar variabel prediktor dalam model regresi logistik biner. Deteksi multikolinearitas dilakukan menggunakan nilai Variance Inflation Factor (VIF).
## GVIF Df GVIF^(1/(2*Df))
## age 1.504621 1 1.226630
## sex 1.258612 1 1.121879
## waist 1.852663 1 1.361126
## ethnicity 1.101432 4 1.012150
Interpretasi:
Berdasarkan hasil perhitungan Variance Inflation Factor (VIF), seluruh variabel prediktor memiliki nilai GVIF^(1/(2Df)) yang berada di bawah batas umum yaitu 10. Variabel usia memiliki nilai VIF sebesar 1.2266, jenis kelamin sebesar 1.1219, lingkar pinggang sebesar 1.3611, dan etnisitas sebesar 1.0122.
Nilai VIF yang relatif kecil tersebut menunjukkan bahwa tidak terdapat masalah multikolinearitas antar variabel prediktor dalam model. Dengan demikian, seluruh variabel independen dapat digunakan secara simultan dalam analisis regresi logistik biner tanpa menimbulkan bias akibat hubungan linear yang kuat antar prediktor.
Uji signifikansi model dilakukan untuk mengetahui apakah model regresi logistik biner secara keseluruhan signifikan dalam menjelaskan hubungan antara variabel independen dan variabel dependen. Pengujian ini dilakukan menggunakan Likelihood Ratio Test melalui tabel Analysis of Deviance, yang membandingkan model tanpa prediktor (model nol) dengan model yang memuat variabel prediktor.
## Analysis of Deviance Table
##
## Model: binomial, link: logit
##
## Response: obese
##
## Terms added sequentially (first to last)
##
##
## Df Deviance Resid. Df Resid. Dev Pr(>Chi)
## NULL 12533 15413.1
## age 1 1077.5 12532 14335.6 < 2.2e-16 ***
## sex 1 50.0 12531 14285.6 1.546e-12 ***
## waist 1 10084.3 12530 4201.3 < 2.2e-16 ***
## ethnicity 4 120.4 12526 4080.9 < 2.2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Interpretasi:
Berdasarkan hasil Analysis of Deviance Table, seluruh variabel prediktor yang dimasukkan ke dalam model, yaitu usia (age), jenis kelamin (sex), lingkar pinggang (waist), dan etnisitas (ethnicity), menunjukkan nilai p-value yang sangat kecil (p < 0,05). Hal ini mengindikasikan bahwa masing-masing variabel memberikan kontribusi yang signifikan terhadap model regresi logistik biner.
Secara keseluruhan, hasil uji signifikansi model menunjukkan bahwa model regresi logistik biner yang digunakan signifikan secara statistik, sehingga dapat disimpulkan bahwa kombinasi variabel independen secara bersama-sama berpengaruh terhadap status obesitas responden.
Uji parsial atau Uji Wald digunakan untuk mengetahui pengaruh masing-masing variabel prediktor terhadap status obesitas secara individual, dengan menguji signifikansi koefisien regresi logistik. Pengujian dilakukan pada taraf signifikansi 5%.
##
## Call:
## glm(formula = obese ~ age + sex + waist + ethnicity, family = binomial(link = "logit"),
## data = data_nhanes_clean)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -31.353812 0.737592 -42.508 < 2e-16 ***
## age -0.051948 0.002380 -21.825 < 2e-16 ***
## sexFemale 1.803442 0.089639 20.119 < 2e-16 ***
## waist 0.324388 0.007602 42.673 < 2e-16 ***
## ethnicity2 0.089752 0.154219 0.582 0.56058
## ethnicity3 -0.713998 0.124848 -5.719 1.07e-08 ***
## ethnicity4 0.366649 0.128820 2.846 0.00442 **
## ethnicity5 -0.480986 0.147248 -3.267 0.00109 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 15413.1 on 12533 degrees of freedom
## Residual deviance: 4080.9 on 12526 degrees of freedom
## AIC: 4096.9
##
## Number of Fisher Scoring iterations: 8
Interpretasi:
Berdasarkan hasil uji Wald pada model regresi logistik biner, diperoleh hasil sebagai berikut:
Usia (age)
Variabel usia memiliki nilai p-value < 0,05, sehingga
berpengaruh signifikan terhadap status obesitas. Koefisien bernilai
negatif menunjukkan bahwa peningkatan usia cenderung menurunkan peluang
terjadinya obesitas, dengan asumsi variabel lain bersifat
konstan.
Jenis kelamin (sex) Jenis kelamin menunjukkan hasil yang signifikan (p-value < 0,05). Koefisien positif pada kategori perempuan mengindikasikan bahwa perempuan memiliki peluang lebih besar mengalami obesitas dibandingkan laki-laki.
Lingkar pinggang (waist)
Lingkar pinggang berpengaruh signifikan terhadap status obesitas
(p-value < 0,05). Koefisien positif menunjukkan bahwa
semakin besar lingkar pinggang, maka semakin besar pula peluang
seseorang mengalami obesitas.
Etnisitas (ethnicity) Variabel etnisitas menunjukkan hasil yang bervariasi. Beberapa kategori etnis memiliki pengaruh signifikan terhadap status obesitas, sementara kategori lainnya tidak signifikan, yang ditunjukkan oleh nilai p-value > 0,05.
Secara keseluruhan, dapat disimpulkan bahwa usia, jenis kelamin, dan lingkar pinggang merupakan prediktor yang signifikan secara parsial terhadap status obesitas, sedangkan pengaruh etnisitas bergantung pada kategori pembanding yang digunakan dalam model.
Odds Ratio (OR) digunakan untuk menginterpretasikan besar pengaruh masing-masing variabel prediktor terhadap peluang terjadinya obesitas. Nilai OR diperoleh dengan mengeksponeksialkan koefisien regresi logistik, sehingga lebih mudah diinterpretasikan dibandingkan koefisien logit.
| OR | 2.5 % | 97.5 % | |
|---|---|---|---|
| (Intercept) | 0.000 | 0.000 | 0.000 |
| age | 0.949 | 0.945 | 0.954 |
| sexFemale | 6.071 | 5.101 | 7.249 |
| waist | 1.383 | 1.363 | 1.404 |
| ethnicity2 | 1.094 | 0.808 | 1.480 |
| ethnicity3 | 0.490 | 0.383 | 0.625 |
| ethnicity4 | 1.443 | 1.121 | 1.858 |
| ethnicity5 | 0.618 | 0.463 | 0.825 |
Interpretasi:
Berdasarkan hasil perhitungan odds ratio pada model regresi logistik biner, diperoleh interpretasi sebagai berikut.
Usia (age) Nilai odds ratio (OR) untuk variabel usia
sebesar 0,949 dengan interval kepercayaan 95% (0,945 – 0,954).
Hal ini menunjukkan bahwa setiap peningkatan satu tahun usia cenderung
menurunkan peluang terjadinya obesitas sebesar sekitar 5,1%, dengan
asumsi variabel lain konstan.
Jenis Kelamin (sex) Responden perempuan memiliki nilai OR sebesar
6,071 dengan interval kepercayaan 95% (5,101 – 7,249).
Artinya, perempuan memiliki peluang sekitar 6 kali lebih besar untuk
mengalami obesitas dibandingkan laki-laki.
Lingkar Pinggang (waist) Variabel lingkar pinggang memiliki nilai
OR sebesar 1,383 dengan interval kepercayaan 95% (1,363 – 1,404).
Hal ini menunjukkan bahwa setiap peningkatan satu satuan lingkar
pinggang akan meningkatkan peluang terjadinya obesitas sebesar
38,3%.
Etnisitas
Pengaruh etnisitas terhadap status obesitas menunjukkan hasil yang
bervariasi, yaitu:
▸ ethnicity2 memiliki OR sebesar 1,094, namun interval kepercayaan
mencakup nilai 1, sehingga tidak signifikan secara statistik.
▸ ethnicity3 memiliki OR sebesar 0,490, yang menunjukkan peluang
obesitas lebih rendah dibandingkan kelompok referensi.
▸ ethnicity4 memiliki OR sebesar 1,443, yang menunjukkan peningkatan
peluang obesitas.
▸ ethnicity5 memiliki OR sebesar 0,618, yang menunjukkan penurunan
peluang obesitas.
Secara keseluruhan, hasil odds ratio menunjukkan bahwa usia, jenis kelamin, dan lingkar pinggang merupakan faktor yang memiliki pengaruh kuat terhadap status obesitas, sedangkan pengaruh etnisitas bergantung pada kategori pembanding yang digunakan.
Ketepatan klasifikasi model regresi logistik biner dievaluasi menggunakan confusion matrix serta beberapa ukuran performa klasifikasi, seperti akurasi, sensitivitas, dan spesifisitas.
## Confusion Matrix and Statistics
##
## Reference
## Prediction Not Obese Obese
## Not Obese 8318 474
## Obese 396 3346
##
## Accuracy : 0.9306
## 95% CI : (0.926, 0.935)
## No Information Rate : 0.6952
## P-Value [Acc > NIR] : < 2e-16
##
## Kappa : 0.8353
##
## Mcnemar's Test P-Value : 0.00904
##
## Sensitivity : 0.9546
## Specificity : 0.8759
## Pos Pred Value : 0.9461
## Neg Pred Value : 0.8942
## Prevalence : 0.6952
## Detection Rate : 0.6636
## Detection Prevalence : 0.7015
## Balanced Accuracy : 0.9152
##
## 'Positive' Class : Not Obese
##
Interpretasi:
Berdasarkan hasil confusion matrix, model regresi logistik biner mampu mengklasifikasikan status obesitas dengan tingkat akurasi sebesar 93,06%, yang menunjukkan bahwa sebagian besar observasi dapat diprediksi dengan benar oleh model.
Nilai sensitivitas sebesar 95,46% menunjukkan bahwa model sangat baik dalam mengidentifikasi responden yang tidak obesitas (kelas positif), sedangkan nilai spesifisitas sebesar 87,59% menunjukkan kemampuan model yang baik dalam mengidentifikasi responden yang obesitas.
Nilai Kappa sebesar 0,8353 mengindikasikan tingkat kesesuaian yang sangat baik antara hasil prediksi model dan data aktual, setelah memperhitungkan kemungkinan kesesuaian yang terjadi secara kebetulan.
Selain itu, nilai p-value pada uji McNemar yang lebih kecil dari 0,05 menunjukkan bahwa perbedaan antara kesalahan klasifikasi tidak terjadi secara acak, sehingga performa klasifikasi model dapat dianggap signifikan secara statistik.
Secara keseluruhan, hasil ini menunjukkan bahwa model regresi logistik biner yang dibangun memiliki kemampuan klasifikasi yang sangat baik dalam memprediksi status obesitas berdasarkan variabel usia, jenis kelamin, lingkar pinggang, dan etnisitas.
Uji kelayakan model dilakukan untuk menilai kesesuaian antara model regresi logistik biner yang dibangun dengan data observasi. Pada penelitian ini, uji kelayakan model dilakukan menggunakan Hosmer and Lemeshow Goodness of Fit Test.
##
## Hosmer and Lemeshow goodness of fit (GOF) test
##
## data: as.numeric(data_nhanes_clean$obese) - 1, fitted(model_logit)
## X-squared = 8.9544, df = 8, p-value = 0.3462
Interpretasi:
Berdasarkan hasil uji Hosmer dan Lemeshow, diperoleh nilai p-value sebesar 0,3462. Nilai ini lebih besar dari tingkat signifikansi 0,05, sehingga tidak terdapat cukup bukti untuk menolak hipotesis nol.
Hal ini menunjukkan bahwa tidak terdapat perbedaan yang signifikan antara nilai probabilitas yang diprediksi oleh model dengan data observasi. Dengan demikian, model regresi logistik biner yang dibangun dapat dikatakan layak (fit) dan sesuai dalam menjelaskan hubungan antara variabel prediktor dan status obesitas.
Secara keseluruhan, hasil uji ini mengindikasikan bahwa model memiliki kemampuan yang baik dalam memodelkan data dan dapat digunakan untuk analisis serta interpretasi lebih lanjut.
Berdasarkan hasil analisis regresi logistik biner yang telah dilakukan terhadap data National Health and Nutrition Examination Survey (NHANES), dapat disimpulkan bahwa model yang dibangun mampu menjelaskan faktor-faktor yang berhubungan dengan status obesitas responden secara memadai.
Hasil analisis menunjukkan bahwa usia, jenis kelamin, dan lingkar pinggang memiliki pengaruh yang signifikan terhadap status obesitas. Variabel usia memiliki hubungan negatif dengan status obesitas, yang menunjukkan bahwa peningkatan usia cenderung menurunkan peluang terjadinya obesitas dengan asumsi variabel lain konstan. Jenis kelamin perempuan memiliki peluang lebih besar mengalami obesitas dibandingkan laki-laki. Lingkar pinggang merupakan prediktor yang sangat kuat, di mana peningkatan lingkar pinggang secara signifikan meningkatkan peluang terjadinya obesitas.
Variabel etnisitas menunjukkan pengaruh yang bervariasi terhadap status obesitas. Beberapa kategori etnis memiliki pengaruh signifikan, sementara kategori lainnya tidak menunjukkan pengaruh yang signifikan secara statistik. Hal ini mengindikasikan bahwa perbedaan latar belakang etnis dapat berkontribusi terhadap variasi risiko obesitas, tergantung pada kelompok pembanding yang digunakan.
Uji multikolinearitas menunjukkan bahwa tidak terdapat hubungan linear yang kuat antar variabel prediktor, sehingga model bebas dari masalah multikolinearitas. Uji signifikansi model secara simultan menunjukkan bahwa model regresi logistik biner signifikan secara statistik. Selain itu, uji kelayakan model menggunakan Hosmer dan Lemeshow menunjukkan bahwa model memiliki kesesuaian yang baik dengan data.
Evaluasi ketepatan klasifikasi model menunjukkan bahwa model memiliki tingkat akurasi yang tinggi dalam mengklasifikasikan status obesitas responden. Hal ini mengindikasikan bahwa model regresi logistik biner yang dibangun cukup andal untuk digunakan dalam memprediksi status obesitas berdasarkan variabel-variabel yang dianalisis.
Secara keseluruhan, penelitian ini menunjukkan bahwa regresi logistik biner merupakan metode yang efektif dalam menganalisis faktor-faktor yang memengaruhi status obesitas, serta dapat digunakan sebagai dasar untuk pengambilan keputusan dan penelitian lanjutan terkait kesehatan masyarakat.
Hales, C. M., Carroll, M. D., Fryar, C. D., & Ogden, C. L.
(2020).
Prevalence of obesity and severe obesity among adults: United States,
2017–2018.
JAMA, 324(12), 1208–1210.
Ross, R., Neeland, I. J., Yamashita, S., et al. (2020).
Waist circumference as a vital sign in clinical practice: a consensus
statement.
Nature Reviews Endocrinology, 16(3), 177–189.
Ward, Z. J., Bleich, S. N., Cradock, A. L., et al. (2019).
Projected obesity trends in the USA and the impact on severe
obesity.
The Lancet, 394(10205), 1157–1165.
Sudikno, & Sandjaja. (2015).
Prevalensi obesitas dan obesitas sentral pada orang dewasa di
Indonesia.
Media Penelitian dan Pengembangan Kesehatan, 25(4),
199–206.
Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X.
(2013).
Applied Logistic Regression (3rd ed.). Wiley.
Agresti, A. (2019).
An Introduction to Categorical Data Analysis (3rd ed.).
Wiley.
Kleinbaum, D. G., & Klein, M. (2010).
Logistic Regression: A Self-Learning Text (3rd ed.).
Springer.
Jika terdapat pertanyaan, saran, atau diskusi lebih lanjut terkait analisis dan penulisan laporan ini, silakan menghubungi saya melalui: