Kanker merupakan salah satu penyakit yang menjadi perhatian global karena banyak faktor risiko yang dapat memengaruhi kemunculannya, salah satunya adalah pola konsumsi makanan. Beberapa jenis makanan seperti makanan yang dibakar, makanan instan, serta makanan olahan dengan bahan pengawet diketahui dapat menghasilkan atau mengandung senyawa yang bersifat karsinogenik. Senyawa tersebut berpotensi meningkatkan risiko terjadinya berbagai jenis kanker apabila dikonsumsi dalam jangka panjang, sehingga penting untuk memahami hubungan antara pola konsumsi makanan tersebut dengan prevalensi kanker di masyarakat.
Analisis regresi linier berganda digunakan untuk mengkaji pengaruh konsumsi makanan yang dibakar, makanan instan, dan makanan olahan dengan pengawet terhadap prevalensi kanker di Indonesia tahun 2023. Melalui metode ini dapat diketahui arah dan besarnya pengaruh masing-masing variabel serta seberapa baik model yang terbentuk dalam menjelaskan variasi prevalensi kanker, sehingga hasil analisis diharapkan dapat memberikan gambaran awal mengenai hubungan antara faktor konsumsi makanan dan kejadian kanker.
Data yang digunakan adalah data yang bersumber dari Survei Kesehatan Indonesia (SKI) tahun 2023 sebanyak 37 data. Data untuk provinsi Papua Pegunungan tidak disertakan karena tidak tersedia informasi apapun mengenai prevalensi kanker di provinsi tersebut. Menggunakan data kanker dalam persen sebagai variabel Y atau variabel dependen, dan data konsumsi makanan yang dibakar, makanan instan, dan olahan dengan pengawet dalam persen sebagai variabel X atau variabel independen.
| Provinsi | Kanker (%) | Konsumsi Makanan yang Dibakar(%) | Konsumsi Makanan Instan (%) | Konsumsi Olahan dengan Pengawet (%) |
|---|---|---|---|---|
| Aceh | 0.7 | 46.3 | 63.3 | 37.8 |
| Sumatera Utara | 0.9 | 56.3 | 58.8 | 44.7 |
| Sumatera Barat | 2.0 | 54.0 | 52.0 | 48.6 |
| Riau | 1.0 | 44.7 | 64.7 | 54.6 |
| Jambi | 0.7 | 47.2 | 63.6 | 53.3 |
Anda dapat mengakses data tersebut melalui tautan berikut: dataset analisis regresi linier berganda
Statistika deskriptif digunakan untuk memberikan gambaran umum mengenai karakteristik data yang digunakan dalam penelitian ini. Melalui statistika deskriptif, dapat diketahui informasi dasar seperti nilai minimum, maksimum, rata-rata (mean), median, serta kuartil dari setiap variabel yang dianalisis.
| Provinsi | Kanker (%) | Konsumsi Makanan yang Dibakar(%) | Konsumsi Makanan Instan (%) | Konsumsi Olahan dengan Pengawet (%) | |
|---|---|---|---|---|---|
| Length:37 | Min. :0.200 | Min. :17.50 | Min. :52.00 | Min. :24.5 | |
| Class :character | 1st Qu.:0.700 | 1st Qu.:29.20 | 1st Qu.:58.10 | 1st Qu.:37.9 | |
| Mode :character | Median :0.800 | Median :46.30 | Median :60.90 | Median :45.1 | |
| NA | Mean :1.057 | Mean :43.14 | Mean :61.17 | Mean :43.8 | |
| NA | 3rd Qu.:1.200 | 3rd Qu.:54.00 | 3rd Qu.:64.60 | 3rd Qu.:50.7 | |
| NA | Max. :3.600 | Max. :68.40 | Max. :72.00 | Max. :58.7 |
Analisis regresi linier berganda digunakan untuk mengetahui hubungan antara satu variabel dependen dengan dua atau lebih variabel independen serta untuk memprediksi nilai variabel dependen berdasarkan nilai variabel independennya.
Bentuk umum model regresi linier berganda dinyatakan sebagai
\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k + \varepsilon \]
di mana \(Y\) merupakan variabel respon, \(X_i\) merupakan variabel prediktor, \(\beta_i\) adalah parameter model, dan \(\varepsilon\) merupakan error.
Kelayakan model regresi umumnya diuji melalui uji F untuk melihat signifikansi model secara simultan dan uji t untuk menguji signifikansi masing-masing koefisien regresi secara parsial. Selain itu, kelayakan model juga dapat dilihat melalui nilai koefisien determinasi \((R^2)\) yang menunjukkan proporsi variasi variabel dependen yang dapat dijelaskan oleh variabel independen.
Agar model regresi yang dihasilkan valid, beberapa asumsi perlu dipenuhi, yaitu normalitas residual, linearitas hubungan antara variabel, tidak adanya multikolinearitas antar variabel independen, tidak adanya autokorelasi, serta homoskedastisitas atau kesamaan varians residual. Normalitas residual menunjukkan bahwa residual berdistribusi normal, linearitas menunjukkan adanya hubungan linier antara variabel, multikolinearitas diuji untuk memastikan tidak terdapat korelasi tinggi antar variabel independen, autokorelasi menguji ada tidaknya korelasi antar residual, sedangkan homoskedastisitas menunjukkan bahwa varians residual bersifat konstan. Asumsi-asumsi tersebut harus terpenuhi agar estimasi parameter regresi bersifat tidak bias dan hasil pengujian statistik dapat diinterpretasikan dengan tepat.
summary(model)
##
## Call:
## lm(formula = data$`Kanker (%)` ~ data$`Konsumsi Makanan yang Dibakar(%)` +
## data$`Konsumsi Makanan Instan (%)` + data$`Konsumsi Olahan dengan Pengawet (%)`,
## data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.61952 -0.42317 -0.08024 0.12539 1.93969
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 2.498260 1.209274 2.066
## data$`Konsumsi Makanan yang Dibakar(%)` 0.016641 0.006712 2.479
## data$`Konsumsi Makanan Instan (%)` -0.047667 0.020897 -2.281
## data$`Konsumsi Olahan dengan Pengawet (%)` 0.017269 0.011907 1.450
## Pr(>|t|)
## (Intercept) 0.0468 *
## data$`Konsumsi Makanan yang Dibakar(%)` 0.0184 *
## data$`Konsumsi Makanan Instan (%)` 0.0291 *
## data$`Konsumsi Olahan dengan Pengawet (%)` 0.1564
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5359 on 33 degrees of freedom
## Multiple R-squared: 0.3359, Adjusted R-squared: 0.2755
## F-statistic: 5.563 on 3 and 33 DF, p-value: 0.003341
Didapatkan model regresi awal sebagai \[ y = 2.4983 + 0.0166X_1 + -0.0477X_2 + 0.0173X_3 + \epsilon \]
Dengan \(X_1\) merupakan Konsumsi Makanan yang Dibakar, \(X_2\) merupakan Konsumsi Makanan Instan, dan \(X_3\) merupakan Konsumsi Olahan dengan Pengawet
Pada grafik Normal Q-Q Plot, plot-plotnya tidak mengikuti garis lurus, maka residual diasumsikan tidak berdistribusi normal. Maka asumsi normalitas tidak terpenuhi secara visual
shapiro.test(residuals(model))
##
## Shapiro-Wilk normality test
##
## data: residuals(model)
## W = 0.82188, p-value = 3.705e-05
Berdasarkan output, diperoleh nilai Statistics pada Shapiro Wilk (karena menggunakan data yang kurang dari 50 data) sebesar 0,822 dengan signifikansi 0,000.
Uji linieritas dilakukan secara visual menggunakan grafik Residual vs Fitted. Jika residual menyebar secara acak di sekitar garis nol dan tidak membentuk pola tertentu, maka dapat disimpulkan bahwa hubungan antara variabel independen dan dependen bersifat linier.
Berdasarkan grafik Residual vs Fitted, sebaran residual terlihat acak dan tidak membentuk pola tertentu, maka dapat disimpulkan bahwa asumsi linieritas terpenuhi secara visual.
vif(model)
## data$`Konsumsi Makanan yang Dibakar(%)`
## 1.205681
## data$`Konsumsi Makanan Instan (%)`
## 1.173704
## data$`Konsumsi Olahan dengan Pengawet (%)`
## 1.387699
Berdasarkan output VIF pada R, diperoleh nilai VIF = 1,206 < 10 untuk X1, VIF = 1,174 < 10 untuk X2, dan VIF = 1,388 < 10 untuk X3. Ketiga nilai VIF < 10, sehingga asumsi non-multikolinieritas terpenuhi
dwtest(model)
##
## Durbin-Watson test
##
## data: model
## DW = 2.2143, p-value = 0.6722
## alternative hypothesis: true autocorrelation is greater than 0
Berdasarkan output dapat disimpulkan bahwa tidak terdapat autokorelasi sehingga uji asumsi non-autokorelasi terpenuhi.
glejser_test <- lm(abs(residuals(model)) ~ data$`Konsumsi Makanan yang Dibakar(%)` + data$`Konsumsi Makanan Instan (%)` + data$`Konsumsi Olahan dengan Pengawet (%)`, data=data)
summary(glejser_test)$coefficients[,4]
## (Intercept)
## 0.1287884
## data$`Konsumsi Makanan yang Dibakar(%)`
## 0.1477286
## data$`Konsumsi Makanan Instan (%)`
## 0.1472346
## data$`Konsumsi Olahan dengan Pengawet (%)`
## 0.8504336
Berdasarkan output diatas, nilai signifikansi untuk variabel X1, X2, dan X3 lebih besar dari α = 5% sehingga dapat disimpulkan bahwa tidak terjadi gejala heteroskedastisitas atau dengan kata lain asumsi homoskedastisitas terpenuhi.
Karena data tidak memenuhi asumsi normalitas, maka diperlukan transformasi Log untuk variabel Y. Transformasi pada analisis regresi dimaksudkan untuk memenuhi asumsi yang disyaratkan pada analisis regresi.
| Provinsi | Kanker (%) | Konsumsi Makanan yang Dibakar(%) | Konsumsi Makanan Instan (%) | Konsumsi Olahan dengan Pengawet (%) | log_Kanker |
|---|---|---|---|---|---|
| Aceh | 0.7 | 46.3 | 63.3 | 37.8 | -0.3566749 |
| Sumatera Utara | 0.9 | 56.3 | 58.8 | 44.7 | -0.1053605 |
| Sumatera Barat | 2.0 | 54.0 | 52.0 | 48.6 | 0.6931472 |
| Riau | 1.0 | 44.7 | 64.7 | 54.6 | 0.0000000 |
| Jambi | 0.7 | 47.2 | 63.6 | 53.3 | -0.3566749 |
| Sumatera Selatan | 0.8 | 49.0 | 72.0 | 47.5 | -0.2231436 |
| Bengkulu | 0.7 | 44.0 | 61.5 | 51.0 | -0.3566749 |
| Lampung | 1.2 | 58.6 | 59.5 | 44.6 | 0.1823216 |
| Bangka Belitung | 0.8 | 39.5 | 64.6 | 42.4 | -0.2231436 |
| Kepulauan Riau | 0.8 | 50.8 | 60.4 | 55.3 | -0.2231436 |
| DKI Jakarta | 2.4 | 52.7 | 64.9 | 51.3 | 0.8754687 |
| Jawa Barat | 1.1 | 58.3 | 66.1 | 50.9 | 0.0953102 |
| Jawa Tengah | 1.7 | 63.9 | 57.3 | 43.1 | 0.5306283 |
| DI Yogyakarta | 3.6 | 67.9 | 56.5 | 42.0 | 1.2809338 |
| Jawa Timur | 1.4 | 68.4 | 52.5 | 41.0 | 0.3364722 |
| Banten | 1.2 | 43.8 | 63.5 | 56.8 | 0.1823216 |
| Bali | 1.4 | 60.1 | 57.7 | 49.7 | 0.3364722 |
| Nusa Tenggara Barat | 0.8 | 46.9 | 65.2 | 46.2 | -0.2231436 |
| Nusa Tenggara Timur | 0.8 | 54.3 | 57.8 | 29.9 | -0.2231436 |
| Kalimantan Barat | 0.8 | 65.0 | 68.1 | 51.5 | -0.2231436 |
| Kalimantan Tengah | 0.8 | 36.5 | 67.6 | 58.7 | -0.2231436 |
| Kalimantan Selatan | 0.8 | 35.5 | 66.3 | 45.6 | -0.2231436 |
| Kalimantan Timur | 1.4 | 48.0 | 64.1 | 40.5 | 0.3364722 |
| Kalimantan Utara | 1.1 | 46.4 | 65.2 | 50.7 | 0.0953102 |
| Sulawesi Utara | 1.2 | 25.1 | 53.0 | 43.2 | 0.1823216 |
| Sulawesi Tengah | 0.9 | 23.6 | 63.2 | 35.9 | -0.1053605 |
| Sulawesi Selatan | 0.8 | 29.2 | 63.8 | 37.9 | -0.2231436 |
| Sulawesi Tenggara | 0.6 | 25.2 | 60.9 | 27.6 | -0.5108256 |
| Gorontalo | 0.2 | 17.5 | 52.9 | 24.5 | -1.6094379 |
| Sulawesi Barat | 0.4 | 23.6 | 63.4 | 35.4 | -0.9162907 |
| Maluku | 0.8 | 28.3 | 58.6 | 25.2 | -0.2231436 |
| Maluku Utara | 0.4 | 20.0 | 60.3 | 30.3 | -0.9162907 |
| Papua Barat | 0.5 | 33.3 | 60.5 | 47.0 | -0.6931472 |
| Papua Barat Daya | 1.9 | 23.2 | 58.1 | 48.9 | 0.6418539 |
| Papua | 1.2 | 22.4 | 58.0 | 47.9 | 0.1823216 |
| Papua Selatan | 0.7 | 39.2 | 58.3 | 45.1 | -0.3566749 |
| Papua Tengah | 0.6 | 47.4 | 59.1 | 34.1 | -0.5108256 |
summary(model2)
##
## Call:
## lm(formula = data$log_Kanker ~ data$`Konsumsi Makanan yang Dibakar(%)` +
## data$`Konsumsi Makanan Instan (%)` + data$`Konsumsi Olahan dengan Pengawet (%)`,
## data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.97885 -0.28720 -0.04716 0.21848 0.89328
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 0.239173 0.952785 0.251
## data$`Konsumsi Makanan yang Dibakar(%)` 0.014668 0.005288 2.774
## data$`Konsumsi Makanan Instan (%)` -0.031697 0.016465 -1.925
## data$`Konsumsi Olahan dengan Pengawet (%)` 0.022463 0.009381 2.394
## Pr(>|t|)
## (Intercept) 0.80335
## data$`Konsumsi Makanan yang Dibakar(%)` 0.00905 **
## data$`Konsumsi Makanan Instan (%)` 0.06286 .
## data$`Konsumsi Olahan dengan Pengawet (%)` 0.02248 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4222 on 33 degrees of freedom
## Multiple R-squared: 0.4185, Adjusted R-squared: 0.3656
## F-statistic: 7.916 on 3 and 33 DF, p-value: 0.0004106
Pada grafik Normal Q-Q Plot, plot-plotnya tidak mengikuti garis lurus, maka residual diasumsikan tidak berdistribusi normal. Maka asumsi normalitas tidak terpenuhi secara visual
shapiro.test(residuals(model2))
##
## Shapiro-Wilk normality test
##
## data: residuals(model2)
## W = 0.98279, p-value = 0.8244
Berdasarkan output, diperoleh nilai Statistics pada Shapiro Wilk (karena menggunakan data yang kurang dari 50 data) sebesar 0,822 dengan signifikansi 0,000.
Uji linieritas dilakukan secara visual menggunakan grafik Residual vs Fitted. Jika residual menyebar secara acak di sekitar garis nol dan tidak membentuk pola tertentu, maka dapat disimpulkan bahwa hubungan antara variabel independen dan dependen bersifat linier.
Berdasarkan grafik Residual vs Fitted, sebaran residual terlihat acak dan tidak membentuk pola tertentu, maka dapat disimpulkan bahwa asumsi linieritas terpenuhi secara visual.
vif(model2)
## data$`Konsumsi Makanan yang Dibakar(%)`
## 1.205681
## data$`Konsumsi Makanan Instan (%)`
## 1.173704
## data$`Konsumsi Olahan dengan Pengawet (%)`
## 1.387699
Berdasarkan output VIF pada R, diperoleh nilai VIF = 1,206 < 10 untuk X1, VIF = 1,174 < 10 untuk X2, dan VIF = 1,388 < 10 untuk X3. Ketiga nilai VIF < 10, sehingga asumsi non-multikolinieritas terpenuhi
dwtest(model2)
##
## Durbin-Watson test
##
## data: model2
## DW = 1.9974, p-value = 0.4116
## alternative hypothesis: true autocorrelation is greater than 0
Berdasarkan output dapat disimpulkan bahwa tidak terdapat autokorelasi sehingga uji asumsi non-autokorelasi terpenuhi.
glejser_test <- lm(abs(residuals(model2)) ~ data$`Konsumsi Makanan yang Dibakar(%)` + data$`Konsumsi Makanan Instan (%)` + data$`Konsumsi Olahan dengan Pengawet (%)`, data=data)
summary(glejser_test)
##
## Call:
## lm(formula = abs(residuals(model2)) ~ data$`Konsumsi Makanan yang Dibakar(%)` +
## data$`Konsumsi Makanan Instan (%)` + data$`Konsumsi Olahan dengan Pengawet (%)`,
## data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.25021 -0.18027 -0.07473 0.16386 0.59922
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 1.470973 0.550040 2.674
## data$`Konsumsi Makanan yang Dibakar(%)` -0.003882 0.003053 -1.272
## data$`Konsumsi Makanan Instan (%)` -0.017199 0.009505 -1.809
## data$`Konsumsi Olahan dengan Pengawet (%)` 0.001391 0.005416 0.257
## Pr(>|t|)
## (Intercept) 0.0116 *
## data$`Konsumsi Makanan yang Dibakar(%)` 0.2124
## data$`Konsumsi Makanan Instan (%)` 0.0795 .
## data$`Konsumsi Olahan dengan Pengawet (%)` 0.7990
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2438 on 33 degrees of freedom
## Multiple R-squared: 0.1375, Adjusted R-squared: 0.05909
## F-statistic: 1.754 on 3 and 33 DF, p-value: 0.1752
Berdasarkan output diatas, nilai signifikansi untuk variabel X1, X2, dan X3 lebih besar dari α = 5% sehingga dapat disimpulkan bahwa tidak terjadi gejala heteroskedastisitas atau dengan kata lain asumsi homoskedastisitas terpenuhi.
Uji Signifikansi parameter menggunakan hasil dari model yang telah ditransformasi sebagai berikut.
summary(model2)
##
## Call:
## lm(formula = data$log_Kanker ~ data$`Konsumsi Makanan yang Dibakar(%)` +
## data$`Konsumsi Makanan Instan (%)` + data$`Konsumsi Olahan dengan Pengawet (%)`,
## data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.97885 -0.28720 -0.04716 0.21848 0.89328
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 0.239173 0.952785 0.251
## data$`Konsumsi Makanan yang Dibakar(%)` 0.014668 0.005288 2.774
## data$`Konsumsi Makanan Instan (%)` -0.031697 0.016465 -1.925
## data$`Konsumsi Olahan dengan Pengawet (%)` 0.022463 0.009381 2.394
## Pr(>|t|)
## (Intercept) 0.80335
## data$`Konsumsi Makanan yang Dibakar(%)` 0.00905 **
## data$`Konsumsi Makanan Instan (%)` 0.06286 .
## data$`Konsumsi Olahan dengan Pengawet (%)` 0.02248 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4222 on 33 degrees of freedom
## Multiple R-squared: 0.4185, Adjusted R-squared: 0.3656
## F-statistic: 7.916 on 3 and 33 DF, p-value: 0.0004106
Uji simultan atau uji F digunakan untuk mengetahui apakah seluruh variabel independen secara bersama-sama memiliki pengaruh yang signifikan terhadap variabel dependen dalam model regresi. Pengujian ini dilakukan dengan membandingkan nilai statistik F hitung dengan F tabel atau dengan melihat nilai signifikansi (p-value). Hipotesis yang digunakan adalah:
\[ H_0 : \beta_1 = \beta_2 = \dots = \beta_k = 0 \]
yang berarti seluruh variabel independen secara simultan tidak berpengaruh terhadap variabel dependen, dan
\[ H_1 : \text{minimal ada satu } \beta_i \ne 0 \]
yang berarti terdapat paling tidak satu variabel independen yang berpengaruh terhadap variabel dependen secara bersama-sama dalam model. Kriteria pengambilan keputusan adalah menolak \(H_0\) jika nilai \(F_{hitung} > F_{tabel}\) pada tingkat signifikansi \(\alpha\), atau jika nilai p-value \(< \alpha\), yang menunjukkan bahwa model regresi secara keseluruhan signifikan. Sebaliknya, jika \(F_{hitung} \le F_{tabel}\) atau p-value \(\ge \alpha\), maka \(H_0\) tidak ditolak sehingga variabel independen secara simultan tidak memberikan pengaruh yang signifikan terhadap variabel dependen.
Berdasarkan output, didapatkan nilai F-statistic sebesar 7.916 dengan p-value sebesar 0.0004 sehingga dapat disimpulkan bahwa model regresi cocok untuk memprediksi Y dan setiap variabel secara simultan berpengaruh terhadap Y.
Uji parsial atau uji t digunakan untuk mengetahui apakah masing-masing variabel independen secara individu memiliki pengaruh yang signifikan terhadap variabel dependen dalam model regresi. Pengujian ini dilakukan dengan membandingkan nilai statistik t hitung dengan t tabel atau dengan melihat nilai signifikansi (p-value). Hipotesis yang digunakan adalah:
\[ H_0 : \beta_i = 0 \]
yang berarti variabel independen ke-\(i\) tidak berpengaruh secara signifikan terhadap variabel dependen, dan
\[ H_1 : \beta_i \ne 0 \]
yang berarti variabel independen ke-\(i\) berpengaruh secara signifikan terhadap variabel dependen. Kriteria pengambilan keputusan adalah menolak \(H_0\) jika nilai \(t_{hitung} > t_{tabel}\) atau \(t_{hitung} < -t_{tabel}\) pada tingkat signifikansi \(\alpha\), atau jika nilai p-value \(< \alpha\). Sebaliknya, jika \(-t_{tabel} \le t_{hitung} \le t_{tabel}\) atau p-value \(\ge \alpha\), maka \(H_0\) tidak ditolak sehingga variabel independen tersebut tidak memiliki pengaruh yang signifikan terhadap variabel dependen.
Berdasarkan output, didapatkan nilai sig. \(< \alpha\), maka
\[ H_0 \text{ ditolak untuk } X_1 \text{ dan } X_3 \]
serta
\[ H_0 \text{ gagal ditolak untuk } X_2 \]
Sehingga dapat disimpulkan bahwa hanya variabel \(X_1\) dan \(X_3\) yang berpengaruh signifikan terhadap variabel \(Y\).
Setelah dilakukan penanganan pelanggaran asumsi normalitas berupa transformasi logaritma (log) terhadap variabel \(Y\), berdasarkan uji \(F\) model regresi yang dibuat dinilai layak digunakan untuk analisis lebih lanjut. Berdasarkan uji \(t\), koefisien parameter regresi variabel \(X\) yaitu \(\beta_1\) dan \(\beta_3\) berpengaruh signifikan terhadap \(Y\), sehingga model akhir berbeda dengan model awal, yaitu:
\[ \hat{Y} = 0.239 + 0.015X_1 + 0.022X_3 + \varepsilon \]
Koefisien determinasi digunakan untuk mengukur seberapa besar kemampuan variabel independen dalam menjelaskan variasi variabel dependen dalam suatu model regresi. Nilai koefisien determinasi yang dilambangkan dengan \(R^2\) menunjukkan proporsi keragaman variabel dependen yang dapat dijelaskan oleh variabel independen dalam model.
summary(model2)$r.squared
## [1] 0.4184728
Artinya sebesar 41.8% variabel \(Y\) dipengaruhi oleh variabel \(X\), sedangkan sisanya sebesar 58.2% variabel \(Y\) dipengaruhi oleh faktor lain. Dengan kata lain, sebesar 41.8% prevalensi kanker dipengaruhi oleh konsumsi makanan yang dibakar, makanan instan, dan olahan tanpa pengawet, sedangkan 58.2%dipengaruhi oleh faktor lain yang tidak disertakan dalam analisis ini.
Hasil pengujian asumsi klasik menunjukkan bahwa model regresi awal belum sepenuhnya memenuhi asumsi normalitas karena residual tidak berdistribusi normal pada taraf signifikansi 5%, meskipun asumsi lain seperti linearitas, homoskedastisitas, non-autokorelasi, dan non-multikolinearitas telah terpenuhi, yang ditunjukkan oleh sebaran residual yang acak tanpa pola tertentu, tidak ditemukannya gejala heteroskedastisitas maupun multikolinearitas berdasarkan uji yang dilakukan, serta nilai Durbin–Watson yang berada pada daerah penerimaan. Setelah dilakukan penanganan pelanggaran normalitas melalui transformasi logaritma pada variabel \(Y\), model regresi dinilai layak untuk analisis lebih lanjut, di mana uji simultan (uji F) menunjukkan bahwa model secara keseluruhan signifikan, sedangkan uji parsial (uji t) menunjukkan bahwa variabel \(X_1\) dan \(X_3\) berpengaruh signifikan terhadap variabel dependen \(Y\), sementara variabel \(X_2\) tidak berpengaruh signifikan, sehingga model regresi akhir yang diperoleh adalah:
\[ \hat{Y} = 0.239 + 0.015X_1 + 0.022X_3 + \varepsilon \]
Selain itu, nilai koefisien determinasi menunjukkan bahwa sebesar 41.8% variasi pada variabel \(Y\) dapat dijelaskan oleh variabel independen dalam model, sedangkan 58.2% sisanya dipengaruhi oleh faktor lain di luar model yang tidak disertakan dalam analisis.