Pendahuluan

Kanker merupakan salah satu penyakit yang menjadi perhatian global karena banyak faktor risiko yang dapat memengaruhi kemunculannya, salah satunya adalah pola konsumsi makanan. Beberapa jenis makanan seperti makanan yang dibakar, makanan instan, serta makanan olahan dengan bahan pengawet diketahui dapat menghasilkan atau mengandung senyawa yang bersifat karsinogenik. Senyawa tersebut berpotensi meningkatkan risiko terjadinya berbagai jenis kanker apabila dikonsumsi dalam jangka panjang, sehingga penting untuk memahami hubungan antara pola konsumsi makanan tersebut dengan prevalensi kanker di masyarakat.

Analisis regresi linier berganda digunakan untuk mengkaji pengaruh konsumsi makanan yang dibakar, makanan instan, dan makanan olahan dengan pengawet terhadap prevalensi kanker di Indonesia tahun 2023. Melalui metode ini dapat diketahui arah dan besarnya pengaruh masing-masing variabel serta seberapa baik model yang terbentuk dalam menjelaskan variasi prevalensi kanker, sehingga hasil analisis diharapkan dapat memberikan gambaran awal mengenai hubungan antara faktor konsumsi makanan dan kejadian kanker.

Deskripsi Data

Data yang digunakan adalah data yang bersumber dari Survei Kesehatan Indonesia (SKI) tahun 2023 sebanyak 37 data. Data untuk provinsi Papua Pegunungan tidak disertakan karena tidak tersedia informasi apapun mengenai prevalensi kanker di provinsi tersebut. Menggunakan data kanker dalam persen sebagai variabel Y atau variabel dependen, dan data konsumsi makanan yang dibakar, makanan instan, dan olahan dengan pengawet dalam persen sebagai variabel X atau variabel independen.

Provinsi Kanker (%) Konsumsi Makanan yang Dibakar(%) Konsumsi Makanan Instan (%) Konsumsi Olahan dengan Pengawet (%)
Aceh 0.7 46.3 63.3 37.8
Sumatera Utara 0.9 56.3 58.8 44.7
Sumatera Barat 2.0 54.0 52.0 48.6
Riau 1.0 44.7 64.7 54.6
Jambi 0.7 47.2 63.6 53.3

Anda dapat mengakses data tersebut melalui tautan berikut: dataset analisis regresi linier berganda

Statistika Deskriptif

Statistika deskriptif digunakan untuk memberikan gambaran umum mengenai karakteristik data yang digunakan dalam penelitian ini. Melalui statistika deskriptif, dapat diketahui informasi dasar seperti nilai minimum, maksimum, rata-rata (mean), median, serta kuartil dari setiap variabel yang dianalisis.

Provinsi Kanker (%) Konsumsi Makanan yang Dibakar(%) Konsumsi Makanan Instan (%) Konsumsi Olahan dengan Pengawet (%)
Length:37 Min. :0.200 Min. :17.50 Min. :52.00 Min. :24.5
Class :character 1st Qu.:0.700 1st Qu.:29.20 1st Qu.:58.10 1st Qu.:37.9
Mode :character Median :0.800 Median :46.30 Median :60.90 Median :45.1
NA Mean :1.057 Mean :43.14 Mean :61.17 Mean :43.8
NA 3rd Qu.:1.200 3rd Qu.:54.00 3rd Qu.:64.60 3rd Qu.:50.7
NA Max. :3.600 Max. :68.40 Max. :72.00 Max. :58.7

Model Regresi Linier Berganda

Analisis regresi linier berganda digunakan untuk mengetahui hubungan antara satu variabel dependen dengan dua atau lebih variabel independen serta untuk memprediksi nilai variabel dependen berdasarkan nilai variabel independennya.

Bentuk umum model regresi linier berganda dinyatakan sebagai

\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k + \varepsilon \]

di mana \(Y\) merupakan variabel respon, \(X_i\) merupakan variabel prediktor, \(\beta_i\) adalah parameter model, dan \(\varepsilon\) merupakan error.

Kelayakan model regresi umumnya diuji melalui uji F untuk melihat signifikansi model secara simultan dan uji t untuk menguji signifikansi masing-masing koefisien regresi secara parsial. Selain itu, kelayakan model juga dapat dilihat melalui nilai koefisien determinasi \((R^2)\) yang menunjukkan proporsi variasi variabel dependen yang dapat dijelaskan oleh variabel independen.

Agar model regresi yang dihasilkan valid, beberapa asumsi perlu dipenuhi, yaitu normalitas residual, linearitas hubungan antara variabel, tidak adanya multikolinearitas antar variabel independen, tidak adanya autokorelasi, serta homoskedastisitas atau kesamaan varians residual. Normalitas residual menunjukkan bahwa residual berdistribusi normal, linearitas menunjukkan adanya hubungan linier antara variabel, multikolinearitas diuji untuk memastikan tidak terdapat korelasi tinggi antar variabel independen, autokorelasi menguji ada tidaknya korelasi antar residual, sedangkan homoskedastisitas menunjukkan bahwa varians residual bersifat konstan. Asumsi-asumsi tersebut harus terpenuhi agar estimasi parameter regresi bersifat tidak bias dan hasil pengujian statistik dapat diinterpretasikan dengan tepat.

Estimasi Parameter

summary(model)
## 
## Call:
## lm(formula = data$`Kanker (%)` ~ data$`Konsumsi Makanan yang Dibakar(%)` + 
##     data$`Konsumsi Makanan Instan (%)` + data$`Konsumsi Olahan dengan Pengawet (%)`, 
##     data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.61952 -0.42317 -0.08024  0.12539  1.93969 
## 
## Coefficients:
##                                             Estimate Std. Error t value
## (Intercept)                                 2.498260   1.209274   2.066
## data$`Konsumsi Makanan yang Dibakar(%)`     0.016641   0.006712   2.479
## data$`Konsumsi Makanan Instan (%)`         -0.047667   0.020897  -2.281
## data$`Konsumsi Olahan dengan Pengawet (%)`  0.017269   0.011907   1.450
##                                            Pr(>|t|)  
## (Intercept)                                  0.0468 *
## data$`Konsumsi Makanan yang Dibakar(%)`      0.0184 *
## data$`Konsumsi Makanan Instan (%)`           0.0291 *
## data$`Konsumsi Olahan dengan Pengawet (%)`   0.1564  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5359 on 33 degrees of freedom
## Multiple R-squared:  0.3359, Adjusted R-squared:  0.2755 
## F-statistic: 5.563 on 3 and 33 DF,  p-value: 0.003341

Didapatkan model regresi awal sebagai \[ y = 2.4983 + 0.0166X_1 + -0.0477X_2 + 0.0173X_3 + \epsilon \]

Dengan \(X_1\) merupakan Konsumsi Makanan yang Dibakar, \(X_2\) merupakan Konsumsi Makanan Instan, dan \(X_3\) merupakan Konsumsi Olahan dengan Pengawet

Pengujian Hipotesis Asumsi

Uji Normalitas Residual

Pada grafik Normal Q-Q Plot, plot-plotnya tidak mengikuti garis lurus, maka residual diasumsikan tidak berdistribusi normal. Maka asumsi normalitas tidak terpenuhi secara visual

shapiro.test(residuals(model))
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(model)
## W = 0.82188, p-value = 3.705e-05

Berdasarkan output, diperoleh nilai Statistics pada Shapiro Wilk (karena menggunakan data yang kurang dari 50 data) sebesar 0,822 dengan signifikansi 0,000.

Uji Linieritas

Uji linieritas dilakukan secara visual menggunakan grafik Residual vs Fitted. Jika residual menyebar secara acak di sekitar garis nol dan tidak membentuk pola tertentu, maka dapat disimpulkan bahwa hubungan antara variabel independen dan dependen bersifat linier.

Berdasarkan grafik Residual vs Fitted, sebaran residual terlihat acak dan tidak membentuk pola tertentu, maka dapat disimpulkan bahwa asumsi linieritas terpenuhi secara visual.

Uji Non-Multikolinearitas

vif(model)
##    data$`Konsumsi Makanan yang Dibakar(%)` 
##                                   1.205681 
##         data$`Konsumsi Makanan Instan (%)` 
##                                   1.173704 
## data$`Konsumsi Olahan dengan Pengawet (%)` 
##                                   1.387699

Berdasarkan output VIF pada R, diperoleh nilai VIF = 1,206 < 10 untuk X1, VIF = 1,174 < 10 untuk X2, dan VIF = 1,388 < 10 untuk X3. Ketiga nilai VIF < 10, sehingga asumsi non-multikolinieritas terpenuhi

Uji Non-Autokorelasi

dwtest(model)
## 
##  Durbin-Watson test
## 
## data:  model
## DW = 2.2143, p-value = 0.6722
## alternative hypothesis: true autocorrelation is greater than 0

Berdasarkan output dapat disimpulkan bahwa tidak terdapat autokorelasi sehingga uji asumsi non-autokorelasi terpenuhi.

Uji Homoskedastisitas

glejser_test <- lm(abs(residuals(model)) ~ data$`Konsumsi Makanan yang Dibakar(%)` + data$`Konsumsi Makanan Instan (%)` + data$`Konsumsi Olahan dengan Pengawet (%)`, data=data)
summary(glejser_test)$coefficients[,4]
##                                (Intercept) 
##                                  0.1287884 
##    data$`Konsumsi Makanan yang Dibakar(%)` 
##                                  0.1477286 
##         data$`Konsumsi Makanan Instan (%)` 
##                                  0.1472346 
## data$`Konsumsi Olahan dengan Pengawet (%)` 
##                                  0.8504336

Berdasarkan output diatas, nilai signifikansi untuk variabel X1, X2, dan X3 lebih besar dari α = 5% sehingga dapat disimpulkan bahwa tidak terjadi gejala heteroskedastisitas atau dengan kata lain asumsi homoskedastisitas terpenuhi.

Penanganan Pelanggaran Asumsi

Karena data tidak memenuhi asumsi normalitas, maka diperlukan transformasi Log untuk variabel Y. Transformasi pada analisis regresi dimaksudkan untuk memenuhi asumsi yang disyaratkan pada analisis regresi.

Provinsi Kanker (%) Konsumsi Makanan yang Dibakar(%) Konsumsi Makanan Instan (%) Konsumsi Olahan dengan Pengawet (%) log_Kanker
Aceh 0.7 46.3 63.3 37.8 -0.3566749
Sumatera Utara 0.9 56.3 58.8 44.7 -0.1053605
Sumatera Barat 2.0 54.0 52.0 48.6 0.6931472
Riau 1.0 44.7 64.7 54.6 0.0000000
Jambi 0.7 47.2 63.6 53.3 -0.3566749
Sumatera Selatan 0.8 49.0 72.0 47.5 -0.2231436
Bengkulu 0.7 44.0 61.5 51.0 -0.3566749
Lampung 1.2 58.6 59.5 44.6 0.1823216
Bangka Belitung 0.8 39.5 64.6 42.4 -0.2231436
Kepulauan Riau 0.8 50.8 60.4 55.3 -0.2231436
DKI Jakarta 2.4 52.7 64.9 51.3 0.8754687
Jawa Barat 1.1 58.3 66.1 50.9 0.0953102
Jawa Tengah 1.7 63.9 57.3 43.1 0.5306283
DI Yogyakarta 3.6 67.9 56.5 42.0 1.2809338
Jawa Timur 1.4 68.4 52.5 41.0 0.3364722
Banten 1.2 43.8 63.5 56.8 0.1823216
Bali 1.4 60.1 57.7 49.7 0.3364722
Nusa Tenggara Barat 0.8 46.9 65.2 46.2 -0.2231436
Nusa Tenggara Timur 0.8 54.3 57.8 29.9 -0.2231436
Kalimantan Barat 0.8 65.0 68.1 51.5 -0.2231436
Kalimantan Tengah 0.8 36.5 67.6 58.7 -0.2231436
Kalimantan Selatan 0.8 35.5 66.3 45.6 -0.2231436
Kalimantan Timur 1.4 48.0 64.1 40.5 0.3364722
Kalimantan Utara 1.1 46.4 65.2 50.7 0.0953102
Sulawesi Utara 1.2 25.1 53.0 43.2 0.1823216
Sulawesi Tengah 0.9 23.6 63.2 35.9 -0.1053605
Sulawesi Selatan 0.8 29.2 63.8 37.9 -0.2231436
Sulawesi Tenggara 0.6 25.2 60.9 27.6 -0.5108256
Gorontalo 0.2 17.5 52.9 24.5 -1.6094379
Sulawesi Barat 0.4 23.6 63.4 35.4 -0.9162907
Maluku 0.8 28.3 58.6 25.2 -0.2231436
Maluku Utara 0.4 20.0 60.3 30.3 -0.9162907
Papua Barat 0.5 33.3 60.5 47.0 -0.6931472
Papua Barat Daya 1.9 23.2 58.1 48.9 0.6418539
Papua 1.2 22.4 58.0 47.9 0.1823216
Papua Selatan 0.7 39.2 58.3 45.1 -0.3566749
Papua Tengah 0.6 47.4 59.1 34.1 -0.5108256
summary(model2)
## 
## Call:
## lm(formula = data$log_Kanker ~ data$`Konsumsi Makanan yang Dibakar(%)` + 
##     data$`Konsumsi Makanan Instan (%)` + data$`Konsumsi Olahan dengan Pengawet (%)`, 
##     data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.97885 -0.28720 -0.04716  0.21848  0.89328 
## 
## Coefficients:
##                                             Estimate Std. Error t value
## (Intercept)                                 0.239173   0.952785   0.251
## data$`Konsumsi Makanan yang Dibakar(%)`     0.014668   0.005288   2.774
## data$`Konsumsi Makanan Instan (%)`         -0.031697   0.016465  -1.925
## data$`Konsumsi Olahan dengan Pengawet (%)`  0.022463   0.009381   2.394
##                                            Pr(>|t|)   
## (Intercept)                                 0.80335   
## data$`Konsumsi Makanan yang Dibakar(%)`     0.00905 **
## data$`Konsumsi Makanan Instan (%)`          0.06286 . 
## data$`Konsumsi Olahan dengan Pengawet (%)`  0.02248 * 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4222 on 33 degrees of freedom
## Multiple R-squared:  0.4185, Adjusted R-squared:  0.3656 
## F-statistic: 7.916 on 3 and 33 DF,  p-value: 0.0004106

Uji Asumsi Ulang Setelah Transformasi

Uji Normalitas Residual

Pada grafik Normal Q-Q Plot, plot-plotnya tidak mengikuti garis lurus, maka residual diasumsikan tidak berdistribusi normal. Maka asumsi normalitas tidak terpenuhi secara visual

shapiro.test(residuals(model2))
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(model2)
## W = 0.98279, p-value = 0.8244

Berdasarkan output, diperoleh nilai Statistics pada Shapiro Wilk (karena menggunakan data yang kurang dari 50 data) sebesar 0,822 dengan signifikansi 0,000.

Uji Linieritas

Uji linieritas dilakukan secara visual menggunakan grafik Residual vs Fitted. Jika residual menyebar secara acak di sekitar garis nol dan tidak membentuk pola tertentu, maka dapat disimpulkan bahwa hubungan antara variabel independen dan dependen bersifat linier.

Berdasarkan grafik Residual vs Fitted, sebaran residual terlihat acak dan tidak membentuk pola tertentu, maka dapat disimpulkan bahwa asumsi linieritas terpenuhi secara visual.

Uji Non-Multikolinearitas

vif(model2)
##    data$`Konsumsi Makanan yang Dibakar(%)` 
##                                   1.205681 
##         data$`Konsumsi Makanan Instan (%)` 
##                                   1.173704 
## data$`Konsumsi Olahan dengan Pengawet (%)` 
##                                   1.387699

Berdasarkan output VIF pada R, diperoleh nilai VIF = 1,206 < 10 untuk X1, VIF = 1,174 < 10 untuk X2, dan VIF = 1,388 < 10 untuk X3. Ketiga nilai VIF < 10, sehingga asumsi non-multikolinieritas terpenuhi

Uji Non-Autokorelasi

dwtest(model2)
## 
##  Durbin-Watson test
## 
## data:  model2
## DW = 1.9974, p-value = 0.4116
## alternative hypothesis: true autocorrelation is greater than 0

Berdasarkan output dapat disimpulkan bahwa tidak terdapat autokorelasi sehingga uji asumsi non-autokorelasi terpenuhi.

Uji Homoskedastisitas

glejser_test <- lm(abs(residuals(model2)) ~ data$`Konsumsi Makanan yang Dibakar(%)` + data$`Konsumsi Makanan Instan (%)` + data$`Konsumsi Olahan dengan Pengawet (%)`, data=data)
summary(glejser_test)
## 
## Call:
## lm(formula = abs(residuals(model2)) ~ data$`Konsumsi Makanan yang Dibakar(%)` + 
##     data$`Konsumsi Makanan Instan (%)` + data$`Konsumsi Olahan dengan Pengawet (%)`, 
##     data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.25021 -0.18027 -0.07473  0.16386  0.59922 
## 
## Coefficients:
##                                             Estimate Std. Error t value
## (Intercept)                                 1.470973   0.550040   2.674
## data$`Konsumsi Makanan yang Dibakar(%)`    -0.003882   0.003053  -1.272
## data$`Konsumsi Makanan Instan (%)`         -0.017199   0.009505  -1.809
## data$`Konsumsi Olahan dengan Pengawet (%)`  0.001391   0.005416   0.257
##                                            Pr(>|t|)  
## (Intercept)                                  0.0116 *
## data$`Konsumsi Makanan yang Dibakar(%)`      0.2124  
## data$`Konsumsi Makanan Instan (%)`           0.0795 .
## data$`Konsumsi Olahan dengan Pengawet (%)`   0.7990  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2438 on 33 degrees of freedom
## Multiple R-squared:  0.1375, Adjusted R-squared:  0.05909 
## F-statistic: 1.754 on 3 and 33 DF,  p-value: 0.1752

Berdasarkan output diatas, nilai signifikansi untuk variabel X1, X2, dan X3 lebih besar dari α = 5% sehingga dapat disimpulkan bahwa tidak terjadi gejala heteroskedastisitas atau dengan kata lain asumsi homoskedastisitas terpenuhi.

Uji Signifikansi Parameter

Uji Signifikansi parameter menggunakan hasil dari model yang telah ditransformasi sebagai berikut.

summary(model2)
## 
## Call:
## lm(formula = data$log_Kanker ~ data$`Konsumsi Makanan yang Dibakar(%)` + 
##     data$`Konsumsi Makanan Instan (%)` + data$`Konsumsi Olahan dengan Pengawet (%)`, 
##     data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.97885 -0.28720 -0.04716  0.21848  0.89328 
## 
## Coefficients:
##                                             Estimate Std. Error t value
## (Intercept)                                 0.239173   0.952785   0.251
## data$`Konsumsi Makanan yang Dibakar(%)`     0.014668   0.005288   2.774
## data$`Konsumsi Makanan Instan (%)`         -0.031697   0.016465  -1.925
## data$`Konsumsi Olahan dengan Pengawet (%)`  0.022463   0.009381   2.394
##                                            Pr(>|t|)   
## (Intercept)                                 0.80335   
## data$`Konsumsi Makanan yang Dibakar(%)`     0.00905 **
## data$`Konsumsi Makanan Instan (%)`          0.06286 . 
## data$`Konsumsi Olahan dengan Pengawet (%)`  0.02248 * 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4222 on 33 degrees of freedom
## Multiple R-squared:  0.4185, Adjusted R-squared:  0.3656 
## F-statistic: 7.916 on 3 and 33 DF,  p-value: 0.0004106

Uji Simultan (Uji F)

Uji simultan atau uji F digunakan untuk mengetahui apakah seluruh variabel independen secara bersama-sama memiliki pengaruh yang signifikan terhadap variabel dependen dalam model regresi. Pengujian ini dilakukan dengan membandingkan nilai statistik F hitung dengan F tabel atau dengan melihat nilai signifikansi (p-value). Hipotesis yang digunakan adalah:

\[ H_0 : \beta_1 = \beta_2 = \dots = \beta_k = 0 \]

yang berarti seluruh variabel independen secara simultan tidak berpengaruh terhadap variabel dependen, dan

\[ H_1 : \text{minimal ada satu } \beta_i \ne 0 \]

yang berarti terdapat paling tidak satu variabel independen yang berpengaruh terhadap variabel dependen secara bersama-sama dalam model. Kriteria pengambilan keputusan adalah menolak \(H_0\) jika nilai \(F_{hitung} > F_{tabel}\) pada tingkat signifikansi \(\alpha\), atau jika nilai p-value \(< \alpha\), yang menunjukkan bahwa model regresi secara keseluruhan signifikan. Sebaliknya, jika \(F_{hitung} \le F_{tabel}\) atau p-value \(\ge \alpha\), maka \(H_0\) tidak ditolak sehingga variabel independen secara simultan tidak memberikan pengaruh yang signifikan terhadap variabel dependen.

Berdasarkan output, didapatkan nilai F-statistic sebesar 7.916 dengan p-value sebesar 0.0004 sehingga dapat disimpulkan bahwa model regresi cocok untuk memprediksi Y dan setiap variabel secara simultan berpengaruh terhadap Y.

Uji Parsial (Uji t)

Uji parsial atau uji t digunakan untuk mengetahui apakah masing-masing variabel independen secara individu memiliki pengaruh yang signifikan terhadap variabel dependen dalam model regresi. Pengujian ini dilakukan dengan membandingkan nilai statistik t hitung dengan t tabel atau dengan melihat nilai signifikansi (p-value). Hipotesis yang digunakan adalah:

\[ H_0 : \beta_i = 0 \]

yang berarti variabel independen ke-\(i\) tidak berpengaruh secara signifikan terhadap variabel dependen, dan

\[ H_1 : \beta_i \ne 0 \]

yang berarti variabel independen ke-\(i\) berpengaruh secara signifikan terhadap variabel dependen. Kriteria pengambilan keputusan adalah menolak \(H_0\) jika nilai \(t_{hitung} > t_{tabel}\) atau \(t_{hitung} < -t_{tabel}\) pada tingkat signifikansi \(\alpha\), atau jika nilai p-value \(< \alpha\). Sebaliknya, jika \(-t_{tabel} \le t_{hitung} \le t_{tabel}\) atau p-value \(\ge \alpha\), maka \(H_0\) tidak ditolak sehingga variabel independen tersebut tidak memiliki pengaruh yang signifikan terhadap variabel dependen.

Berdasarkan output, didapatkan nilai sig. \(< \alpha\), maka

\[ H_0 \text{ ditolak untuk } X_1 \text{ dan } X_3 \]

serta

\[ H_0 \text{ gagal ditolak untuk } X_2 \]

Sehingga dapat disimpulkan bahwa hanya variabel \(X_1\) dan \(X_3\) yang berpengaruh signifikan terhadap variabel \(Y\).

Model Akhir Regresi

Setelah dilakukan penanganan pelanggaran asumsi normalitas berupa transformasi logaritma (log) terhadap variabel \(Y\), berdasarkan uji \(F\) model regresi yang dibuat dinilai layak digunakan untuk analisis lebih lanjut. Berdasarkan uji \(t\), koefisien parameter regresi variabel \(X\) yaitu \(\beta_1\) dan \(\beta_3\) berpengaruh signifikan terhadap \(Y\), sehingga model akhir berbeda dengan model awal, yaitu:

\[ \hat{Y} = 0.239 + 0.015X_1 + 0.022X_3 + \varepsilon \]

Koefisien Determinasi

Koefisien determinasi digunakan untuk mengukur seberapa besar kemampuan variabel independen dalam menjelaskan variasi variabel dependen dalam suatu model regresi. Nilai koefisien determinasi yang dilambangkan dengan \(R^2\) menunjukkan proporsi keragaman variabel dependen yang dapat dijelaskan oleh variabel independen dalam model.

summary(model2)$r.squared
## [1] 0.4184728

Artinya sebesar 41.8% variabel \(Y\) dipengaruhi oleh variabel \(X\), sedangkan sisanya sebesar 58.2% variabel \(Y\) dipengaruhi oleh faktor lain. Dengan kata lain, sebesar 41.8% prevalensi kanker dipengaruhi oleh konsumsi makanan yang dibakar, makanan instan, dan olahan tanpa pengawet, sedangkan 58.2%dipengaruhi oleh faktor lain yang tidak disertakan dalam analisis ini.

Kesimpulan

Hasil pengujian asumsi klasik menunjukkan bahwa model regresi awal belum sepenuhnya memenuhi asumsi normalitas karena residual tidak berdistribusi normal pada taraf signifikansi 5%, meskipun asumsi lain seperti linearitas, homoskedastisitas, non-autokorelasi, dan non-multikolinearitas telah terpenuhi, yang ditunjukkan oleh sebaran residual yang acak tanpa pola tertentu, tidak ditemukannya gejala heteroskedastisitas maupun multikolinearitas berdasarkan uji yang dilakukan, serta nilai Durbin–Watson yang berada pada daerah penerimaan. Setelah dilakukan penanganan pelanggaran normalitas melalui transformasi logaritma pada variabel \(Y\), model regresi dinilai layak untuk analisis lebih lanjut, di mana uji simultan (uji F) menunjukkan bahwa model secara keseluruhan signifikan, sedangkan uji parsial (uji t) menunjukkan bahwa variabel \(X_1\) dan \(X_3\) berpengaruh signifikan terhadap variabel dependen \(Y\), sementara variabel \(X_2\) tidak berpengaruh signifikan, sehingga model regresi akhir yang diperoleh adalah:

\[ \hat{Y} = 0.239 + 0.015X_1 + 0.022X_3 + \varepsilon \]

Selain itu, nilai koefisien determinasi menunjukkan bahwa sebesar 41.8% variasi pada variabel \(Y\) dapat dijelaskan oleh variabel independen dalam model, sedangkan 58.2% sisanya dipengaruhi oleh faktor lain di luar model yang tidak disertakan dalam analisis.