ANALISIS REGRESI LINIER DAN ASUMSI

Mailaneva Kalyanaputri Fatima

2024-05-30

1 PENDAHULUAN

1.1 Latar Belakang

Kesehatan dan kesejahteraan individu sangat dipengaruhi oleh pola makan. Salah satu faktor utama dalam manajemen berat badan adalah asupan kalori harian. Pemanfaatan ilmu statistika dapat digunakan untuk membantu mengetahui apakah asupan kalori harian berpengaruh terhadap berat badan seseorang. Oleh karena itu, diperlukan analisis untuk mengetahui seberapa besar pengaruh kalori harian terhadap berat badan seseorang. Analisis yang dapat digunakan adalah analisis regresi linier sederhana.

Analisis regresi linier merupakah sebuah alat statistik yang memungkinkan peneliti untuk menentukan hubungan atau pengaruh antara satu atau lebih variabel (independen atau prediktor) dengan satu variabel lain (dependen atau respon). Kelebihan regresi linier terletak pada kemampuannya untuk melakukan analisis regresi dengan lebih akurat dibandingkan dengan analisis korelasi. Dengan analisis regresi linier, peneliti dapat menentukan hubungan atau pengaruh asupan kalori harian terhadap berat badan seseorang.

1.2 Tinjauan Pustaka

1.2.1 Analisis Regresi

Analisis regresi adalah sebuah alat dalam ilmu statistik yang memungkinkan untuk mengetahui hubungan antara beberapa variabel. Analisis regresi sering digunakan untuk memprediksi hubungan suatu variabel berdasarkan nilai variabel lain.

1.2.2 Regresi Linier Sederhana

Regresi linier sederhana merupakan persamaan regresi yang menggambarkan hubungan antara satu peubah bebas (X) dan satu peubah tak bebas (Y), dimana hubungan keduanya dapat digambarkan sebagai garis lurus. Model regresi linier sederhana adalah sebagai berikut.

\[Y = \alpha + \beta x\]

diduga menjadi persamaan berikut:

\[\hat Y = a + bx\]

Keterangan:

\[\hat Y = variabel \ terikat\]

\[\alpha = intercept\]

\[\beta = slope/kemiringan \ (koefisien \ variabel \ X)\]

\[x = variabel \ independen\]

1.2.3 Uji F (simultan)

Uji F merupakan uji statistik yang digunakan untuk membantu menentukan apakah secara keseluruhan variabel independen dalam model regresi memiliki pengaruh yang signifikan terhadap variabel dependen. Uji F memiliki kriteria pengujian sebagai berikut:

  • Apabila nilai p-value lebih besar dari tingkat signifikansi maka \(H_0\) diterima.

  • Apabila nilai p-value lebih kecil dari tingkat signifikansi maka \(H_0\) ditolak.

1.2.4 Uji t (Parsial)

Uji t merupakan uji statistik yang digunakan untuk membantu menentukan apakah pengaruh setiap variabel independen secara parsial terhadap variabel dependen. Uji t memiliki kriteria pengujian sebagai berikut:

  • Apabila nilai nilai p-value lebih besar dari tingkat signifikansi maka \(H_0\) diterima.

  • Apabila nilai p-value lebih kecil dari tingkat signifikansi maka \(H_0\) ditolak.

1.2.5 Koefisien Determinasi

Koefisien determinasi (\(R^2\)) merupakan alat ukur yang digunakan untuk membantu mengetahui seberapa besar variasi yang terjadi pada variabel dependen (Y) yang dapat dijelaskan oleh variabel independen (X) dalam model regresi linier.

1.2.6 Uji Asumsi Klasik

Uji asumsi klasik merupakan suatu persyaratan statistik yang dilakukan sebelum melakukan analisis regresi linier. Asumsi yang harus dipenuhi untuk mendapatkan model regresi yang baik yaitu:

  • Galat harus berdistribusi normal

  • Ragam galat bersifat homogen

  • Tidak ada autokorelasi atau galat saling bebas

1.2.6.1 Uji Asumsi Normalitas

Uji normalitas merupakan uji yang digunakan untuk menentukan apakah distribusi dari galat berdistribusi normal atau tidak.

Hipotesis pengujian

\(H_0\) : Galat berdistribusi normal

\(H_1\) : Galat tidak berdistribusi normal

Kriteria pengujian

Tolak \(H_0\), jika p-value < \(\alpha\)

Terima \(H_0\), jika p-value > \(\alpha\)

1.2.6.2 Uji Asumsi Homoskedastisitas

Uji asumsi homoskedastisitas merupakan uji yang digunakan untuk menentukan apakah galat memiliki variansi yang konstan atau tidak.

Hipotesis pengujian

\(H_0\) : Galat berdistribusi normal

\(H_1\) : Galat tidak berdistribusi normal

Kriteria pengujian

Tolak \(H_0\), jika p-value < \(\alpha\)

Terima \(H_0\), jika p-value > \(\alpha\)

1.2.6.3 Uji Asumsi Autokorelasi

Uji asumsi autokorelasi merupakan uji yang digunakan untuk mendeteksi apakah pada data terdapat autokorelasi atau tidak.

Hipotesis pengujian

\(H_0\) : Tidak terjadi kasus autokorelasi

\(H_1\) : Terjadi kasus autokorelasi

Kriteria pengujian

Tolak \(H_0\), jika p-value < \(\alpha\)

Terima \(H_0\), jika p-value > \(\alpha\)

1.2.7 Analisis Grafik

1.2.7.1 Scatter Plot

Plot pencar atau scatter plot dapat membantu memvisualisasikan hubungan linier antara variabel dependen (respon) dan variabel independen (prediktor).

1.2.7.2 Box Plot

Box plot digunakan untuk menemukan apakah terdapat pengamatan outlier pada variabel. Apabila data terdapat outlier di prediktor, maka dapat secara drastis memengaruhi prediksi karena mereka dapat dengan mudah memengaruhi arah/kemiringan garis yang paling sesuai.

1.3 Data

Data yang digunakan berasal dari modul tentang regresi linier sederhana, dimana contoh soal dalam modul tersebut membahas tentang hubungan asupan kalori harian (X) dengan berat badan seseorang (Y). Berikut merupakan data yang digunakan:

> Kalori <- c(530, 300, 358, 510, 302, 300, 387, 527, 415, 512)
> BeratBadan <- c(89, 48, 56, 72, 54, 42, 60, 85, 63, 74)
> data <- data.frame(Kalori, BeratBadan)
> data
   Kalori BeratBadan
1     530         89
2     300         48
3     358         56
4     510         72
5     302         54
6     300         42
7     387         60
8     527         85
9     415         63
10    512         74

1.4 Tujuan

Tujuan dilakukannya analisis regresi linier sederhana untuk kasus ini adalah untuk mengetahui pengaruh variabel independen (kalori per hari) terhadap variabel dependen (berat badan).

2 SOURCE CODE

2.1 Library

> # Library
> library(car)
> library(lmtest)
> library(nortest)
> library(tseries)

2.2 Impor Data

> #Input Data
> Kalori <- c(530, 300, 358, 510, 302, 300, 387, 527, 415, 512)
> BeratBadan <- c(89, 48, 56, 72, 54, 42, 60, 85, 63, 74)
> data <- data.frame(Kalori, BeratBadan)
> data
   Kalori BeratBadan
1     530         89
2     300         48
3     358         56
4     510         72
5     302         54
6     300         42
7     387         60
8     527         85
9     415         63
10    512         74

2.3 Analisis Regresi Linier Sederhana

> #Analisis Regresi Linier Sederhana
> ModelReg <- lm(BeratBadan~Kalori)
> summary(ModelReg)

Call:
lm(formula = BeratBadan ~ Kalori)

Residuals:
    Min      1Q  Median      3Q     Max 
-6.5870 -4.0223 -0.1025  3.0849  7.4334 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.60804    7.34219   0.355    0.732    
Kalori       0.14898    0.01729   8.614 2.55e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.114 on 8 degrees of freedom
Multiple R-squared:  0.9027,    Adjusted R-squared:  0.8905 
F-statistic:  74.2 on 1 and 8 DF,  p-value: 2.555e-05

2.4 Uji Asumsi Klasik

> #Uji Asumsi Klasik
> 
> # (1) Asumsi Normalitas
> library(tseries)
> library(nortest)
> shapiro.test(ModelReg$residuals)

    Shapiro-Wilk normality test

data:  ModelReg$residuals
W = 0.94294, p-value = 0.5862
> lillie.test(ModelReg$residuals)

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  ModelReg$residuals
D = 0.14449, p-value = 0.8018
> 
> # (2) Asumsi Homoskedastisitas
> library(lmtest)
> bptest(ModelReg)

    studentized Breusch-Pagan test

data:  ModelReg
BP = 1.3603, df = 1, p-value = 0.2435
> 
> #(3) Asumsi Autokorelasi
> library(lmtest)
> dwtest(ModelReg)

    Durbin-Watson test

data:  ModelReg
DW = 2.2855, p-value = 0.6768
alternative hypothesis: true autocorrelation is greater than 0

2.5 Analisis Grafik

> #Scatter Plot
> scatter.smooth(x=data$Kalori, y=data$BeratBadan, main="Berat Badan ~ Kalori/Hari")

> #Boxplot
> par(mfrow=c(1,2))
> boxplot(data$Kalori, main="Kalori/Hari", sub=paste("Outlier rows:", boxplot.stats(data$BeratBadan)$Out))
> boxplot(data$BeratBadan, main="Berat Badan", sub=paste("Outlier rows:", boxplot.stats(data$Kalori)$Out))

3 HASIL DAN PEMBAHASAN

3.1 Model Regresi Linier Sederhana

Didapatkan, nilai \(\beta_{0}\) = 2.60804 dan \(\beta_{1}\) = 0.14898 sehingga model regresi linier sederhana untuk kasus tersebut adalah sebagai berikut

\[\hat{Y}=2.60804 + 0.14898𝒙\] Interpretasi:

  • \(\beta_{0}\) = 2.60804 merupakan intersep, artinya jika variabel jumlah kalori/hari adalah konstan (nilai=0) maka berat badan adalah sebesar 2.60804

  • \(\beta_{1}\) = 0.14898 merupakan slope, artinya jika variabel jumlah kalori/hari meningkat sebesar 1 unit maka variabel berat badan akan meningkat pula sebesar 0.14898 satuan.

3.2 Uji F (Uji Simultan)

Hipotesis \(\boldsymbol{H_0}\) : \(\beta_{1} = 0\) (Secara simultan jumlah kalori/hari tidak berpengaruh terhadap berat badan) vs \(\boldsymbol{H_1}\) : \(\beta_{1}≠0\) (Secara simultan jumlah kalori/hari berpengaruh terhadap berat badan)

Taraf nyata

\[\alpha = 0.05\]

Output

> summary(ModelReg)

Call:
lm(formula = BeratBadan ~ Kalori)

Residuals:
    Min      1Q  Median      3Q     Max 
-6.5870 -4.0223 -0.1025  3.0849  7.4334 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.60804    7.34219   0.355    0.732    
Kalori       0.14898    0.01729   8.614 2.55e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.114 on 8 degrees of freedom
Multiple R-squared:  0.9027,    Adjusted R-squared:  0.8905 
F-statistic:  74.2 on 1 and 8 DF,  p-value: 2.555e-05

Statistik Uji

\[Fhit = 74.2\]

dengan db1=1 dan db2=8

\[p - value = 2.555e-05\]

Keputusan karena p-value (2.555e-05) < \(\alpha\) (0.05), maka Tolak \(H_{0}\).

Kesimpulan Dengan taraf nyata 5%, dapat disimpulkan bahwa secara simultan jumlah kalori/hari berpengaruh terhadap berat badan)

3.3 Uji t (Uji Parsial)

Hipotesis \(\boldsymbol{H_0} : \beta_1 = 0\) (Secara parsial jumlah kalori/hari tidak berpengaruh terhadap berat badan) vs \(\boldsymbol{H_1} : \beta_{1}≠0\) (Secara parsial jumlah kalori/hari berpengaruh terhadap berat badan)

Taraf Nyata

\[\alpha = 0.05\]

Statitistik Uji

\[thit = 8.614\]

\[p - value = 2.555e-05\]

Keputusan karena p-value (2.555e-05) < \(\alpha\) (0.05), maka Tolak \(H_0\).

Kesimpulan Dengan taraf nyata 5%, dapat disimpukan bahwa secara parsial jumlah kalori/hari berpengaruh terhadap berat badan.

3.4 Koefisien Determinasi

\[R^2 = 0.8905\]

Interpretasi Nilai koefisien determinasi adalah sebesar 0.8905, yang berarti bahwa variabel independen (kalori/hari) mempengaruhi variabel dependen (berat badan) sebesar 89,05% sedangkan sisanya dipengaruhi oleh variabel lain di luar model.

3.5 Uji Asumsi

3.5.1 Uji Asumsi Normalitas

Hipotesis \(\boldsymbol{H_0}\) : Galat berdistribusi normal vs \(\boldsymbol{H_1}\) : Galat tidak berdistribusi normal

Taraf Nyata

\[\alpha = 0.05\]

Output

> # (1) Asumsi Normalitas
> library(tseries)
> library(nortest)
> shapiro.test(ModelReg$residuals)

    Shapiro-Wilk normality test

data:  ModelReg$residuals
W = 0.94294, p-value = 0.5862
> lillie.test(ModelReg$residuals)

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  ModelReg$residuals
D = 0.14449, p-value = 0.8018

Statistik Uji

\[p - value = 0.5862\]

untuk uji Shapiro-Wilk

\[p - value = 0.8018\]

untuk uji Lilliefors

Keputusan karena p-value (0.5862) > \(\alpha\) (0.05), maka Terima \(H_0\). (Untuk Uji Shapiro-Wilk) karena p-value (0.8018) > \(\alpha\) (0.05), maka Terima \(H_0\). (Untuk Uji Lilliefors)

Kesimpulan Berdasarkan dari kedua uji tersebut, dengan taraf nyata 5% dapat disimpulkan bahwa galat berdistribusi normal.

3.5.2 Uji Asumsi Homoskedastisitas

Hipotesis \(\boldsymbol{H_0}\) : Ragam galat homogen vs \(\boldsymbol{H_1}\) : Ragam tidak galat homogen

Taraf Nyata

\[\alpha = 0.05\]

Output

> # (2) Asumsi Homoskedastisitas
> library(lmtest)
> bptest(ModelReg)

    studentized Breusch-Pagan test

data:  ModelReg
BP = 1.3603, df = 1, p-value = 0.2435

Statistik Uji

\[p - value = 0.2435\]

Keputusan karena p-value (0.2435) > \(\alpha\) (0.05), maka Terima \(H_0\).

Kesimpulan Dengan taraf nyata 5%, dapat disimpulkan bahwa asumsi ragam galat homogen terpenuhi.

3.5.3 Uji Asumsi Autokorelasi

Hipotesis \(\boldsymbol{H_0}\) : Tidak terjadi kasus autokorelasi vs \(\boldsymbol{H_1}\) : Terjadi kasus autokorelasi

Taraf Nyata

\[\alpha = 0.05\]

Output

> #(3) Asumsi Autokorelasi
> library(lmtest)
> dwtest(ModelReg)

    Durbin-Watson test

data:  ModelReg
DW = 2.2855, p-value = 0.6768
alternative hypothesis: true autocorrelation is greater than 0

Statistik Uji

\[p - value = 0.6768\]

Keputusan karena p-value (0.6768) > \(\alpha\) (0.05), maka Terima \(H_0\).

Kesimpulan Dengan taraf nyata 5%, dapat disimpulkan bahwa tidak terjadi kasus autokorelasi pada model regresi linier sederhana.

3.6 Analisis Grafik

3.6.1 Scatter Plot

> scatter.smooth(x=data$Kalori, y=data$BeratBadan, main="Berat Badan ~ Kalori/Hari")

Scatter plot bersama dengan garis smoothing di atas menunjukkan hubungan yang meningkat secara linier antara variabel Berat Badan dengan Jumlah Kalori/hari.

3.6.2 Box Plot

> par(mfrow=c(1,2))
> boxplot(data$Kalori, main="Kalori/Hari", sub=paste("Outlier rows:", boxplot.stats(data$BeratBadan)$Out))
> boxplot(data$BeratBadan, main="Berat Badan", sub=paste("Outlier rows:", boxplot.stats(data$Kalori)$Out))

Diagram boxplot di atas menunjukkan bahwa tidak terdeteksi adanya pencilan atau outlier dari kedua variabel.

4 KESIMPULAN

Berdasarkan hasil output dan pembahasan, dapat disimpulkan bahwa:

  1. Model regresi linier sederhana yang didapatkan adalah sebagai berikut.\[\hat{Y}=2.60804 + 0.14898𝒙\]dimana variabel Y adalah Berat Badan dan variabel X adalah asupan kalori per hari.
  2. Dari hasil uji F (simultan) dan uji t (parsial), dapat disimpulkan bahwa variabel kalori per hari (X) berpengaruh secara signifikan terhadap variabel berat badan (Y).
  3. Model regresi linier sederhana yang dihasilkan telah sesuai dan memenuhi syarat asumsi klasik. Didapatkan bahwa galat dari model regresi berdistribusi normal, ragam galat pada model bersifat homogen, dan tidak terjadi autokorelasi atau galat saling bebas. Oleh karena itu, model ini dapat dianggap sebagai model yang baik untuk digunakan dalam memprediksi pengaruh asupan kalori harian terhadap berat badan seseorang.

5 DAFTAR PUSTAKA

Yuliara, I Made. 2016. Regresi Linier Sederhana. Universitas Udayana.

Lestari, S. 2023. Analisis Algoritma Regresi Linear Sederhana dalam Memprediksi Tingkat Penjualan Album KPOP. INSOLOGI: Jurnal Sains Dan Teknologi, 2(1) : 199-209.

Nurdin, I., Sugiman, S., & Sunarmi, S. 2018. Penerapan Kombinasi Metode Ridge Regression (RR) dan Metode Generalized Least Square (GLS) untuk Mengatasi Masalah Multikolinearitas dan Autokorelasi. Indonesian Journal of Mathematics and Natural Sciences, 41(1) : 58-68.

Nurdany, A. 2013. Analisis Pengaruh Rasio Keuangan Rentabilitas Terhadap Pendapatan Margin Murabahah Bank Syariah (Studi Kasus Pada PT. Bank Mega Syariah Periode 2005-2012). Khazanah: Jurnal Mahasiswa, 11(1) : 13-24.

Lestari, J. S., Farida, U., & Chamidah, S. 2019. Pengaruh Kepemimpinan, Kedisiplinan, Dan Lingkungan Kerjaterhadap Prestasi Kerja Guru. ASSET: Jurnal Manajemen Dan Bisnis, 2(2) : 38 - 55.