Analisis regresi merupakan suatu analisis yang digunakan untuk melihat seberapa besar pengaruh variabel prediktor terhadap variabel respon. Uji regresi dapat dilakukan melalui dua pendekatan yaitu pendekatan parametrik dan pendekatan non parametrik. Pendekatan parametrik mengasumsikan bentuk model yang sudah ditentukan, sedangkan pendekatan non parametrik mengasumsikan model yang tidak memiliki informasi apapun tentang bentuk dari fungsi regresi.
Pada kasus ini, penulis akan menganalisis data women yang merupakan data sekunder berasal dari dataset R. Data ini merupakan data yang telah diambil dari American Society of Actuaries Build and Blood Pressure Study dari beberapa tahun belakangan. World Almanac telah mencatat bahwa berat merupakan representasi dari penggunaan pakaian dan sepatu di ruang terbuka, serta tinggi badan merupakan representasi dari sepatu.
Analisis ini bertujuan untuk mengetahui pengaruh tinggi badan terhadap berat badan pada wanita. Subjek pada analisis ini adalah para wanita yang berasal dari Amerika yang berumur 30 hingga 39 tahun. Dengan adanya analisis ini, diharapkan mampu memahami penerapan analisis regresi, serta dapat menginterpretasikan hasil dengan baik.
Analisis korelasi merupakan suatu analisis yang bertujuan untuk mengukur kekuatan hubungan antara dua variabel atau lebih. Di dalam analisis korelasi, terdapat koefisien korelasi yang bertujuan untuk menyatakan kekuatan hubungan antar variabel. Nilai koefisien korelasi berada diantara -1 dan 1. Nilai -1 menyatakan hubungan negatif sempurna, sedangkan nilai 1 menyatakan hubungan positif sempurna.
Analisis regresi linier merupakan suatu analisis yang digunakan untuk mengetahui hubungan sebab-akibat antara dua variabel atau lebih. Analisis regresi sering disebut sebagai analisis prediksi karena model dalam analisis regresi ini sangat cocok untuk membuat perkiraan atau prediksi. Karena merupakan suatu prediksi, maka nilai hasilnya tidak selalu sama dengan nilai sesungguhnya.
Analisis regresi linier sederhana merupakan suatu analisis yang digunakan untuk mendapatkan informasi mengenai hubungan antara dua variabel, yaitu variabel prediktor (X) dan variabel respon (Y). Variabel prediktor (X) bersifat bebas, sedangkan variabel respon (Y) bersifat tidak bebas.
Model umum dari regresi linier adalah sebagai berikut
\[
Y=a+bX+\epsilon
\] Keterangan:
\(Y\) : nilai yang dihitung pada variabel respon/ variabel tidak bebas
\(X\) : nilai tertentu dari variabel prediktor/ variabel bebas
\(a\) : intercept (perpotonhan garis regresi dengan sumbu y)
\(b\) : koefisien regresi atau kemiringan garis regresi untuk mengukur besarnya pengaruh C terhadap Y
\(\epsilon\) : error/ kesalahan
Terdapat 5 asumsi regresi yang harus dipenuhi agar analisis regresi linier dapat dilakukan, yaitu:
1. Normalitas, bertujuan untuk mengetahui apakah residual dalam model regresi berdistribusi normal atau tidak. Jika asumsi normalitas dilanggar, maka uji statistik dinyatakan tidak valid. Uji normalitas dapat dilakukan melalui beberapa pendekatan, yaitu pendekatan grafik histogram dan P-P plot, uji kolmogorov-smirnov, chi-square, liliefors, dan shapiro-wilk.
2. Linearitas, bertujuan untuk mengetahui apakah variabel memiliki hubungan linear secara signifikan atau tidak. Jika tidak signifikan, maka residual tidak normal dan secara tidak langsung melanggar asumsi normalitas.
3. Heteroskedastisitas, asumsi yang menyatakan varian parameter dalam model sama atau konstan. Uji heteroskedastisitas ini dapat dilakukan dengan metode grafik.
4. Multikolinearitas, ada apabila terdapat hubungan sempurna antar variabel independen dalam model. Untuk menguji multikolinearitas dapat menggunakan pengukuran nilai VIF (Variable Inflation Factor) dan nilai Toleransi.
5. Autokorelasi, biasa disebut spourius regression merupakan korelasi antar anggota observasi yang diurutkan berdasarkan waktu. Untuk menguji autokorelasi dapat menggunakan uji Durbin Watson (DW-test) dan juga metode grafik ACF.
Data yang digunakan dalam analasis ini adalah data sekunder yang berasal dari dataset R, yaitu data women. Data ini merupakan data yang telah diambil dari American Society of Actuaries Build and Blood Pressure Study dari beberapa tahun belakangan. World Almanac telah mencatat bahwa berat merupakan representasi dari penggunaan pakaian dan sepatu di ruang terbuka, serta tinggi badan merupakan representasi dari sepatu.
> library(knitr)
> library(rmarkdown)
> library(prettydoc)
> library(equatiomatic)
> library(MASS)
> library(car)
> library(lmtest)
> attach(women)
>
> #untuk memunculkan 6 data pertama
> head(women)
height weight1 58 115
2 59 117
3 60 120
4 61 123
5 62 126
6 63 129
Dari data di atas, dapat diasumsikan bahwa weight adalah variabel dependen dan height merupakan variabel independen. Maka,
> Y <- women$weight
> X <- women$height
> wom <- data.frame(X,Y)
Dimana,
X adalah tinggi badan dan
Y adalah berat badan
Membuat scatter plot ini berfungsi untuk memeriksa hubungan antar variabel.
> plot(X~Y, pch=16, xlab="Tinggi (in)", ylab = "Berat (lb)",
+ main = "Data women: Perempuan Amerika berusia 30-39")
>
> # berikut merupakan diagram pencar regresi dengan garis regresi
>
> abline(lm(X~Y))
H 0 : Tidak terdapat hubungan antar variabel
H 1 : Terdapat hubungan antar variabel
> cor.test(X,Y,method="pearson")
's product-moment correlation
Pearson
data: X and Y
t = 37.855, df = 13, p-value = 1.091e-14
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9860970 0.9985447
sample estimates:
cor
0.9954948
Keputusan:
p-value (\(1.091e-14\)) < \(\alpha (0.05)\), maka tolak H 0
Kesimpulan:
Tinggi badan dan berat badan memiliki hubungan yang sangat tinggi dengan koefisien korelasi sebesar 0.9954948. Hubungan keduanya berbanding lurus yang berarti semakin tinggi seorang wanita, masa akan semakin berat juga badannya.
> model <- lm(Y~X)
> model
:
Calllm(formula = Y ~ X)
:
Coefficients
(Intercept) X -87.52 3.45
Persamaan regresi: \[
\hat Y=-87.52+3.45X
\] Interpretasi:
- Jika tinggi badan (X) nilainya 0, maka berat badan yang dihasilkan adalah -87.52
- Koefisien regresi tinggi badan (X) sebesar 3.45, dimana jika tinggi badan (X) mengalami kenaikan sebesar 1% maka berat badan mengalami peningkatan sebesar 3.45
Berikut ringkasan dari perhitungan regresi sedarhana
H0 : Variabel tinggi badan (X) secara signifikan berpengaruh terhadap model
H1 : Variabel tinggi badan (X) secara signifikan tidak berpengaruh terhadap model
> summary(lm(Y~X))
:
Calllm(formula = Y ~ X)
:
Residuals
Min 1Q Median 3Q Max -1.7333 -1.1333 -0.3833 0.7417 3.1167
:
CoefficientsPr(>|t|)
Estimate Std. Error t value -87.51667 5.93694 -14.74 1.71e-09 ***
(Intercept) 3.45000 0.09114 37.85 1.09e-14 ***
X ---
: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Signif. codes
: 1.525 on 13 degrees of freedom
Residual standard error-squared: 0.991, Adjusted R-squared: 0.9903
Multiple R-statistic: 1433 on 1 and 13 DF, p-value: 1.091e-14 F
keputusan:
p-value (\(1.091e-14\)) < \(\alpha (0.05)\), maka tolak H0
kesimpulan:
Variabel tinggi badan (X) secara signifikan berpengaruh terhadap model
A. Pengujian residual dari model regresi menggunakan pendekatan grafik
> par(mfrow=c(2,2))
> plot(model)
Pada grafik normal Q-Q yang berada di pojok kanan atas, menunjukkan bahwa titik-titik berada di sekitar garis lurus, sehingga dapat disimpulkan bahwa residual tersebar noemal. Model regresi memenuhi asumsi normalitas.
B. Pengujian residual regresi menggunakan Shapiro-wilk
H 0 : Residual berdistribusi normal
H 1 : Residual tidak berdistribusi normal
> sresid <- studres(model)
> shapiro.test((sresid))
-Wilk normality test
Shapiro
: (sresid)
data= 0.88291, p-value = 0.05245 W
Keputusan:
p-value (0.05245) > \(\alpha (0.05)\), maka terima H 0
Kesimpulan:
Data residual berdistribusi normal. Model memenuhi asumsi normalitas
Pengujian residual regresi linear menggunakan Shapiro-wilk
H 0 : Residual bersifat linear
H 1 : Residual tidak bersifat linear
> LinearResidual <- resid(model)
> shapiro.test(LinearResidual)
-Wilk normality test
Shapiro
: LinearResidual
data= 0.91909, p-value = 0.1866 W
Keputusan:
p-value (0.1866) > \(\alpha (0.05)\), maka terima H 0
Kesimpulan:
Data residual bersifat linear. Sehingga, dapat disimpulkan bahwa model bersifat linearitas
Pengujian kehomogenan galat menggunakan pendekatan grafik
> par(mfrow=c(2,2))
> plot(model)
Pada grafik Residual vs Fitted di pojok kiri atas menunjukkan bahwa data tersebar membentuk suatu pola tertentu. Atau bisa dibilang tidak terdapat perbedaan varian residual. Sehingga disimpulkan bahwa model memenuhi asumsi homoskedastisitas
H 0 : Residual bersifat homogen
H 1 : Residual bersifat heterogen
> ncvTest(model)
-constant Variance Score Test
Non: ~ fitted.values
Variance formula= 0.8052115, Df = 1, p = 0.36954 Chisquare
Keputusan:
p-value (0.3695) > \(\alpha (0.05)\), maka terima H 0
Kesimpulan:
Data bersifat homoskedastisitas.
H 0 : Tidak ada auto korelasi antar sisaan
H 1 : Terdapat autokorelasi antar sisaan
> library(lmtest)
> dwtest(model)
-Watson test
Durbin
: model
data= 0.31538, p-value = 1.089e-07
DW : true autocorrelation is greater than 0 alternative hypothesis
Keputusan:
p-value (1.089e-07) < \(\alpha (0.05)\), maka tolak H 0
Kesimpulan:
Terdapat autokorelasi antar sisaan. Maka, asumsi tidak adanya autokorelasi belum terpenuhi
Berdasarkan hasil uji di atas, didapatkan persamaan regresi linier sederhana sebagai berikut \[ \hat Y=-87.52+3.45X \] dengan ringkasan uji sebagai berikut
> summary(lm(Y~X))
:
Calllm(formula = Y ~ X)
:
Residuals
Min 1Q Median 3Q Max -1.7333 -1.1333 -0.3833 0.7417 3.1167
:
CoefficientsPr(>|t|)
Estimate Std. Error t value -87.51667 5.93694 -14.74 1.71e-09 ***
(Intercept) 3.45000 0.09114 37.85 1.09e-14 ***
X ---
: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Signif. codes
: 1.525 on 13 degrees of freedom
Residual standard error-squared: 0.991, Adjusted R-squared: 0.9903
Multiple R-statistic: 1433 on 1 and 13 DF, p-value: 1.091e-14 F
Dapat disimpulkan bahwa, setiap peninggkatan satu satuan tinggi badan akan memberikan peningkatan sebesar 3.45 pada berat badan.
Model memiliki nilai Adj. R2 sebesar 0.9903 dengan kata lain variabel Tinggi mampu menjelaskan 99.03% dari faktor-faktor yang memengaruhi.
Didapatkan nilai uji F-Statistic (1.091r-14) < alpha (0.03), sehingga dapat disimpulkan bahwa model menunjukkan model regresi dengan sangat baik.