1 PENDAHULUAN
1.1 Latar Belakang
Analisis regresi adalah metode statistik yang digunakan untuk mempelajari hubungan antara satu atau lebih variabel independen (variabel penjelas) dengan variabel dependen (variabel yang ingin diprediksi). Analisis regresi memberikan kerangka kerja untuk memahami dan memodelkan hubungan antara variabel-variabel ini.
2 TINJAUAN PUSTAKA
2.1 Analisis Regresi
Dalam analisis regresi, variabel independen (variabel penjelas) digunakan untuk memprediksi atau menjelaskan variasi dalam variabel dependen (variabel yang ingin diprediksi). Hubungan antara variabel independen dan variabel dependen dapat dijelaskan melalui model regresi yang dibangun. Model regresi ini mencoba untuk menggambarkan hubungan fungsional antara variabel independen dan variabel dependen.
2.2 Asumsi dalam Analisis Regresi
Asumsi-asumsi yang sering digunakan dalam analisis regresi meliputi:
Asumsi Homoskedastisitas Asumsi homoskedastisitas adalah salah satu asumsi penting dalam analisis regresi yang mengasumsikan bahwa variansi (heterogenitas) residual (selisih antara nilai sebenarnya dan nilai yang diprediksi oleh model regresi) adalah konstan di sepanjang rentang nilai variabel independen. Dalam kata lain, asumsi ini menyatakan bahwa penyebaran variabilitas residual adalah sama untuk setiap nilai variabel independen.Asumsi homoskedastisitas penting karena jika asumsi ini tidak terpenuhi (disebut heteroskedastisitas), interpretasi hasil analisis regresi dapat menjadi tidak akurat. Hal ini dapat mempengaruhi keandalan dan efisiensi estimasi parameter, serta validitas pengujian hipotesis dalam model regresi.
Asumsi Normalitas Asumsi Normalitas menyatakan bahwa variabel dependen (variabel yang akan diprediksi) dan variabel independen (variabel penjelas) harus memiliki distribusi yang mendekati distribusi normal di dalam populasi. Dengan kata lain, data yang digunakan dalam analisis regresi harus memiliki distribusi normal.Asumsi normalitas penting dalam analisis regresi karena sebagian besar metode regresi didasarkan pada asumsi ini. Ketika data tidak memenuhi asumsi normalitas, hasil regresi dapat menjadi tidak valid dan interpretasi yang dihasilkan mungkin tidak akurat.
Asumsi Multikolinearitas Asumsi multikolinearitas dalam analisis regresi mengacu pada keberadaan korelasi yang kuat antara dua atau lebih variabel independen dalam model regresi. Dalam konteks ini, variabel independen saling terkait secara linear, yang dapat menyebabkan masalah dalam interpretasi hasil analisis regresi. Multikolinearitas dapat menyebabkan beberapa masalah, termasuk ketidakstabilan dan ketidakpastian dalam estimasi parameter, peningkatan varian estimasi parameter, penurunan efisiensi estimasi, dan penurunan daya prediksi model. Selain itu, multikolinearitas dapat mempengaruhi interpretasi koefisien regresi, karena sulit untuk membedakan kontribusi unik dari masing-masing variabel independen terhadap variabel dependen.
3 SOURCE CODE
Berikut ini merupakan tahapan melakukan analisis regresi sederhana maupun berganda di Rstudio:
3.1 Library
Langkah pertama yang perlu dilakukan dalam melakukan analisis regresi adalah mengaktifkan packages yang dibutuhkan sebagai berikut:
> library(ggplot2)
> library(dplyr)
> library(reshape2)
> library(lmtest)3.2 Data
Untuk input data ke dalam Rstudio dapat dilakukan dengan perintah berikut:
> # Mengganti "data.csv" dengan nama file data yang akan dimuat
> data_kasus <- read.csv("C:/Users/Salma/Downloads/Laprak1.csv", header=T)
> data_kasus
X1 X2 Y
1 25 3 5
2 30 5 7
3 27 4 6
4 35 8 9
5 40 12 12
6 22 1 4
7 28 6 7
8 32 7 8
9 37 10 10
10 45 15 153.3 Melakukan Analisis Regresi
Untuk melakukan analisis regresi, kita dapat menggunakan fungsi ‘lm(Variabel_dependen ~ Variabel_independen(X1 ~ X2 ~ Xn), data = data_kasus)’
Berikut ini contoh analisis regresi berganda terhadap data variabel X_1 dan X_2 terhadap variabel Y:
> X_1<-data_kasus$X1
> X_2<-data_kasus$X2
> Y<-data_kasus$Y
> # Mengganti "variabel_dependen" dengan nama variabel dependen Anda dan "variabel_independen" dengan nama variabel independen Anda
> model <- lm(Y~X_1+X_2, data = data_kasus)
>
> #Menampilkan hasil analisis regresi
> summary(model)
Call:
lm(formula = Y ~ X_1 + X_2, data = data_kasus)
Residuals:
Min 1Q Median 3Q Max
-0.5606 -0.1816 -0.0712 0.1169 0.6078
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.1935 2.5474 -0.076 0.9416
X_1 0.1472 0.1246 1.181 0.2761
X_2 0.5308 0.2083 2.548 0.0382 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3793 on 7 degrees of freedom
Multiple R-squared: 0.9899, Adjusted R-squared: 0.9871
F-statistic: 344.3 on 2 and 7 DF, p-value: 1.022e-073.4 Memeriksa Asumsi Regresi
3.4.1 Asumsi Heteroskedastisitas
Untuk melakukan asumsi heteroskedastisitas berikut ini, perlu dilihat plot antara Y fitted value terhadap nilai residual.
> # Plot residual terhadap nilai prediksi
> ggplot(data_kasus, aes(x = fitted(model),
+ y = resid(model))) +
+ geom_point() +
+ geom_smooth() +
+ labs(title = "Nilai Residual Terhadap Nilai Prediksi")
Berdasarkan plot yang terbentuk, data akan membentuk suatu pola. Dari
pola tersebut dapat dilihat perbedaan ragam residual dan model apakah
telah memenuhi uji asumsi heteroskedastisitas.
3.4.2 Asumsi Normalitas
Untuk melakukan asumsi normalitas digunakan fungsi ‘ggplot’ untuk menampilkan plot dari residual persamaan regresi. Kemudian grafik ditambah dengan garis regresi untuk melihat pola residual dengan lebih jelas.
> # Plot residual
> ggplot(data_kasus, aes(sample = resid(model))) +
+ stat_qq() +
+ geom_abline(color = "cyan") +
+ labs(title = "Normal Q-Q Plot")
Plot yang berdistribusi normal akan memperlihatkan sebaran data yang
mendekati garis lurus.
3.4.3 Asumsi Multikoliniearitas
Memeriksa asumsi multikoliniearitas dapat dilakukan dengan membuat matriks korelasi data kemudian dilanjutkan dengan plot sebagai berikut:
> # Menghitung matriks korelasi
> cor_matriks <- cor(data_kasus)
>
> # Plot matriks korelasi
> ggplot(melt(cor_matriks), aes(x = Var1, y = Var2, fill = value)) +
+ geom_tile() +
+ scale_fill_gradient2() +
+ labs(title = "Matriks Korelasi")
Warna dalam plot matriks korelasi dapat menunjukkan kekuatan dan arah
hubungan antar variabel. Warna yang lebih terang atau lebih intens
menunjukkan hubungan yang lebih kuat, sedangkan warna yang lebih gelap
menunjukkan hubungan yang lebih lemah. Warna positif (misalnya, semakin
dekat ke merah) menunjukkan hubungan positif, sementara warna negatif
(misalnya, semakin dekat ke biru) menunjukkan hubungan negatif.
4 HASIL DAN PEMBAHASAN
Berdasarkan analisis regresi yang telah dilakukan, diperoleh hasil sebagai berikut:
- Estimasi Koefisien Regresi
- Variabel independen X1 memiliki koefisien regresi sebesar 0.1472, dengan tanda positif, yang menunjukkan pengaruh X1 terhadap variabel dependen Y linear.
- Variabel independen X2 memiliki koefisien regresi sebesar 0.5308, dengan tanda positif, yang menunjukkan pengaruh X2 terhadap variabel dependen Y linear.
Signifikansi Statistik Berdasarkan uji tersebut, diperoleh nilai p kurang dari alfa maka dapat disimpulkan bahwa variabel independen X1 dan X2 berpengaruh signifikan terhadap variabel dependen Y.
Asumsi Regresi
- Asumsi Heteroskedastisitas: dapat disimpulkan bahwa terdapat perbedaan ragam residual dan model belum memenuhi uji asumsi Heteroskedastisitas.
- Asumsi Normalitas: dapat disimpulkan bahwa data tidak berdistribusi normal karena secaran data tidak mendekati model (garis lurus).
- Asumsi Multikoliniearitas: dapat disimpulkan bahwa ditemukan bukti adanya multikolinearitas antara variabel
5 KESIMPULAN
Berdasarkan uji yang telah dilakukan, dapat disimpulkan bahwa analisis regresi yang telah dilakukan masih mengandung kesalahan karena data yang digunakan belum memenuhi asumsi yang dibutuhkan. Oleh karena itu, perlu dilakukan beberapa langkah penyesuaian agar data memenuhi asumsi yang dibutuhkan.
6 DAFTAR PUSTAKA
Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis. Wiley.
Gujarati, D. N., & Porter, D. C. (2010). Basic Econometrics (5th ed.). McGraw-Hill.