1 PENDAHULUAN

1.1 Latar Belakang

Analisis regresi adalah metode statistik yang digunakan untuk mempelajari hubungan antara satu atau lebih variabel independen (variabel penjelas) dengan variabel dependen (variabel yang ingin diprediksi). Analisis regresi memberikan kerangka kerja untuk memahami dan memodelkan hubungan antara variabel-variabel ini.

2 TINJAUAN PUSTAKA

2.1 Analisis Regresi

Dalam analisis regresi, variabel independen (variabel penjelas) digunakan untuk memprediksi atau menjelaskan variasi dalam variabel dependen (variabel yang ingin diprediksi). Hubungan antara variabel independen dan variabel dependen dapat dijelaskan melalui model regresi yang dibangun. Model regresi ini mencoba untuk menggambarkan hubungan fungsional antara variabel independen dan variabel dependen.

2.2 Asumsi dalam Analisis Regresi

Asumsi-asumsi yang sering digunakan dalam analisis regresi meliputi:

  1. Asumsi Homoskedastisitas Asumsi homoskedastisitas adalah salah satu asumsi penting dalam analisis regresi yang mengasumsikan bahwa variansi (heterogenitas) residual (selisih antara nilai sebenarnya dan nilai yang diprediksi oleh model regresi) adalah konstan di sepanjang rentang nilai variabel independen. Dalam kata lain, asumsi ini menyatakan bahwa penyebaran variabilitas residual adalah sama untuk setiap nilai variabel independen.Asumsi homoskedastisitas penting karena jika asumsi ini tidak terpenuhi (disebut heteroskedastisitas), interpretasi hasil analisis regresi dapat menjadi tidak akurat. Hal ini dapat mempengaruhi keandalan dan efisiensi estimasi parameter, serta validitas pengujian hipotesis dalam model regresi.

  2. Asumsi Normalitas Asumsi Normalitas menyatakan bahwa variabel dependen (variabel yang akan diprediksi) dan variabel independen (variabel penjelas) harus memiliki distribusi yang mendekati distribusi normal di dalam populasi. Dengan kata lain, data yang digunakan dalam analisis regresi harus memiliki distribusi normal.Asumsi normalitas penting dalam analisis regresi karena sebagian besar metode regresi didasarkan pada asumsi ini. Ketika data tidak memenuhi asumsi normalitas, hasil regresi dapat menjadi tidak valid dan interpretasi yang dihasilkan mungkin tidak akurat.

  3. Asumsi Multikolinearitas Asumsi multikolinearitas dalam analisis regresi mengacu pada keberadaan korelasi yang kuat antara dua atau lebih variabel independen dalam model regresi. Dalam konteks ini, variabel independen saling terkait secara linear, yang dapat menyebabkan masalah dalam interpretasi hasil analisis regresi. Multikolinearitas dapat menyebabkan beberapa masalah, termasuk ketidakstabilan dan ketidakpastian dalam estimasi parameter, peningkatan varian estimasi parameter, penurunan efisiensi estimasi, dan penurunan daya prediksi model. Selain itu, multikolinearitas dapat mempengaruhi interpretasi koefisien regresi, karena sulit untuk membedakan kontribusi unik dari masing-masing variabel independen terhadap variabel dependen.

3 SOURCE CODE

Berikut ini merupakan tahapan melakukan analisis regresi sederhana maupun berganda di Rstudio:

3.1 Library

Langkah pertama yang perlu dilakukan dalam melakukan analisis regresi adalah mengaktifkan packages yang dibutuhkan sebagai berikut:

> library(ggplot2)
> library(dplyr)
> library(reshape2)
> library(lmtest)

3.2 Data

Untuk input data ke dalam Rstudio dapat dilakukan dengan perintah berikut:

> # Mengganti "data.csv" dengan nama file data yang akan dimuat
> data_kasus <- read.csv("C:/Users/Salma/Downloads/Laprak1.csv", header=T)
> data_kasus
   X1 X2  Y
1  25  3  5
2  30  5  7
3  27  4  6
4  35  8  9
5  40 12 12
6  22  1  4
7  28  6  7
8  32  7  8
9  37 10 10
10 45 15 15

3.3 Melakukan Analisis Regresi

Untuk melakukan analisis regresi, kita dapat menggunakan fungsi ‘lm(Variabel_dependen ~ Variabel_independen(X1 ~ X2 ~ Xn), data = data_kasus)’

Berikut ini contoh analisis regresi berganda terhadap data variabel X_1 dan X_2 terhadap variabel Y:

> X_1<-data_kasus$X1
> X_2<-data_kasus$X2
> Y<-data_kasus$Y
> # Mengganti "variabel_dependen" dengan nama variabel dependen Anda dan "variabel_independen" dengan nama variabel independen Anda
> model <- lm(Y~X_1+X_2, data = data_kasus)
> 
> #Menampilkan hasil analisis regresi
> summary(model)

Call:
lm(formula = Y ~ X_1 + X_2, data = data_kasus)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.5606 -0.1816 -0.0712  0.1169  0.6078 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  -0.1935     2.5474  -0.076   0.9416  
X_1           0.1472     0.1246   1.181   0.2761  
X_2           0.5308     0.2083   2.548   0.0382 *
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.3793 on 7 degrees of freedom
Multiple R-squared:  0.9899,    Adjusted R-squared:  0.9871 
F-statistic: 344.3 on 2 and 7 DF,  p-value: 1.022e-07

3.4 Memeriksa Asumsi Regresi

3.4.1 Asumsi Heteroskedastisitas

Untuk melakukan asumsi heteroskedastisitas berikut ini, perlu dilihat plot antara Y fitted value terhadap nilai residual.

> # Plot residual terhadap nilai prediksi
> ggplot(data_kasus, aes(x = fitted(model), 
+                       y = resid(model))) +
+                       geom_point() +
+                       geom_smooth() +
+   labs(title = "Nilai Residual Terhadap Nilai Prediksi")

Berdasarkan plot yang terbentuk, data akan membentuk suatu pola. Dari pola tersebut dapat dilihat perbedaan ragam residual dan model apakah telah memenuhi uji asumsi heteroskedastisitas.

3.4.2 Asumsi Normalitas

Untuk melakukan asumsi normalitas digunakan fungsi ‘ggplot’ untuk menampilkan plot dari residual persamaan regresi. Kemudian grafik ditambah dengan garis regresi untuk melihat pola residual dengan lebih jelas.

> # Plot residual
> ggplot(data_kasus, aes(sample = resid(model))) + 
+                                stat_qq() +
+                                geom_abline(color = "cyan") +
+                                labs(title = "Normal Q-Q Plot")

Plot yang berdistribusi normal akan memperlihatkan sebaran data yang mendekati garis lurus.

3.4.3 Asumsi Multikoliniearitas

Memeriksa asumsi multikoliniearitas dapat dilakukan dengan membuat matriks korelasi data kemudian dilanjutkan dengan plot sebagai berikut:

> # Menghitung matriks korelasi
> cor_matriks <- cor(data_kasus)
> 
> # Plot matriks korelasi
> ggplot(melt(cor_matriks), aes(x = Var1, y = Var2, fill = value)) +
+                          geom_tile() +
+                          scale_fill_gradient2() +
+                          labs(title = "Matriks Korelasi")

Warna dalam plot matriks korelasi dapat menunjukkan kekuatan dan arah hubungan antar variabel. Warna yang lebih terang atau lebih intens menunjukkan hubungan yang lebih kuat, sedangkan warna yang lebih gelap menunjukkan hubungan yang lebih lemah. Warna positif (misalnya, semakin dekat ke merah) menunjukkan hubungan positif, sementara warna negatif (misalnya, semakin dekat ke biru) menunjukkan hubungan negatif.

4 HASIL DAN PEMBAHASAN

Berdasarkan analisis regresi yang telah dilakukan, diperoleh hasil sebagai berikut:

  1. Estimasi Koefisien Regresi
  1. Signifikansi Statistik Berdasarkan uji tersebut, diperoleh nilai p kurang dari alfa maka dapat disimpulkan bahwa variabel independen X1 dan X2 berpengaruh signifikan terhadap variabel dependen Y.

  2. Asumsi Regresi

5 KESIMPULAN

Berdasarkan uji yang telah dilakukan, dapat disimpulkan bahwa analisis regresi yang telah dilakukan masih mengandung kesalahan karena data yang digunakan belum memenuhi asumsi yang dibutuhkan. Oleh karena itu, perlu dilakukan beberapa langkah penyesuaian agar data memenuhi asumsi yang dibutuhkan.

6 DAFTAR PUSTAKA