Latihan Soal PML P4

Studi Kasus

Diberikan data tentang IQ dan tingkat kehadiran sepuluh siswa di kelas yang diperkirakan mempengaruhi nilai UAS.

# Input Data
Siswa <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
X1  <- c(60, 70, 75, 80, 80, 90, 95, 95, 100, 100) # Tingkat kehadiran (%)
X2  <- c(110, 120, 115, 130, 110, 120, 120, 125, 110, 120) # IQ
Y   <- c(65, 70, 75, 75, 80, 80, 85, 95, 90, 98) # Nilai UAS
data <- data.frame(Siswa, X1, X2, Y)
data

##    Siswa  X1  X2  Y
## 1      1  60 110 65
## 2      2  70 120 70
## 3      3  75 115 75
## 4      4  80 130 75
## 5      5  80 110 80
## 6      6  90 120 80
## 7      7  95 120 85
## 8      8  95 125 95
## 9      9 100 110 90
## 10    10 100 120 98

Pertanyaan:

1. Buatlah persamaan regresi linier berganda! (hitung beta duga secara manual di R dan bandingkan dengan fungsi lm)

2. Lakukan Uji-F! (interpretasikan hasilnya)

3. Lakukan Uji-t! (interpretasikan hasilnya)

4. Berapa koefisien determinansinya? Interpretasi hasil ini!

5. Lakukan uji asumsi dan jelaskan hasilnya!

Persamaan Regresi Linier Berganda

Regresi linier berganda merupakan metode analisis yang digunakan untuk mengkaji hubungan antara satu variabel dependen dengan dua atau lebih variabel independen. Dalam studi kasus ini, nilai UAS (Y) diduga dipengaruhi oleh tingkat kehadiran (X₁) dan IQ (X₂). Model regresi tersebut digunakan untuk memperkirakan seberapa besar pengaruh masing-masing variabel independen terhadap variabel dependen, baik secara bersama-sama (simultan) maupun secara individu (parsial).

Selanjutnya, koefisien regresi ditentukan melalui dua cara, yaitu perhitungan manual dengan metode matriks dan penggunaan fungsi lm pada R untuk memvalidasi hasil perhitungan tersebut.

Manual

Untuk memperoleh nilai koefisien regresi secara manual, data terlebih dahulu disusun ke dalam bentuk matriks X sebagai variabel bebas dan Y sebagai variabel terikat.

Selanjutnya, perhitungan koefisien dilakukan menggunakan persamaan:

$$
\hat{\beta} = (X^T X)^{-1} X^T Y
$$

Tahapan yang dilakukan meliputi mencari transpose dari matriks $X$, menghitung hasil perkalian $X^T X$, menentukan inversnya, lalu mengalikannya dengan $X^T Y$. Dari proses tersebut diperoleh nilai koefisien $\beta_0$, $\beta_1$, dan $\beta_2$ yang membentuk model regresi.

# Persamaan Regresi Linier Berganda
# Manual
# Membuat Matriks X dengan Intercept
X <- cbind(1, X1, X2)
X

##          X1  X2
##  [1,] 1  60 110
##  [2,] 1  70 120
##  [3,] 1  75 115
##  [4,] 1  80 130
##  [5,] 1  80 110
##  [6,] 1  90 120
##  [7,] 1  95 120
##  [8,] 1  95 125
##  [9,] 1 100 110
## [10,] 1 100 120

# Hitung Beta Duga
betad <- solve(t(X) %*% X) %*% t(X) %*% Y
betad

##          [,1]
##    23.0544545
## X1  0.7372330
## X2 -0.0343275

Berikut persamaan regresi linier berganda dari hasil perhitungan tersebut:

\[ \hat{Y} = 23.0544545 + 0.7372330 X_1 - 0.0343275 X_2 \]

Hal ini berarti bahwa setiap peningkatan satu persen kehadiran ($X_1$) akan menyebabkan kenaikan nilai UAS ($Y$) sebesar 0.737. Sebaliknya, setiap peningkatan satu poin IQ ($X_2$) akan menurunkan nilai UAS ($Y$) sebesar 0.034, dengan asumsi variabel lainnya tetap konstan.

Fungsi lm

Setelah koefisien regresi diperoleh melalui perhitungan manual, langkah selanjutnya adalah melakukan verifikasi dengan menggunakan fungsi lm pada R. Fungsi ini digunakan untuk mengestimasi model regresi linier berganda secara langsung, sehingga hasil yang diperoleh dapat dibandingkan dengan perhitungan manual sebelumnya.

# Menggunakan Fungsi lm
model <- lm(Y ~ X1 + X2)
summary(model)

## 
## Call:
## lm(formula = Y ~ X1 + X2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.2861 -2.8939  0.0296  1.6791  6.1993 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 23.05445   25.57161   0.902 0.397247    
## X1           0.73723    0.10918   6.752 0.000264 ***
## X2          -0.03433    0.22051  -0.156 0.880686    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.346 on 7 degrees of freedom
## Multiple R-squared:  0.8719, Adjusted R-squared:  0.8353 
## F-statistic: 23.82 on 2 and 7 DF,  p-value: 0.0007523

Berdasarkan output fungsi lm, diperoleh nilai koefisien yang identik dengan hasil perhitungan manual, yaitu:\[ \hat{Y} = 23.05445 + 0.73723 X_1 - 0.03433 X_2 \]

Hal ini menegaskan bahwa hasil perhitungan manual yang telah dilakukan sebelumnya sudah tepat.

Uji-F

Sebelum melakukan pengujian secara parsial, terlebih dahulu dilakukan pengujian simultan melalui Uji-F. Pengujian ini bertujuan untuk mengetahui apakah variabel independen, yaitu kehadiran ($X_1$) dan IQ ($X_2$), secara bersama-sama berpengaruh terhadap variabel dependen, yaitu nilai UAS ($Y$).

1. Hipotesis

$H_0: \beta_1 = \beta_2 = 0$

$H_1: \text{minimal ada satu } \beta_i \neq 0$

2. Taraf Signifikansi

$\alpha=5\%$

3. Daerah Kritis

Tolak $H_0$ jika $p-value<\alpha$

4. Keputusan

Karena nilai $p-value=0.0007523<\alpha=0.05$ maka diputuskan tolak $H_0$

5. Kesimpulan

Secara bersama-sama variabel kehadiran ($X_1$) dan IQ ($X_2$) memiliki pengaruh yang signifikan terhadap nilai UAS ($Y$). Oleh karena itu, model regresi yang digunakan dinilai mampu menjelaskan hubungan antara variabel independen dan variabel dependen secara keseluruhan.

Uji-t

Uji-t merupakan metode pengujian yang digunakan untuk menilai pengaruh setiap variabel independen secara individu terhadap variabel dependen. Dengan uji ini, dapat diketahui apakah masing-masing variabel bebas, seperti kehadiran ($X_1$) dan IQ ($X_2$), memberikan pengaruh yang signifikan secara parsial terhadap nilai UAS ($Y$).

Kehadiran (X1)

1. Hipotesis

$H_0: \beta_1 = 0$

$H_1:\beta_1 \neq 0$

2. Taraf Signifikansi

$\alpha=5\%$

3. Daerah Kritis

Tolak $H_0$ jika $p-value<\alpha$

4. Keputusan

Karena nilai $p-value=0.000264<\alpha=0.05$ maka diputuskan tolak $H_0$

5. Kesimpulan

Berdasarkan keputusan, variabel kehadiran ($X_1$) memiliki pengaruh yang signifikan terhadap nilai UAS ($Y$).

IQ (X2)

1. Hipotesis

$H_0: \beta_2 = 0$

$H_1:\beta_2 \neq 0$

2. Taraf Signifikansi

$\alpha=5\%$

3. Daerah Kritis

Tolak $H_0$ jika $p-value<\alpha$

4. Keputusan

Karena nilai $p-value=0.880686>\alpha=0.05$ maka diputuskan gagal menolak $H_0$

5. Kesimpulan

Berdasarkan keputusan, variabel IQ ($X_2$) tidak memiliki pengaruh yang signifikan terhadap nilai UAS ($Y$).

Koefisien Determinansi

Nilai Multiple R-squared sebesar 0.8719 menunjukkan bahwa sekitar 87.19% variasi pada nilai UAS ($Y$) mampu dijelaskan oleh variabel kehadiran ($X_1$) dan IQ ($X_2$) yang terdapat dalam model, sedangkan sisanya sebesar 12.81% dijelaskan oleh faktor lain di luar model.

Adapun Adjusted R-squared sebesar 0.8353 menunjukkan bahwa setelah memperhitungkan jumlah variabel yang digunakan, sekitar 83.53%pada nilai UAS ($Y$) masih dapat dijelaskan oleh model. Nilai ini dianggap lebih representatif karena telah disesuaikan dengan kompleksitas model yang digunakan.

Uji Asumsi

Setelah model regresi diuji, tahap berikutnya adalah melakukan uji asumsi klasik. Tujuan dari pengujian ini adalah untuk memastikan bahwa model memenuhi asumsi dasar, sehingga hasil estimasi yang diperoleh valid dan bebas dari bias.

Normalitas

Uji normalitas digunakan untuk memeriksa apakah residual dalam model regresi terdistribusi secara normal, karena asumsi ini merupakan salah satu syarat utama dalam regresi linier klasik.

# Uji Asumsi
# Normalitas
shapiro.test(residuals(model))

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(model)
## W = 0.95125, p-value = 0.6833

Pengujian hipotesisnya adalah sebagai berikut:

1. Hipotesis

$H_0:$ error terdistribusi normal

$H_1:$ error tidak terdistribusi normal

2. Taraf Signifikansi

$\alpha=5\%$

3. Daerah Kritis

Tolak $H_0$ jika $p-value<\alpha$

4. Keputusan

Karena nilai $p-value=0.6833>\alpha=0.05$ maka diputuskan gagal menolak $H_0$

5. Kesimpulan

Error terdistribusi normal, sehingga asumsi normalitas terpenuhi.

Heteroskedastisitas

Setelah uji normalitas, langkah berikutnya adalah memeriksa homogenitas varians residual atau uji heteroskedastisitas. Tujuan pengujian ini adalah untuk memastikan bahwa varians residual bersifat homogen di seluruh pengamatan.

# Heteroskedastisitas
library(lmtest)
bptest(model)

## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 5.905, df = 2, p-value = 0.05221

Pengujian hipotesisnya adalah sebagai berikut:

1. Hipotesis

$H_0:$ keragaman dari error menyebar homogen

$H_1:$ keragaman dari error menyebar tidak homogen

2. Taraf Signifikansi

$\alpha=5\%$

3. Daerah Kritis

Tolak $H_0$ jika $p-value<\alpha$

4. Keputusan

Karena nilai $p-value=0.05221>\alpha=0.05$ maka diputuskan gagal menolak $H_0$

5. Kesimpulan

keragaman dari error menyebar homogen, sehingga asumsi homogenitas terpenuhi.

Autokorelasi

Setelah asumsi normalitas dan homogenitas varians terpenuhi, langkah selanjutnya adalah melakukan pemeriksaan autokorelasi. Uji ini bertujuan untuk mengecek apakah residual pada satu pengamatan berkorelasi dengan residual pada pengamatan lainnya.

# Autokorelasi
dwtest(model)

## 
##  Durbin-Watson test
## 
## data:  model
## DW = 2.594, p-value = 0.8013
## alternative hypothesis: true autocorrelation is greater than 0

Pengujian hipotesisnya adalah sebagai berikut:

1. Hipotesis

$H_0:$ tidak ada korelasi pada residual

$H_1:$ ada korelasi pada residual

2. Taraf Signifikansi

$\alpha=5\%$

3. Daerah Kritis

Tolak $H_0$ jika $p-value<\alpha$

4. Keputusan

Karena nilai $p-value=0.8013>\alpha=0.05$ maka diputuskan gagal menolak $H_0$

5. Kesimpulan

Tidak ada korelasi pada residual, sehingga asumsi independensi residual pada model regresi terpenuhi.

Multikolinearitas

Setelah asumsi normalitas, homogenitas, dan independensi residual terpenuhi, tahap selanjutnya adalah memeriksa multikolinearitas. Pengujian ini dilakukan untuk mengetahui apakah terdapat hubungan yang terlalu kuat antarvariabel independen dalam model.

# Multikolinearitas
library(car)
vif(model)

##       X1       X2 
## 1.055571 1.055571

Berdasarkan hasil perhitungan Variance Inflation Factor (VIF), nilai VIF untuk $X_1$ dan $X_2$ masing-masing sebesar 1.056. Karena nilai VIF kurang dari 10, ini menunjukkan bahwa tidak ada masalah multikolinearitas yang serius antara variabel independen.