Pada tugas kali ini, kita akan menganalisis menggunakan analisis regresi sederhana dengan menggunakan peubah yang sudah diberikan. Kita akan mengolah menggunakan aplikasi R Studio dan excel.

Membangkitkan Data

Kita akan menganalisis data berikut,

apabila kita menggunakan R, kita dapat membangkitkannya menggunakan syntax berikut,

library(readxl)
## Warning: package 'readxl' was built under R version 4.3.2
data <- read_xlsx("D:/IPB/Statistika Sem 4/Analisis Regresi/Data Tugas Anreg.xlsx")

Kita akan menganalisis menggunakan peubah yang sudah diberikan, yaitu rataan_lamasekolah sebagai peubah penjelas (\(X_1\)) dan IPM sebagai peubah respons (\({Y}\)).

y<-data$IPM
x1<-data$rataan_lamasekolah
n <- nrow(data)
data<-data.frame(cbind(y,x1))
head(data)
##       y   x1
## 1 72.80 9.79
## 2 72.71 9.99
## 3 73.26 9.51
## 4 73.52 9.54
## 5 72.14 9.07
## 6 70.90 8.82

Eksplorasi Data

Apabila data diatas kita tuangkan dalam scatter plot, akan diperoleh bentuk seperti dibawah ini,

plot(x1,y)

Model Analisis Regresi Sederhana

Model regresi sederhana dapat dinotasikan sebagai berikut,

\[ {Y} = \beta_{0} + \beta_{1}X_1 + \epsilon \]

dengan

\({Y}\) = peubah respons/dependen

\({X_1}\) = peubah penjelas/independen ke-1

\(\beta_{0}\) = koefisien intersep

\(\beta_{1}\) = koefisien peubah respon ke-1

\(\epsilon\) = galat/error

Menduga Persamaan Garis Regresi dengan Metode Kuadrat Terkecil

Kita akan menggunakan Ordinary Least Square (OLS) atau Metode Kuadrat Terkecil (MKT) untuk menduga paramater regresi. Dengan menggunakan pendekatan pendugaan parameter kita bisa mendapatkan nilai \(\beta_{0}\) dan \(\beta_{1}\) melalui persamaan,

\[ \hat\beta_{0} = \bar{y}-\hat\beta_{1}\bar{x} \] \[ \hat{y_i} = \hat\beta_{0} + \hat\beta_{1}x_1 \]

dengan,

\(\hat\beta_{0}\) = nilai dugaan rataan \({Y}\) ketika \({X}\) bernilai nol

\(\hat\beta_{1}\) = nilai dugaan perubahan dugaan rataan \({Y}\) (nilai harapan \({Y}\)) jika \({X}\) berubah satu satuan

Penduga bagi koefisien kemiringan garis \(\beta_{1}\)

Untuk menduga \(\beta_{1}\) kita menggunakan rumus berikut,

\[ \hat\beta_{1}=\frac{\sum(y_i-\bar{y})(x_i-\bar{x})}{\sum(x_i-\bar{x})^2}=\frac{Sxy}{Sxx} \]

jika dihitung manual akan diperoleh sebagai berikut,

\(\sum{x}\) = 2446,92

\(\sum{y}\) = 314,39

\(\bar{x}\) = 9,25

\(\bar{y}\) = 71,97

\(\sum(y_i-\bar{y})(x_i-\bar{x})\) = 72,921

\(\sum(x_i-\bar{x})^2\) = 22,047

sehingga,\[ \hat\beta_{1}=\frac{\sum(y_i-\bar{y})(x_i-\bar{x})}{\sum(x_i-\bar{x})^2}=\frac{Sxy}{Sxx} = \frac{72,921}{22,047}\equiv 3,3075 \]

Penduga Bagi Intersep \(\beta_{0}\)

Untuk menduga \(\beta_{0}\) kita menggunakan rumus berikut,

\[ \hat\beta_{0}=\bar{y}-\hat\beta_{1}\bar{x} \]

jika dihitung manual akan diperoleh sebagai berikut,

\(\bar{y}\) = 71,97

\(\beta_{1}\) = 3,3075

\(\bar{x}\) = 9,25

sehingga, \[ \hat\beta_{0}=\bar{y}-\hat\beta_{1}\bar{x}=71,97-(3,3075)(9,25)\equiv41,376 \]

Jika menggunakan R

jika kita menggunakan R, bisa langsung menggunakan syntax berikut,

model <- lm(y~x1, data)
summary(model)
## 
## Call:
## lm(formula = y ~ x1, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -9.0327 -0.9422  0.4668  1.2907  5.9488 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  41.3834     5.6447   7.331 2.46e-08 ***
## x1            3.3076     0.6082   5.439 5.54e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.856 on 32 degrees of freedom
## Multiple R-squared:  0.4804, Adjusted R-squared:  0.4641 
## F-statistic: 29.58 on 1 and 32 DF,  p-value: 5.541e-06

Penduga Persamaan Garis Regresi

Dengan menggunakan nilai pendugaan parameter \(\beta_{0}\) dan \(\beta_{1}\) , maka didapatkan bentuk persamaan regresi linear sederhananya, yaitu \[ \hat{y_i} = \hat\beta_{0} + \hat\beta_{1}x_1 \] \[ \hat{y_i} = 41,3834 + 3,3076x_1 \]

Jika diinterpretasikan,

Koefisien Determinasi \(R^2\)

Pengujian koefisien determinasi ini dilakukan dengan maksud mengukur kemampuan model dalam menerangkan seberapa pengaruh variabel independen secara bersama–sama (stimultan) mempengaruhi variabel dependen yang dapat diindikasikan oleh nilai adjusted R – Squared. Untuk menghitung koefisien determinasi bisa menggunakan persamaan,

\[ R^2=\frac{JKR}{JKT}=\frac{\sum(\hat{y_i}-\bar{y})^2}{\sum({y_i}-\bar{y})^2} \]

jika dihitung secara manual akan diperoleh sebagai berikut,

\(\sum(\hat{y_i}-\bar{y})^2\) = 241,194

\(\sum({y_i}-\bar{y})^2\) = 502,12

sehingga, \[ R^2=\frac{JKR}{JKT}=\frac{\sum(\hat{y_i}-\bar{y})^2}{\sum({y_i}-\bar{y})^2}=\frac{241,194}{502,12}\equiv0,4803 \]

Jika menggunakan R

summary(model)$r.squared
## [1] 0.4803557

Hal ini berarti nilai IPM (\({Y}\)) dijelaskan sebesar 48,03% oleh rataan_lamasekolah (\({X_1}\))

Penguraian Keragaman

Penguraian keragaman dugaan persamaan regresi linear dapat dilakukan terlebih dahulu secara eksploratif melalui visualisasi sebagai berikut. Dari scatter plot yang dihasilkan, dapat diamati dua persamaan garis, yaitu \(\hat{Y}\) sebagai nilai harapan \(Y\) sekaligus dugaan persamaan dan \(\bar{Y}\) sebagai rata-rata dari seluruh nilai \(Y_i\) yang ada.

y.bar <- mean(y)
plot(x1,y)
abline(model, col="red")
text(30, 220, "Y_duga", adj = c(-0.1, 1.5), col = "red", cex = 0.8)
abline(h=y.bar, col="blue")
text(31, 185, "Y_bar", adj = c(-0.1, 1.5), col = "blue", cex = 0.8)

Tabel Sidik Ragam

Sumber Keragaman Derajat Bebas Jumlah Kuadrat Kuadrat Tengah
Regresi 1 \(\sum(\hat{y_i}-\bar{y})^2\) \(\frac{JKR}{1}\)
Galat n-2 \(\sum({y_i}-\hat{y_i})^2\) \(\frac{JKG}{n-2}\)
Total n-1 \(\sum({y_i}-\bar{y})^2\)

Sehingga,

Sumber Keragaman Derajat Bebas Jumlah Kuadrat Kuadrat Tengah
Regresi 1 241,193 241,193
Galat 32 260,9254 8,154
Total 33 502,12

Dari nilai dugaan ragam galat di atas, dapat diduga pula nilai dugaan dari simpangan bakunya. Dugaan simpangan baku inilah yang disebut sebagai galat baku. Hubungan antara galat baku dan ragam galat dapat dituliskan sebagai berikut.

\[ S_e=\sqrt{KTG} \]

sehingga,\[ S_e=\sqrt{8,154} \]

\[ S_e=2,856 \]

Oleh karena simpangan baku merupakan akar kuadrat dari ragam, maka nilai dugaan galat baku model yang kita bentuk adalah \(S_e=\sqrt{8,154}\equiv2,856\)

Jika Menggunakan R

(anova.model <- anova(model))
## Analysis of Variance Table
## 
## Response: y
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## x1         1 241.20 241.198  29.581 5.541e-06 ***
## Residuals 32 260.93   8.154                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(KTG <- anova.model$`Mean Sq`[2])
## [1] 8.153919
(galat.baku <- sqrt(KTG))
## [1] 2.855507