Pada tugas kali ini, kita akan menganalisis menggunakan analisis regresi sederhana dengan menggunakan peubah yang sudah diberikan. Kita akan mengolah menggunakan aplikasi R Studio dan excel.
Kita akan menganalisis data berikut,
apabila kita menggunakan R, kita dapat membangkitkannya menggunakan syntax berikut,
library(readxl)
## Warning: package 'readxl' was built under R version 4.3.2
data <- read_xlsx("D:/IPB/Statistika Sem 4/Analisis Regresi/Data Tugas Anreg.xlsx")
Kita akan menganalisis menggunakan peubah yang sudah diberikan, yaitu rataan_lamasekolah sebagai peubah penjelas (\(X_1\)) dan IPM sebagai peubah respons (\({Y}\)).
y<-data$IPM
x1<-data$rataan_lamasekolah
n <- nrow(data)
data<-data.frame(cbind(y,x1))
head(data)
## y x1
## 1 72.80 9.79
## 2 72.71 9.99
## 3 73.26 9.51
## 4 73.52 9.54
## 5 72.14 9.07
## 6 70.90 8.82
Apabila data diatas kita tuangkan dalam scatter plot, akan diperoleh bentuk seperti dibawah ini,
plot(x1,y)
Model regresi sederhana dapat dinotasikan sebagai berikut,
\[ {Y} = \beta_{0} + \beta_{1}X_1 + \epsilon \]
dengan
\({Y}\) = peubah respons/dependen
\({X_1}\) = peubah penjelas/independen ke-1
\(\beta_{0}\) = koefisien intersep
\(\beta_{1}\) = koefisien peubah respon ke-1
\(\epsilon\) = galat/error
Kita akan menggunakan Ordinary Least Square (OLS) atau Metode Kuadrat Terkecil (MKT) untuk menduga paramater regresi. Dengan menggunakan pendekatan pendugaan parameter kita bisa mendapatkan nilai \(\beta_{0}\) dan \(\beta_{1}\) melalui persamaan,
\[ \hat\beta_{0} = \bar{y}-\hat\beta_{1}\bar{x} \] \[ \hat{y_i} = \hat\beta_{0} + \hat\beta_{1}x_1 \]
dengan,
\(\hat\beta_{0}\) = nilai dugaan rataan \({Y}\) ketika \({X}\) bernilai nol
\(\hat\beta_{1}\) = nilai dugaan perubahan dugaan rataan \({Y}\) (nilai harapan \({Y}\)) jika \({X}\) berubah satu satuan
Untuk menduga \(\beta_{1}\) kita menggunakan rumus berikut,
\[ \hat\beta_{1}=\frac{\sum(y_i-\bar{y})(x_i-\bar{x})}{\sum(x_i-\bar{x})^2}=\frac{Sxy}{Sxx} \]
jika dihitung manual akan diperoleh sebagai berikut,
\(\sum{x}\) = 2446,92
\(\sum{y}\) = 314,39
\(\bar{x}\) = 9,25
\(\bar{y}\) = 71,97
\(\sum(y_i-\bar{y})(x_i-\bar{x})\) = 72,921
\(\sum(x_i-\bar{x})^2\) = 22,047
sehingga,\[ \hat\beta_{1}=\frac{\sum(y_i-\bar{y})(x_i-\bar{x})}{\sum(x_i-\bar{x})^2}=\frac{Sxy}{Sxx} = \frac{72,921}{22,047}\equiv 3,3075 \]
Untuk menduga \(\beta_{0}\) kita menggunakan rumus berikut,
\[ \hat\beta_{0}=\bar{y}-\hat\beta_{1}\bar{x} \]
jika dihitung manual akan diperoleh sebagai berikut,
\(\bar{y}\) = 71,97
\(\beta_{1}\) = 3,3075
\(\bar{x}\) = 9,25
sehingga, \[ \hat\beta_{0}=\bar{y}-\hat\beta_{1}\bar{x}=71,97-(3,3075)(9,25)\equiv41,376 \]
jika kita menggunakan R, bisa langsung menggunakan syntax berikut,
model <- lm(y~x1, data)
summary(model)
##
## Call:
## lm(formula = y ~ x1, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9.0327 -0.9422 0.4668 1.2907 5.9488
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 41.3834 5.6447 7.331 2.46e-08 ***
## x1 3.3076 0.6082 5.439 5.54e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.856 on 32 degrees of freedom
## Multiple R-squared: 0.4804, Adjusted R-squared: 0.4641
## F-statistic: 29.58 on 1 and 32 DF, p-value: 5.541e-06
Dengan menggunakan nilai pendugaan parameter \(\beta_{0}\) dan \(\beta_{1}\) , maka didapatkan bentuk persamaan regresi linear sederhananya, yaitu \[ \hat{y_i} = \hat\beta_{0} + \hat\beta_{1}x_1 \] \[ \hat{y_i} = 41,3834 + 3,3076x_1 \]
Jika diinterpretasikan,
41,3834 adalah dugaan rataan IPM (\({Y}\)) yang tidak dipengaruhi oleh peubah penjelas (\({X_1}\)) atau ketika rataan_lamasekolah bernilai 0
Setiap kenaikan satu satuan \(X_1\) terjadi kenaikan IPM \({Y}\) senilai 3,3076
Pengujian koefisien determinasi ini dilakukan dengan maksud mengukur kemampuan model dalam menerangkan seberapa pengaruh variabel independen secara bersama–sama (stimultan) mempengaruhi variabel dependen yang dapat diindikasikan oleh nilai adjusted R – Squared. Untuk menghitung koefisien determinasi bisa menggunakan persamaan,
\[ R^2=\frac{JKR}{JKT}=\frac{\sum(\hat{y_i}-\bar{y})^2}{\sum({y_i}-\bar{y})^2} \]
jika dihitung secara manual akan diperoleh sebagai berikut,
\(\sum(\hat{y_i}-\bar{y})^2\) = 241,194
\(\sum({y_i}-\bar{y})^2\) = 502,12
sehingga, \[ R^2=\frac{JKR}{JKT}=\frac{\sum(\hat{y_i}-\bar{y})^2}{\sum({y_i}-\bar{y})^2}=\frac{241,194}{502,12}\equiv0,4803 \]
summary(model)$r.squared
## [1] 0.4803557
Hal ini berarti nilai IPM (\({Y}\)) dijelaskan sebesar 48,03% oleh rataan_lamasekolah (\({X_1}\))
Penguraian keragaman dugaan persamaan regresi linear dapat dilakukan terlebih dahulu secara eksploratif melalui visualisasi sebagai berikut. Dari scatter plot yang dihasilkan, dapat diamati dua persamaan garis, yaitu \(\hat{Y}\) sebagai nilai harapan \(Y\) sekaligus dugaan persamaan dan \(\bar{Y}\) sebagai rata-rata dari seluruh nilai \(Y_i\) yang ada.
y.bar <- mean(y)
plot(x1,y)
abline(model, col="red")
text(30, 220, "Y_duga", adj = c(-0.1, 1.5), col = "red", cex = 0.8)
abline(h=y.bar, col="blue")
text(31, 185, "Y_bar", adj = c(-0.1, 1.5), col = "blue", cex = 0.8)
Sumber Keragaman | Derajat Bebas | Jumlah Kuadrat | Kuadrat Tengah |
---|---|---|---|
Regresi | 1 | \(\sum(\hat{y_i}-\bar{y})^2\) | \(\frac{JKR}{1}\) |
Galat | n-2 | \(\sum({y_i}-\hat{y_i})^2\) | \(\frac{JKG}{n-2}\) |
Total | n-1 | \(\sum({y_i}-\bar{y})^2\) |
Sehingga,
Sumber Keragaman | Derajat Bebas | Jumlah Kuadrat | Kuadrat Tengah |
---|---|---|---|
Regresi | 1 | 241,193 | 241,193 |
Galat | 32 | 260,9254 | 8,154 |
Total | 33 | 502,12 |
Dari nilai dugaan ragam galat di atas, dapat diduga pula nilai dugaan dari simpangan bakunya. Dugaan simpangan baku inilah yang disebut sebagai galat baku. Hubungan antara galat baku dan ragam galat dapat dituliskan sebagai berikut.
\[ S_e=\sqrt{KTG} \]
sehingga,\[ S_e=\sqrt{8,154} \]
\[ S_e=2,856 \]
Oleh karena simpangan baku merupakan akar kuadrat dari ragam, maka nilai dugaan galat baku model yang kita bentuk adalah \(S_e=\sqrt{8,154}\equiv2,856\)
(anova.model <- anova(model))
## Analysis of Variance Table
##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## x1 1 241.20 241.198 29.581 5.541e-06 ***
## Residuals 32 260.93 8.154
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(KTG <- anova.model$`Mean Sq`[2])
## [1] 8.153919
(galat.baku <- sqrt(KTG))
## [1] 2.855507