Dalam analisis statistika seringkali diperlukan suatu metode untuk mengetahui hubungan antara dua variabel. Salah satu metode yang umum digunakan adalah regresi linear sederhana.
Pada analisis ini digunakan dua variabel yaitu:
Tujuan analisis adalah mengetahui apakah variabel X berpengaruh terhadap Y menggunakan model regresi linear sederhana.
Regresi linear sederhana merupakan metode statistika yang digunakan untuk mengetahui hubungan antara satu variabel independen dengan satu variabel dependen.
Model regresi linear sederhana dinyatakan sebagai:
\[ Y = \beta_0 + \beta_1X + \varepsilon \]
Dimana:
Koefisien regresi diestimasi menggunakan metode Ordinary Least Squares (OLS) yang bertujuan meminimalkan jumlah kuadrat error.
Data diimport dari file Excel menggunakan package readxl.
## # A tibble: 6 × 2
## X Y
## <dbl> <dbl>
## 1 7.88 1059.
## 2 5.84 843.
## 3 6.38 1165.
## 4 4.53 1049.
## 5 7.8 1491.
## 6 7.25 1779.
Grafik berikut menunjukkan hubungan antara variabel X dan Y.
## `geom_smooth()` using formula = 'y ~ x'
Jika titik-titik data membentuk pola garis lurus maka terdapat indikasi hubungan linear antara variabel.
Model regresi dibentuk menggunakan fungsi lm().
##
## Call:
## lm(formula = Y ~ X, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -893.8 -185.9 37.1 187.4 582.7
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 991.99 158.31 6.266 3.07e-07 ***
## X 54.47 13.54 4.023 0.000282 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 298.7 on 36 degrees of freedom
## Multiple R-squared: 0.3101, Adjusted R-squared: 0.2909
## F-statistic: 16.18 on 1 and 36 DF, p-value: 0.0002823
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 991.98669 | 158.3116 | 6.266037 | 0.0000003 |
| X | 54.47192 | 13.5418 | 4.022503 | 0.0002823 |
Tabel di atas menunjukkan hasil estimasi parameter regresi.
Sebelum model regresi digunakan, perlu dilakukan pengujian terhadap beberapa asumsi klasik.
Uji normalitas digunakan untuk mengetahui apakah residual dari model regresi berdistribusi normal.
Hipotesis:
\[ H_0 : \text{Residual berdistribusi normal} \]
\[ H_1 : \text{Residual tidak berdistribusi normal} \]
Jika nilai p-value > 0.05, maka residual dianggap berdistribusi normal.
##
## Shapiro-Wilk normality test
##
## data: res
## W = 0.97492, p-value = 0.5402
Visualisasi normalitas residual: Jika titik-titik mengikuti garis diagonal maka residual berdistribusi normal.
Uji linieritas bertujuan untuk mengetahui apakah hubungan antara variabel X dan Y bersifat linear.
Jika nilai p-value > 0.05, maka asumsi linearitas terpenuhi.
##
## RESET test
##
## data: model
## RESET = 1.2069, df1 = 2, df2 = 34, p-value = 0.3116
Homoskedastisitas menunjukkan bahwa varians residual bersifat konstan untuk seluruh pengamatan.
Jika residual menyebar secara acak dan tidak membentuk pola tertentu, maka asumsi homoskedastisitas terpenuhi.
Autokorelasi terjadi apabila residual pada suatu pengamatan berkorelasi dengan residual pada pengamatan lainnya.
Untuk menguji autokorelasi digunakan Durbin Watson Test.
Hipotesis:
\[ H_0 : \text{Tidak terdapat autokorelasi} \]
\[ H_1 : \text{Terdapat autokorelasi} \]
Jika nilai p-value > 0.05, maka tidak terdapat autokorelasi.
##
## Durbin-Watson test
##
## data: model
## DW = 1.7338, p-value = 0.1717
## alternative hypothesis: true autocorrelation is greater than 0
Uji F digunakan untuk mengetahui apakah model regresi secara keseluruhan signifikan.
Hipotesis:
\[ H_0 : \beta_0 = \beta_1 = 0 \]
\[ H_1 : \text{Minimal terdapat satu parameter yang tidak sama dengan nol} \]
Jika p-value < 0.05, maka model regresi signifikan.
## Analysis of Variance Table
##
## Response: Y
## Df Sum Sq Mean Sq F value Pr(>F)
## X 1 1443777 1443777 16.18 0.0002823 ***
## Residuals 36 3212255 89229
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Uji t digunakan untuk mengetahui pengaruh variabel independen terhadap variabel dependen.
Hipotesis:
\[ H_0 : \beta_1 = 0 \]
\[ H_1 : \beta_1 \neq 0 \]
Jika p-value < 0.05, maka variabel X berpengaruh signifikan terhadap variabel Y.
##
## Call:
## lm(formula = Y ~ X, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -893.8 -185.9 37.1 187.4 582.7
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 991.99 158.31 6.266 3.07e-07 ***
## X 54.47 13.54 4.023 0.000282 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 298.7 on 36 degrees of freedom
## Multiple R-squared: 0.3101, Adjusted R-squared: 0.2909
## F-statistic: 16.18 on 1 and 36 DF, p-value: 0.0002823
Koefisien determinasi digunakan untuk mengukur seberapa besar kemampuan variabel independen dalam menjelaskan variabel dependen.
\[ R^2 = \frac{SSR}{SST} \]
Nilai \(R^2\) berada pada rentang 0 sampai 1.
Semakin besar nilai \(R^2\), maka semakin baik model dalam menjelaskan variabel dependen.
## [1] 0.3100875
Nilai R² = 0.31 menunjukkan bahwa sebesar
31.01% variasi variabel Y dapat dijelaskan oleh variabel
X.
Persamaan regresi yang diperoleh adalah:
\[ Y = 991.987 + 54.472X \]
Interpretasi model:
Nilai p-value = 3^{-4}.
## Karena p-value < 0.05 maka variabel X berpengaruh signifikan terhadap variabel Y.
Berdasarkan analisis regresi linear sederhana diperoleh beberapa kesimpulan: