ANALISIS REGRESI LINEAR SEDERHANA


I. Permasalahan

Dalam analisis statistika seringkali diperlukan suatu metode untuk mengetahui hubungan antara dua variabel. Salah satu metode yang umum digunakan adalah regresi linear sederhana.

Pada analisis ini digunakan dua variabel yaitu:

Tujuan analisis adalah mengetahui apakah variabel X berpengaruh terhadap Y menggunakan model regresi linear sederhana.


II. Dasar Teori

Regresi linear sederhana merupakan metode statistika yang digunakan untuk mengetahui hubungan antara satu variabel independen dengan satu variabel dependen.

Model regresi linear sederhana dinyatakan sebagai:

\[ Y = \beta_0 + \beta_1X + \varepsilon \]

Dimana:

Koefisien regresi diestimasi menggunakan metode Ordinary Least Squares (OLS) yang bertujuan meminimalkan jumlah kuadrat error.


III. Import Data

Data diimport dari file Excel menggunakan package readxl.

## # A tibble: 6 × 2
##       X     Y
##   <dbl> <dbl>
## 1  7.88 1059.
## 2  5.84  843.
## 3  6.38 1165.
## 4  4.53 1049.
## 5  7.8  1491.
## 6  7.25 1779.

IV. Visualisasi Data

Grafik berikut menunjukkan hubungan antara variabel X dan Y.

## `geom_smooth()` using formula = 'y ~ x'

Jika titik-titik data membentuk pola garis lurus maka terdapat indikasi hubungan linear antara variabel.


V. Pembentukan Model Regresi

Model regresi dibentuk menggunakan fungsi lm().

## 
## Call:
## lm(formula = Y ~ X, data = data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -893.8 -185.9   37.1  187.4  582.7 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   991.99     158.31   6.266 3.07e-07 ***
## X              54.47      13.54   4.023 0.000282 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 298.7 on 36 degrees of freedom
## Multiple R-squared:  0.3101, Adjusted R-squared:  0.2909 
## F-statistic: 16.18 on 1 and 36 DF,  p-value: 0.0002823

VI. Tabel Hasil Regresi

Hasil Estimasi Model Regresi
Estimate Std. Error t value Pr(>|t|)
(Intercept) 991.98669 158.3116 6.266037 0.0000003
X 54.47192 13.5418 4.022503 0.0002823

Tabel di atas menunjukkan hasil estimasi parameter regresi.


VII. Uji Asumsi

Sebelum model regresi digunakan, perlu dilakukan pengujian terhadap beberapa asumsi klasik.

1. Uji Normalitas

Uji normalitas digunakan untuk mengetahui apakah residual dari model regresi berdistribusi normal.

Hipotesis:

\[ H_0 : \text{Residual berdistribusi normal} \]

\[ H_1 : \text{Residual tidak berdistribusi normal} \]

Jika nilai p-value > 0.05, maka residual dianggap berdistribusi normal.

## 
##  Shapiro-Wilk normality test
## 
## data:  res
## W = 0.97492, p-value = 0.5402

Visualisasi normalitas residual: Jika titik-titik mengikuti garis diagonal maka residual berdistribusi normal.


2. Linieritas

Uji linieritas bertujuan untuk mengetahui apakah hubungan antara variabel X dan Y bersifat linear.

Jika nilai p-value > 0.05, maka asumsi linearitas terpenuhi.

## 
##  RESET test
## 
## data:  model
## RESET = 1.2069, df1 = 2, df2 = 34, p-value = 0.3116

3. Uji Homoskedastisitas

Homoskedastisitas menunjukkan bahwa varians residual bersifat konstan untuk seluruh pengamatan.

Jika residual menyebar secara acak dan tidak membentuk pola tertentu, maka asumsi homoskedastisitas terpenuhi.


4. Uji Autokorelasi

Autokorelasi terjadi apabila residual pada suatu pengamatan berkorelasi dengan residual pada pengamatan lainnya.

Untuk menguji autokorelasi digunakan Durbin Watson Test.

Hipotesis:

\[ H_0 : \text{Tidak terdapat autokorelasi} \]

\[ H_1 : \text{Terdapat autokorelasi} \]

Jika nilai p-value > 0.05, maka tidak terdapat autokorelasi.

## 
##  Durbin-Watson test
## 
## data:  model
## DW = 1.7338, p-value = 0.1717
## alternative hypothesis: true autocorrelation is greater than 0

VIII. Uji Signifikansi

Uji F

Uji F digunakan untuk mengetahui apakah model regresi secara keseluruhan signifikan.

Hipotesis:

\[ H_0 : \beta_0 = \beta_1 = 0 \]

\[ H_1 : \text{Minimal terdapat satu parameter yang tidak sama dengan nol} \]

Jika p-value < 0.05, maka model regresi signifikan.

## Analysis of Variance Table
## 
## Response: Y
##           Df  Sum Sq Mean Sq F value    Pr(>F)    
## X          1 1443777 1443777   16.18 0.0002823 ***
## Residuals 36 3212255   89229                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Uji t

Uji t digunakan untuk mengetahui pengaruh variabel independen terhadap variabel dependen.

Hipotesis:

\[ H_0 : \beta_1 = 0 \]

\[ H_1 : \beta_1 \neq 0 \]

Jika p-value < 0.05, maka variabel X berpengaruh signifikan terhadap variabel Y.

## 
## Call:
## lm(formula = Y ~ X, data = data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -893.8 -185.9   37.1  187.4  582.7 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   991.99     158.31   6.266 3.07e-07 ***
## X              54.47      13.54   4.023 0.000282 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 298.7 on 36 degrees of freedom
## Multiple R-squared:  0.3101, Adjusted R-squared:  0.2909 
## F-statistic: 16.18 on 1 and 36 DF,  p-value: 0.0002823

IX. Koefisien Determinasi

Koefisien determinasi digunakan untuk mengukur seberapa besar kemampuan variabel independen dalam menjelaskan variabel dependen.

\[ R^2 = \frac{SSR}{SST} \]

Nilai \(R^2\) berada pada rentang 0 sampai 1.

Semakin besar nilai \(R^2\), maka semakin baik model dalam menjelaskan variabel dependen.

## [1] 0.3100875

Nilai R² = 0.31 menunjukkan bahwa sebesar
31.01% variasi variabel Y dapat dijelaskan oleh variabel X.


X. Interpretasi Model (Otomatis dari Output)

Persamaan regresi yang diperoleh adalah:

\[ Y = 991.987 + 54.472X \]

Interpretasi model:

Nilai p-value = 3^{-4}.

## Karena p-value < 0.05 maka variabel X berpengaruh signifikan terhadap variabel Y.

XI. Kesimpulan

Berdasarkan analisis regresi linear sederhana diperoleh beberapa kesimpulan:

  1. Model regresi dapat digunakan untuk menjelaskan hubungan antara variabel X dan Y.
  2. Nilai koefisien regresi menunjukkan arah hubungan antara kedua variabel.
  3. Nilai koefisien determinasi menunjukkan kemampuan model dalam menjelaskan variasi variabel Y.
  4. Berdasarkan hasil pengujian signifikansi: