Latar Belakang

Durasi letusan geyser merupakan salah satu informasi yang dapat digunakan untuk memahami pola aktivitas geyser Old Faithful. Diduga terdapat hubungan antara lamanya letusan yang terjadi dengan waktu tunggu hingga letusan berikutnya. Untuk mengetahui hubungan tersebut secara kuantitatif, digunakan metode regresi linear sederhana dengan variabel eruptions sebagai variabel independen (X) dan variabel waiting sebagai variabel dependen (Y) pada data Faithful di R.

Deskripsi Data

data("faithful")
head(faithful)
##   eruptions waiting
## 1     3.600      79
## 2     1.800      54
## 3     3.333      74
## 4     2.283      62
## 5     4.533      85
## 6     2.883      55

Dataset faithful memiliki dua variabel utama, yaitu:

  • Eruptions merupakan durasi letusan geyser (menit)

  • Waiting merupakan waktu tunggu sebelum letusan berikutnya (menit)

Statistika Deskriptif

summary(faithful)
##    eruptions        waiting    
##  Min.   :1.600   Min.   :43.0  
##  1st Qu.:2.163   1st Qu.:58.0  
##  Median :4.000   Median :76.0  
##  Mean   :3.488   Mean   :70.9  
##  3rd Qu.:4.454   3rd Qu.:82.0  
##  Max.   :5.100   Max.   :96.0

Model Regresi Linear Sederhana

Model regresi linear sederhana yang digunakan dalam analisis ini dapat dinyatakan sebagai berikut. \[ Y = \beta_0 + \beta_1 X_1 + \epsilon \]

Estimasi Parameter

model_regresi <- lm(waiting ~ eruptions, data = faithful)
summary(model_regresi)
## 
## Call:
## lm(formula = waiting ~ eruptions, data = faithful)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -12.0796  -4.4831   0.2122   3.9246  15.9719 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  33.4744     1.1549   28.98   <2e-16 ***
## eruptions    10.7296     0.3148   34.09   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.914 on 270 degrees of freedom
## Multiple R-squared:  0.8115, Adjusted R-squared:  0.8108 
## F-statistic:  1162 on 1 and 270 DF,  p-value: < 2.2e-16

Berdasarkan hasil estimasi parameter yang telah dilakukan, diperoleh model regresi linear sederhana yang menggambarkan hubungan antara variabel independen dan variabel dependen sebagai berikut. \[ Waiting = 33.4744 + 10.7296 Eruptions \]

Uji Signifikansi (Uji t)

Uji 𝑡 bertujuan untuk mengetahui apakah variabel independen (𝑋) secara parsial memiliki pengaruh yang signifikan terhadap variabel dependen (𝑌). Jika nilai signifikansi (p-value) yang diperoleh lebih kecil dari 0,05, maka hipotesis nol ditolak.

Berdasarkan hasil estimasi parameter yang diperoleh, diketahui bahwa nilai p-value < 0,05 sehingga terdapat cukup bukti untuk menolak hipotesis nol. Maka, dapat disimpulkan bahwa variabel independen secara parsial memiliki pengaruh yang signifikan terhadap variabel dependen.

Uji Kecocokan Model (Uji F)

Uji 𝐹 digunakan untuk mengetahui apakah variabel independen secara bersama-sama (simultan) berpengaruh terhadap variabel dependen. Jika nilai signifikansi (p-value) < 0,05 atau F(Hitung) < F(Tabel), maka hipotesis nol ditolak.

f_tabel <- qf(0.05, 1, 270, lower.tail = FALSE)

Diperoleh nilai F(Hitung) dan F(Tabel) sebagai berikut. \[ F_h = 1162.0626 \]

\[ F_t = 3.8761 \]

Berdasarkan nilai tersebut, diketahui bahwa F(Hitung) > F(Tabel) sehingga terdapat cukup bukti untuk menolak hipotesis nol. Maka, dapat disimpulkan bahwa variabel independen secara simultan memiliki pengaruh yang signifikan terhadap variabel dependen.

Scatter Plot

plot(faithful$eruptions, faithful$waiting,
     main = "Scatter Plot Durasi Letusan dan Waktu Tunggu",
     xlab = "Durasi Letusan (Eruptions)",
     ylab = "Waktu Tunggu (Waiting)",
     pch = 19,
     col = "blue")

Scatter plot menunjukkan adanya kecenderungan hubungan positif antara durasi letusan (eruptions) dan waktu tunggu (waiting). Selain itu, data terlihat membentuk dua kelompok utama, yaitu kelompok letusan pendek dengan waktu tunggu lebih singkat dan kelompok letusan panjang dengan waktu tunggu yang lebih lama. Hal ini mengindikasikan bahwa semakin lama durasi letusan, waktu tunggu hingga letusan berikutnya cenderung meningkat.

Uji Homoskedastisitas

Uji homoskedastisitas bertujuan untuk mengetahui apakah varians residual pada model regresi bersifat konstan pada seluruh nilai variabel independen. Hipotesis nol ditolak apabila nilai signifikansi (p-value) lebih kecil dari 0,05, yang menunjukkan adanya heteroskedastisitas dalam model.

library(lmtest)
## Warning: package 'lmtest' was built under R version 4.3.3
## Loading required package: zoo
## Warning: package 'zoo' was built under R version 4.3.3
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
bptest(model_regresi)
## 
##  studentized Breusch-Pagan test
## 
## data:  model_regresi
## BP = 0.0041189, df = 1, p-value = 0.9488

Berdasarkan nilai tersebut, diketahui bahwa p-value < 0,05 sehingga terdapat cukup bukti untuk menolak hipotesis nol. Maka, dapat disimpulkan bahwa terjadi heteroskedastisitas pada model regresi, sehingga asumsi homoskedastisitas tidak terpenuhi.

Uji Normalitas Residual

Uji normalitas residual bertujuan untuk mengetahui apakah residual pada model regresi berdistribusi normal. Jika nilai signifikansi (p-value) yang diperoleh lebih kecil dari 0.05, maka hipotesis nol ditolak.

Uji Formal:

residual_model <- resid(model_regresi)
shapiro.test(residual_model)
## 
##  Shapiro-Wilk normality test
## 
## data:  residual_model
## W = 0.98851, p-value = 0.02947

Berdasarkan nilai tersebut, diketahui bahwa p-value < 0,05 sehingga terdapat cukup bukti untuk menolak hipotesis nol. Maka, dapat disimpulkan bahwa data residual tidak berdistribusi normal.

Uji Visual:

hist(residual_model,
     main="Histogram Residual",
     xlab="Residual",
     col="lightblue")

qqnorm(residual_model)
qqline(residual_model, col="red")

Berdasarkan Normal Q–Q Plot, sebagian besar titik residual berada di sekitar dan mengikuti garis diagonal. Hal ini menunjukkan bahwa residual cenderung berdistribusi normal, meskipun terdapat sedikit penyimpangan pada bagian ekor. Secara umum, asumsi normalitas residual dapat dianggap terpenuhi.

Koefisien Korelasi

Koefisien korelasi digunakan untuk mengukur kekuatan dan arah hubungan linear antara dua variabel. Nilai koefisien ini menunjukkan seberapa kuat keterkaitan antara variabel yang dianalisis.

R <- cor(faithful$eruptions, faithful$waiting)

Diperoleh nilai koefisien korelasi sebagai berikut. \[ R = 0.9008 \] Nilai koefisien korelasi tersebut menunjukkan bahwa terdapat hubungan linear positif yang sangat kuat antara kedua variabel. Hal ini berarti bahwa ketika nilai variabel independen meningkat, nilai variabel dependen cenderung meningkat dengan pola hubungan yang kuat.

Koefisien Determinasi

Koefisien determinasi digunakan untuk mengukur seberapa besar proporsi variasi pada variabel dependen yang dapat dijelaskan oleh variabel independen dalam model regresi. Nilai ini menunjukkan kemampuan model dalam menjelaskan perubahan pada variabel dependen.

\[ R^2 = 0.8115 \]

Nilai koefisien determinasi tersebut menunjukkan bahwa sekitar 81,15% variasi pada variabel dependen dapat dijelaskan oleh variabel independen dalam model regresi. Sementara itu, 18,85% sisanya dipengaruhi oleh faktor lain di luar model yang tidak dimasukkan dalam analisis.

Kesimpulan

Berdasarkan hasil analisis, diperoleh model akhir regresi linear sederhana sebagai berikut.

\[ \hat{Waiting} = 33.4744 + 10.7296 \, Eruptions \]

Model ini menunjukkan bahwa semakin lama durasi letusan geyser (eruptions), maka waktu tunggu hingga letusan berikutnya (waiting) cenderung meningkat.

Namun, hasil pengujian asumsi menunjukkan adanya heteroskedastisitas dan residual yang tidak berdistribusi normal, sehingga beberapa asumsi dasar pada regresi linear sederhana tidak sepenuhnya terpenuhi. Pelanggaran terhadap asumsi-asumsi tersebut dapat memengaruhi ketepatan estimasi standar error serta keandalan pengujian statistik seperti uji 𝑡dan uji 𝐹. Karena pada analisis ini tidak dilakukan transformasi data atau metode penyesuaian lain untuk mengatasi pelanggaran asumsi tersebut, maka hasil estimasi yang diperoleh berpotensi kurang akurat atau bias, sehingga interpretasi terhadap model perlu dilakukan dengan hati-hati.