Durasi letusan geyser merupakan salah satu informasi yang dapat digunakan untuk memahami pola aktivitas geyser Old Faithful. Diduga terdapat hubungan antara lamanya letusan yang terjadi dengan waktu tunggu hingga letusan berikutnya. Untuk mengetahui hubungan tersebut secara kuantitatif, digunakan metode regresi linear sederhana dengan variabel eruptions sebagai variabel independen (X) dan variabel waiting sebagai variabel dependen (Y) pada data Faithful di R.
## eruptions waiting
## 1 3.600 79
## 2 1.800 54
## 3 3.333 74
## 4 2.283 62
## 5 4.533 85
## 6 2.883 55
Dataset faithful memiliki dua variabel utama, yaitu:
Eruptions merupakan durasi letusan geyser (menit)
Waiting merupakan waktu tunggu sebelum letusan berikutnya (menit)
## eruptions waiting
## Min. :1.600 Min. :43.0
## 1st Qu.:2.163 1st Qu.:58.0
## Median :4.000 Median :76.0
## Mean :3.488 Mean :70.9
## 3rd Qu.:4.454 3rd Qu.:82.0
## Max. :5.100 Max. :96.0
Model regresi linear sederhana yang digunakan dalam analisis ini dapat dinyatakan sebagai berikut. \[ Y = \beta_0 + \beta_1 X_1 + \epsilon \]
##
## Call:
## lm(formula = waiting ~ eruptions, data = faithful)
##
## Residuals:
## Min 1Q Median 3Q Max
## -12.0796 -4.4831 0.2122 3.9246 15.9719
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 33.4744 1.1549 28.98 <2e-16 ***
## eruptions 10.7296 0.3148 34.09 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.914 on 270 degrees of freedom
## Multiple R-squared: 0.8115, Adjusted R-squared: 0.8108
## F-statistic: 1162 on 1 and 270 DF, p-value: < 2.2e-16
Berdasarkan hasil estimasi parameter yang telah dilakukan, diperoleh model regresi linear sederhana yang menggambarkan hubungan antara variabel independen dan variabel dependen sebagai berikut. \[ Waiting = 33.4744 + 10.7296 Eruptions \]
Uji 𝑡 bertujuan untuk mengetahui apakah variabel independen (𝑋) secara parsial memiliki pengaruh yang signifikan terhadap variabel dependen (𝑌). Jika nilai signifikansi (p-value) yang diperoleh lebih kecil dari 0,05, maka hipotesis nol ditolak.
Berdasarkan hasil estimasi parameter yang diperoleh, diketahui bahwa nilai p-value < 0,05 sehingga terdapat cukup bukti untuk menolak hipotesis nol. Maka, dapat disimpulkan bahwa variabel independen secara parsial memiliki pengaruh yang signifikan terhadap variabel dependen.
Uji 𝐹 digunakan untuk mengetahui apakah variabel independen secara bersama-sama (simultan) berpengaruh terhadap variabel dependen. Jika nilai signifikansi (p-value) < 0,05 atau F(Hitung) < F(Tabel), maka hipotesis nol ditolak.
Diperoleh nilai F(Hitung) dan F(Tabel) sebagai berikut. \[ F_h = 1162.0626 \]
\[ F_t = 3.8761 \]
Berdasarkan nilai tersebut, diketahui bahwa F(Hitung) > F(Tabel) sehingga terdapat cukup bukti untuk menolak hipotesis nol. Maka, dapat disimpulkan bahwa variabel independen secara simultan memiliki pengaruh yang signifikan terhadap variabel dependen.
plot(faithful$eruptions, faithful$waiting,
main = "Scatter Plot Durasi Letusan dan Waktu Tunggu",
xlab = "Durasi Letusan (Eruptions)",
ylab = "Waktu Tunggu (Waiting)",
pch = 19,
col = "blue")
Scatter plot menunjukkan adanya kecenderungan hubungan positif
antara durasi letusan (eruptions) dan waktu tunggu
(waiting). Selain itu, data terlihat membentuk dua kelompok
utama, yaitu kelompok letusan pendek dengan waktu tunggu lebih singkat
dan kelompok letusan panjang dengan waktu tunggu yang lebih lama. Hal
ini mengindikasikan bahwa semakin lama durasi letusan, waktu tunggu
hingga letusan berikutnya cenderung meningkat.
Uji homoskedastisitas bertujuan untuk mengetahui apakah varians residual pada model regresi bersifat konstan pada seluruh nilai variabel independen. Hipotesis nol ditolak apabila nilai signifikansi (p-value) lebih kecil dari 0,05, yang menunjukkan adanya heteroskedastisitas dalam model.
## Warning: package 'lmtest' was built under R version 4.3.3
## Loading required package: zoo
## Warning: package 'zoo' was built under R version 4.3.3
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
##
## studentized Breusch-Pagan test
##
## data: model_regresi
## BP = 0.0041189, df = 1, p-value = 0.9488
Berdasarkan nilai tersebut, diketahui bahwa p-value < 0,05 sehingga terdapat cukup bukti untuk menolak hipotesis nol. Maka, dapat disimpulkan bahwa terjadi heteroskedastisitas pada model regresi, sehingga asumsi homoskedastisitas tidak terpenuhi.
Uji normalitas residual bertujuan untuk mengetahui apakah residual pada model regresi berdistribusi normal. Jika nilai signifikansi (p-value) yang diperoleh lebih kecil dari 0.05, maka hipotesis nol ditolak.
##
## Shapiro-Wilk normality test
##
## data: residual_model
## W = 0.98851, p-value = 0.02947
Berdasarkan nilai tersebut, diketahui bahwa p-value < 0,05 sehingga terdapat cukup bukti untuk menolak hipotesis nol. Maka, dapat disimpulkan bahwa data residual tidak berdistribusi normal.
Berdasarkan Normal Q–Q Plot, sebagian besar titik residual
berada di sekitar dan mengikuti garis diagonal. Hal ini menunjukkan
bahwa residual cenderung berdistribusi normal, meskipun terdapat sedikit
penyimpangan pada bagian ekor. Secara umum, asumsi normalitas residual
dapat dianggap terpenuhi.
Koefisien korelasi digunakan untuk mengukur kekuatan dan arah hubungan linear antara dua variabel. Nilai koefisien ini menunjukkan seberapa kuat keterkaitan antara variabel yang dianalisis.
Diperoleh nilai koefisien korelasi sebagai berikut. \[ R = 0.9008 \] Nilai koefisien korelasi tersebut menunjukkan bahwa terdapat hubungan linear positif yang sangat kuat antara kedua variabel. Hal ini berarti bahwa ketika nilai variabel independen meningkat, nilai variabel dependen cenderung meningkat dengan pola hubungan yang kuat.
Koefisien determinasi digunakan untuk mengukur seberapa besar proporsi variasi pada variabel dependen yang dapat dijelaskan oleh variabel independen dalam model regresi. Nilai ini menunjukkan kemampuan model dalam menjelaskan perubahan pada variabel dependen.
\[ R^2 = 0.8115 \]
Nilai koefisien determinasi tersebut menunjukkan bahwa sekitar 81,15% variasi pada variabel dependen dapat dijelaskan oleh variabel independen dalam model regresi. Sementara itu, 18,85% sisanya dipengaruhi oleh faktor lain di luar model yang tidak dimasukkan dalam analisis.
Berdasarkan hasil analisis, diperoleh model akhir regresi linear sederhana sebagai berikut.
\[ \hat{Waiting} = 33.4744 + 10.7296 \, Eruptions \]
Model ini menunjukkan bahwa semakin lama durasi letusan geyser (eruptions), maka waktu tunggu hingga letusan berikutnya (waiting) cenderung meningkat.
Namun, hasil pengujian asumsi menunjukkan adanya heteroskedastisitas dan residual yang tidak berdistribusi normal, sehingga beberapa asumsi dasar pada regresi linear sederhana tidak sepenuhnya terpenuhi. Pelanggaran terhadap asumsi-asumsi tersebut dapat memengaruhi ketepatan estimasi standar error serta keandalan pengujian statistik seperti uji 𝑡dan uji 𝐹. Karena pada analisis ini tidak dilakukan transformasi data atau metode penyesuaian lain untuk mengatasi pelanggaran asumsi tersebut, maka hasil estimasi yang diperoleh berpotensi kurang akurat atau bias, sehingga interpretasi terhadap model perlu dilakukan dengan hati-hati.