1 Inferensi dalam Regresi Linier

Setelah membaca bagian ini, Anda akan dapat:

  • Memahami distribusi perkiraan regresi.
  • Membuat perkiraan interval untuk parameter regresi, respons rata-rata, dan prediksi.
  • Uji signifikansi regresi.

Bagian terakhir kita mendefinisikan model regresi linier sederhana, \[Y_i = \beta_0 + \beta_1 x_i + \epsilon_i\] dimana \(\epsilon_i \sim N(0, \sigma^2)\). Kita kemudian menggunakan observasi \((x_i, y_i)\) untuk \(i = 1, 2, \ldots n\) untuk mencari nilai \(\beta_0\) dan \(\beta_1\) yang diminimalkan \[f(\beta_0, \beta_1) = \sum_{i = 1}^{n}(y_i - (\beta_0 + \beta_1 x_i))^2.\] Kita menyebut nilai-nilai ini \(\hat {β}_0\) dan \(\hat {β}_1\), yang kita temukan \[\begin{aligned} \hat{\beta}_1 &= \frac{S_{xy}}{S_{xx}} = \frac{\sum_{i = 1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i = 1}^{n}(x_i - \bar{x})^2}\\ \hat{\beta}_0 &= \bar{y} - \hat{\beta}_1 \bar{x}. \end{aligned}\] Kita juga memperkirakan \(\sigma^2\) menggunakan \(s_e^2\). Dengan kata lain, kita menemukan bahwa \(s_e\) adalah perkiraan dari \(\sigma\), dimana; \[s_e = \text{RSE} = \sqrt{\frac{1}{n - 2}\sum_{i = 1}^n e_i^2}\] yang juga kita sebut RSE (Residual Standard Error). Saat diterapkan ke data car, kita memperoleh hasil sebagai berikut:

## 
## Call:
## lm(formula = dist ~ speed, data = cars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -29.069  -9.525  -2.272   9.215  43.201 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -17.5791     6.7584  -2.601   0.0123 *  
## speed         3.9324     0.4155   9.464 1.49e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 15.38 on 48 degrees of freedom
## Multiple R-squared:  0.6511, Adjusted R-squared:  0.6438 
## F-statistic: 89.57 on 1 and 48 DF,  p-value: 1.49e-12

Bagian terakhir, kita hanya membahas Estimate, Residual standard error, dan Multiple R-squared values. Pada bagian ini, kita akan membahas semua informasi di bawah Koefisien dan juga F-statistik.

Untuk memulai, kita akan mencatat bahwa ada ekspresi lain yang setara untuk \(S_xy\) yang tidak kita lihat di bagian terakhir, \[S_{xy}= \sum_{i = 1}^{n}(x_i - \bar{x})(y_i - \bar{y}) = \sum_{i = 1}^{n}(x_i - \bar{x}) y_i.\] Ini mungkin kesetaraan yang mengejutkan. (Mungkin coba untuk membuktikannya.) Namun, ini akan berguna untuk mengilustrasikan konsep di bagian ini. Perhatikan bahwa, \(\hat {\beta}_1\) adalah statistik sampel ketika dihitung dengan data observasi seperti yang tertulis di atas, seperti juga \(\hat {\beta}_0\). Namun, di bagian ini akan lebih mudah untuk menggunakan keduanya \(\hat {\beta}_1\) dan \(\hat {\beta}_0\) sebagai variabel acak, itu adalah, kita belum mengamati nilai untuk setiap \(Y_i\). Jika demikian, kita akan menggunakan notasi yang sedikit berbeda, menggantikan huruf besar \(Y_i\) ke huruf kecil \(y_i\). \[\begin{aligned} \hat{\beta}_1 &= \frac{\sum_{i = 1}^{n}(x_i - \bar{x}) Y_i}{\sum_{i = 1}^{n}(x_i - \bar{x})^2} \\ \hat{\beta}_0 &= \bar{Y} - \hat{\beta}_1 \bar{x} \end{aligned}\]

Bagian terakhir, kita berpendapat bahwa perkiraan parameter model yang tidak diketahui ini \(\beta_0\) dan \(\beta_1\) bagus karena kita mendapatkannya dengan meminimalkan kesalahan. Sekarang kita akan membahas teorema Gauss-Markov yang membawa gagasan ini lebih jauh, menunjukkan bahwa perkiraan ini sebenarnya adalah perkiraan “terbaik”, dari sudut pandang tertentu.

1.1 Teorema Gauss–Markov

Teorema Gauss-Markov memberitahu kita bahwa ketika mengestimasi parameter model regresi linier sederhana \(\beta_0\) dan \(\beta_1\), \(\hat {\beta}_0\) dan \(\hat {\beta}_1\) yang kita peroleh adalah perkiraan tidak bias linier terbaik, atau BLUE singkatannya. (Kondisi aktual untuk teorema Gauss – Markov lebih santai daripada model SLR.) Sekarang kita akan membahas linier, tidak bias, dan terbaik yang berkaitan dengan perkiraan ini.

1.1.1 Linier

Dalam pengaturan SLR bahwa nilai \(x_i\) dianggap jumlah tetap dan diketahui. Kemudian perkiraan linier adalah salah satu yang dapat ditulis sebagai kombinasi linier dari \(Y_i\). Dalam kasus \(\hat {\beta}_1\) kita lihat \[\hat{\beta}_1 = \frac{\sum_{i = 1}^{n}(x_i - \bar{x}) Y_i}{\sum_{i = 1}^{n}(x_i - \bar{x})^2} = \sum_{i = 1}^n k_i Y_i = k_1 Y_1 + k_2 Y_2 + \cdots k_n Y_n\] dimana \(k_i = \displaystyle\frac{(x_i - \bar{x})}{\sum_{i = 1}^{n}(x_i - \bar{x})^2}\) Dengan cara yang sama, kita dapat menunjukkan bahwa \(\hat {\beta}_0\) dapat ditulis sebagai kombinasi linear dari \(Y_i\). Jadi baik \(\hat {\beta}_0\) dan \(\hat {\beta}_1\) adalah estimator linier.

1.1.2 Tidak Bias

Sekarang kita tahu bahwa perkiraan kita linier, seberapa baik perkiraan ini? Salah satu ukuran “kebaikan” dari suatu perkiraan adalah biasnya. Secara khusus, kita lebih suka perkiraan yang tidak bias, artinya nilai yang diharapkan adalah parameter yang sedang diperkirakan. Dalam kasus estimasi regresi, kita memiliki, \[\begin{aligned} \text{E}[\hat{\beta}_0] &= \beta_0 \\ \text{E}[\hat{\beta}_1] &= \beta_1. \end{aligned}\]

Ini memberi tahu kita bahwa, ketika kondisi model SLR terpenuhi, rata-rata perkiraan kita akan benar. Namun, seperti yang kita lihat pada bagian terakhir saat melakukan simulasi dari model SLR, itu tidak berarti bahwa setiap perkiraan individu akan benar. Hanya saja, jika kita mengulangi proses tersebut beberapa kali, rata-rata perkiraannya akan benar.

1.1.3 Terbaik

Sekarang, jika kita membatasi diri pada estimasi linier dan tidak bias, bagaimana kita mendefinisikan estimasi terbaik? Estimasi dengan varians minimum. Catatan pertama bahwa sangat mudah untuk membuat estimasi untuk \(\beta_1\) yang memiliki varians sangat rendah, tetapi tidak bias. Misalnya, tentukan: \[\hat{\theta}_{BAD} = 5.\] Kemudian, karena \(\hat {\theta}_BAD\) adalah nilai konstan, \(\text{Var}[\hat{\theta}_{BAD}] = 0.\) Namun sejak itu, \[\text{E}[\hat{\theta}_{BAD}] = 5\] kita mengatakan bahwa \(\hat {\theta}_BAD\) adalah penduga bias kecuali \(\beta_1=5\), yang tidak akan kita ketahui sebelumnya. Untuk alasan ini, ini adalah perkiraan yang buruk (kecuali kebetulan \(\beta_1=5\)) meskipun memiliki kemungkinan varian terkecil. Ini adalah bagian dari alasan kita membatasi diri pada perkiraan yang tidak bias. Apa gunanya perkiraan, jika memperkirakan kuantitas yang salah? Jadi sekarang, pertanyaan aslinya adalah, apa varians dari \(\hat {\beta}_0\) dan \(\hat {\beta}_1\) Mereka, \[\begin{aligned} \text{Var}[\hat{\beta}_0] &= \sigma^2 \left(\frac{1}{n} + \frac{\bar{x}^2}{S_{xx}}\right) \\ \text{Var}[\hat{\beta}_1] &= \frac{\sigma^2}{S_{xx}}. \end{aligned}\] Ini mengukur variabilitas perkiraan karena peluang acak selama pengambilan sampel. Apakah ini “yang terbaik”? Apakah varians ini sekecil kemungkinan yang bisa kita dapatkan? Anda hanya perlu mempercayai apa yang kita katakan karena menunjukkan bahwa ini benar berada di luar cakupan kursus ini.

1.2 Distribusi Sampling

Sekarang kita telah “mendefinisikan ulang” perkiraan untuk \(\hat {\beta}_0\) dan \(\hat {\beta}_1\) sebagai variabel acak, kita dapat mendiskusikan distribusi samplingnya, yang merupakan distribusi ketika statistik dianggap sebagai variabel acak. Karena \(\hat {\beta}_0\) dan \(\hat {\beta}_1\) adalah kombinasi linear dari \(Y_i\) dan setiap \(Y_i\) terdistribusi normal, maka \(\hat {\beta}_0\) dan \(\hat {\beta}_1\) juga mengikuti distribusi normal. Untuk \(\hat {\beta}_1\) kita katakan, \[\hat{\beta}_1 = \frac{S_{xy}}{S_{xx}} = \frac{\sum_{i = 1}^{n}(x_i - \bar{x}) Y_i}{\sum_{i = 1}^{n}(x_i - \bar{x})^2} \sim N\left( \beta_1, \ \frac{\sigma^2}{\sum_{i = 1}^{n}(x_i - \bar{x})^2} \right).\]

Atau lebih singkatnya, \[\hat{\beta}_1 \sim N\left( \beta_1, \frac{\sigma^2}{S_{xx}} \right).\]

Dan untuk \(\hat {\beta}_0\) \[\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{x} \sim N\left( \beta_0, \ \frac{\sigma^2 \sum_{i = 1}^{n}x_i^2}{n \sum_{i = 1}^{n}(x_i - \bar{x})^2} \right).\]

Atau lebih singkatnya, \(\hat{\beta}_0 \sim N\left( \beta_0, \sigma^2 \left(\frac{1}{n} + \frac{\bar{x}^2}{S_{xx}}\right) \right)\)

Pada titik ini kita telah lalai untuk membuktikan sejumlah hasil ini. Alih-alih bekerja melalui turunan yang membosankan dari distribusi sampling ini, kita akan membenarkan hasil ini untuk diri kita sendiri menggunakan simulasi. Catatan untuk pembaca saat ini: Derivasi dan bukti ini dapat ditambahkan ke lampiran di lain waktu. Anda juga dapat menemukan hasil ini di hampir semua buku teks regresi linier standar. Di UIUC, hasil ini kemungkinan besar akan disajikan di STAT 424 dan STAT 425. Namun, karena Anda tidak akan diminta untuk melakukan penurunan jenis ini dalam kursus ini, hasil tersebut untuk saat ini dihilangkan.

1.2.1 Simulasi Distribusi Sampling

Untuk memverifikasi hasil di atas, kita akan mensimulasikan sampel dengan ukuran \(n = 100\) dari model \[Y_i = \beta_0 + \beta_1 x_i + \epsilon_i\] dimana \(\epsilon_i \sim N(0, \sigma^2).\) Dalam hal ini, parameternya adalah:

  • \(\beta_0 = 3\)
  • \(\beta_1 = 6\)
  • \(\sigma^2 = 4\)

Kemudian, berdasarkan hal di atas, kita harus menemukan itu \[\hat{\beta}_1 \sim N\left( \beta_1, \frac{\sigma^2}{S_{xx}} \right)\] dan \[\hat{\beta}_0 \sim N\left( \beta_0, \sigma^2 \left(\frac{1}{n} + \frac{\bar{x}^2}{S_{xx}}\right) \right).\]

Pertama kita perlu memutuskan sebelumnya berapa nilai \(x\) kita untuk simulasi ini, karena nilai \(x\) dalam SLR juga dianggap kuantitas yang diketahui. Pilihan nilai \(x\) berubah-ubah. Di sini kita juga menetapkan bilangan untuk pengacakan, dan menghitung \(S_xx\) yang akan kita perlukan untuk selanjutnya.

Kita juga memperbaiki nilai parameter yang sudah kita tentukan.

Dengan informasi ini, kita tahu distribusi sampling seharusnya:

## [1] 0.1176238
## [1] 0.04

\[\hat{\beta}_1 \sim N( 6, 0.1176238)\] dan \[\hat{\beta}_0 \sim N( 3, 0.04).\] Itu adalah, \[\begin{aligned} \text{E}[\hat{\beta}_1] &= 6 \\ \text{Var}[\hat{\beta}_1] &= 0.1176238 \end{aligned}\] dan \[\begin{aligned} \text{E}[\hat{\beta}_0] &= 3 \\ \text{Var}[\hat{\beta}_0] &= 0.04. \end{aligned}\]

Artinya, Kita sekarang mensimulasikan data dari model ini sebanyak 10.000 kali. Perhatikan bahwa ini mungkin bukan cara yang terbaik dalam R dalam melakukan simulasi. Kita melakukan simulasi dengan cara ini dalam upaya untuk mendapatkan kejelasan. Misalnya, kita bisa menggunakan fungsi sim_slr () dari bagian sebelumnya. Kita juga hanya menyimpan variabel di lingkungan global alih-alih membuat bingkai data untuk setiap kumpulan data simulasi baru.

Setiap kali kita mensimulasikan data, kami memperoleh nilai koefisien yang diperkirakan. Variabel \(\hat{\beta}_0\) dan \(\hat{\beta}_1\) sekarang menyimpan 10.000 nilai simulasi \(\hat{\beta}_0\) dan \(\hat{\beta}_1\) masing-masing.

Pertama-tama, kita memverifikasi distribusi

## [1] 6.001998
## [1] 6
## [1] 0.11899
## [1] 0.1176238

Kita melihat bahwa cara empiris dan cara yang benar dan varians sangat mirip. Kita juga memverifikasi bahwa distribusi empiris itu normal. Untuk melakukannya, kita memplot histogram dari \(\hat{\beta}_1\), dan menambahkan kurva untuk distribusi sebenarnya dari \(\hat{\beta}_1\). Kami menggunakan prob = TRUE untuk meletakkan histogram pada skala yang sama dengan kurva normal.

Kemudian kita mengulangi proses yang sama untuk \(\hat{\beta}_0\)

## [1] 3.001147
## [1] 3
## [1] 0.04017924
## [1] 0.04

Dalam simulasi ini, kita hanya mensimulasikan sejumlah sampel yang terbatas. Untuk benar-benar memverifikasi hasil distribusi, kita perlu mengamati jumlah sampel yang tak terbatas. Namun, plot berikut harus menjelaskan bahwa jika kita terus melakukan simulasi, hasil empirisnya akan semakin mendekati apa yang diharapkan.

1.3 Kesalahan Standar (Standard Errors)

Jadi sekarang kita percaya pada dua hasil distribusi, yaitu \[\begin{aligned} \hat{\beta}_0 &\sim N\left( \beta_0, \sigma^2 \left(\frac{1}{n} + \frac{\bar{x}^2}{S_{xx}}\right) \right) \\ \hat{\beta}_1 &\sim N\left( \beta_1, \frac{\sigma^2}{S_{xx}} \right). \end{aligned}\]

Kemudian dengan membakukan hasil ini, kita menemukan itu \[\frac{\hat{\beta}_0 - \beta_0}{\text{SD}[\hat{\beta}_0]} \sim N(0, 1)\] dan \[\frac{\hat{\beta}_1 - \beta_1}{\text{SD}[\hat{\beta}_1]} \sim N(0, 1)\] dimana, \[\text{SD}[\hat{\beta}_0] = \sigma\sqrt{\frac{1}{n} + \frac{\bar{x}^2}{S_{xx}}}\] dan \[\text{SD}[\hat{\beta}_1] = \frac{\sigma}{\sqrt{S_{xx}}}.\]

Karena kita tidak tahu \(\sigma\) dalam praktiknya, maka kita harus memperkirakannya menggunakan \(s_e\), yang kita masukkan ke ekspresi yang ada untuk standar deviasi dari perkiraan kita.

Kedua ekspresi baru ini disebut kesalahan standar yang merupakan perkiraan standar deviasi dari distribusi sampling. \[\text{SE}[\hat{\beta}_0] = s_e\sqrt{\frac{1}{n} + \frac{\bar{x}^2}{S_{xx}}}\]

\[\text{SE}[\hat{\beta}_1] = \frac{s_e}{\sqrt{S_{xx}}}\]

Sekarang jika kita membagi dengan kesalahan standar, dari pada standar deviasi, kita memperoleh hasil berikut yang memungkinkan kita membuat interval kepercayaan dan melakukan pengujian hipotesis. \[\frac{\hat{\beta}_0 - \beta_0}{\text{SE}[\hat{\beta}_0]} \sim t_{n-2}\]

\[\frac{\hat{\beta}_1 - \beta_1}{\text{SE}[\hat{\beta}_1]} \sim t_{n-2}\]

Untuk melihat ini, hal yang pertama diperhatikan yaitu bahwa, \[\frac{\text{RSS}}{\sigma^2} = \frac{(n-2)s_e^2}{\sigma^2} \sim \chi_{n-2}^2.\]

Juga ingat bahwa variabel acak \(T\) didefinisikan sebagai, \[T = \frac{Z}{\sqrt{\frac{\chi_{d}^2}{d}}}\]

mengikuti distribusi \(t\) dengan derajat kebebasan \(d\), di mana \(\chi_{d}^2\) adalah variabel acak \(\chi^2\) dengan derajat kebebasan \(d\).

Kita menulis, \[T \sim t_d\]

untuk mengatakan bahwa variabel acak \(T\) mengikuti distribusi \(t\) dengan derajat kebebasan \(d\).

Kemudian kita menggunakan trik klasik “kalikan dengan 1” dan beberapa penyusunan ulang untuk sampai pada \[\begin{aligned} \frac{\hat{\beta}_1 - \beta_1}{\text{SE}[\hat{\beta}_1]} &= \frac{\hat{\beta}_1 - \beta_1}{s_e / \sqrt{S_{xx}}} \\ &= \frac{\hat{\beta}_1 - \beta_1}{s_e / \sqrt{S_{xx}}} \cdot \frac{\sigma / \sqrt{S_{xx}}}{\sigma / \sqrt{S_{xx}}} \\ &= \frac{\hat{\beta}_1 - \beta_1}{\sigma / \sqrt{S_{xx}}} \cdot \frac{\sigma / \sqrt{S_{xx}}}{s_e / \sqrt{S_{xx}}} \\ &= \frac{\hat{\beta}_1 - \beta_1}{\sigma / \sqrt{S_{xx}}} \bigg/ \sqrt{\frac{s_e^2}{\sigma^2}} \\ &= \frac{\hat{\beta}_1 - \beta_1}{\text{SD}[\hat{\beta}_1]} \bigg/ \sqrt{\frac{\frac{(n - 2)s_e^2}{\sigma^2}}{n - 2}} \sim \frac{Z}{\sqrt{\frac{\chi_{n-2}^2}{n-2}}} \sim t_{n-2} \end{aligned}\] dimana \(Z \sim N(0,1)\).

Ingatlah bahwa distribusi \(t\) mirip dengan standar normal, tetapi dengan ekor yang lebih berat. Ketika derajat kebebasan meningkat, distribusi \(t\) menjadi lebih seperti standar normal. Di bawah ini, kita akan memplot distribusi standar normal serta dua contoh distribusi \(t\) dengan derajat kebebasan berbeda. Perhatikan bagaimana distribusi \(t\) dengan derajat kebebasan yang lebih besar lebih mirip dengan kurva normal standar.

1.4 Interval Kepercayaan untuk Kemiringan dan Perpotongan/Intersep

Ingatlah bahwa interval kepercayaan untuk sarana sering kali berbentuk:

\[\text{EST} \pm \text{CRIT} \cdot \text{SE}\] atau \[\text{EST} \pm \text{MARGIN}\]

dimana \(\text{EST}\) adalah perkiraan untuk parameter yang diminati, \(\text{SE}\) adalah kesalahan standar dari perkiraan tersebut, dan \(\text{MARGIN} = \text{CRIT} \cdot \text{SE}\)

Kemudian, untuk \(\beta_0\) dan $_1) kita dapat membuat interval kepercayaan menggunakan \[\hat{\beta}_0 \pm t_{\alpha/2, n - 2} \cdot \text{SE}[\hat{\beta}_0] \quad \quad \quad \hat{\beta}_0 \pm t_{\alpha/2, n - 2} \cdot s_e\sqrt{\frac{1}{n}+\frac{\bar{x}^2}{S_{xx}}}\] dan \[\hat{\beta}_1 \pm t_{\alpha/2, n - 2} \cdot \text{SE}[\hat{\beta}_1] \quad \quad \quad \hat{\beta}_1 \pm t_{\alpha/2, n - 2} \cdot \frac{s_e}{\sqrt{S_{xx}}}\] dimana \(t_{\alpha/2, n - 2}\) adalah nilai kritisnya seperti \(P(t_{n-2} > t_{\alpha/2, n - 2}) = \alpha/2\)

1.5 Uji Hipotesis

“We may speak of this hypothesis as the ‘null hypothesis’, and it should be noted that the null hypothesis is never proved or established, but is possibly disproved, in the course of experimentation.” -Ronald Aylmer Fisher

Ingatlah bahwa uji statistik \(\text{TS}\) untuk sarana pengujian sering kali berbentuk: \[\text{TS} = \frac{\text{EST} - \text{HYP}}{\text{SE}}\] dimana \(\text{EST}\) adalah perkiraan untuk parameter yang diminati, \(\text{HYP}\) adalah nilai hipotesis dari parameter, dan \(\text{SE}\) adalah perkiraan kesalahan standar.

Jadi, untuk mengujinya \[H_0: \beta_0 = \beta_{00} \quad \text{vs} \quad H_1: \beta_0 \neq \beta_{00}\] kita menggunakan uji statistik \[t = \frac{\hat{\beta}_0 - \beta_{00}}{\text{SE}[\hat{\beta}_0]} = \frac{\hat{\beta}_0-\beta_{00}}{s_e\sqrt{\frac{1}{n} + \frac{\bar{x}^2}{S_{xx}}}}\] yang mana di bawah hipotesis nol, mengikuti distribusi \(t\) dengan \(n-2\) derajat kebebasan. Kita sekarang menggunakan \(\beta_10\) untuk menunjukkan nilai hipotesis \(\beta_1\).

1.6 Contoh cars

Sekarang kita kembali ke contoh data cars dari bagian terakhir untuk mengilustrasikan konsep ini. Pertama-tama, kita menyesuaikan model menggunakan lm() kemudian menggunakan summary() untuk melihat hasil secara lebih detail.

## 
## Call:
## lm(formula = dist ~ speed, data = cars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -29.069  -9.525  -2.272   9.215  43.201 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -17.5791     6.7584  -2.601   0.0123 *  
## speed         3.9324     0.4155   9.464 1.49e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 15.38 on 48 degrees of freedom
## Multiple R-squared:  0.6511, Adjusted R-squared:  0.6438 
## F-statistic: 89.57 on 1 and 48 DF,  p-value: 1.49e-12

1.6.1 Pengujian di R

Sekarang kita akan membahas hasil yang ditampilkan yang disebut Koefisien. Pertama, ingatlah bahwa kita dapat mengekstrak informasi ini secara langsung.

##  [1] "call"          "terms"         "residuals"     "coefficients" 
##  [5] "aliased"       "sigma"         "df"            "r.squared"    
##  [9] "adj.r.squared" "fstatistic"    "cov.unscaled"
##               Estimate Std. Error   t value     Pr(>|t|)
## (Intercept) -17.579095  6.7584402 -2.601058 1.231882e-02
## speed         3.932409  0.4155128  9.463990 1.489836e-12

Fungsi names() memberitahu kita informasi apa yang tersedia, dan kemudian kita menggunakan $ operator dan coefficients untuk mengekstrak informasi yang kita minati. Dua nilai di sini harus segera kita kenal. \[\hat{\beta}_0 = -17.5790949\] dan \[\hat{\beta}_1 = 3.9324088\] yang merupakan perkiraan kami untuk parameter model \(\beta_0\) dan \(\beta_1\).

Sekarang kita fokus pada baris kedua dari keluaran, yang relevan dengan \(\beta_1\).

##     Estimate   Std. Error      t value     Pr(>|t|) 
## 3.932409e+00 4.155128e-01 9.463990e+00 1.489836e-12

Sekali lagi, nilai pertama, Estimate adalah \[\hat{\beta}_1 = 3.9324088.\] Nilai kedua, Std. Errpr, adalah kesalahan standar dari \(\hat{\beta}_1\), \[\text{SE}[\hat{\beta}_1] = \frac{s_e}{\sqrt{S_{xx}}} = 0.4155128.\] Nilai ketiga, t value, merupakan nilai uji statistik untuk pengujian \(H_0: \beta_1 = 0\) dengan \(H_1: \beta_1 \neq 0\), \[t = \frac{\hat{\beta}_1-0}{\text{SE}[\hat{\beta}_1]} = \frac{\hat{\beta}_1-0}{s_e / \sqrt{S_{xx}}} = 9.46399.\] Terakhir, Pr(>|t|), memberi kita nilai p dari pengujian itu. \[\text{p-value} = 1.4898365\times 10^{-12}\] Perhatikan di sini, kita secara khusus menguji apakah benar atau tidak bahwa \(\beta_1=0\) Baris pertama keluaran melaporkan nilai yang sama, tetapi untuk \(\beta_0\)

##     Estimate   Std. Error      t value     Pr(>|t|) 
## -17.57909489   6.75844017  -2.60105800   0.01231882

Singkatnya, kode berikut menyimpan informasi dari summary(stop_dist_model)$coefficients dalam variabel baru stop_dist_model_test_info, kemudian mengekstrak setiap elemen menjadi variabel baru yang mendeskripsikan informasi yang didalamnya.

Kemudian kita dapat memverifikasi beberapa ekspresi yang setara: statistik uji \(t\) untuk \(\hat{\beta}_1\) dan nilai \(p\) dua sisi yang terkait dengan uji statistik tersebut.

## [1] 9.46399
## [1] 9.46399
## [1] 1.489836e-12
## [1] 1.489836e-12

1.6.2 Signifikansi Regresi, Uji-t

Kita berhenti sejenak untuk membahas pentingnya uji regresi. Pertama, perhatikan bahwa berdasarkan hasil distribusi di atas, kita dapat menguji \(\beta_0\) dan \(\beta_1\) terhadap nilai tertentu, dan melakukan pengujian satu dan dua sisi. Namun, satu tes yang sangat spesifik, \[H_0: \beta_1 = 0 \quad \text{vs} \quad H_1: \beta_1 \neq 0\] paling sering digunakan. Mari pikirkan tentang pengujian ini dalam kaitannya dengan model regresi linier sederhana, \[Y_i = \beta_0 + \beta_1 x_i + \epsilon_i.\] Jika kami mengasumsikan hipotesis nol benar, maka \(\beta_1=0\) dan kami memiliki model, \[Y_i = \beta_0 + \epsilon_i.\]

Dalam model ini, respon tidak bergantung pada prediktor. Jadi kita bisa memikirkan tes ini dengan cara berikut,

  • Dibawah \(H_0\) tidak ada hubungan linier yang signifikan antara \(x\) dan \(y\).
  • Dibawah \(H_1\) ada hubungan linier yang signifikan antara \(x\) dan \(y\).

Untuk contoh cars,

  • Dibawah \(H_0\) tidak ada hubungan linier yang signifikan antara kecepatan dan jarak berhenti.
  • Dibawah \(H_1\) ada hubungan linier yang signifikan antara kecepatan dan jarak berhenti.

Sekali lagi, pengujian itu terlihat pada keluaran dari summary(), \[\text{p-value} = 1.4898365\times 10^{-12}.\]

Dengan nilai-p yang sangat rendah ini, kita akan menolak hipotesis nol pada tingkat \(\alpha\) yang masuk akal, misalnya \(\alpha = 0,01\). Jadi kita katakan ada hubungan linier yang signifikan antara kecepatan dan jarak berhenti. Perhatikan bahwa kita menekankan linier.

Dalam plot data simulasi ini, kita melihat hubungan yang jelas antara \(x\) dan \(y\), namun ini bukan hubungan linier. Jika kita memasukkan garis ke data ini, itu sangat datar. Hasil pengujian untuk \(H_0: \beta_1 = 0\) vs \(H_1: \beta_1 ≠ 0\) memberikan p-value yang besar, dalam hal ini \(0,7564548\), jadi kita gagal untuk menolak dan mengatakan bahwa tidak ada hubungan linier yang signifikan antara \(x\) dan \(y\). Kita akan melihat nanti bagaimana menyesuaikan kurva ke data ini menggunakan model “linier”, tetapi untuk saat ini, sadari bahwa pengujian \(H_0: \beta1 = 0\) vs \(H_1: \beta_1 ≠ 0\) hanya dapat mendeteksi hubungan garis lurus.

1.6.3 Interval Kepercayaan di R

Dengan menggunakan R, kita dapat dengan mudah memperoleh interval kepercayaan untuk \(\beta_0\) dan \(\beta_1\).

##                  0.5 %    99.5 %
## (Intercept) -35.706610 0.5484205
## speed         2.817919 5.0468988

Ini secara otomatis menghitung interval kepercayaan 99% untuk keduanya \(\beta_0\) dan \(\beta_1\), baris pertama untuk \(\beta_0\), dan baris kedua untuk \(\beta_1\).

Untuk contoh mobil saat menginterpretasikan interval ini, kami katakan 99% yakin bahwa untuk peningkatan kecepatan 1 mil per jam, peningkatan rata-rata jarak berhenti adalah antara \(2.8179187\) dan \(5.0468988\) kaki, yang merupakan interval untuk \(\beta_1\).

Perhatikan bahwa interval kepercayaan 99% ini tidak mengandung nilai hipotesis 0. Karena tidak mengandung 0, ini setara dengan menolak pengujian \(H_0: \beta_1 = 0\) dengan \(H_1: \beta_1 \neq 0\) pada \(\alpha = 0.01\), yang telah kita lihat sebelumnya.

Kalian harus agak curiga terhadap interval kepercayaan untuk \(\beta_0\), karena mencakup nilai negatif, yang sesuai dengan jarak henti negatif. Secara teknis interpretasinya adalah bahwa kami 99% yakin bahwa jarak berhenti rata-rata sebuah mobil yang menempuh jarak 0 mil per jam adalah antara \(-35.7066103\) dan \(0.5484205\) kaki, tetapi kami tidak begitu percaya itu, karena kami benar-benar yakin bahwa itu akan terjadi. non-negatif.

Catatan, kita dapat mengekstrak nilai tertentu dari keluaran ini dengan beberapa cara. Kode ini tidak berjalan, dan sebagai gantinya, Anda harus memeriksa hubungannya dengan keluaran kode di atas.

##       0.5 %      99.5 % 
## -35.7066103   0.5484205
## [1] -35.70661
## [1] 0.5484205
##                 0.5 %    99.5 %
## (Intercept) -35.70661 0.5484205
##    0.5 %   99.5 % 
## 2.817919 5.046899
## [1] 2.817919
## [1] 5.046899
##          0.5 %   99.5 %
## speed 2.817919 5.046899

Kita juga dapat memverifikasi bahwa kalkulasi yang dijalankan R untuk interval \(\beta_1\).

##    speed    speed 
## 2.817919 5.046899

1.7 Interval Kepercayaan untuk Respon Rata-rata

Selain interval kepercayaan untuk \(\beta_0\) dan \(\beta_1\), ada dua perkiraan interval umum lainnya yang digunakan dengan regresi. Yang pertama disebut interval kepercayaan untuk respons rata-rata. Seringkali, kami menginginkan perkiraan interval untuk rata-rata, \(E[Y \mid X = x]\) untuk nilai x tertentu.

Dalam situasi ini kita menggunakan \(\hat{y}(x)\) sebagai perkiraan kita \(E[Y \mid X = x]\). Kita mengubah sedikit notasi kami untuk memperjelas bahwa nilai prediksi adalah fungsi dari nilai \(x\). \[\hat{y}(x) = \hat{\beta}_0 + \hat{\beta}_1 x\] Ingatlah bahwa, \[\text{E}[Y \mid X = x] = \beta_0 + \beta_1 x.\] Jadi, \(\hat{y}(x)\) adalah perkiraan yang bagus karena tidak bias: \[\text{E}[\hat{y}(x)] = \beta_0 + \beta_1 x.\] Kita kemudian bisa mendapatkan, \[\text{Var}[\hat{y}(x)] = \sigma^2 \left(\frac{1}{n}+\frac{(x-\bar{x})^2}{S_{xx}}\right).\]

Seperti perkiraan lain yang telah kita lihat, \(\hat{y}(x)\) juga mengikuti distribusi normal. Sejak \(\hat{\beta}_0\) dan \(\hat{\beta}_1\) adalah kombinasi linier dari variabel acak normal, \(\hat{y}(x)\) juga. \[\hat{y}(x) \sim N \left(\beta_0 + \beta_1 x, \sigma^2 \left(\frac{1}{n}+\frac{(x-\bar{x})^2}{S_{xx}}\right) \right)\]

Dan terakhir, karena kita perlu memperkirakan varians ini, kita sampai pada kesalahan standar dari perkiraan kita, \[\text{SE}[\hat{y}(x)] = s_e \sqrt{\frac{1}{n}+\frac{(x-\bar{x})^2}{S_{xx}}}.\] Kita kemudian dapat menggunakan ini untuk menemukan interval kepercayaan untuk respons rata-rata, \[\hat{y}(x) \pm t_{\alpha/2, n - 2} \cdot s_e\sqrt{\frac{1}{n}+\frac{(x-\bar{x})^2}{S_{xx}}}\]

Untuk menemukan interval kepercayaan untuk respons rata-rata menggunakan R, kita menggunakan fungsi predict(). Kita memberikan fungsi model pas kami serta data baru, disimpan sebagai bingkai data. (Ini penting, agar R mengetahui nama variabel prediktor.) Di sini, kita menemukan interval kepercayaan untuk jarak berhenti rata-rata saat mobil berjalan 5 mil per jam dan saat mobil berjalan 21 mil per jam.

##         fit       lwr      upr
## 1  2.082949 -10.89309 15.05898
## 2 65.001489  56.45836 73.54462

1.8 Interval Prediksi untuk Pengamatan Baru

Terkadang kita menginginkan perkiraan interval untuk pengamatan baru, \(Y\), untuk nilai \(x\) tertentu. Ini sangat mirip dengan interval untuk respons rata-rata \(\text{E}[Y \mid X = x]\) tetapi berbeda dalam satu hal yang sangat penting.

Tebakan terbaik kita untuk observasi baru masih \(\hat{y}(x)\). Perkiraan rata-rata masih merupakan prediksi terbaik yang bisa kita buat. Perbedaannya adalah terletak pada jumlah variabilitas. Kita tahu bahwa pengamatan akan bervariasi tentang garis regresi yang sebenarnya menurut distribusi \(N(0, \sigma^2)\). Karena itu kita menambahkan faktor tambahan \(\sigma^2\) ke variabilitas perkiraan kami untuk menjelaskan variabilitas pengamatan tentang garis regresi. \[\begin{aligned} \text{Var}[\hat{y}(x) + \epsilon] &= \text{Var}[\hat{y}(x)] + \text{Var}[\epsilon] \\[2ex] &= \sigma^2 \left(\frac{1}{n}+\frac{(x-\bar{x})^2}{S_{xx}}\right) + \sigma^2 \\[2ex] &= \sigma^2 \left(1 + \frac{1}{n}+\frac{(x-\bar{x})^2}{S_{xx}}\right) \end{aligned}\]

Kita kemudian dapat menemukan interval prediksi menggunakan, \[\hat{y}(x) \pm t_{\alpha/2, n - 2} \cdot s_e\sqrt{1 + \frac{1}{n}+\frac{(x-\bar{x})^2}{S_{xx}}}.\]

Untuk menghitung ini untuk satu set poin dalam pemberitahuan R hanya ada sedikit perubahan dalam sintaks dari menemukan interval kepercayaan untuk respons rata-rata.

##         fit       lwr       upr
## 1  2.082949 -41.16099  45.32689
## 2 65.001489  22.87494 107.12803

Perhatikan juga bahwa kedua interval ini lebih lebar daripada interval kepercayaan yang sesuai untuk respons rata-rata.

1.9 Pita Kepercayaan dan Prediksi

Seringkali kit ingin memplot kedua interval kepercayaan untuk respons rata-rata dan interval prediksi untuk semua kemungkinan nilai \(X\). Kita menyebutnya pita kepercayaan dan prediksi.

Beberapa hal yang perlu diperhatikan:

  • Kita menggunakan argumen ylim untuk meregangkan sumbu-\(y\) dari plot, karena pita lebih panjang daripada titik.

  • Kita menambahkan titik pada titik (\((\bar{x}, \bar{y})\)) tersebut.
    • Ini adalah titik yang akan selalu dilewati garis regresi. (Pikirkan alasannya)
    • Ini adalah titik dimana pita kepercayaan dan prediksi menjadi yang tersempit. Lihatlah kesalahan standar keduanya untuk memahami mengapa.
  • Pita prediksi (titik-titik biru) kurang melengkung dibandingkan dengan pita kepercayaan (biru putus-putus). Ini adalah hasil dari faktor \(\sigma^2\) tambahan yang ditambahkan ke varians pada nilai \(x\) berapapun.

1.10 Signifikansi Regresi, Uji-F

Dalam kasus regresi linier sederhana, uji \(t\) untuk signifikansi regresi setara dengan uji lain, yaitu uji \(F\) untuk signifikansi regresi. Kesetaraan ini hanya akan berlaku benar untuk regresi linier sederhana, dan di bagian selanjutnya kita hanya akan menggunakan \(F\) untuk menguji signifikansi regresi.

Ingat dari bagian terakhir dekomposisi varians yang kita lihat sebelumnya menghitung \(R^2\), \[\sum_{i=1}^{n}(y_i - \bar{y})^2 = \sum_{i=1}^{n}(y_i - \hat{y}_i)^2 + \sum_{i=1}^{n}(\hat{y}_i - \bar{y})^2\]

atau singkatnya, \[\text{SST} = \text{SSE} + \text{SSReg}.\]

Untuk mengembangkan \(F\) test, kita akan mengatur informasi ini dalam tabel ANOVA

Sumber Jumlah Kuadrat Derajat Kebebasan Rata-rata Kuadrat F
Regresi \(\sum^n_{i=1}(\hat{y}_i-y)^2\) \(1\) \(\frac{SSReg}{1}\) \(\frac{MSReg}{MSE}\)
Eror \(\sum^n_{i=1}(y_i-\hat{y}_i)^2\) \(n-2\) \(\frac{SSReg}{n-2}\)
Total \(\sum^n_{i=1}(y_i-y)^2\) \(n-1\)

ANOVA, atau Analisis Varians akan menjadi konsep yang sering kita bahas dalam bagian ini. Untuk saat ini, kita akan fokus pada hasil tabel, yaitu \(F\) statistik. \[F = \frac{\sum_{i=1}^{n}(\hat{y}_i - \bar{y})^2 / 1}{\sum_{i=1}^{n}(y_i - \hat{y}_i)^2 / (n - 2)} \sim F_{1, n - 2}\]

yang mengikuti distribusi \(F\) dengan derajat kebebasan \(1\) dan \(n-2\) dibawah hipotesis nol. Sebuah distribusi \(F\) adalah distribusi kontinu yang hanya mengambil nilai positif dan memiliki dua parameter, yaitu dua derajat kebebasan.

Ingatlah, pentingnya uji regresi, \(Y\) tidak tergantung pada \(x\) dalam hipotesis nol. \[H_0: \beta_1 = 0 \quad \quad Y_i = \beta_0 + \epsilon_i\] Sedangkan pada hipotesis alternatif \(Y\) mungkin bergantung pada \(x\) \[H_1: \beta_1 \neq 0 \quad \quad Y_i = \beta_0 + \beta_1 x_i + \epsilon_i\] Kita bisa menggunakan \(F\) statistik untuk melakukan tes ini. \[F = \frac{\sum_{i=1}^{n}(\hat{y}_i - \bar{y})^2 / 1}{\sum_{i=1}^{n}(y_i - \hat{y}_i)^2 / (n - 2)}\]

Secara khusus, kita akan menolak null saat \(F\) statistiknya benar, yaitu, ketika ada kemungkinan rendah bahwa pengamatan bisa datang dari model nol secara kebetulan. Kita akan menghitung nilai p untuk kita dengan R.

Untuk melakukan uji \(F\) di R kalian dapat melihat baris terakhir dari output yang dalam fungsi summary() disebut F-statistics yang memberikan nilai uji statistik, derajat kebebasan yang relevan, serta \(p-value\) dari pengujian.

## 
## Call:
## lm(formula = dist ~ speed, data = cars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -29.069  -9.525  -2.272   9.215  43.201 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -17.5791     6.7584  -2.601   0.0123 *  
## speed         3.9324     0.4155   9.464 1.49e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 15.38 on 48 degrees of freedom
## Multiple R-squared:  0.6511, Adjusted R-squared:  0.6438 
## F-statistic: 89.57 on 1 and 48 DF,  p-value: 1.49e-12

Selain itu, kalian dapat menggunakan fungsi anova() dalam menampilkan informasi dalam tabel ANOVA.

## Analysis of Variance Table
## 
## Response: dist
##           Df Sum Sq Mean Sq F value   Pr(>F)    
## speed      1  21186 21185.5  89.567 1.49e-12 ***
## Residuals 48  11354   236.5                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Ini juga memberikan nilai-p untuk pengujian. Kalian harus memperhatikan bahwa nilai-p dari distribusi \(t\) adalah sama. Kalian mungkin juga memperhatikan bahwa nilai statistik pengujian untuk uji \(t\), \(9.46399\), dapat dikuadratkan untuk mendapatkan nilai \(F\) statistik, \(89.5671065\).

Perhatikan bahwa ada cara lain yang setara untuk melakukan ini dalam R, dimana kita akan sering sekali untuk membandingkan dua model.

## Analysis of Variance Table
## 
## Model 1: dist ~ 1
## Model 2: dist ~ speed
##   Res.Df   RSS Df Sum of Sq      F   Pr(>F)    
## 1     49 32539                                 
## 2     48 11354  1     21186 89.567 1.49e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Pernyataan model lm(dist ~ 1, data = cars) menerapkan model \(Y_i = \beta_0 + \epsilon_i\) ke data mobil (data cars). Catat \(\hat{y} = \bar{y}\) itu ketika \(Y_i = \beta_0 + \epsilon_i\)

Pernyataan model lm(dist ~ speed, data = cars) menerapkan model \(Y_i = \beta_0 + \beta_1 x_i + \epsilon_i\). Kita kemudian dapat menganggap penggunaan anova() ini sebagai perbandingan langsung kedua model (Perhatikan bahwa kita mendapatkan nilai-p yang sama lagi).

