PML - Model Berpangkat Penuh
Video Pembelajaran - P4
Video Pembelajaran dapat diakses melalui link berikut : https://ipb.link/materipml
Bentuk Model
Dalam statistik, model linear adalah representasi matematika yang mengasumsikan hubungan linear antara variabel respons \(Y\) dan satu atau lebih variabel prediktor \(X_1, X_2, \dots, X_p\). Model ini dapat dinyatakan dalam bentuk: \[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p + \epsilon \] Di mana:
\(Y\) adalah variabel dependen.
\(X_1, X_2, \dots, X_p\) adalah variabel independen.
\(\beta_0, \beta_1, \dots, \beta_p\) adalah parameter yang akan diestimasi.
\(\epsilon\) adalah error atau gangguan (noise) yang diasumsikan berdistribusi normal dengan rata-rata 0 dan variansi konstan \(\sigma^2\).
Teorema 3.2.1 (Penduga Kuadrat Terkecil)
Teorema ini menyatakan bahwa Penduga Kuadrat Terkecil (Least Squares Estimator, LSE) untuk parameter-parameter \(\beta_0, \beta_1, \dots, \beta_p\) adalah solusi yang meminimalkan jumlah kuadrat dari residual atau error: \[ \sum_{i=1}^{n} \left( Y_i - \hat{Y}_i \right)^2 \] Dalam notasi matriks, penduga kuadrat terkecil dapat dihitung dengan: \[ \hat{\beta} = (X^T X)^{-1} X^T Y \] Di mana:
\(X\) adalah matriks desain yang berisi nilai-nilai variabel independen.
\(Y\) adalah vektor yang berisi nilai-nilai variabel dependen.
Teorema 3.2.2 (Sifat Penduga Kuadrat Terkecil)
Teorema ini menjelaskan beberapa sifat penting dari penduga kuadrat terkecil, yaitu: - Unbiasedness: Penduga kuadrat terkecil adalah penduga yang tidak bias, artinya ekspektasi dari penduga tersebut sama dengan nilai sebenarnya dari parameter yang diestimasi, atau: \[ E(\hat{\beta}) = \beta \] - Minimum Variance: Di antara semua penduga linear yang tidak bias, penduga kuadrat terkecil memiliki variansi yang paling kecil, yang dapat dinyatakan sebagai: \[ \text{Var}(\hat{\beta}) = \sigma^2 (X^T X)^{-1} \]
Teorema 3.2.3 (Teorema Gauss-Markoff)
Teorema Gauss-Markoff menyatakan bahwa dalam kelas penduga linear yang tidak bias, penduga kuadrat terkecil adalah yang terbaik dalam arti memiliki variansi terkecil. Oleh karena itu, penduga kuadrat terkecil disebut sebagai Best Linear Unbiased Estimator (BLUE). Secara formal, untuk setiap penduga linear \(\tilde{\beta}\): \[ \text{Var}(\hat{\beta}) \leq \text{Var}(\tilde{\beta}) \]
Teorema 3.2.4 (Penduga bagi Fungsi Linear Parameter)
Teorema ini membahas tentang bagaimana mengestimasi fungsi linear dari parameter-parameter dalam model. Misalnya, jika kita ingin mengestimasi \(c^T \beta\), di mana \(c\) adalah vektor konstan, maka penduga untuk fungsi linear tersebut adalah: \[ \hat{c^T \beta} = c^T \hat{\beta} \]
Pendugaan Ragam
Untuk mengestimasi varians dari error atau gangguan dalam model, kita dapat menggunakan penduga sebagai berikut: \[ \hat{\sigma}^2 = \frac{1}{n-p} \sum_{i=1}^{n} \left( Y_i - \hat{Y}_i \right)^2 \] Di mana:
\(n\) adalah jumlah observasi.
\(p\) adalah jumlah parameter dalam model (termasuk intercept).
\(\hat{Y}_i\) adalah nilai prediksi dari model untuk observasi ke-\(i\).
Implementasi dalam R
Implementasi dalam bahasa pemrograman R untuk pendugaan kuadrat terkecil (LSE) dan pendugaan ragam dapat dilakukan dengan kode berikut:
# Memuat library yang diperlukan untuk ginv
library(MASS)
# Data
Y <- c(1, 2, 3, 4, 5)
X1 <- c(2, 3, 4, 5, 6)
X2 <- c(3, 4, 5, 6, 7)
# Matriks Desain
X <- cbind(1, X1, X2)
Y <- as.matrix(Y)
# Menghitung Penduga Kuadrat Terkecil menggunakan Pseudo-Invers
beta_hat <- ginv(t(X) %*% X) %*% t(X) %*% Y
# Menampilkan hasil pendugaan
print(beta_hat)## [,1]
## [1,] -1.000000e+00
## [2,] 1.000000e+00
## [3,] -4.996004e-15
# Menghitung nilai prediksi
Y_hat <- X %*% beta_hat
# Menghitung residuals
residuals <- Y - Y_hat
# Menghitung ragam error
sigma_hat_sq <- sum(residuals^2) / (nrow(X) - ncol(X))
# Menampilkan ragam error
print(sigma_hat_sq)## [1] 2.493355e-28
Kode di atas mencakup langkah-langkah untuk melakukan estimasi parameter dalam model linear menggunakan metode kuadrat terkecil serta menghitung ragam dari error residual dalam model.
Contoh Soal
Soal 1
Diasumsikan bahwa jarak tempuh per galon sebuah mobil bergantung secara linear pada beratnya dan kecepatan saat mobil tersebut dikendarai.
Data berikut diperoleh:
| Miles per Gallon (y) | Berat dalam Ton (x₁) | Miles per Jam (x₂) |
|---|---|---|
| 17.0 | 1.35 | 55 |
| 16.5 | 1.33 | 58 |
| 16.0 | 2.00 | 60 |
| 20.0 | 1.40 | 55 |
| 22.0 | 1.40 | 50 |
| 30.0 | 1.20 | 50 |
| 27.0 | 1.20 | 53 |
| 19.0 | 1.28 | 65 |
a) Tulis modelnya.
b) Temukan sistem persamaan linear yang dihasilkan oleh model ini.
c) Temukan vektor respons, parameter, dan kesalahan acak.
d) Temukan matriks X dan ungkapkan model dalam bentuk matriks.
Jawaban:
a) \(y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \epsilon\)
b) \(17 = \beta_0 + 1.35\beta_1 + 55\beta_2 + \epsilon_1\)
\(16.5 = \beta_0 + 1.33\beta_1 + 58\beta_2 + \epsilon_2\)
\(16 = \beta_0 + 2\beta_1 + 60\beta_2 + \epsilon_3\)
\(20 = \beta_0 + 1.4\beta_1 + 55\beta_2 + \epsilon_4\)
\(22 = \beta_0 + 1.4\beta_1 + 50\beta_2 + \epsilon_5\)
\(30 = \beta_0 + 1.2\beta_1 + 50\beta_2 + \epsilon_6\)
\(27 = \beta_0 + 1.2\beta_1 + 53\beta_2 + \epsilon_7\)
\(19 = \beta_0 + 1.28\beta_1 + 65\beta_2 + \epsilon_8\)
c) Respon:
\[
\begin{pmatrix}
y_1 \\
y_2 \\
y_3 \\
y_4 \\
y_5 \\
y_6 \\
y_7 \\
y_8 \\
\end{pmatrix}
=
\begin{pmatrix}
17 \\
16,5 \\
16 \\
20 \\
22 \\
30 \\
27 \\
19 \\
\end{pmatrix}
\]
Parameter:
\[
\begin{pmatrix}
\beta_0 \\
\beta_1 \\
\beta_2 \\
\end{pmatrix}
\]
Random error:
\[
\begin{pmatrix}
\epsilon_1 \\
\epsilon_2 \\
\epsilon_3 \\
\epsilon_4 \\
\epsilon_5 \\
\epsilon_6 \\
\epsilon_7 \\
\epsilon_8 \\
\end{pmatrix}
\]
d) X matriks:
\[
\begin{pmatrix}
1 & 1,35 & 55 \\
1 & 1,33 & 58 \\
1 & 2 & 60 \\
1 & 1,4 & 55 \\
1 & 1,4 & 50 \\
1 & 1,2 & 50 \\
1 & 1,3 & 53 \\
1 & 1,28 & 65 \\
\end{pmatrix}
\]
Model dengan bentuk matriks:
\[
\begin{pmatrix}
17 \\
16,5 \\
16 \\
20 \\
22 \\
30 \\
27 \\
19 \\
\end{pmatrix}
=
\begin{pmatrix}
1 & 1,35 & 55 \\
1 & 1,33 & 58 \\
1 & 2 & 60 \\
1 & 1,4 & 55 \\
1 & 1,4 & 50 \\
1 & 1,2 & 50 \\
1 & 1,3 & 53 \\
1 & 1,28 & 65 \\
\end{pmatrix}
\begin{pmatrix}
\beta_0 \\
\beta_1 \\
\beta_2 \\
\end{pmatrix}
+
\begin{pmatrix}
\epsilon_1 \\
\epsilon_2 \\
\epsilon_3 \\
\epsilon_4 \\
\epsilon_5 \\
\epsilon_6 \\
\epsilon_7 \\
\epsilon_8 \\
\end{pmatrix}
\]
Soal 2
Misalkan \(x\) menunjukkan jumlah tahun pendidikan formal dan \(y\) menunjukkan pendapatan seseorang pada usia 30 tahun. Asumsikan bahwa regresi linear sederhana berlaku dan pertimbangkan data berikut:
| Tahun Pendidikan Formal (x) | Pendapatan dalam Ribuan Dolar (y) |
|---|---|
| 8 | 8 |
| 12 | 15 |
| 14 | 16 |
| 16 | 20 |
| 16 | 25 |
| 20 | 40 |
a) Temukan \(y\)
dan \(X\).
b) Temukan \(X^T X\),
\(X^T y\), dan \((X^T X)^{-1}\).
c) Temukan estimasi kuadrat terkecil untuk \(\beta_0\) dan \(\beta_1\) dengan menghitung \((X^T X)^{-1}X^T y\).
d) Verifikasi perhitungan Anda di bagian c dengan
menemukan \(\beta_0\) dan \(\beta_1\) menggunakan rumus.
a) \(y =\)
\[
\begin{pmatrix}
8 \\
15 \\
16 \\
20 \\
25 \\
40 \\
\end{pmatrix}
, \quad X =
\begin{pmatrix}
1 & 8 \\
1 & 12 \\
1 & 14 \\
1 & 16 \\
1 & 16 \\
1 & 20 \\
\end{pmatrix}
\]
b)
\[
X^T X =
\begin{pmatrix}
1 & 1 & 1 & 1 & 1 & 1 \\
8 & 12 & 14 & 16 & 16 & 20 \\
\end{pmatrix}
\begin{pmatrix}
1 & 8 \\
1 & 12 \\
1 & 14 \\
1 & 16 \\
1 & 16 \\
1 & 20 \\
\end{pmatrix}
=
\begin{pmatrix}
6 & 86 \\
86 & 1316 \\
\end{pmatrix}
\]
\[ X^T y = \begin{pmatrix} 1 & 1 & 1 & 1 & 1 & 1 \\ 8 & 12 & 14 & 16 & 16 & 20 \\ \end{pmatrix} \begin{pmatrix} 8 \\ 15 \\ 16 \\ 20 \\ 25 \\ 40 \\ \end{pmatrix} = \begin{pmatrix} 124 \\ 1988 \\ \end{pmatrix} \]
\[ (X^TX)^{-1} = \begin{pmatrix} 6 & 86 \\ 86 & 1316 \\ \end{pmatrix}^{-1} \]
\[ = \frac{1}{500} \begin{pmatrix} 1316 & -86 \\ -86 & 6 \\ \end{pmatrix} = \begin{pmatrix} 2,632 & -0,172 \\ -0,172 & 0,012 \\ \end{pmatrix} \]
c) \((X^TX)^{-1}
X^Ty\)
\[
= \begin{pmatrix}
2,632 & -0,172 \\
-0,172 & 0,012 \\
\end{pmatrix}
\begin{pmatrix}
124 \\
1988 \\
\end{pmatrix}
= \begin{pmatrix}
-15,568 \\
2,528 \\
\end{pmatrix}
\]
Sehingga model linear:
\[
y = -15,568 + 2,528x_1 + \epsilon
\]
d)
\[
b_0 = \frac{\sum x_i^2 \sum y_i - \sum x_i \sum x_i y_i}{n \sum x_i^2 -
(\sum x_i)^2}
\]
\[ = \frac{(1316)(124) - (86)(1988)}{6(1316) - (86)^2} = -15,568 \]
\[ b_1 = \frac{n \sum x_i y_i - \sum x_i \sum y_i}{n \sum x_i^2 - (\sum x_i)^2} = 2,528 \]
Maka model linier:
\[
y = -15,568 + 2,528x_1 + \epsilon
\]
Latihan Soal
Soal 1:
Misalkan \(x\) menunjukkan jumlah jam belajar per minggu dan \(y\) menunjukkan nilai ujian seorang siswa. Asumsikan regresi linear sederhana berlaku dan pertimbangkan data berikut:
| Jam Belajar (x) | Nilai Ujian (y) |
|---|---|
| 4 | 55 |
| 6 | 60 |
| 8 | 65 |
| 10 | 70 |
| 12 | 80 |
| 14 | 90 |
a) Temukan \(y\)
dan \(X\).
b) Temukan \(X^T X\),
\(X^T y\), dan \((X^T X)^{-1}\).
c) Temukan estimasi kuadrat terkecil untuk \(\beta_0\) dan \(\beta_1\) dengan menghitung \((X^T X)^{-1}X^T y\).
d) Verifikasi perhitungan Anda di bagian c dengan
menemukan \(\beta_0\) dan \(\beta_1\) menggunakan rumus.
Soal 2:
Misalkan \(x\) menunjukkan jumlah hari olahraga dalam sebulan dan \(y\) menunjukkan berat badan seseorang dalam kilogram. Asumsikan regresi linear sederhana berlaku dan pertimbangkan data berikut:
| Hari Olahraga (x) | Berat Badan (y) |
|---|---|
| 5 | 75 |
| 10 | 72 |
| 15 | 70 |
| 20 | 68 |
| 25 | 66 |
| 30 | 65 |
a) Temukan \(y\)
dan \(X\).
b) Temukan \(X^T X\),
\(X^T y\), dan \((X^T X)^{-1}\).
c) Temukan estimasi kuadrat terkecil untuk \(\beta_0\) dan \(\beta_1\) dengan menghitung \((X^T X)^{-1}X^T y\).
d) Verifikasi perhitungan Anda di bagian c dengan
menemukan \(\beta_0\) dan \(\beta_1\) menggunakan rumus.
Soal 3:
Misalkan \(x\) menunjukkan jumlah pengunjung sebuah toko per hari dan \(y\) menunjukkan pendapatan harian toko tersebut. Asumsikan regresi linear sederhana berlaku dan pertimbangkan data berikut:
| Pengunjung (x) | Pendapatan (y) |
|---|---|
| 50 | 300 |
| 100 | 450 |
| 150 | 600 |
| 200 | 750 |
| 250 | 900 |
| 300 | 1100 |
a) Temukan \(y\)
dan \(X\).
b) Temukan \(X^T X\),
\(X^T y\), dan \((X^T X)^{-1}\).
c) Temukan estimasi kuadrat terkecil untuk \(\beta_0\) dan \(\beta_1\) dengan menghitung \((X^T X)^{-1}X^T y\).
d) Verifikasi perhitungan Anda di bagian c dengan
menemukan \(\beta_0\) dan \(\beta_1\) menggunakan rumus.
Soal 4:
Misalkan \(x\) menunjukkan jumlah jam tidur per malam dan \(y\) menunjukkan produktivitas kerja seseorang dalam skala 1-10. Asumsikan regresi linear sederhana berlaku dan pertimbangkan data berikut:
| Jam Tidur (x) | Produktivitas (y) |
|---|---|
| 4 | 5 |
| 5 | 6 |
| 6 | 7 |
| 7 | 8 |
| 8 | 9 |
| 9 | 10 |
a) Temukan \(y\)
dan \(X\).
b) Temukan \(X^T X\),
\(X^T y\), dan \((X^T X)^{-1}\).
c) Temukan estimasi kuadrat terkecil untuk \(\beta_0\) dan \(\beta_1\) dengan menghitung \((X^T X)^{-1}X^T y\).
d) Verifikasi perhitungan Anda di bagian c dengan
menemukan \(\beta_0\) dan \(\beta_1\) menggunakan rumus.
Soal 5:
Misalkan \(x\) menunjukkan jumlah makanan cepat saji yang dikonsumsi per minggu dan \(y\) menunjukkan kadar kolesterol dalam darah. Asumsikan regresi linear sederhana berlaku dan pertimbangkan data berikut:
| Makanan Cepat Saji (x) | Kolesterol (y) |
|---|---|
| 1 | 190 |
| 2 | 200 |
| 3 | 210 |
| 4 | 220 |
| 5 | 230 |
| 6 | 240 |
a) Temukan \(y\)
dan \(X\).
b) Temukan \(X^T X\),
\(X^T y\), dan \((X^T X)^{-1}\).
c) Temukan estimasi kuadrat terkecil untuk \(\beta_0\) dan \(\beta_1\) dengan menghitung \((X^T X)^{-1}X^T y\).
d) Verifikasi perhitungan Anda di bagian c dengan
menemukan \(\beta_0\) dan \(\beta_1\) menggunakan rumus.
Soal 6:
Misalkan \(x\) menunjukkan jumlah postingan media sosial dalam sehari dan \(y\) menunjukkan jumlah likes yang diterima. Asumsikan regresi linear sederhana berlaku dan pertimbangkan data berikut:
| Postingan (x) | Likes (y) |
|---|---|
| 1 | 50 |
| 2 | 100 |
| 3 | 150 |
| 4 | 200 |
| 5 | 250 |
| 6 | 300 |
a) Temukan \(y\)
dan \(X\).
b) Temukan \(X^T X\),
\(X^T y\), dan \((X^T X)^{-1}\).
c) Temukan estimasi kuadrat terkecil untuk \(\beta_0\) dan \(\beta_1\) dengan menghitung \((X^T X)^{-1}X^T y\).
d) Verifikasi perhitungan Anda di bagian c dengan
menemukan \(\beta_0\) dan \(\beta_1\) menggunakan rumus.
Soal 7:
Misalkan \(x\) menunjukkan jumlah kopi yang diminum per hari dan \(y\) menunjukkan tingkat stres seseorang. Asumsikan regresi linear sederhana berlaku dan pertimbangkan data berikut:
| Kopi (x) | Tingkat Stres (y) |
|---|---|
| 1 | 30 |
| 2 | 40 |
| 3 | 50 |
| 4 | 60 |
| 5 | 70 |
| 6 | 80 |
a) Temukan \(y\)
dan \(X\).
b) Temukan \(X^T X\),
\(X^T y\), dan \((X^T X)^{-1}\).
c) Temukan estimasi kuadrat terkecil untuk \(\beta_0\) dan \(\beta_1\) dengan menghitung \((X^T X)^{-1}X^T y\).
d) Verifikasi perhitungan Anda di bagian c dengan
menemukan \(\beta_0\) dan \(\beta_1\) menggunakan rumus.
Soal 8:
Misalkan \(x\) menunjukkan jumlah artikel yang dibaca per minggu dan \(y\) menunjukkan jumlah kata yang ditulis dalam sebuah makalah. Asumsikan regresi linear sederhana berlaku dan pertimbangkan data berikut:
| Artikel (x) | Kata yang Ditulis (y) |
|---|---|
| 2 | 500 |
| 4 | 1000 |
| 6 | 1500 |
| 8 | 2000 |
| 10 | 2500 |
| 12 | 3000 |
a) Temukan \(y\)
dan \(X\).
b) Temukan \(X^T X\),
\(X^T y\), dan \((X^T X)^{-1}\).
c) Temukan estimasi kuadrat terkecil untuk \(\beta_0\) dan \(\beta_1\) dengan menghitung \((X^T X)^{-1}X^T y\).
d) Verifikasi perhitungan Anda di bagian c dengan
menemukan \(\beta_0\) dan \(\beta_1\) menggunakan rumus.
Soal 9:
Misalkan \(x\) menunjukkan jumlah jam latihan per minggu dan \(y\) menunjukkan jumlah kalori yang dibakar per minggu. Asumsikan regresi linear sederhana berlaku dan pertimbangkan data berikut:
| ) | |
|---|---|
| 2 | 500 |
| 4 | 1000 |
| 6 | 1500 |
| 8 | 2000 |
| 10 | 2500 |
| 12 | 3000 |
a) Temukan \(y\)
dan \(X\).
b) Temukan \(X^T X\),
\(X^T y\), dan \((X^T X)^{-1}\).
c) Temukan estimasi kuadrat terkecil untuk \(\beta_0\) dan \(\beta_1\) dengan menghitung \((X^T X)^{-1}X^T y\).
d) Verifikasi perhitungan Anda di bagian c dengan
menemukan \(\beta_0\) dan \(\beta_1\) menggunakan rumus.
Soal 10:
Misalkan \(x\) menunjukkan jumlah jam menonton TV per hari dan \(y\) menunjukkan jumlah waktu yang dihabiskan untuk berolahraga per hari. Asumsikan regresi linear sederhana berlaku dan pertimbangkan data berikut:
| Jam Menonton TV (x) | Waktu Olahraga (y) |
|---|---|
| 1 | 60 |
| 2 | 50 |
| 3 | 40 |
| 4 | 30 |
| 5 | 20 |
| 6 | 10 |
a) Temukan \(y\)
dan \(X\).
b) Temukan \(X^T X\),
\(X^T y\), dan \((X^T X)^{-1}\).
c) Temukan estimasi kuadrat terkecil untuk \(\beta_0\) dan \(\beta_1\) dengan menghitung \((X^T X)^{-1}X^T y\).
d) Verifikasi perhitungan Anda di bagian c dengan
menemukan \(\beta_0\) dan \(\beta_1\) menggunakan rumus.