Email : natalieekaren@gmail.com
RPubs : https://rpubs.com/karennatalie/
Jurusan : Statistika
Address : ARA Center, Matana University Tower
Jl. CBD Barat Kav, RT.1, Curug Sangereng, Kelapa Dua, Tangerang, Banten 15810.
adalah Metode Statistik yang berfungsi untuk menguji sejauh mana hubungan sebab akibat antara Variabel independen dan variabel dependen. Kita dapat menggunakan regresi linier sederhana jika ingin mengetahui:
- Seberapa kuat hubungan antara dua variabel
- Nilai variabel terikat pada nilai tertentu dari variabel bebas
Model regresi linear sederhana berbentuk: \[
y_i=\beta_0+\beta_1x_i+\epsilon_i
\] Dimana \(\epsilon_i~N(0, \sigma^2)\).
Keterangan:
- \(Y\) = variabel dependen
- \(X\) = variabel independen
- \(\beta_0\) = intersept (nilai rata-rata dari \(Y\) dimana \(x=0\)) terkadang dilambangkan dengan \(\sigma\)
- \(\beta_1\) = kemiringan (peningkatan yang diharapkan dalam \(Y\) dimana \(X\) bertambah satu satuan)
- \(\epsilon\) = residual (kesalahan rata-rata 0 yang menggambarkan variasi dari \(Y\) tidak ditangkap oleh model, juga disebut sebagai noise)
- (\(x_i, y_i\)) dimana \(i=1,2,..., n\), untuk menemukan nilai \(\beta_0\) dan \(\beta_1\) yang diminimalkan
\[ f(\beta_0, \beta_1)= \sum_{i=1}^{n} (y_i-(\beta_0+\beta_1x_i))^2 \] Kita menyebut nilai \(\hat{\beta_o}\) dan \(\hat{\beta_1}\), yaitu:
\[
\hat{\beta_1}= \frac{S_{xy}}{S_{xx}}=\frac{\sum_{i=1}^{n}(y_i-\overline{y})}{\sum_{i=1}^{n}(x_i-\overline{x})^2}
\] \[
\hat{\beta_0}=\overline{y}-\hat{\beta_1}\overline{x}.
\] Dan juga mengestimasi \(\sigma^2\) menggunakan \(s_e^2\). Di kata lain, kita menemukan \(s_e\) adalah perkiraan dimana: \[
s_e = \text{RSE} = \sqrt{\frac{1}{n - 2}\sum_{i = 1}^n e_i^2}
\] RSE adalah “Residual Standard Error”.
Berikut contoh dalam regresi linear sederhana :
Saya mengambil data mtcars yand dimuat R. Dataset mencakup konsumsi bahan bakar dan 10 aspek desain dan kinerja otomotif untuk 32 mobil sebagai berikut: - mpg = Miles/(US) gallon (with a gallon ≈ 3.79 liters)
- cyl = Number of cylinders
- disp = Displacement (cu.in.) <br. - hp = Gross horsepower
- drat = Rear axle ratio
- wt = Weight (1000 lbs, with 1000 lbs ≈ 453.59 kg)
- qsec = 1/4 mile time (with 1/4 mile ≈ 402.34 meters)
- vs = Engine (0 = V-shaped, 1 = straight)
- am = Transmission (0 = automatic, 1 = manual)
- gear = Number of forward gears
- carb = Number of carburetors
Disini kita ingin mencari koefisien korelasi antara variabel berat(weight) dan konsumsi mobil(car’s consumption) terhadap data mtcars yang memberikan informasi tentang arah dan kekuatan hubungan anatara dua variabel. untuk melakukannya, kita menggunakan fungsi lm() untuk mengatur variabel dependen terlebih dahulu kemudian variabel independen, dipisahkan oleh ~.
Uji Hipotesis:
- \(H_0:\beta_1=0\) (tidak ada hubungan linier antara kedua variabel)
- \(H_1:\beta_1\neq0\) (ada hubungan antara dua variabel)
dat <- mtcars
model <- lm(mpg ~ wt, data = dat)
summary(model)##
## Call:
## lm(formula = mpg ~ wt, data = dat)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.5432 -2.3647 -0.1252 1.4096 6.8727
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 37.2851 1.8776 19.858 < 2e-16 ***
## wt -5.3445 0.5591 -9.559 1.29e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.046 on 30 degrees of freedom
## Multiple R-squared: 0.7528, Adjusted R-squared: 0.7446
## F-statistic: 91.38 on 1 and 30 DF, p-value: 1.294e-10
Hasilnya bisa kita ringkas sebagai berikut:
- Intersept \(\hat{\beta_0}=37.29\) menunjukkan bahwa untuk mobil hipotetis dengan bobot 0 lbs, kita dapat mengharapkan, rata-rata, konsumsi 37,29 mil/galon.
- Kemiringan \(\hat{\beta_1}=-5.34\) menunjukkan bahwa:
* Ada hubungan negatif antara berat dan jarak yang dapat ditempuh mobil dengan galon
*Kemiringan -5,34 berarti bahwa, untuk peningkatan satu unit berat (yaitu, peningkatan 1000 lbs), jumlah mil per galon berkurang, rata-rata, sebesar 5,34 unit. Dengan kata lain, untuk kenaikan 1000 lbs, jumlah mil/galon berkurang, rata-rata, sebesar 5,34.
Kita ingin menginterpretasi lain dari intersep ketika variabel independen dipusatkan di sekitar meannya. Dalam hal ini, intersep diinterpretasikan sebagai nilai rata-rata dari \(Y\) untuk individu yang memiliki nilai \(X\) sama denagn rata-rata \(X\). Kita ingin memusatkan wt variabel di sekitar mean kemudian menjalankan kembali model liniear sederhana dengan variabel bari ini:
dat_centered <- dat
dat_centered$wt_centered <- dat$wt - mean(dat$wt)
mod_centered <- lm(mpg ~ wt_centered,
data = dat_centered
)
summary(mod_centered)##
## Call:
## lm(formula = mpg ~ wt_centered, data = dat_centered)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.5432 -2.3647 -0.1252 1.4096 6.8727
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 20.0906 0.5384 37.313 < 2e-16 ***
## wt_centered -5.3445 0.5591 -9.559 1.29e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.046 on 30 degrees of freedom
## Multiple R-squared: 0.7528, Adjusted R-squared: 0.7446
## F-statistic: 91.38 on 1 and 30 DF, p-value: 1.294e-10
Berdasarkan hasil, kita melihat bahwa:
- Kemiringan tidak berubah, interpretasinya sama dengan tanpa pemusatan (yang masuk akal karena garis regresi hanya digeser ke kanan atau kiri).
- Intersep nya sekarang \(\beta_0=20,09\), jadi kita bisa mengharapkan, rata-rata konsumsi 20,09 mil/galon untuk mobil dengan berat rata-rata(rata-rata beratnya adalah 3,22 jadi 3220 lbs) - \(P-value= 1,29e-10 < 0,05\) jadi kita menolak hipotesis nol pada tingkat signifikansi \(\sigma=5%\). Oleh karena itu kami menyimpulkan bahwa ada hubungan yang signifikan antara berat mobil dan konsumsi bahan bakarnya .
Regresi linier berganda mengacu pada teknik statistik yang menggunakan dua atau lebih variabel independen untuk memprediksi hasil dari variabel dependen. Model regresi berganda sebagai berikut:
\[
y_1=\beta_0+\beta_1x_{i1}+\beta_1x_{i2}+...+\beta_px_{ip}+\epsilon
\] Dimana, \(i=n\).
Mirip dengan persamaan regresi linear sederhana, hanya saja terdapat lebih dari satu variabel bebas(\(x_1, x_2, ..., x_p\)). estimasi parameter \(\beta_0, ... ,\beta_p\) dengan metode kuadrat terkecil didasarkan pada prinsip yang sama dengan regresi linear sederhana, tetapi diterapkan pada \(P\) dimensi.
Berikut contoh penyelesaian dalam regresi linear berganda:
Mari kita ilustrasikan gagasan penyesuaian ini dengan menambahkan horsepower dan displacement dalam model regresi linier kita:
Uji Hipotesis:
- \(H_0:\beta_1=\beta_2=...=\beta_p=0\) - \(H_1:\) setidaknya satu koefisien \(\beta\neq0\)
uji \(\beta_j=0\) setara dengan menguji hipotesis: apakah variabel terikat terkait dengan variabel bebas yang dipelajari, semua hal lain dianggap sama, artinya, pada tingkat konstan variabel bebas lainnya.Dengan Kata lain:
- uji \(\beta_1=0\) sesuai dengan pengujian hipotesis: apakah konsumsi bahan bakar dikaitkan dengan berat mobil, pada tingkat tenaga kuda dan perpindahan yang konstan
- Uji \(\beta_2=0\) sesuai dengan pengujian hipotesis: apakah konsumsi bahan bakar terkait dengan tenaga kuda, pada tingkat bobot dan perpindahan yang konstan
- Uji \(\beta_3=0\) sesuai dengan pengujian hipotesis: apakah konsumsi bahan bakar terkait dengan perpindahan, pada tingkat berat dan perpindahan yang konstan
- (demi kelengkapan: uji \(\beta_0=0\) sesuai dengan pengujian hipotesis: apakah mil/galon berbeda dari 0 ketika berat, tenaga kuda, dan perpindahan sama dengan 0)
model2 <- lm(mpg ~ wt + hp + disp,
data = dat
)
summary(model2)##
## Call:
## lm(formula = mpg ~ wt + hp + disp, data = dat)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.891 -1.640 -0.172 1.061 5.861
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 37.105505 2.110815 17.579 < 2e-16 ***
## wt -3.800891 1.066191 -3.565 0.00133 **
## hp -0.031157 0.011436 -2.724 0.01097 *
## disp -0.000937 0.010350 -0.091 0.92851
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.639 on 28 degrees of freedom
## Multiple R-squared: 0.8268, Adjusted R-squared: 0.8083
## F-statistic: 44.57 on 3 and 28 DF, p-value: 8.65e-11
Bisa kita simpulkan bahwa, hubungan antara miles/gallon dan weight lebih lemah dalam kemiringan (\(\hat{\beta_1}=-3.8\) sekarang)
Pengaruh berat pada konsumsi bahan bakar telah disesuaikan dengan efek tenaga kuda dan perpindahan. Ini adalah efek yang tersisa antara mil/galon dan berat setelah efek tenaga kuda dan perpindahan diperhitungkan.
Berdasarkan output dari model kami, kami menyimpulkan bahwa:
- Ada hubungan yang signifikan dan negatif antara mil/galon dan berat, semuanya sama . Jadi untuk peningkatan satu unit berat (yaitu, peningkatan 1000 lbs), jumlah mil/galon berkurang, rata-rata, sebesar 3,8, untuk tingkat tenaga kuda dan perpindahan yang konstan ( \(P-value=0.001\))
- Ada hubungan yang signifikan dan negatif antara mil / galon dan tenaga kuda, semuanya sama. Jadi untuk kenaikan satu unit tenaga kuda, jarak yang ditempuh dengan satu galon berkurang, rata-rata 0,03 mil, untuk tingkat berat dan perpindahan yang konstan (\(P-value=0.001\))
- Tidak menolak hipotesis, tidak ada hubungan antara mil/galon dan perpindahan ketika berat dan tenaga kuda tetap konstan (karena \(P-value=0.929>0.05\)) - \(R^2\) untuk model ini adalah 0,8268, yang berarti bahwa 82,68% variabilitas jarak yang ditempuh dengan satu galon dijelaskan oleh berat, tenaga kuda, dan perpindahan mobil. relatif tinggi \(R^2\) berarti bahwa berat, tenaga kuda, dan perpindahan sebuah mobil adalah karakteristik yang baik untuk menjelaskan jarak yang dapat ditempuhnya dengan satu galon bahan bakar.
Bagaimana kecepatan sebuah mobil mempengaruhi jarak berhentinya, yaitu seberapa jauh mobil itu bergerak sebelum berhenti. Untuk menguji hubungan ini, kita akan menggunakan cars dataset yang merupakan Rdataset default.Kita juga bisa melihat nama variabel, dimensi kerangka data, dan beberapa contoh observasi dengan str().
str(cars)## 'data.frame': 50 obs. of 2 variables:
## $ speed: num 4 4 7 7 8 9 10 10 10 11 ...
## $ dist : num 2 10 4 22 16 10 18 26 34 17 ...
\[ H_o:\beta_1=0 \] \[H_a:\beta_1\neq0 \]
Kita ingin mencari \(\hat{\beta_0}\) dan \(\hat{\beta_1}\) dalam dataset cars. Untuk variabel respon kita lambangkan sebagai \(y\) dan variabel prediktor sebagai \(x\).
x = cars$speed
y = cars$distkemudian menghitung tiga jumlah kuadrat (sxy, sxx, syy).
Sxy = sum((x - mean(x)) * (y - mean(y)))
Sxx = sum((x - mean(x)) ^ 2)
Syy = sum((y - mean(y)) ^ 2)
c(Sxy, Sxx, Syy)## [1] 5387.40 1370.00 32538.98
Kemudian menghitung \(\hat{\beta_0}\) dan \(\hat{\beta_1}\).
beta_1_hat = Sxy / Sxx
beta_0_hat = mean(y) - beta_1_hat * mean(x)
c(beta_0_hat, beta_1_hat)## [1] -17.579095 3.932409
jadi, nilai \(\hat{\beta_0}\) dan \(\hat{\beta_1}\) adalah :
\(\hat{\beta_0}=-17.5790949\) dan \(\hat{\beta_1}=3.9324088\)
Parameter kemiringan \(\hat{\beta_1}\) memberitahu bahwa untuk peningkatan kecepatan satu mil per jam, jarak berhenti rata -rata meningkat sebesar \(\hat{\beta_1}\).Artinya, Perkiraan \(\hat{\beta_1}=3.93\) memberitahu kita bahwa untuk peningkatan kecepatan satu mil per jam, perkiraan jarak berhenti rata -rata meningkat sebesar 3.93 kaki.
Parameter intersep \(\beta_0\) memberitahu memberitahu kita jarak berhenti rata -rata untuk mobil yang melaju nol mil per jam. (Tidak bergerak.) Perkiraan \(\hat{\beta_0}=-17.58\) memberitahu kita bahwa perkiraan jarak berhenti rata-rata untuk mobil yang melaju nol mil per jam adalah - 17.58 kaki.
Kita dapat mengetahui bahwa \(\hat{y}=\hat{\beta_0}+\hat{\beta_1}x\).
Dalam kasus database cars \(\hat{y}=-17.58+3.93x\).
Kita sekarang dapat menggunakan garis ini untuk membuat prediksi. Pertama, mari kita lihat kemungkinannya x nilai dalam kumpulan data cars. \[
\hat{y}=-17.58+3.93*8
\] Sebelum itu kita menggunakan fungsi unique() untuk mengembalikan nilai unik hanya sekali.
unique(cars$speed)## [1] 4 7 8 9 10 11 12 13 14 15 16 17 18 19 20 22 23 24 25
Misalkan kita membuat prediksi untuk jarak berhenti sebuah mobil yang melaju dengan kecepatan 8 mil per jam
beta_0_hat + beta_1_hat * 8## [1] 13.88018
Ini memberitahu kita bahwa perkiraan jarak henti rata-rata sebuah mobil yang melaju dengan kecepatan 8 mil per jam adalah 13.88.
Model residu “Response=Prediction+Error” dapat kita formulasikan sebagai \[ y=\hat{y}+e \]
kemudian mendefinisikan residual menjadi nilai yang diamati dikurangi nilai yang diprediksi.
\[ e_i=y_i-\hat{y_i} \] Mari kita hitung sisa prediksi yang kita buat untuk mobil yang melaju 8 mil per jam. Pertama, kita perlu mendapatkan nilai yang diamati dari \(y\) untuk ini \(x\) nilai.
which(cars$speed == 8)## [1] 5
cars[5, ]## speed dist
## 5 8 16
Kemudian kita dapat menghitung \[ e=16-13.88=2.12 \]
16 - (beta_0_hat + beta_1_hat * 8)## [1] 2.119825
Nilai residu positif menunjukkan bahwa jarak berhenti yang diamati sebenarnya 2,12 kaki lebih jauh dari yang diperkirakan.
# Mencari estimasi varians
y_hat = beta_0_hat + beta_1_hat * x
e = y - y_hat
n = length(e)
s2_e = sum(e^2) / (n - 2)
s2_e## [1] 236.5317
# Mencari Jumlah Kuadrat Total, Jumlah regresi Kuadrat, Jumlah Kesalahan Kuadrat
SST = sum((y - mean(y)) ^ 2)
SSReg = sum((y_hat - mean(y)) ^ 2)
SSE = sum((y - y_hat) ^ 2)
c(SST = SST, SSReg = SSReg, SSE = SSE)## SST SSReg SSE
## 32538.98 21185.46 11353.52
R2 = SSReg / SST
R2## [1] 0.6510794
Sebagai cars contoh, kami menghitung \(R^2=65\)%. Kemudian mengatakan bahwa \(65\)% dari variabilitas yang diamati dalam jarak berhenti dijelaskan oleh hubungan linier dengan speed.
avg <- mean(cars$speed)
stdev <- sd(cars$speed)
hist(cars$speed, xlab=" speed(in miles per hour)", main="Histogram dari Speed", freq=FALSE)
curve(dnorm(x, avg, stdev), add=TRUE, col=2)library("gridExtra")
library("ggplot2")
glinear <- ggplot(cars)+
geom_point(aes(x = dist,
y = speed),
shape = 1)+
geom_smooth(aes(x = dist,
y = speed),
method = "lm",
formula = "y~x",
color = "red")
glinearPada plot diatas dapat diamati bahwa dapat disebut linear.
stop_dist_model = lm(dist ~ speed, data = cars)
stop_dist_model##
## Call:
## lm(formula = dist ~ speed, data = cars)
##
## Coefficients:
## (Intercept) speed
## -17.579 3.932
summary(stop_dist_model)##
## Call:
## lm(formula = dist ~ speed, data = cars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -29.069 -9.525 -2.272 9.215 43.201
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -17.5791 6.7584 -2.601 0.0123 *
## speed 3.9324 0.4155 9.464 1.49e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 15.38 on 48 degrees of freedom
## Multiple R-squared: 0.6511, Adjusted R-squared: 0.6438
## F-statistic: 89.57 on 1 and 48 DF, p-value: 1.49e-12
Kita ingin memodelkan perbandingan antara model mobil yang berbeda dalam hal jarak tempuh per galon dalam konsumsi bahan bakar (mpg), perpindahan silinder (“disp”), tenaga kuda (“hp”), berat mobil (“wt”) dan beberapa parameter lainnya. Tujuan dari model ini adalah untuk membangun hubungan antara “mpg” sebagai variabel respon dengan “disp”, “hp” dan “wt” sebagai variabel prediktor.
Keterangan:
- hp = housepower
- disp = displacement
- wt = weight
input <- mtcars[,c("mpg","disp","hp","wt")]
print(head(input))## mpg disp hp wt
## Mazda RX4 21.0 160 110 2.620
## Mazda RX4 Wag 21.0 160 110 2.875
## Datsun 710 22.8 108 93 2.320
## Hornet 4 Drive 21.4 258 110 3.215
## Hornet Sportabout 18.7 360 175 3.440
## Valiant 18.1 225 105 3.460
Jika korelasi mendekati 1 maka terdapat hubungan timpal balik positif. Jika mendekati 0, maka tidak ada korelasi. Dan jika mendekati -1 maka terdapat hubungan timpal balik negatif. Gunakan fungsi cor() untuk menguji hubungan antara variabel independen nya dan pastikan mereka tidak terlalu berkorelasi.
cor(mtcars$disp, mtcars$wt)## [1] 0.8879799
cor(mtcars$disp, mtcars$hp)## [1] 0.7909486
Korelasi antar disp dan wt serta korelasi antar disp dan hp mendekati 1 maka terdapat huungan timpal balik positif.
avg2 <- mean(mtcars$mpg)
stdev2 <- sd(mtcars$mpg)
hist(mtcars$mpg, xlab = "Heart Disease", main="", freq=FALSE)
curve(dnorm(x, avg2, stdev2), add = TRUE, col="blue")plot(mpg ~ wt + hp + disp, data = mtcars)hubungan antara miles/gallon dan horsepower tidak linier, yang dapat menjadi komponen utama dari sedikit cacat linieritas model.
\[ H_O:\beta_1=\beta_2=0 \]
\[
H_0:\beta_1\neq\beta_2\neq0
\] Keterangan:
- \(\beta_0=0\) sesuai dengan pengujian hipotesis: apakah mil/galon berbeda dari 0 ketika weight, housepower, dan displacement sama dengan 0
- \(\beta_1=0\) sesuai dengan pengujian hipotesis: apakah konsumsi bahan bakar dikaitkan dengan berat mobil, pada tingkat housepower dan displacement yang konstan
- \(\beta_2=0\) sesuai dengan pengujian hipotesis: apakah konsumsi bahan bakar terkait dengan housepower, pada tingkat weight dan displacement yang konstan
- \(\beta_3=0\) sesuai dengan pengujian hipotesis: apakah konsumsi bahan bakar terkait dengan displacement, pada tingkat weight dan displacement yang konstan
model2 <- lm(mpg ~ wt + hp + disp,
data = mtcars
)
summary(model2)##
## Call:
## lm(formula = mpg ~ wt + hp + disp, data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.891 -1.640 -0.172 1.061 5.861
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 37.105505 2.110815 17.579 < 2e-16 ***
## wt -3.800891 1.066191 -3.565 0.00133 **
## hp -0.031157 0.011436 -2.724 0.01097 *
## disp -0.000937 0.010350 -0.091 0.92851
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.639 on 28 degrees of freedom
## Multiple R-squared: 0.8268, Adjusted R-squared: 0.8083
## F-statistic: 44.57 on 3 and 28 DF, p-value: 8.65e-11
Hasil Uji Hipotesis:
- Ada hubungan yang signifikan dan negatif antara miles/gallon dan weight, semuanya sama . Jadi untuk peningkatan satu unit weight (yaitu, peningkatan 1000 lbs), jumlah miles/gallon berkurang, rata-rata, sebesar 3,8, untuk tingkat horsepower dan displacement yang konstan (\(P-value=0.001\))
- Ada hubungan yang signifikan dan negatif antara miles/gallon dan horsepower, semuanya sama. Jadi untuk kenaikan satu unit horsepower, jarak yang ditempuh dengan satu gallon berkurang, rata-rata 0,03 mil, untuk tingkat weight dan displacement yang konstan (\(P-value=0.001\))
- Tidak menolak hipotesis tidak ada hubungan antara miles/gallon dan displacement ketika weight dan horsepower tetap konstan (karena \(P-value=0.929>0.05\))
- untuk berat, horsepower dan displacement = 0, kita dapat mengharapkan bahwa sebuah mobil memiliki, rata-rata, konsumsi bahan bakar 37,11 mil/galon (\(P-value=0.001\))
Membuat Persamaan Regresi Linear Berganda
\[ y_1=\beta_0+\beta_1x_{i1}+\beta_1x_{i2}+...+\beta_px_{ip}+\epsilon \]
\[ y=37.15+(-0.000937)*x_1+(-0.0311)*x_2+(-3.8008)*x_3 \]
Koefesien Determinan
summary(model2)$r.squared## [1] 0.8268361
\(R^2\) untuk model ini adalah \(0,8268\), yang berarti bahwa 82,68% variabilitas jarak yang ditempuh dengan satu galon dijelaskan oleh weight, housepower dan displacement mobil. relatif tinggi \(R^2\) berarti bahwa weight, housepower dan displacement sebuah mobil adalah karakteristik yang baik untuk menjelaskan jarak yang dapat ditempuhnya dengan satu galon bahan bakar.
ml <- summary(model2)
ml##
## Call:
## lm(formula = mpg ~ wt + hp + disp, data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.891 -1.640 -0.172 1.061 5.861
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 37.105505 2.110815 17.579 < 2e-16 ***
## wt -3.800891 1.066191 -3.565 0.00133 **
## hp -0.031157 0.011436 -2.724 0.01097 *
## disp -0.000937 0.010350 -0.091 0.92851
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.639 on 28 degrees of freedom
## Multiple R-squared: 0.8268, Adjusted R-squared: 0.8083
## F-statistic: 44.57 on 3 and 28 DF, p-value: 8.65e-11
summary(model2)$r.squared ## [1] 0.8268361
mk <- lm(mpg~(wt+hp+disp)^2, data=mtcars)
kn <- summary(mk)
kn##
## Call:
## lm(formula = mpg ~ (wt + hp + disp)^2, data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.1300 -1.5822 -0.5335 1.5777 4.0419
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 48.2558247 4.9028899 9.842 4.41e-10 ***
## wt -6.2016994 2.7159733 -2.283 0.0312 *
## hp -0.1193411 0.0688717 -1.733 0.0955 .
## disp -0.0198651 0.0385595 -0.515 0.6110
## wt:hp 0.0181979 0.0247729 0.735 0.4694
## wt:disp -0.0005743 0.0078207 -0.073 0.9420
## hp:disp 0.0001238 0.0001388 0.892 0.3812
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.236 on 25 degrees of freedom
## Multiple R-squared: 0.889, Adjusted R-squared: 0.8624
## F-statistic: 33.38 on 6 and 25 DF, p-value: 9.166e-11
summary(mk)$r.squared## [1] 0.8890178
pl <- lm(mpg~poly(disp, 3)+hp+wt, data=mtcars)
mp <- summary(pl)
mp##
## Call:
## lm(formula = mpg ~ poly(disp, 3) + hp + wt, data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.0840 -1.3437 0.0213 1.4389 2.9232
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 28.064696 3.993974 7.027 1.84e-07 ***
## poly(disp, 3)1 -14.478946 6.605086 -2.192 0.03752 *
## poly(disp, 3)2 7.559369 2.106729 3.588 0.00135 **
## poly(disp, 3)3 -8.321207 2.905919 -2.864 0.00818 **
## hp -0.024233 0.009179 -2.640 0.01383 *
## wt -1.373646 1.152477 -1.192 0.24406
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.011 on 26 degrees of freedom
## Multiple R-squared: 0.9066, Adjusted R-squared: 0.8887
## F-statistic: 50.49 on 5 and 26 DF, p-value: 1.45e-12
summary(pl)$r.squared ## [1] 0.9066186
logl <- lm(log(mpg)~hp+wt+disp, data=mtcars)
mll <- summary(logl)
mll##
## Call:
## lm(formula = log(mpg) ~ hp + wt + disp, data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.17416 -0.07993 -0.02242 0.06500 0.28057
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.7966863 0.0901786 42.102 < 2e-16 ***
## hp -0.0013794 0.0004886 -2.823 0.008653 **
## wt -0.1800535 0.0455500 -3.953 0.000477 ***
## disp -0.0002495 0.0004422 -0.564 0.577132
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1127 on 28 degrees of freedom
## Multiple R-squared: 0.8705, Adjusted R-squared: 0.8567
## F-statistic: 62.75 on 3 and 28 DF, p-value: 1.512e-12
summary(logl)$r.squared## [1] 0.8705246
linl <- lm(mpg~log(wt)+log(hp)+log(disp), data=mtcars)
modellinl <- summary(linl)
modellinl##
## Call:
## lm(formula = mpg ~ log(wt) + log(hp) + log(disp), data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.8237 -1.5407 -0.6512 1.0536 4.6492
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 60.274 5.322 11.325 5.77e-12 ***
## log(wt) -9.871 2.772 -3.561 0.00135 **
## log(hp) -4.418 1.597 -2.766 0.00993 **
## log(disp) -1.427 2.011 -0.710 0.48372
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.102 on 28 degrees of freedom
## Multiple R-squared: 0.8901, Adjusted R-squared: 0.8783
## F-statistic: 75.59 on 3 and 28 DF, p-value: 1.541e-13
summary(linl)$r.squared## [1] 0.8900924
loglog <- lm(log(mpg)~log(wt)+log(hp)+log(disp), data=mtcars)
modelll <- summary(loglog)
modelll##
## Call:
## lm(formula = log(mpg) ~ log(wt) + log(hp) + log(disp), data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.196932 -0.086109 0.005329 0.073336 0.220450
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.94620 0.26867 18.410 < 2e-16 ***
## log(wt) -0.47880 0.13993 -3.422 0.00193 **
## log(hp) -0.21299 0.08063 -2.642 0.01334 *
## log(disp) -0.07792 0.10152 -0.768 0.44919
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1061 on 28 degrees of freedom
## Multiple R-squared: 0.8853, Adjusted R-squared: 0.873
## F-statistic: 72.01 on 3 and 28 DF, p-value: 2.805e-13
summary(loglog)$r.squared## [1] 0.8852665
Model terbaik adalah model yang memiliki \(R^2\) tertinggi. \(R^2\) tertinggi berada pada model polinomial yaitu sebesar \(0.9066186\). Maka dapat disimpulkan model terbaik adalah Model Polinomial.