Email         : natalieekaren@gmail.com
RPubs       : https://rpubs.com/karennatalie/
Jurusan : Statistika
Address : ARA Center, Matana University Tower
   Jl. CBD Barat Kav, RT.1, Curug Sangereng, Kelapa Dua, Tangerang, Banten 15810.

1 Apa perbedaan regresi Linear Sederhana dan Berganda, jelaskan dengan contoh!

1.1 Regresi Linear Sederhana

adalah Metode Statistik yang berfungsi untuk menguji sejauh mana hubungan sebab akibat antara Variabel independen dan variabel dependen. Kita dapat menggunakan regresi linier sederhana jika ingin mengetahui:
- Seberapa kuat hubungan antara dua variabel
- Nilai variabel terikat pada nilai tertentu dari variabel bebas
Model regresi linear sederhana berbentuk: \[ y_i=\beta_0+\beta_1x_i+\epsilon_i \] Dimana \(\epsilon_i~N(0, \sigma^2)\).
Keterangan:
- \(Y\) = variabel dependen
- \(X\) = variabel independen
- \(\beta_0\) = intersept (nilai rata-rata dari \(Y\) dimana \(x=0\)) terkadang dilambangkan dengan \(\sigma\)
- \(\beta_1\) = kemiringan (peningkatan yang diharapkan dalam \(Y\) dimana \(X\) bertambah satu satuan)
- \(\epsilon\) = residual (kesalahan rata-rata 0 yang menggambarkan variasi dari \(Y\) tidak ditangkap oleh model, juga disebut sebagai noise)
- (\(x_i, y_i\)) dimana \(i=1,2,..., n\), untuk menemukan nilai \(\beta_0\) dan \(\beta_1\) yang diminimalkan

\[ f(\beta_0, \beta_1)= \sum_{i=1}^{n} (y_i-(\beta_0+\beta_1x_i))^2 \] Kita menyebut nilai \(\hat{\beta_o}\) dan \(\hat{\beta_1}\), yaitu:

\[ \hat{\beta_1}= \frac{S_{xy}}{S_{xx}}=\frac{\sum_{i=1}^{n}(y_i-\overline{y})}{\sum_{i=1}^{n}(x_i-\overline{x})^2} \] \[ \hat{\beta_0}=\overline{y}-\hat{\beta_1}\overline{x}. \] Dan juga mengestimasi \(\sigma^2\) menggunakan \(s_e^2\). Di kata lain, kita menemukan \(s_e\) adalah perkiraan dimana: \[ s_e = \text{RSE} = \sqrt{\frac{1}{n - 2}\sum_{i = 1}^n e_i^2} \] RSE adalah “Residual Standard Error”.
Berikut contoh dalam regresi linear sederhana :
Saya mengambil data mtcars yand dimuat R. Dataset mencakup konsumsi bahan bakar dan 10 aspek desain dan kinerja otomotif untuk 32 mobil sebagai berikut: - mpg = Miles/(US) gallon (with a gallon ≈ 3.79 liters)
- cyl = Number of cylinders
- disp = Displacement (cu.in.) <br. - hp = Gross horsepower
- drat = Rear axle ratio
- wt = Weight (1000 lbs, with 1000 lbs ≈ 453.59 kg)
- qsec = 1/4 mile time (with 1/4 mile ≈ 402.34 meters)
- vs = Engine (0 = V-shaped, 1 = straight)
- am = Transmission (0 = automatic, 1 = manual)
- gear = Number of forward gears
- carb = Number of carburetors

Disini kita ingin mencari koefisien korelasi antara variabel berat(weight) dan konsumsi mobil(car’s consumption) terhadap data mtcars yang memberikan informasi tentang arah dan kekuatan hubungan anatara dua variabel. untuk melakukannya, kita menggunakan fungsi lm() untuk mengatur variabel dependen terlebih dahulu kemudian variabel independen, dipisahkan oleh ~.
Uji Hipotesis:
- \(H_0:\beta_1=0\) (tidak ada hubungan linier antara kedua variabel)
- \(H_1:\beta_1\neq0\) (ada hubungan antara dua variabel)

dat <- mtcars
model <- lm(mpg ~ wt, data = dat)
summary(model)

## 
## Call:
## lm(formula = mpg ~ wt, data = dat)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.5432 -2.3647 -0.1252  1.4096  6.8727 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
## wt           -5.3445     0.5591  -9.559 1.29e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.046 on 30 degrees of freedom
## Multiple R-squared:  0.7528, Adjusted R-squared:  0.7446 
## F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10

Hasilnya bisa kita ringkas sebagai berikut:
- Intersept \(\hat{\beta_0}=37.29\) menunjukkan bahwa untuk mobil hipotetis dengan bobot 0 lbs, kita dapat mengharapkan, rata-rata, konsumsi 37,29 mil/galon.
- Kemiringan \(\hat{\beta_1}=-5.34\) menunjukkan bahwa:
* Ada hubungan negatif antara berat dan jarak yang dapat ditempuh mobil dengan galon
*Kemiringan -5,34 berarti bahwa, untuk peningkatan satu unit berat (yaitu, peningkatan 1000 lbs), jumlah mil per galon berkurang, rata-rata, sebesar 5,34 unit. Dengan kata lain, untuk kenaikan 1000 lbs, jumlah mil/galon berkurang, rata-rata, sebesar 5,34.

Kita ingin menginterpretasi lain dari intersep ketika variabel independen dipusatkan di sekitar meannya. Dalam hal ini, intersep diinterpretasikan sebagai nilai rata-rata dari \(Y\) untuk individu yang memiliki nilai \(X\) sama denagn rata-rata \(X\). Kita ingin memusatkan wt variabel di sekitar mean kemudian menjalankan kembali model liniear sederhana dengan variabel bari ini:

dat_centered <- dat

dat_centered$wt_centered <- dat$wt - mean(dat$wt)

mod_centered <- lm(mpg ~ wt_centered,
  data = dat_centered
)

summary(mod_centered)

## 
## Call:
## lm(formula = mpg ~ wt_centered, data = dat_centered)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.5432 -2.3647 -0.1252  1.4096  6.8727 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  20.0906     0.5384  37.313  < 2e-16 ***
## wt_centered  -5.3445     0.5591  -9.559 1.29e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.046 on 30 degrees of freedom
## Multiple R-squared:  0.7528, Adjusted R-squared:  0.7446 
## F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10

Berdasarkan hasil, kita melihat bahwa:
- Kemiringan tidak berubah, interpretasinya sama dengan tanpa pemusatan (yang masuk akal karena garis regresi hanya digeser ke kanan atau kiri).
- Intersep nya sekarang \(\beta_0=20,09\), jadi kita bisa mengharapkan, rata-rata konsumsi 20,09 mil/galon untuk mobil dengan berat rata-rata(rata-rata beratnya adalah 3,22 jadi 3220 lbs) - \(P-value= 1,29e-10 < 0,05\) jadi kita menolak hipotesis nol pada tingkat signifikansi \(\sigma=5%\). Oleh karena itu kami menyimpulkan bahwa ada hubungan yang signifikan antara berat mobil dan konsumsi bahan bakarnya .

1.2 Regresi Linear Berganda

Regresi linier berganda mengacu pada teknik statistik yang menggunakan dua atau lebih variabel independen untuk memprediksi hasil dari variabel dependen. Model regresi berganda sebagai berikut:

\[ y_1=\beta_0+\beta_1x_{i1}+\beta_1x_{i2}+...+\beta_px_{ip}+\epsilon \] Dimana, \(i=n\).
Mirip dengan persamaan regresi linear sederhana, hanya saja terdapat lebih dari satu variabel bebas(\(x_1, x_2, ..., x_p\)). estimasi parameter \(\beta_0, ... ,\beta_p\) dengan metode kuadrat terkecil didasarkan pada prinsip yang sama dengan regresi linear sederhana, tetapi diterapkan pada \(P\) dimensi.
Berikut contoh penyelesaian dalam regresi linear berganda:
Mari kita ilustrasikan gagasan penyesuaian ini dengan menambahkan horsepower dan displacement dalam model regresi linier kita:
Uji Hipotesis:
- \(H_0:\beta_1=\beta_2=...=\beta_p=0\) - \(H_1:\) setidaknya satu koefisien \(\beta\neq0\)
uji \(\beta_j=0\) setara dengan menguji hipotesis: apakah variabel terikat terkait dengan variabel bebas yang dipelajari, semua hal lain dianggap sama, artinya, pada tingkat konstan variabel bebas lainnya.Dengan Kata lain:
- uji \(\beta_1=0\) sesuai dengan pengujian hipotesis: apakah konsumsi bahan bakar dikaitkan dengan berat mobil, pada tingkat tenaga kuda dan perpindahan yang konstan
- Uji \(\beta_2=0\) sesuai dengan pengujian hipotesis: apakah konsumsi bahan bakar terkait dengan tenaga kuda, pada tingkat bobot dan perpindahan yang konstan
- Uji \(\beta_3=0\) sesuai dengan pengujian hipotesis: apakah konsumsi bahan bakar terkait dengan perpindahan, pada tingkat berat dan perpindahan yang konstan
- (demi kelengkapan: uji \(\beta_0=0\) sesuai dengan pengujian hipotesis: apakah mil/galon berbeda dari 0 ketika berat, tenaga kuda, dan perpindahan sama dengan 0)

model2 <- lm(mpg ~ wt + hp + disp,
  data = dat
)

summary(model2)

## 
## Call:
## lm(formula = mpg ~ wt + hp + disp, data = dat)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -3.891 -1.640 -0.172  1.061  5.861 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 37.105505   2.110815  17.579  < 2e-16 ***
## wt          -3.800891   1.066191  -3.565  0.00133 ** 
## hp          -0.031157   0.011436  -2.724  0.01097 *  
## disp        -0.000937   0.010350  -0.091  0.92851    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.639 on 28 degrees of freedom
## Multiple R-squared:  0.8268, Adjusted R-squared:  0.8083 
## F-statistic: 44.57 on 3 and 28 DF,  p-value: 8.65e-11

Bisa kita simpulkan bahwa, hubungan antara miles/gallon dan weight lebih lemah dalam kemiringan (\(\hat{\beta_1}=-3.8\) sekarang)
Pengaruh berat pada konsumsi bahan bakar telah disesuaikan dengan efek tenaga kuda dan perpindahan. Ini adalah efek yang tersisa antara mil/galon dan berat setelah efek tenaga kuda dan perpindahan diperhitungkan.

Berdasarkan output dari model kami, kami menyimpulkan bahwa:
- Ada hubungan yang signifikan dan negatif antara mil/galon dan berat, semuanya sama . Jadi untuk peningkatan satu unit berat (yaitu, peningkatan 1000 lbs), jumlah mil/galon berkurang, rata-rata, sebesar 3,8, untuk tingkat tenaga kuda dan perpindahan yang konstan ( \(P-value=0.001\))
- Ada hubungan yang signifikan dan negatif antara mil / galon dan tenaga kuda, semuanya sama. Jadi untuk kenaikan satu unit tenaga kuda, jarak yang ditempuh dengan satu galon berkurang, rata-rata 0,03 mil, untuk tingkat berat dan perpindahan yang konstan (\(P-value=0.001\))
- Tidak menolak hipotesis, tidak ada hubungan antara mil/galon dan perpindahan ketika berat dan tenaga kuda tetap konstan (karena \(P-value=0.929>0.05\)) - \(R^2\) untuk model ini adalah 0,8268, yang berarti bahwa 82,68% variabilitas jarak yang ditempuh dengan satu galon dijelaskan oleh berat, tenaga kuda, dan perpindahan mobil. relatif tinggi \(R^2\) berarti bahwa berat, tenaga kuda, dan perpindahan sebuah mobil adalah karakteristik yang baik untuk menjelaskan jarak yang dapat ditempuhnya dengan satu galon bahan bakar.

1.3 Perbedaan regresi linear sederhana dan berganda

Dalam regresi linier sederhana hanya ada satu variabel x dan satu variabel y
Dalam regresi linier berganda ada satu variabel y dan dua atau lebih variabel x
Model regresi berganda adalah model regresi linier yang telah diperluas untuk memasukkan lebih dari satu variabel bebas. Secara logika, ini berarti kinerjanya lebih baik daripada regresi sederhana.
Regresi linier sederhana mencoba menggambar garis yang paling dekat dengan data dengan menemukan kemiringan dan intersep yang menentukan garis dan meminimalkan kesalahan regresi.
Regresi linier berganda didasarkan pada asumsi bahwa ada hubungan linier antara variabel dependen dan independen. Ini juga mengasumsikan tidak ada korelasi besar antara variabel independen.

2 Lakukan analisis regresi linear sederhana dalam ilmu ekonometrik!

Bagaimana kecepatan sebuah mobil mempengaruhi jarak berhentinya, yaitu seberapa jauh mobil itu bergerak sebelum berhenti. Untuk menguji hubungan ini, kita akan menggunakan cars dataset yang merupakan Rdataset default.Kita juga bisa melihat nama variabel, dimensi kerangka data, dan beberapa contoh observasi dengan str().

str(cars)

## 'data.frame':    50 obs. of  2 variables:
##  $ speed: num  4 4 7 7 8 9 10 10 10 11 ...
##  $ dist : num  2 10 4 22 16 10 18 26 34 17 ...

2.1 Hipotesis

\[ H_o:\beta_1=0 \] \[H_a:\beta_1\neq0 \]

2.2 pendekatan Kuadrat Terkecil

Kita ingin mencari \(\hat{\beta_0}\) dan \(\hat{\beta_1}\) dalam dataset cars. Untuk variabel respon kita lambangkan sebagai \(y\) dan variabel prediktor sebagai \(x\).

x = cars$speed
y = cars$dist

kemudian menghitung tiga jumlah kuadrat (sxy, sxx, syy).

Sxy = sum((x - mean(x)) * (y - mean(y)))
Sxx = sum((x - mean(x)) ^ 2)
Syy = sum((y - mean(y)) ^ 2)
c(Sxy, Sxx, Syy)

## [1]  5387.40  1370.00 32538.98

Kemudian menghitung \(\hat{\beta_0}\) dan \(\hat{\beta_1}\).

beta_1_hat = Sxy / Sxx
beta_0_hat = mean(y) - beta_1_hat * mean(x)
c(beta_0_hat, beta_1_hat)

## [1] -17.579095   3.932409

jadi, nilai \(\hat{\beta_0}\) dan \(\hat{\beta_1}\) adalah :
\(\hat{\beta_0}=-17.5790949\) dan \(\hat{\beta_1}=3.9324088\)
Parameter kemiringan \(\hat{\beta_1}\) memberitahu bahwa untuk peningkatan kecepatan satu mil per jam, jarak berhenti rata -rata meningkat sebesar \(\hat{\beta_1}\).Artinya, Perkiraan \(\hat{\beta_1}=3.93\) memberitahu kita bahwa untuk peningkatan kecepatan satu mil per jam, perkiraan jarak berhenti rata -rata meningkat sebesar 3.93 kaki.

Parameter intersep \(\beta_0\) memberitahu memberitahu kita jarak berhenti rata -rata untuk mobil yang melaju nol mil per jam. (Tidak bergerak.) Perkiraan \(\hat{\beta_0}=-17.58\) memberitahu kita bahwa perkiraan jarak berhenti rata-rata untuk mobil yang melaju nol mil per jam adalah - 17.58 kaki.

2.2.1 membuat Prediksi

Kita dapat mengetahui bahwa \(\hat{y}=\hat{\beta_0}+\hat{\beta_1}x\).
Dalam kasus database cars \(\hat{y}=-17.58+3.93x\).
Kita sekarang dapat menggunakan garis ini untuk membuat prediksi. Pertama, mari kita lihat kemungkinannya x nilai dalam kumpulan data cars. \[ \hat{y}=-17.58+3.93*8 \] Sebelum itu kita menggunakan fungsi unique() untuk mengembalikan nilai unik hanya sekali.

unique(cars$speed)

##  [1]  4  7  8  9 10 11 12 13 14 15 16 17 18 19 20 22 23 24 25

Misalkan kita membuat prediksi untuk jarak berhenti sebuah mobil yang melaju dengan kecepatan 8 mil per jam

beta_0_hat + beta_1_hat * 8

## [1] 13.88018

Ini memberitahu kita bahwa perkiraan jarak henti rata-rata sebuah mobil yang melaju dengan kecepatan 8 mil per jam adalah 13.88.

2.2.2 Residu

Model residu “Response=Prediction+Error” dapat kita formulasikan sebagai \[ y=\hat{y}+e \]

kemudian mendefinisikan residual menjadi nilai yang diamati dikurangi nilai yang diprediksi.

\[ e_i=y_i-\hat{y_i} \] Mari kita hitung sisa prediksi yang kita buat untuk mobil yang melaju 8 mil per jam. Pertama, kita perlu mendapatkan nilai yang diamati dari \(y\) untuk ini \(x\) nilai.

which(cars$speed == 8)

## [1] 5

cars[5, ]

##   speed dist
## 5     8   16

Kemudian kita dapat menghitung \[ e=16-13.88=2.12 \]

16 - (beta_0_hat + beta_1_hat * 8)

## [1] 2.119825

Nilai residu positif menunjukkan bahwa jarak berhenti yang diamati sebenarnya 2,12 kaki lebih jauh dari yang diperkirakan.

2.3 Koefesien Determinasi

# Mencari estimasi varians 
y_hat = beta_0_hat + beta_1_hat * x
e     = y - y_hat
n     = length(e)
s2_e  = sum(e^2) / (n - 2)
s2_e

## [1] 236.5317

# Mencari Jumlah Kuadrat Total, Jumlah regresi Kuadrat, Jumlah Kesalahan Kuadrat

SST   = sum((y - mean(y)) ^ 2)
SSReg = sum((y_hat - mean(y)) ^ 2)
SSE   = sum((y - y_hat) ^ 2)
c(SST = SST, SSReg = SSReg, SSE = SSE)

##      SST    SSReg      SSE 
## 32538.98 21185.46 11353.52

R2 = SSReg / SST
R2

## [1] 0.6510794

Sebagai cars contoh, kami menghitung \(R^2=65\)%. Kemudian mengatakan bahwa \(65\)% dari variabilitas yang diamati dalam jarak berhenti dijelaskan oleh hubungan linier dengan speed.

2.4 Asumsi

2.4.1 Normality

avg <- mean(cars$speed)
stdev <- sd(cars$speed)
hist(cars$speed, xlab=" speed(in miles per hour)", main="Histogram dari Speed", freq=FALSE)
curve(dnorm(x, avg, stdev), add=TRUE, col=2)

2.4.2 Linearity

library("gridExtra")
library("ggplot2")
glinear <- ggplot(cars)+
  geom_point(aes(x = dist,
                 y = speed),
             shape = 1)+
  geom_smooth(aes(x = dist,
                  y = speed),
              method = "lm",
              formula = "y~x",
              color = "red")
glinear

Pada plot diatas dapat diamati bahwa dapat disebut linear.

2.5 Model Linear dan Summary

stop_dist_model = lm(dist ~ speed, data = cars)
stop_dist_model

## 
## Call:
## lm(formula = dist ~ speed, data = cars)
## 
## Coefficients:
## (Intercept)        speed  
##     -17.579        3.932

summary(stop_dist_model)

## 
## Call:
## lm(formula = dist ~ speed, data = cars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -29.069  -9.525  -2.272   9.215  43.201 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -17.5791     6.7584  -2.601   0.0123 *  
## speed         3.9324     0.4155   9.464 1.49e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 15.38 on 48 degrees of freedom
## Multiple R-squared:  0.6511, Adjusted R-squared:  0.6438 
## F-statistic: 89.57 on 1 and 48 DF,  p-value: 1.49e-12

3 Carilah contoh penerapan analisis regresi linear berganda dalam ilmu ekonometrik!

Kita ingin memodelkan perbandingan antara model mobil yang berbeda dalam hal jarak tempuh per galon dalam konsumsi bahan bakar (mpg), perpindahan silinder (“disp”), tenaga kuda (“hp”), berat mobil (“wt”) dan beberapa parameter lainnya. Tujuan dari model ini adalah untuk membangun hubungan antara “mpg” sebagai variabel respon dengan “disp”, “hp” dan “wt” sebagai variabel prediktor.
Keterangan:
- hp = housepower
- disp = displacement
- wt = weight

input <- mtcars[,c("mpg","disp","hp","wt")]
print(head(input))

##                    mpg disp  hp    wt
## Mazda RX4         21.0  160 110 2.620
## Mazda RX4 Wag     21.0  160 110 2.875
## Datsun 710        22.8  108  93 2.320
## Hornet 4 Drive    21.4  258 110 3.215
## Hornet Sportabout 18.7  360 175 3.440
## Valiant           18.1  225 105 3.460

3.1 Uji Asumsi

3.1.1 Independensi Pengamatan

Jika korelasi mendekati 1 maka terdapat hubungan timpal balik positif. Jika mendekati 0, maka tidak ada korelasi. Dan jika mendekati -1 maka terdapat hubungan timpal balik negatif. Gunakan fungsi cor() untuk menguji hubungan antara variabel independen nya dan pastikan mereka tidak terlalu berkorelasi.

cor(mtcars$disp, mtcars$wt)

## [1] 0.8879799

cor(mtcars$disp, mtcars$hp)

## [1] 0.7909486

Korelasi antar disp dan wt serta korelasi antar disp dan hp mendekati 1 maka terdapat huungan timpal balik positif.

3.1.2 uji Normalitas

avg2 <- mean(mtcars$mpg)
stdev2 <- sd(mtcars$mpg)
hist(mtcars$mpg, xlab = "Heart Disease", main="", freq=FALSE)
curve(dnorm(x, avg2, stdev2), add = TRUE, col="blue")

3.1.3 Uji linearitas

plot(mpg ~ wt + hp + disp, data = mtcars)

hubungan antara miles/gallon dan horsepower tidak linier, yang dapat menjadi komponen utama dari sedikit cacat linieritas model.

3.2 Uji Hipotesis

\[ H_O:\beta_1=\beta_2=0 \]

\[ H_0:\beta_1\neq\beta_2\neq0 \] Keterangan:
- \(\beta_0=0\) sesuai dengan pengujian hipotesis: apakah mil/galon berbeda dari 0 ketika weight, housepower, dan displacement sama dengan 0
- \(\beta_1=0\) sesuai dengan pengujian hipotesis: apakah konsumsi bahan bakar dikaitkan dengan berat mobil, pada tingkat housepower dan displacement yang konstan
- \(\beta_2=0\) sesuai dengan pengujian hipotesis: apakah konsumsi bahan bakar terkait dengan housepower, pada tingkat weight dan displacement yang konstan
- \(\beta_3=0\) sesuai dengan pengujian hipotesis: apakah konsumsi bahan bakar terkait dengan displacement, pada tingkat weight dan displacement yang konstan

3.3 Model Summary

model2 <- lm(mpg ~ wt + hp + disp,
  data = mtcars
)
summary(model2)

## 
## Call:
## lm(formula = mpg ~ wt + hp + disp, data = mtcars)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -3.891 -1.640 -0.172  1.061  5.861 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 37.105505   2.110815  17.579  < 2e-16 ***
## wt          -3.800891   1.066191  -3.565  0.00133 ** 
## hp          -0.031157   0.011436  -2.724  0.01097 *  
## disp        -0.000937   0.010350  -0.091  0.92851    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.639 on 28 degrees of freedom
## Multiple R-squared:  0.8268, Adjusted R-squared:  0.8083 
## F-statistic: 44.57 on 3 and 28 DF,  p-value: 8.65e-11

Hasil Uji Hipotesis:
- Ada hubungan yang signifikan dan negatif antara miles/gallon dan weight, semuanya sama . Jadi untuk peningkatan satu unit weight (yaitu, peningkatan 1000 lbs), jumlah miles/gallon berkurang, rata-rata, sebesar 3,8, untuk tingkat horsepower dan displacement yang konstan (\(P-value=0.001\))
- Ada hubungan yang signifikan dan negatif antara miles/gallon dan horsepower, semuanya sama. Jadi untuk kenaikan satu unit horsepower, jarak yang ditempuh dengan satu gallon berkurang, rata-rata 0,03 mil, untuk tingkat weight dan displacement yang konstan (\(P-value=0.001\))
- Tidak menolak hipotesis tidak ada hubungan antara miles/gallon dan displacement ketika weight dan horsepower tetap konstan (karena \(P-value=0.929>0.05\))
- untuk berat, horsepower dan displacement = 0, kita dapat mengharapkan bahwa sebuah mobil memiliki, rata-rata, konsumsi bahan bakar 37,11 mil/galon (\(P-value=0.001\))

Membuat Persamaan Regresi Linear Berganda

\[ y_1=\beta_0+\beta_1x_{i1}+\beta_1x_{i2}+...+\beta_px_{ip}+\epsilon \]

\[ y=37.15+(-0.000937)*x_1+(-0.0311)*x_2+(-3.8008)*x_3 \]

Koefesien Determinan

summary(model2)$r.squared

## [1] 0.8268361

\(R^2\) untuk model ini adalah \(0,8268\), yang berarti bahwa 82,68% variabilitas jarak yang ditempuh dengan satu galon dijelaskan oleh weight, housepower dan displacement mobil. relatif tinggi \(R^2\) berarti bahwa weight, housepower dan displacement sebuah mobil adalah karakteristik yang baik untuk menjelaskan jarak yang dapat ditempuhnya dengan satu galon bahan bakar.

4 Sehubungan dengan soal No 3, buatlah model regresi linear sederhana yang terbaik dari semua kemungkinan variable (coba terapkan semua kemungkinan model, contohnya, kuardatik, log-log, dll sampai anda menemukan model terbaiknya)

4.1 Model Linear

ml <- summary(model2)
ml

## 
## Call:
## lm(formula = mpg ~ wt + hp + disp, data = mtcars)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -3.891 -1.640 -0.172  1.061  5.861 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 37.105505   2.110815  17.579  < 2e-16 ***
## wt          -3.800891   1.066191  -3.565  0.00133 ** 
## hp          -0.031157   0.011436  -2.724  0.01097 *  
## disp        -0.000937   0.010350  -0.091  0.92851    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.639 on 28 degrees of freedom
## Multiple R-squared:  0.8268, Adjusted R-squared:  0.8083 
## F-statistic: 44.57 on 3 and 28 DF,  p-value: 8.65e-11

summary(model2)$r.squared

## [1] 0.8268361

4.2 Model Kuadratik

mk <- lm(mpg~(wt+hp+disp)^2, data=mtcars)
kn <- summary(mk)
kn

## 
## Call:
## lm(formula = mpg ~ (wt + hp + disp)^2, data = mtcars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.1300 -1.5822 -0.5335  1.5777  4.0419 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 48.2558247  4.9028899   9.842 4.41e-10 ***
## wt          -6.2016994  2.7159733  -2.283   0.0312 *  
## hp          -0.1193411  0.0688717  -1.733   0.0955 .  
## disp        -0.0198651  0.0385595  -0.515   0.6110    
## wt:hp        0.0181979  0.0247729   0.735   0.4694    
## wt:disp     -0.0005743  0.0078207  -0.073   0.9420    
## hp:disp      0.0001238  0.0001388   0.892   0.3812    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.236 on 25 degrees of freedom
## Multiple R-squared:  0.889,  Adjusted R-squared:  0.8624 
## F-statistic: 33.38 on 6 and 25 DF,  p-value: 9.166e-11

summary(mk)$r.squared

## [1] 0.8890178

4.3 Model Polinomial

pl <- lm(mpg~poly(disp, 3)+hp+wt, data=mtcars)
mp <- summary(pl)
mp

## 
## Call:
## lm(formula = mpg ~ poly(disp, 3) + hp + wt, data = mtcars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.0840 -1.3437  0.0213  1.4389  2.9232 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     28.064696   3.993974   7.027 1.84e-07 ***
## poly(disp, 3)1 -14.478946   6.605086  -2.192  0.03752 *  
## poly(disp, 3)2   7.559369   2.106729   3.588  0.00135 ** 
## poly(disp, 3)3  -8.321207   2.905919  -2.864  0.00818 ** 
## hp              -0.024233   0.009179  -2.640  0.01383 *  
## wt              -1.373646   1.152477  -1.192  0.24406    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.011 on 26 degrees of freedom
## Multiple R-squared:  0.9066, Adjusted R-squared:  0.8887 
## F-statistic: 50.49 on 5 and 26 DF,  p-value: 1.45e-12

summary(pl)$r.squared

## [1] 0.9066186

4.4 Model Log-Linear

logl <- lm(log(mpg)~hp+wt+disp, data=mtcars)
mll <- summary(logl)
mll

## 
## Call:
## lm(formula = log(mpg) ~ hp + wt + disp, data = mtcars)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.17416 -0.07993 -0.02242  0.06500  0.28057 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  3.7966863  0.0901786  42.102  < 2e-16 ***
## hp          -0.0013794  0.0004886  -2.823 0.008653 ** 
## wt          -0.1800535  0.0455500  -3.953 0.000477 ***
## disp        -0.0002495  0.0004422  -0.564 0.577132    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1127 on 28 degrees of freedom
## Multiple R-squared:  0.8705, Adjusted R-squared:  0.8567 
## F-statistic: 62.75 on 3 and 28 DF,  p-value: 1.512e-12

summary(logl)$r.squared

## [1] 0.8705246

4.5 Model Linear-Log

linl <- lm(mpg~log(wt)+log(hp)+log(disp), data=mtcars)
modellinl <- summary(linl)
modellinl

## 
## Call:
## lm(formula = mpg ~ log(wt) + log(hp) + log(disp), data = mtcars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.8237 -1.5407 -0.6512  1.0536  4.6492 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   60.274      5.322  11.325 5.77e-12 ***
## log(wt)       -9.871      2.772  -3.561  0.00135 ** 
## log(hp)       -4.418      1.597  -2.766  0.00993 ** 
## log(disp)     -1.427      2.011  -0.710  0.48372    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.102 on 28 degrees of freedom
## Multiple R-squared:  0.8901, Adjusted R-squared:  0.8783 
## F-statistic: 75.59 on 3 and 28 DF,  p-value: 1.541e-13

summary(linl)$r.squared

## [1] 0.8900924

4.6 Model Log-Log

loglog <- lm(log(mpg)~log(wt)+log(hp)+log(disp), data=mtcars)
modelll <- summary(loglog)
modelll

## 
## Call:
## lm(formula = log(mpg) ~ log(wt) + log(hp) + log(disp), data = mtcars)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -0.196932 -0.086109  0.005329  0.073336  0.220450 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4.94620    0.26867  18.410  < 2e-16 ***
## log(wt)     -0.47880    0.13993  -3.422  0.00193 ** 
## log(hp)     -0.21299    0.08063  -2.642  0.01334 *  
## log(disp)   -0.07792    0.10152  -0.768  0.44919    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1061 on 28 degrees of freedom
## Multiple R-squared:  0.8853, Adjusted R-squared:  0.873 
## F-statistic: 72.01 on 3 and 28 DF,  p-value: 2.805e-13

summary(loglog)$r.squared

## [1] 0.8852665

Model terbaik adalah model yang memiliki \(R^2\) tertinggi. \(R^2\) tertinggi berada pada model polinomial yaitu sebesar \(0.9066186\). Maka dapat disimpulkan model terbaik adalah Model Polinomial.

Econometric

MIDTERM Econometric

Karen Natalie(20204920015)

March 21, 2022