Email             :
Instagram     : https://www.instagram.com/putriangelinaw
RPubs            : https://rpubs.com/putriangelinaw/



1 Soal

  1. Apa perbedaan regresi linier sederhana dan berganda, jelaskan dengan contoh!
  2. Lakukan analisis regresi linier sederhana dalam ilmu ekonometrik!
  3. Carilah contoh penerapan analisis regresi linier berganda dalam ilmu ekonometrik!
  4. Sehubungan dengan soal no 3, buatlah model regresi linier berganda yang terbaik dari semua kemungkinan variabel (coba terapkan semua kemungkinan model, contohnya, kuadratik, log-log, dll sampai anda menemukan model terbaiknya).

2 Regresi Linier Sederhana VS Regresi Linier Berganda

Perbedaan antara kedua regresi linier ini hanyalah kalau regresi linier sederhana itu memiliki satu varisbel dependen dan satu variabel independen. Sedangkan regresi linier berganda itu memiliki satu variabel dependen dan beberapa variabel independen.

Regresi linear sederhana adalah regresi yang hanya melibatkan satu variabel dependen dan satu variabel independen. Pada analisis regresi sederhana, hubungan antara variabel bersifat linier, dimana perubahan pada variabel X akan diikuti oleh perubahan pada variabel Y secara tetap. Selain itu, analisis regresi linear sederhana bertujuan untuk memprediksi nilai Y.

Regresi linear berganda adalah regresi yang melibatkan lebih dari dua variabel, yaitu satu variabel dependen dan lebih dari satu variabel independen. Disebut linear berganda karena beberapa variabel independen ini akan berpengaruh pada variabel dependen. Analisis regresi linear berganda bertujuan untuk mengetahui manakah variabel independen yang paling berpengaruh atau memiliki hubungan paling kuat terhadap variabel dependen.

3 Regresi Linear Sederhana

Disini saya menggunakan data income dengan variabel income(pendapatan) dan variabel happiness(kesenangan). Variabel income memiliki satuan $10,000 dan variabel happiness memiliki interval dari 1-10. Karena kesenangan seseorang itu dipengaruhi oleh seberapa besar pendapatannya maka variabel dependen adalah happiness dan variabel independen adalah income. Berikut data income;

Untuk dapat lebih mudah memahami isi dari datanya kita visualisasikan dalam bentuk plot sebagai berikut;

3.1 Asumsi

Untuk dapat lanjut ke hipotesis, sebelumnya perlu memeriksa apakah asumsi-asumsi telah dipenuhi. Berikut asumsi-asumsi yang harus dipenuhi;

3.1.1 Independence

Karena ini merupakan data yang hanya memiliki satu variabel independen maka dapat disimpulkan bahwa data ini sudah pasti independen. Jadi tidak perlu mengecek korelasi lagi.

3.1.2 Normality

normality digunakan untuk memeriksa apakah variabel dependen nya terdistribusi normal, untuk mengetahuinya dapat menggunakan function hist() seperti dibawah ini;

3.1.3 Linearity

Linearity digunakan untuk mengetahui apakah data observasi bersifat linear. jika tidak memenuhi maka tidak dapat menggunakan regresi linier lagi, perlu menggunakan metode-metode lainnya.

3.2 Hypotesis and Significance Level

Hipotesa dan tingkat signifikansi dalam analisis ini adalah \[ \begin{align} \tag{1} H_0&:\beta_1=\beta_2\\ H_a&:\beta_1\neq\beta_2\\ \alpha &:0.05 \end{align} \]

3.3 Linear Model and Summary

Berikut summary dari linear model regresi sederhana

## 
## Call:
## lm(formula = happiness ~ income, data = income_data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.02479 -0.48526  0.04078  0.45898  2.37805 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.20427    0.08884   2.299   0.0219 *  
## income       0.71383    0.01854  38.505   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7181 on 496 degrees of freedom
## Multiple R-squared:  0.7493, Adjusted R-squared:  0.7488 
## F-statistic:  1483 on 1 and 496 DF,  p-value: < 2.2e-16

dapat dilihat bahwa \(\beta_1=0.20427\) dan \(\beta_2=0.71383\). Sehingga estimasi dari \(y\) adalah

\[ \begin{align} \tag{2} \hat y&=\beta_1+\beta_2X\\ \hat y&=0.20427+0.71383X \end{align} \] Selanjutnya mari kita lihat p-value nya. Berikut nilai p-value dari model sebelumnya;

## [1] 3.956245e-151

Dapat dilihat bahwa p-value \(\leq\alpha\) dimana \(\alpha=0.05\). Artinya pada data income, terdapat hubungan yang signifikan antara variabel pendapatan terhadap variabel kesenangan.

3.4 Prediction and Forecasting

Sedikit Tambahan, dibawah ini merupakan plot perkiraan dari data income; Garis biru merupakan interval prediksi dan garis merah merupakan interval kepercayaan. Dapat dilihat bahwa hampir semua data observasi itu jatuh didaerah prediksi artinya dapat diprediksikan bahwa tingkat kesenangan seseorang itu berada di interval tersebut. Semakin dekat data observasi ke garis fit (berwarna hitam) maka semakin akurat.

4 Regresi Linear Berganda

Seorang statistikawan tertarik untuk melakukan observasi mengenai hubungan antara persentase seseorang merokok dan persentase seseorang bersepeda terhadap banyaknya orang terkena penyakit jantung Setelah itu, ia ingin melakukan analisis apakah ada hubungan antara variabel-variabel tersebut terhadap banyaknya penyakit jantung? Seberapa kuat hubungan tersebut? Untuk dapat menjawabnya mari kita lakukan analisis regresi.

4.1 Asumsi

Seperti halnya regresi linear sederhana, regresi linear berganda juga memiliki asumsi yang sama yaitu sebagai berikut;

4.1.1 Independence

Karena variabel independennya lebih dari satu maka perlu dicek apakah ada korelasi antara keduanya. Dipastikan korelasinya tidak boleh tinggi. Interval korelasi itu dari -1 sampai 1. Jika korelasi mendekati -1 artinya terdapat hubungan timbal balik yang negatif (berlawanan). Jika korelasi mendekati 1 artinya terdapat hubungan timbal balik positif (selaras). Jika korelasi mendekati 0 maka dikatakan tidak ada korelasi/hubungan timbal balik.

## [1] 0.01513618

Karena korelasi antara variabel biking dan variabel smoking` itu mendekati angka 0, dapat disimpulkan tidak ada korelasi.

4.1.2 Normality

Untuk mengecek apakah variabel dependennya terdistribusi normal dapat dicek menggunakan function hist() seperti berikut;

4.1.3 Linearity

Sama seperti sebelumnya, kita juga harus mengecek linieritas nya.

4.2 Hypotesis and Significance Level

Hipotesa dan tingkat signifikansi dalam analisis ini adalah \[ \begin{align} \tag{3} H_0&:\beta_{biking}=\beta_{smoking}=0\\ H_a&:\beta_{biking}\neq\beta_{smoking}\neq0\\ \alpha &:0.01 \end{align} \]

4.3 Linear model and Summary

## 
## Call:
## lm(formula = heart.disease ~ biking + smoking, data = heart_data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.1789 -0.4463  0.0362  0.4422  1.9331 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 14.984658   0.080137  186.99   <2e-16 ***
## biking      -0.200133   0.001366 -146.53   <2e-16 ***
## smoking      0.178334   0.003539   50.39   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.654 on 495 degrees of freedom
## Multiple R-squared:  0.9796, Adjusted R-squared:  0.9795 
## F-statistic: 1.19e+04 on 2 and 495 DF,  p-value: < 2.2e-16

dapat dilihat bahwa \(\beta_1=14.984658\), \(\beta_2=-0.200133\), dan \(\beta_3=0.178334\). Sehingga estimasi dari \(y\) adalah

\[ \begin{align} \tag{4} \hat y&=\beta_1+\beta_2X_1+\beta_3X_2\\ \hat y&=14.984658-0.200133X_1+0.178334X_2 \end{align} \] Selanjutnya mari kita lihat p-value nya. Berikut nilai p-value dari model sebelumnya;

## [1] 0

Karena p-value \(\leq\alpha\) dimana \(\alpha=0.01\) maka tolak \(H_0\). Artinya pada data penyakit jantung terdapat hubungan yang signifikan antara variabel merokok dan bersepeda terhadap variabel penyakit jantung.

5 Menerapkan Model-Model

5.1 Quadratic Model

5.1.1 Metode 1

## 
## Call:
## lm(formula = heart.disease ~ (biking + smoking)^2, data = heart_data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.20619 -0.44862  0.02892  0.44099  1.94142 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    15.0527397  0.1248112 120.604   <2e-16 ***
## biking         -0.2019916  0.0029472 -68.536   <2e-16 ***
## smoking         0.1740065  0.0070359  24.731   <2e-16 ***
## biking:smoking  0.0001177  0.0001653   0.712    0.477    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6544 on 494 degrees of freedom
## Multiple R-squared:  0.9796, Adjusted R-squared:  0.9795 
## F-statistic:  7922 on 3 and 494 DF,  p-value: < 2.2e-16

5.1.2 Metode 2

## 
## Call:
## lm(formula = heart.disease ~ I(biking^2) + I(smoking^2), data = heart_data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.3189 -0.8664 -0.0981  0.7664  3.6697 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   1.304e+01  1.038e-01  125.70   <2e-16 ***
## I(biking^2)  -2.442e-03  3.222e-05  -75.80   <2e-16 ***
## I(smoking^2)  5.678e-03  2.102e-04   27.01   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.226 on 495 degrees of freedom
## Multiple R-squared:  0.9284, Adjusted R-squared:  0.9281 
## F-statistic:  3210 on 2 and 495 DF,  p-value: < 2.2e-16

5.2 Polynomial Model

5.2.1 Metode 1

## 
## Call:
## lm(formula = heart.disease ~ poly(biking, 3) + smoking, data = heart_data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.13134 -0.44800  0.03562  0.44119  1.98212 
## 
## Coefficients:
##                   Estimate Std. Error  t value Pr(>|t|)    
## (Intercept)        7.41749    0.06199  119.653   <2e-16 ***
## poly(biking, 3)1 -95.84416    0.65349 -146.665   <2e-16 ***
## poly(biking, 3)2  -1.06107    0.65414   -1.622    0.105    
## poly(biking, 3)3   0.36175    0.65344    0.554    0.580    
## smoking            0.17862    0.00354   50.458   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6534 on 493 degrees of freedom
## Multiple R-squared:  0.9797, Adjusted R-squared:  0.9796 
## F-statistic:  5960 on 4 and 493 DF,  p-value: < 2.2e-16

5.2.2 Metode 2

## 
## Call:
## lm(formula = heart.disease ~ poly(smoking, 3) + biking, data = heart_data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.12509 -0.45146  0.02807  0.43989  1.93414 
## 
## Coefficients:
##                    Estimate Std. Error  t value Pr(>|t|)    
## (Intercept)       17.731305   0.059372  298.645   <2e-16 ***
## poly(smoking, 3)1 32.957140   0.653228   50.453   <2e-16 ***
## poly(smoking, 3)2  0.596688   0.653927    0.912    0.362    
## poly(smoking, 3)3  1.035422   0.653808    1.584    0.114    
## biking            -0.199976   0.001367 -146.287   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6532 on 493 degrees of freedom
## Multiple R-squared:  0.9798, Adjusted R-squared:  0.9796 
## F-statistic:  5964 on 4 and 493 DF,  p-value: < 2.2e-16

5.3 Linear-Log Model

## 
## Call:
## lm(formula = heart.disease ~ log(biking) + log(smoking), data = heart_data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -8.581 -1.249  0.349  1.546  4.275 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   21.6124     0.4631   46.67   <2e-16 ***
## log(biking)   -4.5597     0.1067  -42.73   <2e-16 ***
## log(smoking)   1.5781     0.1109   14.22   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.03 on 495 degrees of freedom
## Multiple R-squared:  0.8037, Adjusted R-squared:  0.8029 
## F-statistic:  1013 on 2 and 495 DF,  p-value: < 2.2e-16

5.4 Log-Linear Model

## 
## Call:
## lm(formula = log(heart.disease) ~ biking + smoking, data = heart_data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.59285 -0.08401  0.04881  0.14200  0.37256 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  2.7338211  0.0296098   92.33   <2e-16 ***
## biking      -0.0244554  0.0005047  -48.46   <2e-16 ***
## smoking      0.0238085  0.0013077   18.21   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2417 on 495 degrees of freedom
## Multiple R-squared:  0.8428, Adjusted R-squared:  0.8421 
## F-statistic:  1327 on 2 and 495 DF,  p-value: < 2.2e-16

5.5 Log-Log Model

## 
## Call:
## lm(formula = log(heart.disease) ~ log(biking) + log(smoking), 
##     data = heart_data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.8049 -0.1553  0.1113  0.2413  0.7898 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   3.31670    0.08637   38.40   <2e-16 ***
## log(biking)  -0.51146    0.01990  -25.70   <2e-16 ***
## log(smoking)  0.23441    0.02069   11.33   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3786 on 495 degrees of freedom
## Multiple R-squared:  0.6141, Adjusted R-squared:  0.6125 
## F-statistic: 393.8 on 2 and 495 DF,  p-value: < 2.2e-16

5.5.1 Cara Lain 1

## 
## Call:
## lm(formula = log(heart.disease) ~ biking + log(smoking), data = heart_data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.41503 -0.08858  0.03096  0.13968  0.69374 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   2.4947444  0.0391877   63.66   <2e-16 ***
## biking       -0.0244477  0.0005018  -48.72   <2e-16 ***
## log(smoking)  0.2425345  0.0131338   18.47   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2403 on 495 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.844 
## F-statistic:  1345 on 2 and 495 DF,  p-value: < 2.2e-16

5.5.2 Cara Lain 2

## 
## Call:
## lm(formula = log(heart.disease) ~ log(biking) + smoking, data = heart_data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.9789 -0.1515  0.1184  0.2491  0.4774 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  3.54881    0.07663   46.31   <2e-16 ***
## log(biking) -0.51044    0.02001  -25.51   <2e-16 ***
## smoking      0.02270    0.00206   11.02   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3807 on 495 degrees of freedom
## Multiple R-squared:  0.6098, Adjusted R-squared:  0.6082 
## F-statistic: 386.8 on 2 and 495 DF,  p-value: < 2.2e-16

5.6 Ringkasan R-squared

Jadi saya simpulkan bahwa model yang terbaik untuk data penyakit jantung ini adalah model yang pertama.