Ecinometrics

Tugas 2 Ekonometriks


Kontak : \(\downarrow\)
Email
Instagram https://www.instagram.com/dsciencelabs/
RPubs https://rpubs.com/dsciencelabs/

Pendahuluan

Model Regresi menggambarkan hubungan antar variabel dengan memasang garis pada data yang diamati. Model regresi linier menggunakan garis lurus, sedangkan model regresi logistik dan nonlinier menggunakan garis lengkung. Regresi memungkinkan Anda untuk memperkirakan bagaimana variabel dependen berubah saat variabel independen berubah.

Regresi linier sederhana digunakan untuk memperkirakan hubungan antara dua variabel kuantitatif . Anda dapat menggunakan regresi linier sederhana jika Anda ingin mengetahui:

  • Seberapa kuat hubungan antara dua variabel (misalnya hubungan antara curah hujan dan erosi tanah).
  • Nilai variabel terikat pada nilai tertentu dari variabel bebas (misalnya besarnya erosi tanah pada tingkat curah hujan tertentu).

    Contoh
    Anda adalah seorang peneliti sosial yang tertarik pada hubungan antara pendapatan dan kebahagiaan. Anda mensurvei 500 orang yang pendapatannya berkisar dari $15rb hingga $75rb dan meminta mereka untuk memberi peringkat kebahagiaan mereka dalam skala dari 1 hingga 10.
    Variabel independen Anda (pendapatan) dan variabel dependen (kebahagiaan) keduanya kuantitatif, sehingga Anda dapat melakukan analisis regresi untuk melihat apakah ada hubungan linier di antara keduanya.

Jika kita memiliki lebih dari satu variabel independen, gunakan regresi linier berganda sebagai gantinya.

Asumsi Regresi Linier Sederhana

Regresi linier sederhana adalah uji parametrik , artinya membuat asumsi tertentu tentang data. Asumsi ini adalah:

  • Homogenitas varians (homoscedasticity) : ukuran kesalahan dalam prediksi kami tidak berubah secara signifikan di seluruh nilai variabel independen.

  • Independensi pengamatan : pengamatan dalam kumpulan data dikumpulkan menggunakan metode pengambilan sampel yang valid secara statistik , dan tidak ada hubungan tersembunyi di antara pengamatan.

  • Normalitas : Data mengikuti distribusi normal.

    Regresi linier membuat satu asumsi tambahan:

  • Hubungan antara variabel independen dan dependen adalah linier : garis yang paling sesuai melalui titik-titik data adalah garis lurus (bukan kurva atau semacam faktor pengelompokan). <br.
    Jika data tidak memenuhi asumsi homoskedastisitas atau normalitas, Anda mungkin dapat menggunakan uji nonparametrik , seperti uji peringkat Spearman.

.

Bagaimana melakukan regresi linier sederhana

Rumus Regresi Linier Sederhana

Rumus untuk regresi linier sederhana adalah:

\[\begin{align*} y= \beta_0 + \beta_1X + \epsilon \end{align*}\]

  • y adalah nilai prediksi variabel dependen (y) untuk setiap nilai variabel independen (x) yang diberikan.
  • B_0 adalah intersep , nilai prediksi y ketika x adalah 0.
  • B_1 adalah koefisien regresi – seberapa besar kita mengharapkan y berubah saat x meningkat.
  • x adalah variabel bebas (variabel yang kita harapkan mempengaruhi y).
  • e adalah kesalahan estimasi, atau seberapa banyak variasi yang ada dalam estimasi koefisien regresi.

    Regresi linier menemukan garis garis yang paling sesuai melalui data Anda dengan mencari koefisien regresi (B_1) yang meminimalkan kesalahan total (e) model.

Regresi linier sederhana dalam R

print(getwd())
## [1] "C:/Users/HP/OneDrive/Documents/kuliah/R/ekonometrik"
getwd()
## [1] "C:/Users/HP/OneDrive/Documents/kuliah/R/ekonometrik"
setwd(getwd())
income_data <- read.csv("C:/Users/HP/OneDrive/Documents/kuliah/R/ekonometrik/incomedata.csv")
income_data

Kode R untuk Regresi Linier Sederhana

income_happiness_lm <- lm(happiness~income, data=income_data)
income_happiness_lm
## 
## Call:
## lm(formula = happiness ~ income, data = income_data)
## 
## Coefficients:
## (Intercept)       income  
##      0.2043       0.7138

Kode ini mengambil data yang telah dikumpulkan dari data = income.data dan menghitung pengaruh variabel independen income terhadap variabel dependen happiness menggunakan persamaan untuk model linier: lm().

Menafsirkan Hasil

Untuk melihat hasil model, kita dapat menggunakan summary() fungsi di R:

summary(income_happiness_lm)
## 
## Call:
## lm(formula = happiness ~ income, data = income_data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.02479 -0.48526  0.04078  0.45898  2.37805 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.20427    0.08884   2.299   0.0219 *  
## income       0.71383    0.01854  38.505   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7181 on 496 degrees of freedom
## Multiple R-squared:  0.7493, Adjusted R-squared:  0.7488 
## F-statistic:  1483 on 1 and 496 DF,  p-value: < 2.2e-16

Fungsi ini mengambil parameter terpenting dari model linier dan menempatkannya ke dalam tabel di atas ini.

Tabel keluaran ini pertama-tama mengulangi rumus yang digunakan untuk menghasilkan hasil (‘Call’), kemudian merangkum residu model (‘Residual’), yang memberikan gambaran seberapa cocok model dengan data sebenarnya.

Berikutnya adalah tabel ‘Koefisien’. Baris pertama memberikan perkiraan perpotongan y, dan baris kedua memberikan koefisien regresi model.

Baris 1 tabel diberi label (Intercept). Ini adalah perpotongan y dari persamaan regresi, dengan nilai 0,20. Anda dapat memasukkan ini ke dalam persamaan regresi Anda jika Anda ingin memprediksi nilai kebahagiaan di seluruh rentang pendapatan yang telah Anda amati:

**Happniess = 0,20 + 0,71*income ± 0,018**

Baris berikutnya dalam tabel ‘Koefisien’ adalah pendapatan. Ini adalah baris yang menggambarkan perkiraan efek pendapatan pada kebahagiaan yang dilaporkan:

- Kolom adalah efekEstimate yang diperkirakan , juga disebut koefisien regresi atau nilai r 2 . Angka dalam tabel (0,713) memberi tahu kita bahwa untuk setiap satu unit peningkatan pendapatan (di mana satu unit pendapatan = $10.000) ada peningkatan 0,71 unit terkait dalam kebahagiaan yang dilaporkan (di mana kebahagiaan adalah skala 1 sampai 10).

- Kolom Std. Error menampilkan kesalahan standar estimasi. Angka ini menunjukkan berapa banyak variasi yang ada dalam perkiraan kami tentang hubungan antara pendapatan dan kebahagiaan.

- Kolom t value menampilkan statistik uji . Kecuali jika kita menentukan sebaliknya, statistik uji yang digunakan dalam regresi linier adalah nilai - t dari uji-t dua sisi . Semakin besar statistik uji, semakin kecil kemungkinan hasil kami terjadi secara kebetulan.

- Kolom Pr(>|t|) menunjukkan p -value . Angka ini memberi tahu kita seberapa besar kemungkinan kita untuk melihat perkiraan efek pendapatan terhadap kebahagiaan jika hipotesis nol tentang tidak ada efek itu benar.

Karena nilai p sangat rendah ( p < 0,001), kita dapat menolak hipotesis nol dan menyimpulkan bahwa pendapatan memiliki pengaruh yang signifikan secara statistik terhadap kebahagiaan.

Tiga baris terakhir dari ringkasan model adalah statistik tentang model secara keseluruhan. Hal terpenting yang harus diperhatikan di sini adalah nilai p dari model. Di sini signifikan ( p < 0,001), yang berarti model ini cocok untuk data yang diamati.

Data memenuhi asumsi

Independensi Pengamatan (tidak ada autokolerasi)

Karena kita hanya memiliki satu variabel bebas dan satu variabel terikat, kita tidak perlu menguji hubungan tersembunyi di antara variabel.

Normalitas

Untuk memeriksa apakah variabel dependen mengikuti distribusi normal , gunakan hist()fungsi.

hist(income_data$happiness)

Pengamatan secara kasar berbentuk lonceng (lebih banyak pengamatan di tengah distribusi, lebih sedikit di ekor), jadi kita bisa melanjutkan dengan regresi linier.

Linearitas

Hubungan antara variabel bebas dan variabel terikat harus linier. Kita dapat menguji ini secara visual dengan plot pencar untuk melihat apakah distribusi titik data dapat digambarkan dengan garis lurus.

plot(happiness~income, data=income_data)

Hubungan tersebut terlihat secara kasar linier, sehingga kita dapat melanjutkan dengan model linier.

Homoskedastisitas (homogenitas varians)

par(mfrow=c(2,2))
plot(income_happiness_lm)

par(mfrow=c(1,1))

Plot di atas adalah plot sisa yang dihasilkan oleh kode.

Perhatikan bahwa par(mfrow()) perintah akan membagi jendela Plot ke dalam jumlah baris dan kolom yang ditentukan dalam tanda kurung. Jadi par(mfrow=c(2,2)) bagilah menjadi dua baris dan dua kolom. Untuk kembali memplot satu grafik di seluruh jendela, atur parameter lagi dan ganti (2,2) dengan (1,1).

Pada Normal Q-Qplot di kanan atas, kita dapat melihat bahwa residual nyata dari model kita membentuk garis satu-ke-satu yang hampir sempurna dengan residual teoretis dari model yang sempurna.

Berdasarkan residual ini, kita dapat mengatakan bahwa model kita memenuhi asumsi homoskedastisitas