Ecinometrics
Tugas 2 Ekonometriks
| Kontak | : \(\downarrow\) |
| dsciencelabs@outlook.com | |
| https://www.instagram.com/dsciencelabs/ | |
| RPubs | https://rpubs.com/dsciencelabs/ |
Pendahuluan
Model Regresi menggambarkan hubungan antar variabel dengan memasang garis pada data yang diamati. Model regresi linier menggunakan garis lurus, sedangkan model regresi logistik dan nonlinier menggunakan garis lengkung. Regresi memungkinkan Anda untuk memperkirakan bagaimana variabel dependen berubah saat variabel independen berubah.
Regresi linier sederhana digunakan untuk memperkirakan hubungan antara dua variabel kuantitatif . Anda dapat menggunakan regresi linier sederhana jika Anda ingin mengetahui:
- Seberapa kuat hubungan antara dua variabel (misalnya hubungan antara curah hujan dan erosi tanah).
- Nilai variabel terikat pada nilai tertentu dari variabel bebas (misalnya besarnya erosi tanah pada tingkat curah hujan tertentu).
Contoh
Anda adalah seorang peneliti sosial yang tertarik pada hubungan antara pendapatan dan kebahagiaan. Anda mensurvei 500 orang yang pendapatannya berkisar dari $15rb hingga $75rb dan meminta mereka untuk memberi peringkat kebahagiaan mereka dalam skala dari 1 hingga 10.
Variabel independen Anda (pendapatan) dan variabel dependen (kebahagiaan) keduanya kuantitatif, sehingga Anda dapat melakukan analisis regresi untuk melihat apakah ada hubungan linier di antara keduanya.
Jika kita memiliki lebih dari satu variabel independen, gunakan regresi linier berganda sebagai gantinya.
Asumsi Regresi Linier Sederhana
Regresi linier sederhana adalah uji parametrik , artinya membuat asumsi tertentu tentang data. Asumsi ini adalah:
Homogenitas varians (homoscedasticity) : ukuran kesalahan dalam prediksi kami tidak berubah secara signifikan di seluruh nilai variabel independen.
Independensi pengamatan : pengamatan dalam kumpulan data dikumpulkan menggunakan metode pengambilan sampel yang valid secara statistik , dan tidak ada hubungan tersembunyi di antara pengamatan.
Normalitas : Data mengikuti distribusi normal.
Regresi linier membuat satu asumsi tambahan:Hubungan antara variabel independen dan dependen adalah linier : garis yang paling sesuai melalui titik-titik data adalah garis lurus (bukan kurva atau semacam faktor pengelompokan). <br.
Jika data tidak memenuhi asumsi homoskedastisitas atau normalitas, Anda mungkin dapat menggunakan uji nonparametrik , seperti uji peringkat Spearman.
.
Bagaimana melakukan regresi linier sederhana
Rumus Regresi Linier Sederhana
Rumus untuk regresi linier sederhana adalah:
\[\begin{align*} y= \beta_0 + \beta_1X + \epsilon \end{align*}\]
- y adalah nilai prediksi variabel dependen (y) untuk setiap nilai variabel independen (x) yang diberikan.
- B_0 adalah intersep , nilai prediksi y ketika x adalah 0.
- B_1 adalah koefisien regresi – seberapa besar kita mengharapkan y berubah saat x meningkat.
- x adalah variabel bebas (variabel yang kita harapkan mempengaruhi y).
- e adalah kesalahan estimasi, atau seberapa banyak variasi yang ada dalam estimasi koefisien regresi.
Regresi linier menemukan garis garis yang paling sesuai melalui data Anda dengan mencari koefisien regresi (B_1) yang meminimalkan kesalahan total (e) model.
Regresi linier sederhana dalam R
print(getwd())## [1] "C:/Users/HP/OneDrive/Documents/kuliah/R/ekonometrik"
getwd()## [1] "C:/Users/HP/OneDrive/Documents/kuliah/R/ekonometrik"
setwd(getwd())
income_data <- read.csv("C:/Users/HP/OneDrive/Documents/kuliah/R/ekonometrik/incomedata.csv")
income_dataKode R untuk Regresi Linier Sederhana
income_happiness_lm <- lm(happiness~income, data=income_data)
income_happiness_lm##
## Call:
## lm(formula = happiness ~ income, data = income_data)
##
## Coefficients:
## (Intercept) income
## 0.2043 0.7138
Kode ini mengambil data yang telah dikumpulkan dari data = income.data dan menghitung pengaruh variabel independen income terhadap variabel dependen happiness menggunakan persamaan untuk model linier: lm().
Menafsirkan Hasil
Untuk melihat hasil model, kita dapat menggunakan summary() fungsi di R:
summary(income_happiness_lm)##
## Call:
## lm(formula = happiness ~ income, data = income_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.02479 -0.48526 0.04078 0.45898 2.37805
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.20427 0.08884 2.299 0.0219 *
## income 0.71383 0.01854 38.505 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7181 on 496 degrees of freedom
## Multiple R-squared: 0.7493, Adjusted R-squared: 0.7488
## F-statistic: 1483 on 1 and 496 DF, p-value: < 2.2e-16
Fungsi ini mengambil parameter terpenting dari model linier dan menempatkannya ke dalam tabel di atas ini.
Tabel keluaran ini pertama-tama mengulangi rumus yang digunakan untuk menghasilkan hasil (‘Call’), kemudian merangkum residu model (‘Residual’), yang memberikan gambaran seberapa cocok model dengan data sebenarnya.
Berikutnya adalah tabel ‘Koefisien’. Baris pertama memberikan perkiraan perpotongan y, dan baris kedua memberikan koefisien regresi model.
Baris 1 tabel diberi label (Intercept). Ini adalah perpotongan y dari persamaan regresi, dengan nilai 0,20. Anda dapat memasukkan ini ke dalam persamaan regresi Anda jika Anda ingin memprediksi nilai kebahagiaan di seluruh rentang pendapatan yang telah Anda amati:
**Happniess = 0,20 + 0,71*income ± 0,018**
Baris berikutnya dalam tabel ‘Koefisien’ adalah pendapatan. Ini adalah baris yang menggambarkan perkiraan efek pendapatan pada kebahagiaan yang dilaporkan:
- Kolom adalah efekEstimate yang diperkirakan , juga disebut koefisien regresi atau nilai r 2 . Angka dalam tabel (0,713) memberi tahu kita bahwa untuk setiap satu unit peningkatan pendapatan (di mana satu unit pendapatan = $10.000) ada peningkatan 0,71 unit terkait dalam kebahagiaan yang dilaporkan (di mana kebahagiaan adalah skala 1 sampai 10).
- Kolom Std. Error menampilkan kesalahan standar estimasi. Angka ini menunjukkan berapa banyak variasi yang ada dalam perkiraan kami tentang hubungan antara pendapatan dan kebahagiaan.
- Kolom t value menampilkan statistik uji . Kecuali jika kita menentukan sebaliknya, statistik uji yang digunakan dalam regresi linier adalah nilai - t dari uji-t dua sisi . Semakin besar statistik uji, semakin kecil kemungkinan hasil kami terjadi secara kebetulan.
- Kolom Pr(>|t|) menunjukkan p -value . Angka ini memberi tahu kita seberapa besar kemungkinan kita untuk melihat perkiraan efek pendapatan terhadap kebahagiaan jika hipotesis nol tentang tidak ada efek itu benar.
Karena nilai p sangat rendah ( p < 0,001), kita dapat menolak hipotesis nol dan menyimpulkan bahwa pendapatan memiliki pengaruh yang signifikan secara statistik terhadap kebahagiaan.
Tiga baris terakhir dari ringkasan model adalah statistik tentang model secara keseluruhan. Hal terpenting yang harus diperhatikan di sini adalah nilai p dari model. Di sini signifikan ( p < 0,001), yang berarti model ini cocok untuk data yang diamati.