Ekonometrik

Tugas 1


Kontak : \(\downarrow\)
Email
Instagram yyosia
RPubs https://rpubs.com/yosia/

Simple Linear Regression

Model regresi menggambarkan hubungan antar variabel dengan memasang garis pada data yang diamati. Model regresi linier menggunakan garis lurus, sedangkan model regresi logistik dan nonlinier menggunakan garis lengkung. Regresi memungkinkan Anda untuk memperkirakan bagaimana variabel dependent berubah saat variabel independent berubah.

Regresi linier sederhana digunakan untuk memperkirakan hubungan antara dua variabel kuantitatif . Anda dapat menggunakan regresi linier sederhana jika Anda ingin mengetahui:

1. Seberapa kuat hubungan antara dua variabel (misalnya hubungan antara curah hujan dan erosi tanah).

2. Nilai variabel terikat pada nilai tertentu dari variabel bebas (misalnya besarnya erosi tanah pada tingkat curah hujan tertentu).

Asumsi regresi linier sederhana

Regresi linier sederhana adalah uji parametrik , artinya membuat asumsi tertentu tentang data. Asumsi ini adalah:

1.Homogenitas varians (homoscedasticity) : ukuran kesalahan dalam prediksi kami tidak berubah secara signifikan di seluruh nilai variabel independen.

2.Independensi pengamatan : pengamatan dalam kumpulan data dikumpulkan menggunakan metode pengambilan sampel yang valid secara statistik , dan tidak ada hubungan tersembunyi di antara pengamatan.

3.Normalitas : Data mengikuti distribusi normal .

Regresi linier membuat satu asumsi tambahan:

4.Hubungan antara variabel independen dan dependen adalah linier : garis yang paling sesuai melalui titik-titik data adalah garis lurus (bukan kurva atau semacam faktor pengelompokan).

Rumus regresi linier sederhana

Rumus untuk regresi linier sederhana adalah:


  • y adalah nilai prediksi variabel dependen ( y ) untuk setiap nilai variabel independen ( x ) yang diberikan.
  • B0 adalah intersep , nilai prediksi y ketika x adalah 0.
  • B1 adalah koefisien regresi – seberapa besar kita mengharapkan y berubah saat x meningkat.
  • x adalah variabel bebas (variabel yang kita harapkan mempengaruhi y ).
  • e adalah kesalahan estimasi, atau seberapa banyak variasi yang ada dalam estimasi koefisien regresi.

Regresi linier sederhana dalam R

Masukan kumpulan data dari csv

getwd()
## [1] "C:/Users/House Of Grace/OneDrive/Documents/data/ekonometrik"
df1 <- read.csv("income_data.csv",sep = ",")
library(DT)
datatable(df1)

jalankan perintah berikut untuk menghasilkan model linier yang menjelaskan hubungan antara income dan happiness:

income.hapiness.lm <- lm(happiness ~ income, data = df1)

Kode ini mengambil data yang telah Anda kumpulkan data = income_data dan menghitung pengaruh variabel independen income terhadap variabel dependen happiness menggunakan persamaan untuk model linier: lm().

Menafsirkan Hasil

Untuk melihat hasil model, Kita dapat menggunakan summary() fungsi di R:

summary(income.hapiness.lm)
## 
## Call:
## lm(formula = happiness ~ income, data = df1)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.02479 -0.48526  0.04078  0.45898  2.37805 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.20427    0.08884   2.299   0.0219 *  
## income       0.71383    0.01854  38.505   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7181 on 496 degrees of freedom
## Multiple R-squared:  0.7493, Adjusted R-squared:  0.7488 
## F-statistic:  1483 on 1 and 496 DF,  p-value: < 2.2e-16
  • Tabel keluaran ini pertama-tama mengulangi rumus yang digunakan untuk menghasilkan hasil ('Call'), kemudian merangkum residu model ('Residuals'), yang memberikan gambaran seberapa cocok model dengan data sebenarnya.Berikutnya adalah tabel 'Koefisien'. Baris pertama memberikan perkiraan perpotongan y, dan baris kedua memberikan koefisien regresi model.

  • Baris 1 tabel diberi label (Intercept). Ini adalah perpotongan y dari persamaan regresi, dengan nilai 0,20. Anda dapat memasukkan ini ke dalam persamaan regresi Anda jika Anda ingin memprediksi nilai happiness di seluruh rentang income yang telah kita amati:

\[ happiness = 0.20 + 0.71*income \pm 0.018 \]

  • Baris berikutnya dalam tabel ‘Koefisien’ adalah pendapatan. Ini adalah baris yang menggambarkan perkiraan efek pendapatan pada happiness yang dilaporkan:

  • Kolom Estimate adalah efek Estimate yang diperkirakan , juga disebut koefisien regresi atau nilai \(r^2\). Angka dalam tabel (0,713) memberi tahu kita bahwa untuk setiap satu unit peningkatan income (di mana satu unit pendapatan = $10.000) ada peningkatan 0,71 unit terkait dalam happiness yang dilaporkan (di mana happiness adalah skala 1 sampai 10).

  • Kolom Std.Error menampilkan kesalahan standar estimasi. Angka ini menunjukkan berapa banyak variasi yang ada dalam perkiraan kita tentang hubungan antara income dan happiness.

  • Kolom t value menampilkan statistik uji. Kecuali jika kita menentukan sebaliknya, statistik uji yang digunakan dalam regresi linier adalah t-value dari uji-t dua sisi . Semakin besar statistik uji, semakin kecil kemungkinan hasil yang terjadi secara kebetulan.

  • Kolom Pr(>| t |) menunjukkan p-value . Angka ini memberi tahu kita seberapa besar kemungkinan kita untuk melihat perkiraan efek income terhadap happiness jika hipotesis nol tidak berpengaruh benar.

  • Karena nilai p sangat rendah (p < 0,001), kita dapat menolak hipotesis nol dan menyimpulkan bahwa income memiliki pengaruh yang signifikan secara statistik terhadap happiness.

  • Tiga baris terakhir dari ringkasan model adalah statistik tentang model secara keseluruhan. Hal terpenting yang harus diperhatikan di sini adalah nilai p dari model. Di sini signifikan (p < 0,001), yang berarti model ini cocok untuk data yang diamati.

Mempresentasikan hasil

Saat melaporkan hasil kita, sertakan efek yang diperkirakan (yaitu koefisien regresi), kesalahan standar dari perkiraan, dan nilai- p . kita juga harus menginterpretasikan angka-angka kita untuk memperjelas kepada pembaca kita apa arti koefisien regresi kita:

Kami menemukan hubungan yang signifikan (p <0,001) antara income dan happiness \(R^2 = 0,71 ± 0,018\), dengan peningkatan 0,71 unit dalam happiness yang dilaporkan untuk setiap peningkatan income $10.000.

Ini juga dapat membantu untuk menyertakan grafik dengan hasil kita. Untuk regresi linier sederhana, kita cukup memplot pengamatan pada sumbu x dan y dan kemudian memasukkan garis regresi dan fungsi regresi:

library(ggplot2)
ggplot(df1, aes(income, happiness)) +
     geom_point() +
     stat_smooth(method = lm)

Memprediksi nilai di luar rentang data

Antara $15.000 dan $17.000

a <- runif(498, min=15, max=75)          # buat data baru
df1$income2 <- a                         # masukan kolom baru 
df5 = subset(df1, select = -c(income) )  # buang data income yang lama

Visualisasi data antara 15.000 - 75.000

library(ggplot2)
ggplot(df5, aes(income2, happiness)) +
     geom_point() +
     stat_smooth(method = lm)