Econometrics

Tugas 2


Kontak : \(\downarrow\)
Email
Instagram https://www.instagram.com/claraevania/
RPubs https://rpubs.com/claradellaevania/

Model Regresi dan Regresi Linier Sederhana

Model Regresi

Model Regresi merupakan suatu model statistik dimana memperkirakan suatu hubungan antar satu variabel dependen yang kuantitatif dengan satu atau lebih variabel independen menggunakan sebuah garis.

Hubungan antar Variabel dengan memasang garis pada data yang diamati dapat digambarkan dengan Model Regresi. Dimana Model Regresi Linier ini menggunakan garis lurus, sedangkan yang menggunakan garis lengkung adalah model regresi logistik dan nonlinier.

Regresi Linier Sederhana

Regresi Linier Sederhana merupakan sebuah pemodelan regresi diamana dapat memperkirakan suatu hubungan antar satu variabel bebas dengan satu variabel terikat menggunakan sebuah garis lurus.Dimana keadaan kedua variabel tersebut adalah variabel kuantitatif. Contohnya hubungan antara suhu dengan pemuaian air raksa dalam termometer. Kita dapat menggunakan Regresi Linier sederhana jika ingin mengetahui:

  • Seberapa kuat hubungan antara dua variabel (misalnya hubungan antara curah hujan dan erosi tanah).
  • Nilai variabel terikat pada nilai tertentu dari variabel bebas (misalnya besarnya erosi tanah pada tingkat curah hujan tertentu).

CONTOH

Seorang Peneliti yang tertarik dalam hal hubungan antara pendapatan dan kebahagiaan mensurvei 500 orang yang pendapatannya berkisar dari $15rb sampai $75rb, dan meminta orang tersebut memberi peringkat kebahagian dalam skala 1 sampai 10.

Dengan Kedua Variabel Kuantitatif, Pendapatan merupakan variabel independen dan Kebahagiaan merupakan variabel dependen. Sehingga dapat dilakukan analisis regresi untuk melihat hubungan linier antara keduanya.

Asumsi Regresi Linier Sederhana

Regresi Linier sederhana merupakan Uji Parametrik, artinya dapat membuat sebuah asumsi tertentu tentang data. Asumsinya adalah :

  1. Homogenitas Varians (homoscedasticity) pengukuran kesalahan dalam prediksi tifak berubah secara signifikan pada seluruh nilai variabel independen
  2. Independensi Pengamatan Pengumpulan pengamatan dalam suatu kumpulan data menggunakan metode pengambilan sampel yang valid secara statistik dan tidak ada hubungan diantara pengamatan
  3. Normalitas Data mengikuti Distribusi Normal
  4. Hubungan antara kedua Variabel adalah Linier Garis lurus merupakan garis yang paling sesuai melalui titik-titik data.

Jika data tidak memenuhi asumsi homoskedastisitas ataupun normalitas, kita dapat menggunakan uji nonparametrik salah satunya uji peringkat Spearman.

Melakukan Regresi Linier Sederhana

Rumus Regresi Linier Sederhana

Rumus Regresi Liner Sederhana

Rumus Regresi Liner Sederhana

  • y merupakan nilai prediksi variabel (y) dependen dalam setiap nilai variabelindependen (x)

  • B0 merupakan Intersep, dengan nilai prediksi y ketika x adalah 0

  • B1 merupakan koefisien regresi dengan melihat seberapa besar mengharapkan y berubah saat x meningkat

  • x merupakan sebuah variabel bebas yang diharapkan mempengaruhi y

  • e merupakan kesalahan atau estimasi error ataupun seberapa banyak variasi yang ada dalam estimasi koefisien regresi

Regrsi Linier menemukan garis garis yang sesuai melalui data dengan mencari koefisien regresi (B1) yang meminimalkan kesalahan total (e) model

Melakukan Regresi Linier Sederhana dalam R

  • Regresi Linier Sederhana dalam R
print(getwd())
## [1] "D:/DELLA/MATANA/TUGAS/SEMESTER 4/EKONOMETRIK/Rstudio"
getwd()
## [1] "D:/DELLA/MATANA/TUGAS/SEMESTER 4/EKONOMETRIK/Rstudio"
setwd(getwd())
incomedata = read.csv("D:/DELLA/MATANA/TUGAS/SEMESTER 4/EKONOMETRIK/Rstudio/incomedata.csv")
incomedata

Kode R untuk Regresi Linier Sederhana

income_happiness_lm <- lm(happiness ~ income, data = incomedata)
income_happiness_lm
## 
## Call:
## lm(formula = happiness ~ income, data = incomedata)
## 
## Coefficients:
## (Intercept)       income  
##      0.2043       0.7138

Kode ini mengambil data yang telah dikumpulkan data = income.data dan menghitung pengaruh variabel independen income terhadap variabel dependen happiness menggunakan persamaan untuk model linier: lm().

Memenuhi Asumsi

Memeriksa apakah data memenuhi empat asumsi utama pada Regresi Linier

  1. Independensi Pengamatan Tidak perlu menguji hubungan tersembunyi diantara variabel karena hanya memiliki satu variabel bebas dan satu variabel terikat.

  2. Normalitas Digunakan untuk memeriksa apakah variabel dependen mengikuti distribusi normal. Kita dapat menggunakan fungsi hist().

hist(incomedata$happiness)

  1. Linearitas Hubungan antara variabel bebas dan variabel terikat harus linier, lalu dapat menguji secara visual dengan plot pencar dalam melihat apakah distribusi titik data dapat digambarkan dengan garis lurus.
plot(happiness ~ income, data = incomedata)

4. Homoskedastisitas Bearti prediksi kesalahan tidak berubah secara signifikan saat memprediksi rentang model. Setelah memasang model linier, kita dapat menguji asumsi ini.

Melakukan Analisis Regresi Linier

Menggunakan fungsi summary() untuk dapat melihat hasil model

summary(income_happiness_lm)
## 
## Call:
## lm(formula = happiness ~ income, data = incomedata)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.02479 -0.48526  0.04078  0.45898  2.37805 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.20427    0.08884   2.299   0.0219 *  
## income       0.71383    0.01854  38.505   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7181 on 496 degrees of freedom
## Multiple R-squared:  0.7493, Adjusted R-squared:  0.7488 
## F-statistic:  1483 on 1 and 496 DF,  p-value: < 2.2e-16

Fungsi ini mengambil parameter terpenting dari model liniar dan menempatkannya kedalam tabel serperti diatas.

Tabel ini mengulangi rumus yang diguanakn untuk menghasilkan hasil ('call'), lalu juga merangkum residu model ('Residual'). Dimana memberikan gambaran tentang seberapa cocok model dengan data yang sebenarnya.

Pada Tabel ('Coefficients') barisan yang pertama merupakan sebuah perkiraan perpotongan y lalu baris kedua merupakan koefisien regresi model.

Pada Tabel ('Intercept'), merupakan sebuah perpotongan y dari persamaan regresi dengan nilai 0,20. Lalu jika ingin memprediksi suatu nilai kebahagiaan pada seluruh rentang pendapatan yang telah diamati, dapat memasukkan nilai ini pada persamaan regresi :

\(happiness = 0.20 + 0.71*income ± 0.018\)

Baris berikutnya pada Tabel ('Coefficients')adalah pendapatan, dimana dengan menggambarkan perkiraan efek pendapatan pada kebahagian yang dilaporkan adalah :

  • Kolom Estimate merupakan efek yang diperikan dimana juga disebut sebagai koefisien regresi atau nilai r_2. Angka pada tabel (0,713) mengartikan bahwa pada setiap satu unit peningkatan pendapatan (dimana satu unit pendapatan = $10.000) terdapat suatu peningkatan 0,71 unit terkait dalam kebahagiaan yang dilaporkan (dimana kebahagiaan adalah skala 1 sampai 10).

  • Kolom Std. Error menampilkan sebuah kesalahan standar estimasi, dimana angkanya menunjukkan seberapa banyak suatu variasi yang terdapat dalam perkiraan tentang hubugan antara pendapatan dan kebahagiaan.

  • Kolom t value menampilkan uji statistik, kecuali jika dapat menentukan sebaliknya, uji statistik yang digunakan dalam regresi linier adalah nilai - t dari uji-t dua sisi . Semakin besar statistik uji, semakin kecil kemungkinan hasil yang terjadi secara kebetulan.

  • Kolom Pr(>| t |) menunjukkan p-value, dimana angka ini memberitahu seberapa besar kemungkinan dalam melihat perkiraan efek pendapatan terhadap kebahagiaan jika hipotesis nol tentang tidak ada efek itu benar

nilai p sangat rendah (p<0.001 Karena itu, kita dapat menolak hipotesis nol dan disimpulkan bahwa pendapatan memiliki pengaruh yang signifikan secara statistik terhadap kebagiaan.

Tiga baris terakhir dari ringkasan model adalah statistik tentang model secara keseluruhan. Hal terpenting yang harus diperhatikan di sini adalah nilai p dari model. Di sini signifikan ( p < 0,001), yang berarti model ini cocok untuk data yang diamati.

Dari hasil tersebut, kita dapat mengatakan bahwa ada hubungan positif yang signifikan antara pendapatan dan kebahagiaan ( p -value < 0,001), dengan peningkatan kebahagiaan 0,713-unit (+/- 0,01) untuk setiap peningkatan pendapatan unit.

Memeriksa Homoskedastisitas

Sebelum melanjutkan dengan visualisasi data, kita harus memastikan bahwa modelnya sesuai dengan asumsi homoskedastisitas dari model linier.

par(mfrow=c(2,2))
plot(income_happiness_lm)

par(mfrow=c(1,1))

Garis merah yang mewakili rata-rata residual semuanya pada dasarnya horizontal dan berpusat di sekitar nol. Ini berarti tidak ada outlier atau bias dalam data yang akan membuat regresi linier tidak valid.

Pada Normal Q-Qplot dapat dilihat bahwa residual nyata dari modelmembentuk garis satu-ke-satu yang hampir sempurna dengan residual teoretis dari model yang sempurna.

Berdasarkan residual ini, kita dapat mengatakan bahwa model kita memenuhi asumsi homoskedastisitas.

Memvisualisasikan Hasil denga Grafik

Langkah-Langkah yang harus dilakukan dalam Memvisualisasikan Hasil Regresi Linier Sederhana ini adalah :

  1. Menggambarkan Titik-Titik Data pada grafik
library(ggplot2)
IncomeGraph<-ggplot(incomedata, aes(x=income, y=happiness))+geom_point()
IncomeGraph

  1. Menambahkan Garis Linier kedata yang di Plot
IncomeGraph <- IncomeGraph + geom_smooth(method="lm", col="black")
IncomeGraph

  1. Menambahkan Persamaan untuk Garis Regresi
library(ggpubr)
IncomeGraph <- IncomeGraph +
  stat_regline_equation(label.x = 3, label.y = 7)
IncomeGraph

  1. Mempublikasikan Grafik
IncomeGraph +
  theme_bw() +
  labs(title = "Reported happiness as a function of income",
      x = "Income (x$10,000)",
      y = "Happiness score (0 to 10)")

Melaporkan Hasil Regresi Linier Sederhana

Ditemukan hubungan yang signifikan antara pendapatan dan kebahagiaan (p <0,001, R2 = 0,73 ± 0,0193), dengan peningkatan 0,73 unit dalam kebahagiaan yang dilaporkan untuk setiap kenaikan pendapatan $10.000.