Econometrics
Tugas 2
| Kontak | : \(\downarrow\) |
| clara.evania@student.matanauniversity.ac.id | |
| https://www.instagram.com/claraevania/ | |
| RPubs | https://rpubs.com/claradellaevania/ |
Model Regresi dan Regresi Linier Sederhana
Model Regresi
Model Regresi merupakan suatu model statistik dimana memperkirakan suatu hubungan antar satu variabel dependen yang kuantitatif dengan satu atau lebih variabel independen menggunakan sebuah garis.
Hubungan antar Variabel dengan memasang garis pada data yang diamati dapat digambarkan dengan Model Regresi. Dimana Model Regresi Linier ini menggunakan garis lurus, sedangkan yang menggunakan garis lengkung adalah model regresi logistik dan nonlinier.
Regresi Linier Sederhana
Regresi Linier Sederhana merupakan sebuah pemodelan regresi diamana dapat memperkirakan suatu hubungan antar satu variabel bebas dengan satu variabel terikat menggunakan sebuah garis lurus.Dimana keadaan kedua variabel tersebut adalah variabel kuantitatif. Contohnya hubungan antara suhu dengan pemuaian air raksa dalam termometer. Kita dapat menggunakan Regresi Linier sederhana jika ingin mengetahui:
- Seberapa kuat hubungan antara dua variabel (misalnya hubungan antara curah hujan dan erosi tanah).
- Nilai variabel terikat pada nilai tertentu dari variabel bebas (misalnya besarnya erosi tanah pada tingkat curah hujan tertentu).
CONTOH
Seorang Peneliti yang tertarik dalam hal hubungan antara pendapatan dan kebahagiaan mensurvei 500 orang yang pendapatannya berkisar dari $15rb sampai $75rb, dan meminta orang tersebut memberi peringkat kebahagian dalam skala 1 sampai 10.
Dengan Kedua Variabel Kuantitatif, Pendapatan merupakan variabel independen dan Kebahagiaan merupakan variabel dependen. Sehingga dapat dilakukan analisis regresi untuk melihat hubungan linier antara keduanya.
Asumsi Regresi Linier Sederhana
Regresi Linier sederhana merupakan Uji Parametrik, artinya dapat membuat sebuah asumsi tertentu tentang data. Asumsinya adalah :
- Homogenitas Varians (homoscedasticity) pengukuran kesalahan dalam prediksi tifak berubah secara signifikan pada seluruh nilai variabel independen
- Independensi Pengamatan Pengumpulan pengamatan dalam suatu kumpulan data menggunakan metode pengambilan sampel yang valid secara statistik dan tidak ada hubungan diantara pengamatan
- Normalitas Data mengikuti Distribusi Normal
- Hubungan antara kedua Variabel adalah Linier Garis lurus merupakan garis yang paling sesuai melalui titik-titik data.
Jika data tidak memenuhi asumsi homoskedastisitas ataupun normalitas, kita dapat menggunakan uji nonparametrik salah satunya uji peringkat Spearman.
Melakukan Regresi Linier Sederhana
Rumus Regresi Linier Sederhana
Rumus Regresi Liner Sederhana
y merupakan nilai prediksi variabel (y) dependen dalam setiap nilai variabelindependen (x)
B0 merupakan Intersep, dengan nilai prediksi y ketika x adalah 0
B1 merupakan koefisien regresi dengan melihat seberapa besar mengharapkan y berubah saat x meningkat
x merupakan sebuah variabel bebas yang diharapkan mempengaruhi y
e merupakan kesalahan atau estimasi error ataupun seberapa banyak variasi yang ada dalam estimasi koefisien regresi
Regrsi Linier menemukan garis garis yang sesuai melalui data dengan mencari koefisien regresi (B1) yang meminimalkan kesalahan total (e) model
Melakukan Regresi Linier Sederhana dalam R
- Regresi Linier Sederhana dalam R
print(getwd())## [1] "D:/DELLA/MATANA/TUGAS/SEMESTER 4/EKONOMETRIK/Rstudio"
getwd()## [1] "D:/DELLA/MATANA/TUGAS/SEMESTER 4/EKONOMETRIK/Rstudio"
setwd(getwd())
incomedata = read.csv("D:/DELLA/MATANA/TUGAS/SEMESTER 4/EKONOMETRIK/Rstudio/incomedata.csv")
incomedataKode R untuk Regresi Linier Sederhana
income_happiness_lm <- lm(happiness ~ income, data = incomedata)
income_happiness_lm##
## Call:
## lm(formula = happiness ~ income, data = incomedata)
##
## Coefficients:
## (Intercept) income
## 0.2043 0.7138
Kode ini mengambil data yang telah dikumpulkan data = income.data dan menghitung pengaruh variabel independen income terhadap variabel dependen happiness menggunakan persamaan untuk model linier: lm().
Melakukan Analisis Regresi Linier
Menggunakan fungsi summary() untuk dapat melihat hasil model
summary(income_happiness_lm)##
## Call:
## lm(formula = happiness ~ income, data = incomedata)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.02479 -0.48526 0.04078 0.45898 2.37805
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.20427 0.08884 2.299 0.0219 *
## income 0.71383 0.01854 38.505 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7181 on 496 degrees of freedom
## Multiple R-squared: 0.7493, Adjusted R-squared: 0.7488
## F-statistic: 1483 on 1 and 496 DF, p-value: < 2.2e-16
Fungsi ini mengambil parameter terpenting dari model liniar dan menempatkannya kedalam tabel serperti diatas.
Tabel ini mengulangi rumus yang diguanakn untuk menghasilkan hasil ('call'), lalu juga merangkum residu model ('Residual'). Dimana memberikan gambaran tentang seberapa cocok model dengan data yang sebenarnya.
Pada Tabel ('Coefficients') barisan yang pertama merupakan sebuah perkiraan perpotongan y lalu baris kedua merupakan koefisien regresi model.
Pada Tabel ('Intercept'), merupakan sebuah perpotongan y dari persamaan regresi dengan nilai 0,20. Lalu jika ingin memprediksi suatu nilai kebahagiaan pada seluruh rentang pendapatan yang telah diamati, dapat memasukkan nilai ini pada persamaan regresi :
\(happiness = 0.20 + 0.71*income ± 0.018\)
Baris berikutnya pada Tabel ('Coefficients')adalah pendapatan, dimana dengan menggambarkan perkiraan efek pendapatan pada kebahagian yang dilaporkan adalah :
Kolom Estimate merupakan efek yang diperikan dimana juga disebut sebagai koefisien regresi atau nilai r_2. Angka pada tabel (0,713) mengartikan bahwa pada setiap satu unit peningkatan pendapatan (dimana satu unit pendapatan = $10.000) terdapat suatu peningkatan 0,71 unit terkait dalam kebahagiaan yang dilaporkan (dimana kebahagiaan adalah skala 1 sampai 10).
Kolom Std. Error menampilkan sebuah kesalahan standar estimasi, dimana angkanya menunjukkan seberapa banyak suatu variasi yang terdapat dalam perkiraan tentang hubugan antara pendapatan dan kebahagiaan.
Kolom t value menampilkan uji statistik, kecuali jika dapat menentukan sebaliknya, uji statistik yang digunakan dalam regresi linier adalah nilai - t dari uji-t dua sisi . Semakin besar statistik uji, semakin kecil kemungkinan hasil yang terjadi secara kebetulan.
Kolom Pr(>| t |) menunjukkan p-value, dimana angka ini memberitahu seberapa besar kemungkinan dalam melihat perkiraan efek pendapatan terhadap kebahagiaan jika hipotesis nol tentang tidak ada efek itu benar
nilai p sangat rendah (p<0.001 Karena itu, kita dapat menolak hipotesis nol dan disimpulkan bahwa pendapatan memiliki pengaruh yang signifikan secara statistik terhadap kebagiaan.
Tiga baris terakhir dari ringkasan model adalah statistik tentang model secara keseluruhan. Hal terpenting yang harus diperhatikan di sini adalah nilai p dari model. Di sini signifikan ( p < 0,001), yang berarti model ini cocok untuk data yang diamati.
Dari hasil tersebut, kita dapat mengatakan bahwa ada hubungan positif yang signifikan antara pendapatan dan kebahagiaan ( p -value < 0,001), dengan peningkatan kebahagiaan 0,713-unit (+/- 0,01) untuk setiap peningkatan pendapatan unit.
Memeriksa Homoskedastisitas
Sebelum melanjutkan dengan visualisasi data, kita harus memastikan bahwa modelnya sesuai dengan asumsi homoskedastisitas dari model linier.
par(mfrow=c(2,2))
plot(income_happiness_lm)par(mfrow=c(1,1))Garis merah yang mewakili rata-rata residual semuanya pada dasarnya horizontal dan berpusat di sekitar nol. Ini berarti tidak ada outlier atau bias dalam data yang akan membuat regresi linier tidak valid.
Pada Normal Q-Qplot dapat dilihat bahwa residual nyata dari modelmembentuk garis satu-ke-satu yang hampir sempurna dengan residual teoretis dari model yang sempurna.
Berdasarkan residual ini, kita dapat mengatakan bahwa model kita memenuhi asumsi homoskedastisitas.
Memvisualisasikan Hasil denga Grafik
Langkah-Langkah yang harus dilakukan dalam Memvisualisasikan Hasil Regresi Linier Sederhana ini adalah :
- Menggambarkan Titik-Titik Data pada grafik
library(ggplot2)
IncomeGraph<-ggplot(incomedata, aes(x=income, y=happiness))+geom_point()
IncomeGraph- Menambahkan Garis Linier kedata yang di Plot
IncomeGraph <- IncomeGraph + geom_smooth(method="lm", col="black")
IncomeGraph- Menambahkan Persamaan untuk Garis Regresi
library(ggpubr)
IncomeGraph <- IncomeGraph +
stat_regline_equation(label.x = 3, label.y = 7)
IncomeGraph- Mempublikasikan Grafik
IncomeGraph +
theme_bw() +
labs(title = "Reported happiness as a function of income",
x = "Income (x$10,000)",
y = "Happiness score (0 to 10)")Melaporkan Hasil Regresi Linier Sederhana
Ditemukan hubungan yang signifikan antara pendapatan dan kebahagiaan (p <0,001, R2 = 0,73 ± 0,0193), dengan peningkatan 0,73 unit dalam kebahagiaan yang dilaporkan untuk setiap kenaikan pendapatan $10.000.