# Memuat paket haven
library(haven)
# Impor data dari file .dta
data <- read_dta("b1_ks1.dta")
# Filter data untuk hanya menampilkan yang mengkonsumsi kategori "A"
data_Konsumsi <- subset(data, ks1type %in% c("A"))Tugas 1
Analisis Regresi
Analisis regresi adalah metode statistik yang digunakan untuk mempelajari hubungan antara satu atau lebih variabel independen (prediktor) dengan satu variabel dependen (variabel respons). Tujuan utamanya adalah untuk memahami dan memodelkan hubungan antara variabel-variabel tersebut, sehingga dapat digunakan untuk melakukan prediksi atau membuat inferensi tentang variabel dependen berdasarkan nilai variabel independen.
Secara umum, analisis regresi melibatkan pemodelan hubungan antara variabel independen ( X ) dan variabel dependen ( Y ) dalam bentuk persamaan matematis. Persamaan tersebut sering kali disebut sebagai model regresi. Model regresi dapat berupa model linier atau non-linier, tergantung pada hubungan antara variabel-variabel tersebut.
Metode analisis regresi memiliki banyak variasi, tetapi regresi linier adalah salah satu yang paling umum. Dalam regresi linier, hubungan antara variabel independen dan dependen diasumsikan sebagai linier, sehingga modelnya berbentuk persamaan linier. Regresi linier sederhana melibatkan satu variabel independen, sedangkan regresi linier berganda melibatkan lebih dari satu variabel independen.
Analisis Regresi Linear Berganda
Analisis regresi linear berganda adalah metode statistik yang digunakan untuk memahami hubungan antara satu variabel dependen dengan dua atau lebih variabel independen. Tujuannya adalah untuk mengukur seberapa kuat dan sebagaimana variabel independen mempengaruhi variabel dependen dalam suatu hubungan linear. Dalam analisis ini, kita mencari model matematis yang dapat digunakan untuk memprediksi nilai variabel dependen berdasarkan nilai-nilai variabel independen yang diberikan.
Definisi umumnya mirip dengan analisis regresi pada umumnya, namun menekankan pada fakta bahwa terdapat lebih dari satu variabel independen yang digunakan dalam model. Dalam regresi linear berganda, kita mencari model garis lurus yang paling baik menyesuaikan data observasi yang ada di ruang multidimensi. Proses ini sering melibatkan penggunaan metode kuadrat terkecil untuk meminimalkan kesalahan antara nilai yang diamati dan nilai yang diprediksi oleh model.
Analisis regresi linear berganda adalah salah satu alat analisis statistik yang paling umum digunakan untuk memahami dan memprediksi hubungan antara variabel-variabel dalam data multidimensi.
Berikut kita mulai dengan menginput data.
Masukkan Data Konsumsi Beras
Ekspor Data Konsumsi
# Instal dan memuat paket haven
library(haven)
# Mengekspor data ke format .dta
write_dta(data_Konsumsi, "data_Konsumsi.dta")Masukkan Data Pendapatan
# Memuat paket haven
library(haven)
b3a_tk1 <- read_dta("b3a_tk1.dta")Regresi Konsumsi dan Pendapatan
library(haven)
# Impor file data dependen dan independen
dependen_data <- read_stata("data_Konsumsi.dta")
independen_data <- read_stata("b3a_tk1.dta")
# Gabungkan kedua data berdasarkan ID responden
merged_data <- merge(dependen_data, independen_data, by = "hhid14_9", all = FALSE)
# Jika ID responden sama di kedua file, Anda bisa menggunakan all = FALSE atau menghilangkan parameter all.
# Buat model regresi
model <- lm(ks02 ~ tk16a , data = merged_data)
# Melihat ringkasan model
summary(model)
Call:
lm(formula = ks02 ~ tk16a, data = merged_data)
Residuals:
Min 1Q Median 3Q Max
-59407 -58518 -18772 24411 690720
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.941e+04 2.655e+03 22.372 <2e-16 ***
tk16a -1.270e-03 1.293e-03 -0.983 0.326
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 84120 on 1253 degrees of freedom
(33098 observations deleted due to missingness)
Multiple R-squared: 0.00077, Adjusted R-squared: -2.744e-05
F-statistic: 0.9656 on 1 and 1253 DF, p-value: 0.326
Model regresi linear sederhana dinyatakan sebagai:
\[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i\] \[ Y_i = 59410 + 0 X_i + \varepsilon_i\] Pada hasil regresi di atas menunjukkan bahwa variabel pendapatan tidak memiliki pengaruh terhadap pengeluaran konsumsi
Regresi Linear Berganda
library(haven)
# Impor file data dependen dan independen
dependen_data <- read_stata("data_Konsumsi.dta")
independen_data1 <- read_stata("b3a_tk1.dta")
independen_data2 <- read_stata("b3a_dl1.dta")
# Gabungkan kedua data berdasarkan ID responden
merged_data <- merge(dependen_data, independen_data1, by = "hhid14_9", all = FALSE)
merged_data <- merge(merged_data, independen_data2, by = "hhid14_9", all = FALSE)
# Jika ID responden sama di kedua file, Anda bisa menggunakan all = FALSE atau menghilangkan parameter all.
# Buat model regresi
model <- lm(ks02 ~ tk16a + dl06 , data = merged_data)
# Melihat ringkasan model
summary(model)
Call:
lm(formula = ks02 ~ tk16a + dl06, data = merged_data)
Residuals:
Min 1Q Median 3Q Max
-70068 -65642 -22835 25631 680218
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.029e+04 2.111e+03 33.300 <2e-16 ***
tk16a -1.770e-03 9.489e-04 -1.865 0.0622 .
dl06 -1.088e+02 6.797e+01 -1.600 0.1097
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 95480 on 3357 degrees of freedom
(94969 observations deleted due to missingness)
Multiple R-squared: 0.002036, Adjusted R-squared: 0.001441
F-statistic: 3.424 on 2 and 3357 DF, p-value: 0.03268
Model Regresi linear berganda dinyatakan sebagai berikut:
\[ Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \ldots + \beta_nX_n + \varepsilon \] \[ Y = 70,290 + (-0.00177)X_1 + ( -108.8)X_2 + \varepsilon \] Pada hasil regresi di atas menunjukkan bahwa variabel pendapatan dan tingkat pendidikan berpengaruh negatif terhadap pengeluaran konsumsi dengan nilai p-valuenya ialah sebesar 0.03<0.05. Adapun koefisien regresi dari variabel pendapatan adalah sebesar -0.00177 yang berarti bahwa setiap adanya peningkatan satu persen pendapatan maka akan menyebabkan pengeluaran konsumsi untuk beras mengalami penurunan sebesar -0.00177. Sedangkan, keofisien dari variabel tingkat pendidikan menunjukkan bahwa semakin tinggi tingkat pendidikan seseorang, semakin rendah pengeluaran konsumsi pada beras dengan nilai keofisien sebesar -108.8