Ekonometrik
Midterm
| Kontak | : \(\downarrow\) |
| clara.evania@student.matanauniversity.ac.id | |
| https://www.instagram.com/claraevania/ | |
| RPubs | https://rpubs.com/claradellaevania/ |
1. Apa perbedaan regressi Linear Sederhana dan Berganda, jelaskan dengan contoh!
Regresi Linear Sederhana
Regresi Linear Sederhana merupakan suatu analisis regresi dimana melibatkan 2 variabel yaitu 1 variabel dependen (y) dan 1 variabel independen (x). Variabel Dependen merupakan variabel yang dipengaruhi sedangkan variabel independent adalah variabel yang mempengaruhi. Analisis Regresi Sederhana bertujuan dalam mengetahui pengaruh dari suatu variabel terhadap variabel lainnya. Rumus Regresi Linear Sederhana :
\[ \begin{align} Y &= a+bX\\ \\ Dimana :\\ Y &= Variabel\space Dependen (Variabel \space Terikat)\\ X &= Variabel \space Independen (Variabel \space Bebas)\\ a &= Konstanta (nilai \space dari \space y \space apabila \space x \space bernilai \space 0)\\ b &= Koefisien \space Regresi \\ \end{align} \]
b menunjukkan angka peningkatan ataupun penurunan variabel dependen dimana didasarkan pada variabel independen. Jika b bernilai positif maka mengalami kenaikan, jika b bernilai negatif maka akan terjadi penurunan. harga b merupakan tangen dari (perbandingan) antara panjang garis variabel Independen dengan variabel dependen, setelah persamaan regresi ditemukan.Maka dirumuskan sebagai berikut :
\[ \begin{align} Harga\space b &= r\frac{S_y}{S_x}\\ \\ Dimana :\\ r &= Koefisien \space antara \space variabel \space x \space dan \space y\\ S_y &= Simpangan \space Baku \space Variabel \space y \\ S_x &= Simpangan \space Baku \space Variabel \space x\\ \end{align} \]
Contoh Analisis Regresi Linear Sederhana
Contoh Analisis Regresi Linear Sederhana yaitu misal Dalam suatu perusahaan ingin mengukur hubungan antara jam kerja dengan hasil pekerjaan dari para pekerja sebanyak 36 sampel pekerja. Sehingga dalam analisis data ini memiliki 1 variabel bebas dan 1 variabel terikat. Dimana Jam Kerja merupakan Variabel bebas, sedangkan hasil pekerjaan merupakan variabel terikat. Dimana nanti analisisnya akan dibahas pada soal nomor 2.
Analisis Regresi Linear Berganda
Regresi Linear Berganda merupakan suatu analisis yang melibatkan 2 atau lebih variabel independen dengan 1 variabel dependen. Dimana analisis ini bertujuan dalam mengetahui arah hubungan antara variabel - variabel independen dengan variabel dependen, apakah masing-masing variabel independen berhubungan positif atau negatif dan untuk memprediksi nilai dari variabel dependen apabila nilai variabel independen mengalami kenaikan atau penurunan. Data yang digunakan biasanya berskala interval atau rasio.Rumus dari analisis regresi linear berganda adalah sebagai berikut:
\[ \begin{align} Y &=α+β_1X_1+β_2X_2+...+β_nX_n+e\\ \\ Dimana :\\ Y &= Variabel\space Dependen(Terikat/Respon)\\ X &= Variabel \space Independen (Bebas/Prediktor)\\ α &= Konstanta \\ β &= Koefisien \space Regresi \\ e &= residual \end{align} \]
Contoh Analisis Linear Berganda
Pada contoh penerapan Analisis Regresi Linear Berganda adalah mencari Hubungan Jumlah Sales dan Pengeluaran Iklan terhadap Penjualan Motor Per Bulan. Sehingga pada data ini memiliki 2 variabel bebas dan 1 variabel terikat. Dimana Jumlah Sales merupakan Variabel bebas 1 dan Pengeluaran Iklan merupakan variabel bebas 2 sedangkan Penjualan Motor per Bulan merupakan variabel terikat. Analisis Linear Berganda ini nanti akan dibahas pada nomor 3.
2. Lakukan analisis regresi linear sederhana dalam ilmu ekonometrik!
Dalam suatu perusahaan ingin mengukur hubungan antara jam kerja dengan hasil pekerjaan dari para pekerja sebanyak 36 sampel pekerja.
Sehingga dalam soal ini akan membahas mengenai pengaruh jam kerja terhadap hasil kerja pada suatu perusahaan.
pacman::p_load(readxl,writexl)
JamHasil = read_excel("D:/DELLA/MATANA/TUGAS/SEMESTER 4/EKONOMETRIK/Rstudio/UTSEKONOMETRIK.xlsx",sheet = 1)
library(DT)
datatable(JamHasil)x <- JamHasil$`Jam Kerja (X)`
y <- JamHasil$`Hasil Kerja (Y)`
plot(x, y,
ylim=c(0,max(y)),
xlim=c(0,max(x)),
xlab="Jam Kerja",
ylab="Hasil Kerja",
type="p")Dapat dilihat dalam scatter plot bahwa Jam Kerja dan Hasil Kerja saling berhubungan dimana artinya memiliki hubungan positif antara Jam Kerja dan Hasil Kerja.
Uji Asumsi
Dalam melakukan suatu hipotesis, terdapat beberapa asumsi yang perlu diperhatikan. Untuk itu, sebelum langkah lebih lanjut, kita perlu memastikan apakah asumsi-asumsi yang ada telah terpenuhi. Dimana asumsi-asumsi yang harus terpenuhi adalah sebagai berikut:
Independensi Pengamatan
Pada data ini Tidak terdapat hubungan tersembunti diantara variabel karena hanya memiliki satu variabel independent.
Normalitas
Normalitas digunakan untuk memeriksa apakah variabel dependen atau variabel terikatnya mengikuti distribusi normal. Kita dapat menggunakan fungsi hist().
avg <- mean(JamHasil$`Hasil Kerja (Y)`)
stdev <- sd(JamHasil$`Hasil Kerja (Y)`)
hist(JamHasil$`Hasil Kerja (Y)`, xlab = "Hasil Kerja ", main="Histogram pada Jam Kerja", freq = FALSE)
curve(dnorm(x, avg, stdev), add = TRUE, col=2)###Linearitas
Hubungan antara variabel bebas dan variabel terikat harus linier, lalu dapat menguji secara visual dengan plot pencar dalam melihat apakah distribusi titik data dapat digambarkan dengan garis lurus. Linearitas dilakukan untuk mengetahui apakah data observasi bersifat linear. Jika tidak memenuhi maka tidak dapat menggunakan regresi linier, tetapi harus menggunakan metode lainnya.
library("gridExtra")
library("ggplot2")
linearitasgg <- ggplot(JamHasil)+
geom_point(aes(x = x,
y = y),
shape = 1)+
geom_smooth(aes(x = x,
y = y),
method = "lm",
formula = "y~x",
color = "red")
linearitasggMaka berdasarkan plot tersebut, dapat diamati bahwa hubungan antara variabel bebas dan variabel terikat linier.
Hipotesis beserta Tingkat Signifikan
\[ \begin{align} H_0 : a &= b \\ H_1 : a &≠ b \\ α&=0.05 \end{align} \]
Model Linear dan Summary
Pada analisis regresi untuk melihat summary dari model linier regresi sederhana dapat menggunakan lm() dan summary()
jh_1 <- lm(y~x, data=JamHasil)
sumlin <- summary(jh_1)
sumlin##
## Call:
## lm(formula = y ~ x, data = JamHasil)
##
## Residuals:
## Min 1Q Median 3Q Max
## -161.808 -73.122 4.608 59.913 232.384
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 111.360 34.898 3.191 0.00305 **
## x 17.756 1.075 16.522 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 94.74 on 34 degrees of freedom
## Multiple R-squared: 0.8892, Adjusted R-squared: 0.886
## F-statistic: 273 on 1 and 34 DF, p-value: < 2.2e-16
a = coef(jh_1)[[1]]
a## [1] 111.3595
b = coef(jh_1)[[2]]
b## [1] 17.75641
Maka dapat dilihat dari hasil summary diatas bahwa a = 111.360 , b = 17.756. Maka Estimasi dari y adalah :
\[ \begin{align} Y &= a+bX\\ Y &= 111.360+17.756X\\ \end{align} \]
Selanjutnya kita mencari p-valuenya menggunakan
sumlin$r.squared## [1] 0.8892459
Artinya nilai koefisien determinasi adalah sebesar 0,8892 Artinya 88,92% variasi dari hasil kerja ditentukan oleh jam kerja, dan sisanya yaitu 11,08% hasil kerja ditentukan oleh faktor lain selain jam kerja.
3. Carilah contoh penerapan analisis regresi linear berganda dalam ilmu ekonometrik! (Persentasikan temuan anda)
Pada contoh penerapan Analisis Regresi Linear Berganda adalah mencari Hubungan Jumlah Sales dan Pengeluaran Iklan terhadap Penjualan Motor Per Bulan. Dimana data-data yang sudah dikumpulkan adalah :
pacman::p_load(readxl,writexl)
Motor = read_excel("D:/DELLA/MATANA/TUGAS/SEMESTER 4/EKONOMETRIK/Rstudio/UTSEKONOMETRIK.xlsx",sheet = 3)
library(DT)
datatable(Motor)Uji Asumsi
Dalam melakukan suatu hipotesis, terdapat beberapa asumsi yang perlu diperhatikan. Untuk itu, sebelum langkah lebih lanjut, kita perlu memastikan apakah asumsi-asumsi yang ada telah terpenuhi. Dimana asumsi-asumsi yang harus terpenuhi adalah sebagai berikut:
Independensi Pengamatan
Pada data ini ataupun kasus ini variabel Independennya lebih dari satu yaitu 2, maka harus memeriksanya apakah ada korelasi antar variabel.Jika korelasi mendekati 1 maka terdapat hubungan timpal balik positif. Jika mendekati 0, maka tidak ada korelasi. Dan jika mendekati -1 maka terdapat hubungan timpal balik negatif. Maka menggunakan fungsi cor() dalam menguji hubungan antara variabel independennya dan memastikan tidak terlalu berkolerasi.
x1 = Motor$`Jumlah Sales (X1)`
x2 = Motor$`Pengeluaran Iklan (X2)`
y_1= Motor$`Penjualan Per Bulan (Y)`cor(x1,x2)## [1] 0.768934
Dari hasil tersebut, maka korelasi antar variabel independent mendekati 1, sehingga terdapat hubungan timpal balik positif. Jadi jika nilai x mengalami peningkatan maka nilai Y juga akan meningkat.
Normalitas
Pada Uji Normalitas dilakukan untuk melihat pada variabel dependen yang terdapat pada data apakah merupakan distribusi normal yang sesuai dengan kurva lonceng atau tidak. Maka untuk mencari itu dapat menggunakan hist
avg_2 <- mean(y_1)
stdev_2 <- sd(y_1)
hist(y_1, xlab = "Penjualan per Bulan", main="", freq=FALSE)
curve(dnorm(x, avg_2, stdev_2), add = TRUE, col="blue")Grafik diatas berbentuk lonceng dan tidak condong ke kiri atau condong ke kanan sehingga data dengan pola seperti di atas ini berdistribusi normal
Linearitas
Pada uji Linearitas ini dipakai dalam melihat hubungan antara variabel independent dan variabel dependent dimana harus linear. Lalu dapat menguji secara visual dengan plot pencar dalam melihat apakah distribusi titik data dapat digambarkan dengan garis lurus.
linearitas_2 <- ggplot(Motor)+
geom_point(aes(x = x1,
y = y_1),
shape = 1)+
geom_smooth(aes(x = x1,
y = y_1),
method = "lm",
formula = "y~x",
color = "green")
linearitas_3 <- ggplot(Motor)+
geom_point(aes(x = x2,
y = y_1),
shape = 1)+
geom_smooth(aes(x = x2,
y = y_1),
method = "lm",
formula = "y~x",
color = "Green")
grid.arrange(linearitas_2 , linearitas_3, nrow = 1, ncol =2)Pada Plot diatas, dapat disimpulkan bahwa hubungan antara Jumlah Sales dan Penjualan Per Bulan serta Pengeluaran Iklan dan Penjualan Per Bulan bentuknya garis linear. Sehingga akan dilanjutkan kedalam regresi Linier.
Hipotesis dan Tingkat Signifikansi
\[ \begin{align} H_0:β.x_1 &=β.x_2=0\\ H_1:β.x_1 &≠β.x_2≠0\\ α &=0.05\\ \end{align} \]
Model Linear dan Summary
MLMotor<-lm(y_1 ~ x1 + x2, data = Motor)
summary(MLMotor)##
## Call:
## lm(formula = y_1 ~ x1 + x2, data = Motor)
##
## Residuals:
## Min 1Q Median 3Q Max
## -25.6601 -4.9011 0.2707 8.7483 19.3399
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 16.769 10.392 1.614 0.12744
## x1 9.720 3.196 3.041 0.00825 **
## x2 7.505 3.942 1.904 0.07629 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 13 on 15 degrees of freedom
## Multiple R-squared: 0.7803, Adjusted R-squared: 0.7511
## F-statistic: 26.64 on 2 and 15 DF, p-value: 1.156e-05
α = coef(MLMotor)[[1]]
α## [1] 16.7694
β1 = coef(MLMotor)[[2]]
β1## [1] 9.720363
β2 = coef(MLMotor)[[3]]
β2## [1] 7.504632
Maka dapat disimpulkan dari hasil diatas bahwa α=16.769, β1=9.720, dan β2=7.505. Sehingga Persamaan Regresinya adalah
\[ \begin{align} Y &=α+β_1X_1+β_2X_2\\ &=16.769+9.720X_1+7.505X_2\\ \\ \end{align} \]
Selain itu pada Output diatas, nila R Square (R2) adalah sebesar 0,78. Dimana ini bisa diartikan bahwa variabel Tenaga Sales (X1) dan Biaya Iklan (X2) menentukan besaran penjualan motor sebesar 78%, sedangkan 22% lainnya ditentukan oleh variabel lain di luar model (variabel-variabel lain selain X1 dan X2).
Konstanta atau intercept sebesar 16,769 ini artinya jika X1 dan X2 bernilai 0 (nol) atau perusahaan tidak menggunakan tenaga Sales dan juga tidak mengeluarkan Biaya iklan maka Y (penjualan rata-rata per bulan) sebanyak 16,769 unit motor dengan asumsi variabel diluar X1 dan X2 konstan atau tidak berubah (citeris paribus). atau Jika X1 dan X2 bernilai 0 (nol) maka estimasi penjualan (Y’) sebanyak 16,769.
Sedangkan, koefisien b1 sebesar 9,72 menunjukkan bahwa setiap penambahan 1 (satu) orang Sales (X1) maka akan memberikan kontribusi peningkatan jumlah penjualan rata-rata tiap bulan sebanyak 9,72 unit, dengan asumsi bahwa biaya iklan (X2) tetap/konstan serta variabel lain selain dalam model juga konstan (citeris paribus).
Koefisien b2 sebesar 7,50 menunjukkan bahwa setiap penambahan Rp. 1.000.000,- biaya iklan (X2) maka akan memberikan kontribusi peningkatan jumlah penjualan rata-rata tiap bulan sebanyak 7,5 unit, dengan asumsi bahwa jumlah Sales (X1) tetap/konstan, serta variabel lain selain dalam model juga konstan (citeris paribus).
Dari hasil didapatkan bahwa p−value≤α dimana α=0.05. Ini menandakan bahwa Berarti pada data Penjualan Motor per Bulan, terdapat hubungan yang signifikan antara Jumlah Sales dan Pengeluaran Iklan terhadap Penjualan Motor per Bulannya dengan tingkat kepercayaan 95%.
4. Sehubungan dengan soal No 3, buatlah model regresi linear sederhana yang terbaik dari semua kemungkinan variable (coba terapkan semua kemungkinan model, contohnya, kuardatik, log-log, dll sampai anda menemukan model terbaiknya)
Model Linear
Mod_Lin <- summary(MLMotor)
Mod_Lin##
## Call:
## lm(formula = y_1 ~ x1 + x2, data = Motor)
##
## Residuals:
## Min 1Q Median 3Q Max
## -25.6601 -4.9011 0.2707 8.7483 19.3399
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 16.769 10.392 1.614 0.12744
## x1 9.720 3.196 3.041 0.00825 **
## x2 7.505 3.942 1.904 0.07629 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 13 on 15 degrees of freedom
## Multiple R-squared: 0.7803, Adjusted R-squared: 0.7511
## F-statistic: 26.64 on 2 and 15 DF, p-value: 1.156e-05
summary(MLMotor)$r.squared ## [1] 0.7803406
Model Kuadratik
kuadratik <- lm(y_1~(x1+x2)^2, data=Motor)
Mod_Kuad<- summary(kuadratik)
Mod_Kuad##
## Call:
## lm(formula = y_1 ~ (x1 + x2)^2, data = Motor)
##
## Residuals:
## Min 1Q Median 3Q Max
## -25.7035 -4.9485 0.1781 8.7713 19.2965
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 15.87588 27.47127 0.578 0.573
## x1 9.91170 6.34367 1.562 0.140
## x2 7.87976 11.36983 0.693 0.500
## x1:x2 -0.07233 2.04631 -0.035 0.972
##
## Residual standard error: 13.46 on 14 degrees of freedom
## Multiple R-squared: 0.7804, Adjusted R-squared: 0.7333
## F-statistic: 16.58 on 3 and 14 DF, p-value: 6.963e-05
summary(kuadratik)$r.squared ## [1] 0.7803602
Model Polinomial
Polinomial <- lm(y_1~poly(x1,3)+x2, data=Motor)
Modelpolin <- summary(Polinomial)
Modelpolin##
## Call:
## lm(formula = y_1 ~ poly(x1, 3) + x2, data = Motor)
##
## Residuals:
## Min 1Q Median 3Q Max
## -25.732 -4.902 -0.404 9.143 19.268
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 64.5295 14.0227 4.602 0.000496 ***
## poly(x1, 3)1 62.9830 24.1183 2.611 0.021534 *
## poly(x1, 3)2 -1.6839 15.7568 -0.107 0.916526
## poly(x1, 3)3 -0.6785 14.6293 -0.046 0.963711
## x2 7.2216 4.9568 1.457 0.168868
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 13.96 on 13 degrees of freedom
## Multiple R-squared: 0.7806, Adjusted R-squared: 0.713
## F-statistic: 11.56 on 4 and 13 DF, p-value: 0.0003178
summary(Polinomial)$r.squared ## [1] 0.7805505
Model Log Linear
LogLinear <- lm(log(y_1)~x1+x2, data=Motor)
ModLogLin <- summary(LogLinear)
ModLogLin##
## Call:
## lm(formula = log(y_1) ~ x1 + x2, data = Motor)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.43228 -0.07294 0.00321 0.12467 0.29207
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.53875 0.16881 20.963 1.59e-12 ***
## x1 0.11438 0.05191 2.203 0.0436 *
## x2 0.10573 0.06403 1.651 0.1194
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2112 on 15 degrees of freedom
## Multiple R-squared: 0.6825, Adjusted R-squared: 0.6401
## F-statistic: 16.12 on 2 and 15 DF, p-value: 0.0001834
summary(LogLinear)$r.squared ## [1] 0.6824619
Model Linear Log
LinearLog <- lm(y_1~log(x1)+log(x2), data=Motor)
ModLinLog <- summary(LinearLog)
ModLinLog ##
## Call:
## lm(formula = y_1 ~ log(x1) + log(x2), data = Motor)
##
## Residuals:
## Min 1Q Median 3Q Max
## -28.898 -5.856 2.584 9.190 16.102
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -5.323 19.605 -0.272 0.7897
## log(x1) 48.569 17.535 2.770 0.0143 *
## log(x2) 17.154 11.283 1.520 0.1492
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 13.22 on 15 degrees of freedom
## Multiple R-squared: 0.7728, Adjusted R-squared: 0.7425
## F-statistic: 25.51 on 2 and 15 DF, p-value: 1.489e-05
summary(LinearLog)$r.squared ## [1] 0.7728202
Model Log-Log
LogLog <- lm(log(y_1)~log(x1)+log(x2), data=Motor)
ModLogLog <- summary(LogLog)
ModLogLog ##
## Call:
## lm(formula = log(y_1) ~ log(x1) + log(x2), data = Motor)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.43985 -0.05568 0.02003 0.13437 0.28110
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.3213 0.2987 11.118 1.22e-08 ***
## log(x1) 0.5198 0.2672 1.945 0.0707 .
## log(x2) 0.2953 0.1719 1.718 0.1064
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2015 on 15 degrees of freedom
## Multiple R-squared: 0.711, Adjusted R-squared: 0.6725
## F-statistic: 18.45 on 2 and 15 DF, p-value: 9.051e-05
summary(LogLog)$r.squared ## [1] 0.7110042
Ringkasan Rsquared
library(scales)
ring_r<- data.frame(
"r.ml" = Mod_Lin$r.squared,
"r.mk" = Mod_Kuad$r.squared,
"r.mp" = Modelpolin$r.squared,
"r.mloglin" = ModLogLin$r.squared,
"r.mlinlog" = ModLinLog$r.squared,
"r.mloglog" = ModLogLog$r.squared
)
datatable(ring_r)Dari ringkasan didapatkan bahwa Model terbaik adalah model yang memiliki R2 tertinggi. Pada kasus ini R2 tertinggi berada pada model polinomial yaitu sebesar 0.780550538838493. Maka dapat disimpulkan model terbaik adalah Model Polinomial.