Ekonometrik

Midterm

Kontak	: \(\downarrow\)
Email	clara.evania@student.matanauniversity.ac.id
Instagram	https://www.instagram.com/claraevania/
RPubs	https://rpubs.com/claradellaevania/

1. Apa perbedaan regressi Linear Sederhana dan Berganda, jelaskan dengan contoh!

Regresi Linear Sederhana

Regresi Linear Sederhana merupakan suatu analisis regresi dimana melibatkan 2 variabel yaitu 1 variabel dependen (y) dan 1 variabel independen (x). Variabel Dependen merupakan variabel yang dipengaruhi sedangkan variabel independent adalah variabel yang mempengaruhi. Analisis Regresi Sederhana bertujuan dalam mengetahui pengaruh dari suatu variabel terhadap variabel lainnya. Rumus Regresi Linear Sederhana :

\[ \begin{align} Y &= a+bX\\ \\ Dimana :\\ Y &= Variabel\space Dependen (Variabel \space Terikat)\\ X &= Variabel \space Independen (Variabel \space Bebas)\\ a &= Konstanta (nilai \space dari \space y \space apabila \space x \space bernilai \space 0)\\ b &= Koefisien \space Regresi \\ \end{align} \]

b menunjukkan angka peningkatan ataupun penurunan variabel dependen dimana didasarkan pada variabel independen. Jika b bernilai positif maka mengalami kenaikan, jika b bernilai negatif maka akan terjadi penurunan. harga b merupakan tangen dari (perbandingan) antara panjang garis variabel Independen dengan variabel dependen, setelah persamaan regresi ditemukan.Maka dirumuskan sebagai berikut :

\[ \begin{align} Harga\space b &= r\frac{S_y}{S_x}\\ \\ Dimana :\\ r &= Koefisien \space antara \space variabel \space x \space dan \space y\\ S_y &= Simpangan \space Baku \space Variabel \space y \\ S_x &= Simpangan \space Baku \space Variabel \space x\\ \end{align} \]

Contoh Analisis Regresi Linear Sederhana

Contoh Analisis Regresi Linear Sederhana yaitu misal Dalam suatu perusahaan ingin mengukur hubungan antara jam kerja dengan hasil pekerjaan dari para pekerja sebanyak 36 sampel pekerja. Sehingga dalam analisis data ini memiliki 1 variabel bebas dan 1 variabel terikat. Dimana Jam Kerja merupakan Variabel bebas, sedangkan hasil pekerjaan merupakan variabel terikat. Dimana nanti analisisnya akan dibahas pada soal nomor 2.

Analisis Regresi Linear Berganda

Regresi Linear Berganda merupakan suatu analisis yang melibatkan 2 atau lebih variabel independen dengan 1 variabel dependen. Dimana analisis ini bertujuan dalam mengetahui arah hubungan antara variabel - variabel independen dengan variabel dependen, apakah masing-masing variabel independen berhubungan positif atau negatif dan untuk memprediksi nilai dari variabel dependen apabila nilai variabel independen mengalami kenaikan atau penurunan. Data yang digunakan biasanya berskala interval atau rasio.Rumus dari analisis regresi linear berganda adalah sebagai berikut:

\[ \begin{align} Y &=α+β_1X_1+β_2X_2+...+β_nX_n+e\\ \\ Dimana :\\ Y &= Variabel\space Dependen(Terikat/Respon)\\ X &= Variabel \space Independen (Bebas/Prediktor)\\ α &= Konstanta \\ β &= Koefisien \space Regresi \\ e &= residual \end{align} \]

Contoh Analisis Linear Berganda

Pada contoh penerapan Analisis Regresi Linear Berganda adalah mencari Hubungan Jumlah Sales dan Pengeluaran Iklan terhadap Penjualan Motor Per Bulan. Sehingga pada data ini memiliki 2 variabel bebas dan 1 variabel terikat. Dimana Jumlah Sales merupakan Variabel bebas 1 dan Pengeluaran Iklan merupakan variabel bebas 2 sedangkan Penjualan Motor per Bulan merupakan variabel terikat. Analisis Linear Berganda ini nanti akan dibahas pada nomor 3.

2. Lakukan analisis regresi linear sederhana dalam ilmu ekonometrik!

Dalam suatu perusahaan ingin mengukur hubungan antara jam kerja dengan hasil pekerjaan dari para pekerja sebanyak 36 sampel pekerja.

Sehingga dalam soal ini akan membahas mengenai pengaruh jam kerja terhadap hasil kerja pada suatu perusahaan.

pacman::p_load(readxl,writexl)
JamHasil = read_excel("D:/DELLA/MATANA/TUGAS/SEMESTER 4/EKONOMETRIK/Rstudio/UTSEKONOMETRIK.xlsx",sheet = 1)

library(DT)
datatable(JamHasil)

x <- JamHasil$`Jam Kerja (X)`
y <- JamHasil$`Hasil Kerja (Y)`

plot(x, y,
     ylim=c(0,max(y)),
     xlim=c(0,max(x)),
     xlab="Jam Kerja",
     ylab="Hasil Kerja",
     type="p")

Dapat dilihat dalam scatter plot bahwa Jam Kerja dan Hasil Kerja saling berhubungan dimana artinya memiliki hubungan positif antara Jam Kerja dan Hasil Kerja.

Uji Asumsi

Dalam melakukan suatu hipotesis, terdapat beberapa asumsi yang perlu diperhatikan. Untuk itu, sebelum langkah lebih lanjut, kita perlu memastikan apakah asumsi-asumsi yang ada telah terpenuhi. Dimana asumsi-asumsi yang harus terpenuhi adalah sebagai berikut:

Independensi Pengamatan

Pada data ini Tidak terdapat hubungan tersembunti diantara variabel karena hanya memiliki satu variabel independent.

Normalitas

Normalitas digunakan untuk memeriksa apakah variabel dependen atau variabel terikatnya mengikuti distribusi normal. Kita dapat menggunakan fungsi hist().

avg <- mean(JamHasil$`Hasil Kerja (Y)`)
stdev <- sd(JamHasil$`Hasil Kerja (Y)`)
hist(JamHasil$`Hasil Kerja (Y)`, xlab = "Hasil Kerja ", main="Histogram pada Jam Kerja", freq = FALSE)
curve(dnorm(x, avg, stdev), add = TRUE, col=2)

###Linearitas

Hubungan antara variabel bebas dan variabel terikat harus linier, lalu dapat menguji secara visual dengan plot pencar dalam melihat apakah distribusi titik data dapat digambarkan dengan garis lurus. Linearitas dilakukan untuk mengetahui apakah data observasi bersifat linear. Jika tidak memenuhi maka tidak dapat menggunakan regresi linier, tetapi harus menggunakan metode lainnya.

library("gridExtra")
library("ggplot2")
linearitasgg <- ggplot(JamHasil)+
  geom_point(aes(x = x,
                 y = y),
             shape = 1)+
  geom_smooth(aes(x = x,
                  y = y),
              method = "lm",
              formula = "y~x",
              color = "red")
linearitasgg

Maka berdasarkan plot tersebut, dapat diamati bahwa hubungan antara variabel bebas dan variabel terikat linier.

Hipotesis beserta Tingkat Signifikan

\[ \begin{align} H_0 : a &= b \\ H_1 : a &≠ b \\ α&=0.05 \end{align} \]

Model Linear dan Summary

Pada analisis regresi untuk melihat summary dari model linier regresi sederhana dapat menggunakan lm() dan summary()

jh_1 <- lm(y~x, data=JamHasil)
sumlin <- summary(jh_1)
sumlin

## 
## Call:
## lm(formula = y ~ x, data = JamHasil)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -161.808  -73.122    4.608   59.913  232.384 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  111.360     34.898   3.191  0.00305 ** 
## x             17.756      1.075  16.522  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 94.74 on 34 degrees of freedom
## Multiple R-squared:  0.8892, Adjusted R-squared:  0.886 
## F-statistic:   273 on 1 and 34 DF,  p-value: < 2.2e-16

a = coef(jh_1)[[1]]
a

## [1] 111.3595

b = coef(jh_1)[[2]]
b

## [1] 17.75641

Maka dapat dilihat dari hasil summary diatas bahwa a = 111.360 , b = 17.756. Maka Estimasi dari y adalah :

\[ \begin{align} Y &= a+bX\\ Y &= 111.360+17.756X\\ \end{align} \]

Selanjutnya kita mencari p-valuenya menggunakan

sumlin$r.squared

## [1] 0.8892459

Artinya nilai koefisien determinasi adalah sebesar 0,8892 Artinya 88,92% variasi dari hasil kerja ditentukan oleh jam kerja, dan sisanya yaitu 11,08% hasil kerja ditentukan oleh faktor lain selain jam kerja.

3. Carilah contoh penerapan analisis regresi linear berganda dalam ilmu ekonometrik! (Persentasikan temuan anda)

Pada contoh penerapan Analisis Regresi Linear Berganda adalah mencari Hubungan Jumlah Sales dan Pengeluaran Iklan terhadap Penjualan Motor Per Bulan. Dimana data-data yang sudah dikumpulkan adalah :

pacman::p_load(readxl,writexl)
Motor = read_excel("D:/DELLA/MATANA/TUGAS/SEMESTER 4/EKONOMETRIK/Rstudio/UTSEKONOMETRIK.xlsx",sheet = 3)


library(DT)
datatable(Motor)

Uji Asumsi

Independensi Pengamatan

Pada data ini ataupun kasus ini variabel Independennya lebih dari satu yaitu 2, maka harus memeriksanya apakah ada korelasi antar variabel.Jika korelasi mendekati 1 maka terdapat hubungan timpal balik positif. Jika mendekati 0, maka tidak ada korelasi. Dan jika mendekati -1 maka terdapat hubungan timpal balik negatif. Maka menggunakan fungsi cor() dalam menguji hubungan antara variabel independennya dan memastikan tidak terlalu berkolerasi.

x1 = Motor$`Jumlah Sales (X1)`
x2 = Motor$`Pengeluaran Iklan (X2)`
y_1= Motor$`Penjualan Per Bulan (Y)`

cor(x1,x2)

## [1] 0.768934

Dari hasil tersebut, maka korelasi antar variabel independent mendekati 1, sehingga terdapat hubungan timpal balik positif. Jadi jika nilai x mengalami peningkatan maka nilai Y juga akan meningkat.

Normalitas

Pada Uji Normalitas dilakukan untuk melihat pada variabel dependen yang terdapat pada data apakah merupakan distribusi normal yang sesuai dengan kurva lonceng atau tidak. Maka untuk mencari itu dapat menggunakan hist

avg_2 <- mean(y_1)
stdev_2 <- sd(y_1)
hist(y_1, xlab = "Penjualan per Bulan", main="", freq=FALSE)
curve(dnorm(x, avg_2, stdev_2), add = TRUE, col="blue")

Grafik diatas berbentuk lonceng dan tidak condong ke kiri atau condong ke kanan sehingga data dengan pola seperti di atas ini berdistribusi normal

Linearitas

Pada uji Linearitas ini dipakai dalam melihat hubungan antara variabel independent dan variabel dependent dimana harus linear. Lalu dapat menguji secara visual dengan plot pencar dalam melihat apakah distribusi titik data dapat digambarkan dengan garis lurus.

linearitas_2 <- ggplot(Motor)+
  geom_point(aes(x = x1,
                 y = y_1),
             shape = 1)+
  geom_smooth(aes(x = x1,
                  y = y_1),
              method = "lm",
              formula = "y~x",
              color = "green")

linearitas_3 <- ggplot(Motor)+
  geom_point(aes(x = x2,
                 y = y_1),
             shape = 1)+
  geom_smooth(aes(x = x2,
                  y = y_1),
              method = "lm",
              formula = "y~x",
              color = "Green")

grid.arrange(linearitas_2 , linearitas_3, nrow = 1, ncol =2)

Pada Plot diatas, dapat disimpulkan bahwa hubungan antara Jumlah Sales dan Penjualan Per Bulan serta Pengeluaran Iklan dan Penjualan Per Bulan bentuknya garis linear. Sehingga akan dilanjutkan kedalam regresi Linier.

Hipotesis dan Tingkat Signifikansi

\[ \begin{align} H_0:β.x_1 &=β.x_2=0\\ H_1:β.x_1 &≠β.x_2≠0\\ α &=0.05\\ \end{align} \]

Model Linear dan Summary

MLMotor<-lm(y_1 ~ x1 + x2, data = Motor)
summary(MLMotor)

## 
## Call:
## lm(formula = y_1 ~ x1 + x2, data = Motor)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -25.6601  -4.9011   0.2707   8.7483  19.3399 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)   16.769     10.392   1.614  0.12744   
## x1             9.720      3.196   3.041  0.00825 **
## x2             7.505      3.942   1.904  0.07629 . 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 13 on 15 degrees of freedom
## Multiple R-squared:  0.7803, Adjusted R-squared:  0.7511 
## F-statistic: 26.64 on 2 and 15 DF,  p-value: 1.156e-05

α = coef(MLMotor)[[1]]
α

## [1] 16.7694

β1 = coef(MLMotor)[[2]]
β1

## [1] 9.720363

β2 = coef(MLMotor)[[3]]
β2

## [1] 7.504632

Maka dapat disimpulkan dari hasil diatas bahwa α=16.769, β1=9.720, dan β2=7.505. Sehingga Persamaan Regresinya adalah

\[ \begin{align} Y &=α+β_1X_1+β_2X_2\\ &=16.769+9.720X_1+7.505X_2\\ \\ \end{align} \]

Selain itu pada Output diatas, nila R Square (R2) adalah sebesar 0,78. Dimana ini bisa diartikan bahwa variabel Tenaga Sales (X1) dan Biaya Iklan (X2) menentukan besaran penjualan motor sebesar 78%, sedangkan 22% lainnya ditentukan oleh variabel lain di luar model (variabel-variabel lain selain X1 dan X2).

Konstanta atau intercept sebesar 16,769 ini artinya jika X1 dan X2 bernilai 0 (nol) atau perusahaan tidak menggunakan tenaga Sales dan juga tidak mengeluarkan Biaya iklan maka Y (penjualan rata-rata per bulan) sebanyak 16,769 unit motor dengan asumsi variabel diluar X1 dan X2 konstan atau tidak berubah (citeris paribus). atau Jika X1 dan X2 bernilai 0 (nol) maka estimasi penjualan (Y’) sebanyak 16,769.

Sedangkan, koefisien b1 sebesar 9,72 menunjukkan bahwa setiap penambahan 1 (satu) orang Sales (X1) maka akan memberikan kontribusi peningkatan jumlah penjualan rata-rata tiap bulan sebanyak 9,72 unit, dengan asumsi bahwa biaya iklan (X2) tetap/konstan serta variabel lain selain dalam model juga konstan (citeris paribus).

Koefisien b2 sebesar 7,50 menunjukkan bahwa setiap penambahan Rp. 1.000.000,- biaya iklan (X2) maka akan memberikan kontribusi peningkatan jumlah penjualan rata-rata tiap bulan sebanyak 7,5 unit, dengan asumsi bahwa jumlah Sales (X1) tetap/konstan, serta variabel lain selain dalam model juga konstan (citeris paribus).

Dari hasil didapatkan bahwa p−value≤α dimana α=0.05. Ini menandakan bahwa Berarti pada data Penjualan Motor per Bulan, terdapat hubungan yang signifikan antara Jumlah Sales dan Pengeluaran Iklan terhadap Penjualan Motor per Bulannya dengan tingkat kepercayaan 95%.

4. Sehubungan dengan soal No 3, buatlah model regresi linear sederhana yang terbaik dari semua kemungkinan variable (coba terapkan semua kemungkinan model, contohnya, kuardatik, log-log, dll sampai anda menemukan model terbaiknya)

Model Linear

Mod_Lin <- summary(MLMotor)
Mod_Lin

## 
## Call:
## lm(formula = y_1 ~ x1 + x2, data = Motor)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -25.6601  -4.9011   0.2707   8.7483  19.3399 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)   16.769     10.392   1.614  0.12744   
## x1             9.720      3.196   3.041  0.00825 **
## x2             7.505      3.942   1.904  0.07629 . 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 13 on 15 degrees of freedom
## Multiple R-squared:  0.7803, Adjusted R-squared:  0.7511 
## F-statistic: 26.64 on 2 and 15 DF,  p-value: 1.156e-05

summary(MLMotor)$r.squared

## [1] 0.7803406

Model Kuadratik

kuadratik <- lm(y_1~(x1+x2)^2, data=Motor)
Mod_Kuad<- summary(kuadratik)
Mod_Kuad

## 
## Call:
## lm(formula = y_1 ~ (x1 + x2)^2, data = Motor)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -25.7035  -4.9485   0.1781   8.7713  19.2965 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept) 15.87588   27.47127   0.578    0.573
## x1           9.91170    6.34367   1.562    0.140
## x2           7.87976   11.36983   0.693    0.500
## x1:x2       -0.07233    2.04631  -0.035    0.972
## 
## Residual standard error: 13.46 on 14 degrees of freedom
## Multiple R-squared:  0.7804, Adjusted R-squared:  0.7333 
## F-statistic: 16.58 on 3 and 14 DF,  p-value: 6.963e-05

summary(kuadratik)$r.squared

## [1] 0.7803602

Model Polinomial

Polinomial <- lm(y_1~poly(x1,3)+x2, data=Motor)
Modelpolin <- summary(Polinomial)
Modelpolin

## 
## Call:
## lm(formula = y_1 ~ poly(x1, 3) + x2, data = Motor)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -25.732  -4.902  -0.404   9.143  19.268 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   64.5295    14.0227   4.602 0.000496 ***
## poly(x1, 3)1  62.9830    24.1183   2.611 0.021534 *  
## poly(x1, 3)2  -1.6839    15.7568  -0.107 0.916526    
## poly(x1, 3)3  -0.6785    14.6293  -0.046 0.963711    
## x2             7.2216     4.9568   1.457 0.168868    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 13.96 on 13 degrees of freedom
## Multiple R-squared:  0.7806, Adjusted R-squared:  0.713 
## F-statistic: 11.56 on 4 and 13 DF,  p-value: 0.0003178

summary(Polinomial)$r.squared

## [1] 0.7805505

Model Log Linear

LogLinear <- lm(log(y_1)~x1+x2, data=Motor)
ModLogLin <- summary(LogLinear)
ModLogLin

## 
## Call:
## lm(formula = log(y_1) ~ x1 + x2, data = Motor)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.43228 -0.07294  0.00321  0.12467  0.29207 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  3.53875    0.16881  20.963 1.59e-12 ***
## x1           0.11438    0.05191   2.203   0.0436 *  
## x2           0.10573    0.06403   1.651   0.1194    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2112 on 15 degrees of freedom
## Multiple R-squared:  0.6825, Adjusted R-squared:  0.6401 
## F-statistic: 16.12 on 2 and 15 DF,  p-value: 0.0001834

summary(LogLinear)$r.squared

## [1] 0.6824619

Model Linear Log

LinearLog <- lm(y_1~log(x1)+log(x2), data=Motor)
ModLinLog <- summary(LinearLog)
ModLinLog

## 
## Call:
## lm(formula = y_1 ~ log(x1) + log(x2), data = Motor)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -28.898  -5.856   2.584   9.190  16.102 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept)   -5.323     19.605  -0.272   0.7897  
## log(x1)       48.569     17.535   2.770   0.0143 *
## log(x2)       17.154     11.283   1.520   0.1492  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 13.22 on 15 degrees of freedom
## Multiple R-squared:  0.7728, Adjusted R-squared:  0.7425 
## F-statistic: 25.51 on 2 and 15 DF,  p-value: 1.489e-05

summary(LinearLog)$r.squared

## [1] 0.7728202

Model Log-Log

LogLog <- lm(log(y_1)~log(x1)+log(x2), data=Motor)
ModLogLog <- summary(LogLog)
ModLogLog

## 
## Call:
## lm(formula = log(y_1) ~ log(x1) + log(x2), data = Motor)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.43985 -0.05568  0.02003  0.13437  0.28110 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   3.3213     0.2987  11.118 1.22e-08 ***
## log(x1)       0.5198     0.2672   1.945   0.0707 .  
## log(x2)       0.2953     0.1719   1.718   0.1064    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2015 on 15 degrees of freedom
## Multiple R-squared:  0.711,  Adjusted R-squared:  0.6725 
## F-statistic: 18.45 on 2 and 15 DF,  p-value: 9.051e-05

summary(LogLog)$r.squared

## [1] 0.7110042

Ringkasan Rsquared

library(scales)
ring_r<- data.frame(
                   "r.ml" = Mod_Lin$r.squared,
                   "r.mk"     = Mod_Kuad$r.squared,
                   "r.mp"     = Modelpolin$r.squared,
                   "r.mloglin"  = ModLogLin$r.squared,
                   "r.mlinlog"  = ModLinLog$r.squared,
                   "r.mloglog"  = ModLogLog$r.squared
                   )
datatable(ring_r)

Dari ringkasan didapatkan bahwa Model terbaik adalah model yang memiliki R2 tertinggi. Pada kasus ini R2 tertinggi berada pada model polinomial yaitu sebesar 0.780550538838493. Maka dapat disimpulkan model terbaik adalah Model Polinomial.