Nama :
1. Della Novita Sari (M0722030)
2. Nabila Triana (M0722054)
3. Novita Eka Permatasari (M0722060)
4. Ratu Buana Gemilang (M0722064)

1 Library

       Untuk menggunakan beberapa fungsi dan alat yang diperlukan guna analisis data dengan efisien dan efektif, maka kita perlu mempersiapkan beberapa package terlebih dahulu. Berikut beberapa package yang digunakan dalam analisis ini.

library(readxl)
library(dplyr)
library(knitr)
library(psych)
library(DT)
library(lmtest)
library(zoo)
library(car)
library(ggplot2)
library(yaml)

2 Landasan Teori

2.1 Analisis Regresi

       Regresi adalah metode statisik yang digunakan untuk memperkirakan hubungan antara variabel respon (Y) dengan satu atau lebih variabel prediktor (X). Variabel respon merupakan variabel yang dipengaruhi atau yang menjadi akibat karena adanya variabel prediktor. Sedangkan variabel prediktor adalah variabel-variabel yang mempengaruhi atau yang menjadi sebab perubahannya variabel respon.
       Pada umumnya, model regresi linear digunakan sebagai alat untuk mengaitkan keterkaitan antara variabel respon dan prediktor. Metode ini juga dapat digunakan untuk menilai kekuatan hubungan antar variabel untuk prediksi masa depan. Analisis regresi mencakup beberapa jenis, yaitu linear sederhana, linear berganda, dan polinomial. Model yang paling umum adalah linear sederhana dan linear berganda. Analisis regresi dapat diaplikasikan dalam berbagai bidang, seperti pertanian, ekonomi, keuangan, industri, ilmu lingkungan, dan sebagainya. Perhitungan dalam uji regresi melibatkan berbagai aspek statistika, termasuk uji signifikansi seperti uji-t dan uji-F, analisis varians (ANOVA), serta pembentukan hipotesis. Output dari analisis regresi berupa suatu persamaan regresi, yang berfungsi sebagai alat prediksi untuk variabel yang memengaruhi variabel lain. Berikut adalah beberapa macam regresi.

2.1.1 Analisis Regresi Sederhana

       Persamaan regresi linear sederhana merupakan suatu model persamaan yang menggambarkan hubungan satu variabel prediktor (X) dengan satu variabel (Y), yang biasanya digambarkan dengan garis lurus. Persamaan regresi linear sederhana secara matematik dieskpresikan dengan sebagai berikut.
\[\hat{Y} = \beta_0+\beta_1x_1+e\]
Di mana
\(\hat{Y}\) : Variabel respon
\(x_1\) : Variabel prediktor
\(\beta_0\) : Konstanta
\(\beta_1\) : Koefisien regresi
\(e\) : Error

2.1.2 Analisis Regresi Berganda

       Analisis regresi berganda adalah suatu metode untuk meramalkan nilai pengaruh dua variabel prediktor atau lebih terhadap satu variabel respon. Tujuannya untuk membuktikan ada tidaknya hubungan antara dua atau lebih variabel prediktor \(X_1,X_2,...,X_n\) terhadap satu variabel respon Y. Persamaannya adalah sebagai berikut.
\[\hat{Y} = \beta_0+\beta_1x_1+\beta_2x_2+...+\beta_nx_n+e\]
Di mana
\(\hat{Y}\) : Variabel respon
\(x_1,x_2,x_n\) : Variabel prediktor
\(\beta_0\) : Konstanta
\(\beta_1,\beta_2,\beta_n\) : Koefisien regresi
\(e\) : Error

2.1.3 Analisis Regresi Polinomial

       Regresi polinomial merupakan regresi linear berganda yang dibentuk dengan menjumlahkan pengaruh variabel prediktor X yang dipangkatkan secara meningkat sampai orde ke-k. Pada model regresi polinomial, setiap pangkat atau orde variabel prediktor X merupakan transformasi variabel awal dan dipandang sebuah variabel prediktor baru dalam linear berganda. Secara umum, model regresi polinomial dapat ditulis dalam persamaan berikut. \[\hat{Y} = \beta_0+\beta_1x_1+\beta_2x^2+...+\beta^nx^n+e\]
Di mana
\(\hat{Y}\) : Variabel respon
\(\beta_0\) : Konstanta
\(\beta_1,\beta_2,\beta_n\) : Koefisien regresi
\(e\) : Error

2.2 Uji Signifikansi

2.2.1 Uji Signifikansi Simultan (Uji F)

       Uji-F memiliki tujuan untuk menentukan apakah variabel prediktor memiliki pengaruh secara bersama-sama terhadap variabel respon. Melalui uji-F, evaluasi dilakukan terhadap dampak dari semua variabel bebas secara simultan terhadap variabel terikat. Tingkat signifikansi yang umum digunakan adalah 0,05 atau 5%. Jika nilai signifikansi F<0,05, dapat disimpulkan bahwa variabel prediktor secara keseluruhan memengaruhi variabel respon, dan sebaliknya. Uji-F juga dikenal dengan sebutan uji serentak, uji model, atau uji anova.

  1. Uji Hipotesis
    \(H_0\) : \(\beta_0=\beta_1=...=\beta_j=0\) (Model tidak layak digunakan)
    \(H_1\) : \(\beta_j\neq0\) untuk setidaknya satu j (Model layak digunakan)

  2. Taraf Signifikansi
    \(\alpha=0,05\)

  3. Daerah Penolakan
    \(H_0\) ditolak jika \(F>F{(\alpha;n-k;k-1)}\) atau \(p_{value}<\alpha\)

  4. Statistik Uji

  5. Kesimpulan
    Pada uji ini, diharapkan \(H_0\) ditolak berarti model layak digunakan sehingga bisa dilanjutkan ke perhitungan selanjutnya.

2.2.2 Uji Signifikansi Parsial (Uji-t)

       Uji T bertujuan untuk melihat sejauh mana pengaruh secara parsial dari variabel prediktor terhadap variabel respon.

  1. Uji Hipotesis
    \(H_0\) : \(\beta_0=\beta_1=...=\beta_j=0\) (Variabel prediktor ke-\(_i\)) tidak berpengaruh signifikan terhadap variabel respon)
    \(H_1\) : \(\beta_j\neq0\) untuk setidaknya satu j (Setidaknya terdapat variabel prediktor ke-i tidak berpengaruh signifikan terhadap variabel respon)

  2. Taraf Signifikansi
    \(\alpha=0,05\)

  3. Daerah Penolakan
    \(H_0\) ditolak jika \(t>t{(\frac{1}{2}\;\alpha;n-1)}\) atau \(p_{value}<\alpha\)

  4. Statistik Uji

  5. Kesimpulan
    Jika \(p_{value}>\alpha\), \(H_0\) ditolak berarti variabel prediktor ke-i tidak berpengaruh signifikan terhadap variabel respon. Sedangkan, \(p_{value}<\alpha\), \(H_0\) tidak ditolak berarti variabel prediktor ke-i berpengaruh signifikan terhadap variabel respon.

2.3 Uji Asumsi Klasik

2.3.1 Uji Normalitas Residu

  1. Uji Hipotesis
    \(H_0\) : Data residual berdistribusi normal
    \(H_1\) : Data residual tidak berdistribusi normal

  2. Taraf Signifikansi
    \(\alpha=0,05\)

  3. Daerah Penolakan
    \(H_0\) ditolak jika \(p_{value}<\alpha\)

  4. Statistik Uji

  5. Kesimpulan
    Pada uji ini, diharapkan \(H_0\) tidak ditolak yang berarti data residual berdistribusi normal di mana memenuhi uji asumsi sehingga bisa dilanjutkan ke perhitungan uji asumsi selanjutnya.

2.3.2 Uji Non-Multikolinearitas

  1. Hipotesis
    \(H_0\): Tidak terjadi gejala multikolinearitas
    \(H_1\): Terjadi gejala multikolinearitas

  2. Taraf Signifikansi
    \(\alpha=0,05\)

  3. Daerah Kritis
    \(H_0\) ditolak jika nilai VIF > 10

  4. Statistik Uji

  5. Kesimpulan
    Pada Uji ini jika nilai VIF < 10 atau P-value > 0,05, maka dinyatakan tidak terjadi multikolinearitas.
    Jika nilai VIF > 10 atau P-value < 0,05, maka dinyatakan terjadi multikolinearitas.

2.3.3 Uji Non-Autokorelasi

  1. Uji Hipotesis
    \(H_0\) : Tidak terdapat autokorelasi \(H_1\) : Terdapat autokorelasi

  2. Taraf Signifikansi
    \(\alpha=0,05\)

  3. Daerah Penolakan
    \(H_0\) ditolak jika \(p_{value}<\alpha\)

  4. Statistik Uji

  5. Kesimpulan
    Pada uji ini, diharapkan \(H_0\) tidak ditolak yang berarti tidak terdapat autokorelasi.

2.3.4 Uji Homokedastisitas

  1. Hipotesis
    \(H_0\): Variansi sisaan bersifat homogen
    \(H_1\): Variansi sisaan bersifat tidak homogen

  2. Taraf Signifikansi
    \(\alpha=0,05\)

  3. Daerah Kritis
    \(H_0\) ditolak jika nilai \(p_{value}<\alpha\)

  4. Statistik Uji

  5. Kesimpulan
    Pada uji ini, diharapkan \(H_0\) tidak ditolak yang berarti variansi sisaan bersifat homogen.

3 Data

3.1 Sumber Data

data <- read_excel("D:/data_SIM.xlsx")
datatable(
  data,
  options = list(pageLength = 10),
  rownames = FALSE,
  colnames = c("Y", "X1", "X2"),
  class = 'display',
  )

Keterangan :
Y = Performance Index (Persen)
X1 = Hours Studied
X2 = Previous Score

       Penelitian Pengaruh Hours Studied dan Previous Score terhadap Performance Index menggunakan data sekunder yang bersumber dari laman kaggle berjumlah 40 data (Link Kaggle).

3.2 Statistik Deskriptif

       Statistik deskriptif adalah metode yang digunakan untuk mendeskripsikan, merangkum, dan menginterpretasikan kumpulan data yang dimana mencakup berbagai teknik yang membantu dalam memahami karakteristik dan distribusi data melalui ukuran-ukuran seperti mean, median, Q1, Q3, nilai minimum, dan nilai maksimum.

summary(data)
##        Y               X1             X2       
##  Min.   :27.00   Min.   :1.00   Min.   :44.00  
##  1st Qu.:42.75   1st Qu.:3.00   1st Qu.:60.50  
##  Median :63.00   Median :5.00   Median :73.50  
##  Mean   :58.60   Mean   :5.40   Mean   :72.25  
##  3rd Qu.:70.25   3rd Qu.:7.25   3rd Qu.:83.25  
##  Max.   :91.00   Max.   :9.00   Max.   :99.00

       Melalui statistik deskriptif diatas, didapatkan nilai minimum, kuartil bawah, median, mean, kuartil atas, dan nilai maksimum dari keempat variabel. Pada variabel Y (Performance Index), didapatkan nilai minimum 27.00 persen, kuartil bawah 42.75 persen, median 63.00 persen, kuartil atas 70.25 persen, dan nilai maksimum 91.00 persen. Begitu hingga variabel X1 (Hours Studied) dan X2 (Previous Score)

4 Eksplorasi Data

       Eksplorasi data dalam penelitian ini dimulai dengan scatterplot untuk menentukan potensi model tanlinear. Scatterplot dilakukan dengan memvisualisasikan hubungan antara variabel respon dan prediktor. Berikut merupakan scatterplot untuk setiap variabel prediktor \(X_1\) dan \(X_2\) terhadap variabel respon \(Y\).

4.1 Scatterplot \(Y\) vs \(X_1\)

ggplot(data, aes(x=X1, y=Y)) +
  geom_point(color="navy", size=3) +
  geom_smooth(method="lm", formula="y~x", color="red", fill="lightgrey", alpha=0.5) +
  labs(x="X1", y="Y", title="Scaterplot Y vs X1")

Pada scatterplot tersebut terlihat bahwa terdapat pola linear positif yang di mana pola naik dari kiri bawah ke kanan atas. Maka, menunjukkan bahwa ada hubungan positif antara Hours Studied (\(X_1\)) dan Performance Index (\(Y\)) yang berarti ketika Hours Studied (\(X_1\)) meningkat, Performance Index (\(Y\)) juga cenderung meningkat.

4.2 Scatterplot \(Y\) vs \(X_2\)

ggplot(data, aes(x=X2, y=Y)) +
  geom_point(color="navy", size=3) +
  geom_smooth(method="lm", formula="y~x", color="red", fill="lightgrey", alpha=0.5) +
  labs(x="X2", y="Y", title="Scaterplot Y vs X2")

Pada scatterplot tersebut terlihat bahwa terdapat pola linear positif yang di mana pola naik dari kiri bawah ke kanan atas. Maka, menunjukkan bahwa ada hubungan positif antara Previous Score (\(X_2\)) dan Performance Index (\(Y\)) yang berarti ketika Previous Score (\(X_2\)) meningkat, Performance Index (\(Y\)) juga cenderung meningkat.

5 Analisis Data

5.1 Model Regresi

mkt <- lm(Y ~., data=data)
print(summary(mkt))
## 
## Call:
## lm(formula = Y ~ ., data = data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -4.928 -1.325 -0.140  1.354  4.834 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -31.32911    1.97648  -15.85   <2e-16 ***
## X1            3.06425    0.14877   20.60   <2e-16 ***
## X2            1.01567    0.02287   44.41   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.267 on 37 degrees of freedom
## Multiple R-squared:  0.9832, Adjusted R-squared:  0.9823 
## F-statistic:  1085 on 2 and 37 DF,  p-value: < 2.2e-16

Berikut model regresi berganda yang telah didapatkan dari ouput R tersebut.
\[\hat{Y} = -31,32911+3,06425X_1+1,101567X_2\]
Adapun interpretasinya sebagai berikut.

  1. Nilai konstanta bernilai negatif, yaitu -31,32911; artinya apabila variabel Hours Studied (\(X_1\)) dan variabel Previous Score (\(X_2\)) sama dengan nol, maka variabel Performance Index mengalami penurunan.

  2. Nilai koefisien variabel Hours Studied (\(X_1\)) bernilai positif, artinya Hours Studied (\(X_1\)) berpengaruh positif terhadap Performance Index (\(Y\)). Di mana setiap bertambahnya satu satuan Hours Studied (\(X_1\)), maka Performance Index (\(Y\)) akan bertambah sebesar 3,06425 persen.

  3. Nilai koefisien variabel Previous Score (\(X_2\)) bernilai positif, artinya nilai sebelumnya (\(X_2\)) berpengaruh positif terhadap Performance Index (\(Y\)). Di mana setiap meningkatnya satu satuan Previous Score (\(X_2\)), maka Performance Index (\(Y\)) akan bertambah sebesar 1,101567 persen.

  4. Model regresi tersebut menghasilkan nilai R-Squared (adjusted) sebesar 0,9823 atau 98,23% yang berarti sebesar 98,23% dari Performance Index (\(Y\)) dapat dijelaskan oleh Hours Studied (\(X_1\)) dan Previous Score (\(X_2\)). Sementara, sisanya sebesar 1,77% tidak dapat dijelaskan oleh model regresi.

5.2 Uji Signifikansi Simultan (Uji F)

  1. Uji Hipotesis
    \(H_0\) : \(\beta_0=\beta_1=\beta_2=0\) (Model tidak layak digunakan)
    \(H_1\) : \(\beta_j\neq0\) untuk setidaknya satu j (Model layak digunakan)

  2. Taraf Signifikansi
    \(\alpha=0,05\)

  3. Daerah Penolakan
    \(H_0\) ditolak jika \(p_{value}<\alpha=0,05\)

  4. Statistik Uji

summary(mkt)
## 
## Call:
## lm(formula = Y ~ ., data = data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -4.928 -1.325 -0.140  1.354  4.834 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -31.32911    1.97648  -15.85   <2e-16 ***
## X1            3.06425    0.14877   20.60   <2e-16 ***
## X2            1.01567    0.02287   44.41   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.267 on 37 degrees of freedom
## Multiple R-squared:  0.9832, Adjusted R-squared:  0.9823 
## F-statistic:  1085 on 2 and 37 DF,  p-value: < 2.2e-16

Berdasarkan output, \(p_{value}<2,2e-16\).

  1. Kesimpulan
    Karena \(p_{value}<2,2e-16<0,05\), maka \(H_0\) yang berarti Model layak digunakan.

5.3 Uji Signifikansi Parsial (Uji-t)

  1. Uji Hipotesis
    \(H_0\) : \(\beta_0=\beta_1=...=\beta_j=0\) (Variabel prediktor ke-\(_i\)) tidak berpengaruh signifikan terhadap variabel respon)
    \(H_1\) : \(\beta_j\neq0\) untuk setidaknya satu j (Setidaknya terdapat variabel prediktor ke-i tidak berpengaruh signifikan terhadap variabel respon)

  2. Taraf Signifikansi
    \(\alpha=0,05\)

  3. Daerah Penolakan
    \(H_0\) ditolak jika \(p_{value}<\alpha\)

  4. Statistik Uji

summary(mkt)
## 
## Call:
## lm(formula = Y ~ ., data = data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -4.928 -1.325 -0.140  1.354  4.834 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -31.32911    1.97648  -15.85   <2e-16 ***
## X1            3.06425    0.14877   20.60   <2e-16 ***
## X2            1.01567    0.02287   44.41   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.267 on 37 degrees of freedom
## Multiple R-squared:  0.9832, Adjusted R-squared:  0.9823 
## F-statistic:  1085 on 2 and 37 DF,  p-value: < 2.2e-16
  1. Kesimpulan
  • Untuk konstanta, karena \(p_{value}=2e-16<\alpha\), maka berarti \(H_0\) ditolak yang berarti konstanta berpengaruh signifikan terhadap variabel dependen Performance Index (\(Y\)).

  • Untuk variabel Hours Studied (\(X_1\)), didapatkan \(p_{value}=2e-16<\alpha\), maka berarti \(H_0\) ditolak yang artinya variabel Hours Studied (\(X_1\)) berpengaruh signifikan terhadap variable dependen Performance Index (\(Y\)).

  • Untuk variabel Previous Score (\(X_2\)), didapatkan \(p_{value}=2e-16<\alpha\), maka berarti \(H_0\) ditolak yang artinya variabel variabel Previous Score (\(X_2\)) berpengaruh signifikan terhadap variable dependen Performance Index (\(Y\)).

5.4 Uji Normalitas Residu

  1. Uji Hipotesis
    \(H_0\) : Data residual berdistribusi normal
    \(H_1\) : Data residual tidak berdistribusi normal

  2. Taraf Signifikansi
    \(\alpha=0,05\)

  3. Daerah Penolakan
    \(H_0\) ditolak jika \(p_{value}<\alpha\)

  4. Statistik Uji

shapiro.test(mkt$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  mkt$residuals
## W = 0.97478, p-value = 0.5027
  1. Kesimpulan
    Karena \(p_{value}=0,5027>0,05\), maka \(H_0\) tidak ditolak yang berarti bahwa data residual berdistribusi normal.

5.5 Uji Non-Multikolinearitas

  1. Hipotesis
    \(H_0\): Tidak terjadi gejala multikolinearitas
    \(H_1\): Terjadi gejala multikolinearitas

  2. Taraf Signifikansi
    \(\alpha=0,05\)

  3. Daerah Kritis
    \(H_0\) ditolak jika nilai VIF > 10

  4. Statistik Uji

vif(mkt)
##       X1       X2 
## 1.023461 1.023461
  1. Kesimpulan
    Karena semua variabel X1 dan X2 nilai VIF < 10, yaitu 1,02 < 10, dan 1,02 < 10, maka dapat disimpulkan bahwa H0 tidak ditolak. Artinya, tidak terjadi gejala multikolinearitas antarvariabel.

5.6 Uji Non-Autokorelasi

  1. Hipotesis
    \(H_0\) : Tidak terdapat autokorelasi
    \(H_1\) : Terdapat autokorelasi

  2. Taraf Signifikansi
    \(\alpha=0,05\)

  3. Daerah Penolakan
    \(H_0\) ditolak jika \(p_{value}<\alpha\)

  4. Statistik Uji

dwtest(mkt)
## 
##  Durbin-Watson test
## 
## data:  mkt
## DW = 2.3521, p-value = 0.8694
## alternative hypothesis: true autocorrelation is greater than 0
  1. Kesimpulan
    Karena \(p_{value}=0,8694>0,05\), maka \(H_0\) tidak ditolak yang berarti bahwa tidak terdapat autokorelasi.

5.7 Uji Homokedastisitas

  1. Hipotesis
    \(H_0\): Variansi sisaan bersifat homogen
    \(H_1\): Variansi sisaan bersifat tidak homogen

  2. Taraf Signifikansi
    \(\alpha=0,05\)

  3. Daerah Kritis
    \(H_0\) ditolak jika nilai \(p_{value}<\alpha=0,05\)

  4. Statistik Uji

bptest(mkt)
## 
##  studentized Breusch-Pagan test
## 
## data:  mkt
## BP = 2.4504, df = 2, p-value = 0.2937
  1. Kesimpulan
    Karena \(p_{value}=0,2937>0,05\), maka \(H_0\) tidak ditolak yang berarti bahwa data variansi sisaan bersifat homogen.

6 Kesimpulan

Berdasarkan analisis data yang telah dilakukan, maka dapat ditarik kesimpulan sebagai berikut.

  1. Dari data yang dianalisis diperoleh model regresi berikut. \[\hat{Y} = -31,32911+3,06425X_1+1,101567X_2\]
    Model regresi tersebut menghasilkan R-Squared (adjusted) sebesar sebesar 0,9823 yang berarti sebesar 98,23% dari performance index (\(Y\)) dapat dijelaskan oleh Hours Studied (\(X_1\)) dan Previous Score (\(X_2\)). Sementara, sisanya sebesar 1,77% tidak dapat dijelaskan oleh model regresi.

  2. Berdasarkan analisis-analisis yang telah dilakukan, maka didapatkan hasil sebagai berikut.

Uji Asumsi Keterangan
Uji Normalitas Residu Memenuhi
Uji Non-Multikolinearitas Memenuhi
Uji Non-Autokorelasi Memenuhi
Uji Homoskedastisitas Memenuhi
  1. Berdasarkan uji-F dan uji-t, diperoleh hasil bahwa model layak digunakan dan semua variabel prediktor, yaitu Hours Studied (\(X_1\)) dan Previous Score (\(X_2\)) berpengaruh signifikan terhadap Performance Index.