Nama :
1. Della Novita Sari (M0722030)
2. Nabila Triana (M0722054)
3. Novita Eka Permatasari (M0722060)
4. Ratu Buana Gemilang (M0722064)
       Untuk menggunakan beberapa fungsi dan alat yang diperlukan guna analisis data dengan efisien dan efektif, maka kita perlu mempersiapkan beberapa package terlebih dahulu. Berikut beberapa package yang digunakan dalam analisis ini.
library(readxl)
library(dplyr)
library(knitr)
library(psych)
library(DT)
library(lmtest)
library(zoo)
library(car)
library(ggplot2)
library(yaml)Â Â Â Â Â Â Â Regresi adalah metode statisik yang digunakan untuk
memperkirakan hubungan antara variabel respon (Y) dengan satu atau lebih
variabel prediktor (X). Variabel respon merupakan variabel yang
dipengaruhi atau yang menjadi akibat karena adanya variabel prediktor.
Sedangkan variabel prediktor adalah variabel-variabel yang mempengaruhi
atau yang menjadi sebab perubahannya variabel respon.
       Pada umumnya, model regresi linear digunakan sebagai alat untuk
mengaitkan keterkaitan antara variabel respon dan prediktor. Metode ini
juga dapat digunakan untuk menilai kekuatan hubungan antar variabel
untuk prediksi masa depan. Analisis regresi mencakup beberapa jenis,
yaitu linear sederhana, linear berganda, dan polinomial. Model yang
paling umum adalah linear sederhana dan linear berganda. Analisis
regresi dapat diaplikasikan dalam berbagai bidang, seperti pertanian,
ekonomi, keuangan, industri, ilmu lingkungan, dan sebagainya.
Perhitungan dalam uji regresi melibatkan berbagai aspek statistika,
termasuk uji signifikansi seperti uji-t dan uji-F, analisis varians
(ANOVA), serta pembentukan hipotesis. Output dari analisis regresi
berupa suatu persamaan regresi, yang berfungsi sebagai alat prediksi
untuk variabel yang memengaruhi variabel lain. Berikut adalah beberapa
macam regresi.
       Persamaan regresi linear sederhana merupakan suatu model
persamaan yang menggambarkan hubungan satu variabel prediktor (X) dengan
satu variabel (Y), yang biasanya digambarkan dengan garis lurus.
Persamaan regresi linear sederhana secara matematik dieskpresikan dengan
sebagai berikut.
\[\hat{Y} =
\beta_0+\beta_1x_1+e\]
Di mana
\(\hat{Y}\) : Variabel respon
\(x_1\) : Variabel prediktor
\(\beta_0\) : Konstanta
\(\beta_1\) : Koefisien regresi
\(e\) : Error
       Analisis regresi berganda adalah suatu metode untuk meramalkan
nilai pengaruh dua variabel prediktor atau lebih terhadap satu variabel
respon. Tujuannya untuk membuktikan ada tidaknya hubungan antara dua
atau lebih variabel prediktor \(X_1,X_2,...,X_n\) terhadap satu variabel
respon Y. Persamaannya adalah sebagai berikut.
\[\hat{Y} =
\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_nx_n+e\]
Di mana
\(\hat{Y}\) : Variabel respon
\(x_1,x_2,x_n\) : Variabel
prediktor
\(\beta_0\) : Konstanta
\(\beta_1,\beta_2,\beta_n\) : Koefisien
regresi
\(e\) : Error
       Regresi polinomial merupakan regresi linear berganda yang
dibentuk dengan menjumlahkan pengaruh variabel prediktor X yang
dipangkatkan secara meningkat sampai orde ke-k. Pada model
regresi polinomial, setiap pangkat atau orde variabel prediktor X
merupakan transformasi variabel awal dan dipandang sebuah variabel
prediktor baru dalam linear berganda. Secara umum, model regresi
polinomial dapat ditulis dalam persamaan berikut. \[\hat{Y} =
\beta_0+\beta_1x_1+\beta_2x^2+...+\beta^nx^n+e\]
Di mana
\(\hat{Y}\) : Variabel respon
\(\beta_0\) : Konstanta
\(\beta_1,\beta_2,\beta_n\) : Koefisien
regresi
\(e\) : Error
       Uji-F memiliki tujuan untuk menentukan apakah variabel prediktor memiliki pengaruh secara bersama-sama terhadap variabel respon. Melalui uji-F, evaluasi dilakukan terhadap dampak dari semua variabel bebas secara simultan terhadap variabel terikat. Tingkat signifikansi yang umum digunakan adalah 0,05 atau 5%. Jika nilai signifikansi F<0,05, dapat disimpulkan bahwa variabel prediktor secara keseluruhan memengaruhi variabel respon, dan sebaliknya. Uji-F juga dikenal dengan sebutan uji serentak, uji model, atau uji anova.
Uji Hipotesis
\(H_0\) : \(\beta_0=\beta_1=...=\beta_j=0\) (Model
tidak layak digunakan)
\(H_1\) : \(\beta_j\neq0\) untuk setidaknya satu j
(Model layak digunakan)
Taraf Signifikansi
\(\alpha=0,05\)
Daerah Penolakan
\(H_0\) ditolak jika \(F>F{(\alpha;n-k;k-1)}\) atau \(p_{value}<\alpha\)
Statistik Uji
Kesimpulan
Pada uji ini, diharapkan \(H_0\)
ditolak berarti model layak digunakan sehingga bisa dilanjutkan ke
perhitungan selanjutnya.
       Uji T bertujuan untuk melihat sejauh mana pengaruh secara parsial dari variabel prediktor terhadap variabel respon.
Uji Hipotesis
\(H_0\) : \(\beta_0=\beta_1=...=\beta_j=0\) (Variabel
prediktor ke-\(_i\)) tidak berpengaruh
signifikan terhadap variabel respon)
\(H_1\) : \(\beta_j\neq0\) untuk setidaknya satu j
(Setidaknya terdapat variabel prediktor ke-i tidak berpengaruh
signifikan terhadap variabel respon)
Taraf Signifikansi
\(\alpha=0,05\)
Daerah Penolakan
\(H_0\) ditolak jika \(t>t{(\frac{1}{2}\;\alpha;n-1)}\) atau
\(p_{value}<\alpha\)
Statistik Uji
Kesimpulan
Jika \(p_{value}>\alpha\), \(H_0\) ditolak berarti variabel prediktor
ke-i tidak berpengaruh signifikan terhadap variabel respon.
Sedangkan, \(p_{value}<\alpha\),
\(H_0\) tidak ditolak berarti variabel
prediktor ke-i berpengaruh signifikan terhadap variabel
respon.
Uji Hipotesis
\(H_0\) : Data residual berdistribusi
normal
\(H_1\) : Data residual tidak
berdistribusi normal
Taraf Signifikansi
\(\alpha=0,05\)
Daerah Penolakan
\(H_0\) ditolak jika \(p_{value}<\alpha\)
Statistik Uji
Kesimpulan
Pada uji ini, diharapkan \(H_0\) tidak
ditolak yang berarti data residual berdistribusi normal di mana memenuhi
uji asumsi sehingga bisa dilanjutkan ke perhitungan uji asumsi
selanjutnya.
Hipotesis
\(H_0\): Tidak terjadi gejala
multikolinearitas
\(H_1\): Terjadi gejala
multikolinearitas
Taraf Signifikansi
\(\alpha=0,05\)
Daerah Kritis
\(H_0\) ditolak jika nilai VIF >
10
Statistik Uji
Kesimpulan
Pada Uji ini jika nilai VIF < 10 atau P-value > 0,05, maka
dinyatakan tidak terjadi multikolinearitas.
Jika nilai VIF > 10 atau P-value < 0,05, maka dinyatakan terjadi
multikolinearitas.
Uji Hipotesis
\(H_0\) : Tidak terdapat autokorelasi
\(H_1\) : Terdapat
autokorelasi
Taraf Signifikansi
\(\alpha=0,05\)
Daerah Penolakan
\(H_0\) ditolak jika \(p_{value}<\alpha\)
Statistik Uji
Kesimpulan
Pada uji ini, diharapkan \(H_0\) tidak
ditolak yang berarti tidak terdapat autokorelasi.
Hipotesis
\(H_0\): Variansi sisaan bersifat
homogen
\(H_1\): Variansi sisaan bersifat tidak
homogen
Taraf Signifikansi
\(\alpha=0,05\)
Daerah Kritis
\(H_0\) ditolak jika nilai \(p_{value}<\alpha\)
Statistik Uji
Kesimpulan
Pada uji ini, diharapkan \(H_0\) tidak
ditolak yang berarti variansi sisaan bersifat homogen.
data <- read_excel("D:/data_SIM.xlsx")
datatable(
data,
options = list(pageLength = 10),
rownames = FALSE,
colnames = c("Y", "X1", "X2"),
class = 'display',
)Keterangan :
Y = Performance Index (Persen)
X1 = Hours Studied
X2 = Previous Score
       Penelitian Pengaruh Hours Studied dan Previous Score terhadap Performance Index menggunakan data sekunder yang bersumber dari laman kaggle berjumlah 40 data (Link Kaggle).
       Statistik deskriptif adalah metode yang digunakan untuk mendeskripsikan, merangkum, dan menginterpretasikan kumpulan data yang dimana mencakup berbagai teknik yang membantu dalam memahami karakteristik dan distribusi data melalui ukuran-ukuran seperti mean, median, Q1, Q3, nilai minimum, dan nilai maksimum.
summary(data)## Y X1 X2
## Min. :27.00 Min. :1.00 Min. :44.00
## 1st Qu.:42.75 1st Qu.:3.00 1st Qu.:60.50
## Median :63.00 Median :5.00 Median :73.50
## Mean :58.60 Mean :5.40 Mean :72.25
## 3rd Qu.:70.25 3rd Qu.:7.25 3rd Qu.:83.25
## Max. :91.00 Max. :9.00 Max. :99.00
       Melalui statistik deskriptif diatas, didapatkan nilai minimum, kuartil bawah, median, mean, kuartil atas, dan nilai maksimum dari keempat variabel. Pada variabel Y (Performance Index), didapatkan nilai minimum 27.00 persen, kuartil bawah 42.75 persen, median 63.00 persen, kuartil atas 70.25 persen, dan nilai maksimum 91.00 persen. Begitu hingga variabel X1 (Hours Studied) dan X2 (Previous Score)
       Eksplorasi data dalam penelitian ini dimulai dengan scatterplot untuk menentukan potensi model tanlinear. Scatterplot dilakukan dengan memvisualisasikan hubungan antara variabel respon dan prediktor. Berikut merupakan scatterplot untuk setiap variabel prediktor \(X_1\) dan \(X_2\) terhadap variabel respon \(Y\).
ggplot(data, aes(x=X1, y=Y)) +
geom_point(color="navy", size=3) +
geom_smooth(method="lm", formula="y~x", color="red", fill="lightgrey", alpha=0.5) +
labs(x="X1", y="Y", title="Scaterplot Y vs X1")Pada scatterplot tersebut terlihat bahwa terdapat pola linear positif yang di mana pola naik dari kiri bawah ke kanan atas. Maka, menunjukkan bahwa ada hubungan positif antara Hours Studied (\(X_1\)) dan Performance Index (\(Y\)) yang berarti ketika Hours Studied (\(X_1\)) meningkat, Performance Index (\(Y\)) juga cenderung meningkat.
ggplot(data, aes(x=X2, y=Y)) +
geom_point(color="navy", size=3) +
geom_smooth(method="lm", formula="y~x", color="red", fill="lightgrey", alpha=0.5) +
labs(x="X2", y="Y", title="Scaterplot Y vs X2")Pada scatterplot tersebut terlihat bahwa terdapat pola linear positif yang di mana pola naik dari kiri bawah ke kanan atas. Maka, menunjukkan bahwa ada hubungan positif antara Previous Score (\(X_2\)) dan Performance Index (\(Y\)) yang berarti ketika Previous Score (\(X_2\)) meningkat, Performance Index (\(Y\)) juga cenderung meningkat.
mkt <- lm(Y ~., data=data)
print(summary(mkt))##
## Call:
## lm(formula = Y ~ ., data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.928 -1.325 -0.140 1.354 4.834
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -31.32911 1.97648 -15.85 <2e-16 ***
## X1 3.06425 0.14877 20.60 <2e-16 ***
## X2 1.01567 0.02287 44.41 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.267 on 37 degrees of freedom
## Multiple R-squared: 0.9832, Adjusted R-squared: 0.9823
## F-statistic: 1085 on 2 and 37 DF, p-value: < 2.2e-16
Berikut model regresi berganda yang telah didapatkan dari ouput R
tersebut.
\[\hat{Y} =
-31,32911+3,06425X_1+1,101567X_2\]
Adapun interpretasinya sebagai berikut.
Nilai konstanta bernilai negatif, yaitu -31,32911; artinya apabila variabel Hours Studied (\(X_1\)) dan variabel Previous Score (\(X_2\)) sama dengan nol, maka variabel Performance Index mengalami penurunan.
Nilai koefisien variabel Hours Studied (\(X_1\)) bernilai positif, artinya Hours Studied (\(X_1\)) berpengaruh positif terhadap Performance Index (\(Y\)). Di mana setiap bertambahnya satu satuan Hours Studied (\(X_1\)), maka Performance Index (\(Y\)) akan bertambah sebesar 3,06425 persen.
Nilai koefisien variabel Previous Score (\(X_2\)) bernilai positif, artinya nilai sebelumnya (\(X_2\)) berpengaruh positif terhadap Performance Index (\(Y\)). Di mana setiap meningkatnya satu satuan Previous Score (\(X_2\)), maka Performance Index (\(Y\)) akan bertambah sebesar 1,101567 persen.
Model regresi tersebut menghasilkan nilai R-Squared
(adjusted) sebesar 0,9823 atau 98,23% yang berarti sebesar
98,23% dari Performance Index (\(Y\)) dapat dijelaskan oleh Hours
Studied (\(X_1\)) dan
Previous Score (\(X_2\)). Sementara, sisanya sebesar 1,77%
tidak dapat dijelaskan oleh model regresi.
Uji Hipotesis
\(H_0\) : \(\beta_0=\beta_1=\beta_2=0\) (Model tidak
layak digunakan)
\(H_1\) : \(\beta_j\neq0\) untuk setidaknya satu j
(Model layak digunakan)
Taraf Signifikansi
\(\alpha=0,05\)
Daerah Penolakan
\(H_0\) ditolak jika \(p_{value}<\alpha=0,05\)
Statistik Uji
summary(mkt)##
## Call:
## lm(formula = Y ~ ., data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.928 -1.325 -0.140 1.354 4.834
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -31.32911 1.97648 -15.85 <2e-16 ***
## X1 3.06425 0.14877 20.60 <2e-16 ***
## X2 1.01567 0.02287 44.41 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.267 on 37 degrees of freedom
## Multiple R-squared: 0.9832, Adjusted R-squared: 0.9823
## F-statistic: 1085 on 2 and 37 DF, p-value: < 2.2e-16
Berdasarkan output, \(p_{value}<2,2e-16\).
Uji Hipotesis
\(H_0\) : \(\beta_0=\beta_1=...=\beta_j=0\) (Variabel
prediktor ke-\(_i\)) tidak berpengaruh
signifikan terhadap variabel respon)
\(H_1\) : \(\beta_j\neq0\) untuk setidaknya satu j
(Setidaknya terdapat variabel prediktor ke-i tidak berpengaruh
signifikan terhadap variabel respon)
Taraf Signifikansi
\(\alpha=0,05\)
Daerah Penolakan
\(H_0\) ditolak jika \(p_{value}<\alpha\)
Statistik Uji
summary(mkt)##
## Call:
## lm(formula = Y ~ ., data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.928 -1.325 -0.140 1.354 4.834
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -31.32911 1.97648 -15.85 <2e-16 ***
## X1 3.06425 0.14877 20.60 <2e-16 ***
## X2 1.01567 0.02287 44.41 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.267 on 37 degrees of freedom
## Multiple R-squared: 0.9832, Adjusted R-squared: 0.9823
## F-statistic: 1085 on 2 and 37 DF, p-value: < 2.2e-16
Untuk konstanta, karena \(p_{value}=2e-16<\alpha\), maka berarti \(H_0\) ditolak yang berarti konstanta berpengaruh signifikan terhadap variabel dependen Performance Index (\(Y\)).
Untuk variabel Hours Studied (\(X_1\)), didapatkan \(p_{value}=2e-16<\alpha\), maka berarti \(H_0\) ditolak yang artinya variabel Hours Studied (\(X_1\)) berpengaruh signifikan terhadap variable dependen Performance Index (\(Y\)).
Untuk variabel Previous Score (\(X_2\)), didapatkan \(p_{value}=2e-16<\alpha\), maka berarti
\(H_0\) ditolak yang artinya variabel
variabel Previous Score (\(X_2\)) berpengaruh signifikan terhadap
variable dependen Performance Index (\(Y\)).
Uji Hipotesis
\(H_0\) : Data residual berdistribusi
normal
\(H_1\) : Data residual tidak
berdistribusi normal
Taraf Signifikansi
\(\alpha=0,05\)
Daerah Penolakan
\(H_0\) ditolak jika \(p_{value}<\alpha\)
Statistik Uji
shapiro.test(mkt$residuals)##
## Shapiro-Wilk normality test
##
## data: mkt$residuals
## W = 0.97478, p-value = 0.5027
Hipotesis
\(H_0\): Tidak terjadi gejala
multikolinearitas
\(H_1\): Terjadi gejala
multikolinearitas
Taraf Signifikansi
\(\alpha=0,05\)
Daerah Kritis
\(H_0\) ditolak jika nilai VIF >
10
Statistik Uji
vif(mkt)## X1 X2
## 1.023461 1.023461
Hipotesis
\(H_0\) : Tidak terdapat
autokorelasi
\(H_1\) : Terdapat
autokorelasi
Taraf Signifikansi
\(\alpha=0,05\)
Daerah Penolakan
\(H_0\) ditolak jika \(p_{value}<\alpha\)
Statistik Uji
dwtest(mkt)##
## Durbin-Watson test
##
## data: mkt
## DW = 2.3521, p-value = 0.8694
## alternative hypothesis: true autocorrelation is greater than 0
Hipotesis
\(H_0\): Variansi sisaan bersifat
homogen
\(H_1\): Variansi sisaan bersifat tidak
homogen
Taraf Signifikansi
\(\alpha=0,05\)
Daerah Kritis
\(H_0\) ditolak jika nilai \(p_{value}<\alpha=0,05\)
Statistik Uji
bptest(mkt)##
## studentized Breusch-Pagan test
##
## data: mkt
## BP = 2.4504, df = 2, p-value = 0.2937
Berdasarkan analisis data yang telah dilakukan, maka dapat ditarik kesimpulan sebagai berikut.
Dari data yang dianalisis diperoleh model regresi berikut. \[\hat{Y} =
-31,32911+3,06425X_1+1,101567X_2\]
Model regresi tersebut menghasilkan R-Squared
(adjusted) sebesar sebesar 0,9823 yang berarti sebesar 98,23%
dari performance index (\(Y\)) dapat dijelaskan oleh Hours
Studied (\(X_1\)) dan
Previous Score (\(X_2\)). Sementara, sisanya sebesar 1,77%
tidak dapat dijelaskan oleh model regresi.
Berdasarkan analisis-analisis yang telah dilakukan, maka didapatkan hasil sebagai berikut.
| Uji Asumsi | Keterangan |
|---|---|
| Uji Normalitas Residu | Memenuhi |
| Uji Non-Multikolinearitas | Memenuhi |
| Uji Non-Autokorelasi | Memenuhi |
| Uji Homoskedastisitas | Memenuhi |