ANALISIS FAKTOR GAYA HIDUP YANG MEMPENGARUHI DETAK JANTUNG
DENGAN METODE SELEKSI MODEL
PROYEK ANALISIS DATA

Diajukan Untuk Memenuhi Mata Kuliah Pengantar Data Sains

KELOMPOK 2

1. Nazwa Khoirina (3338240005)

2. Rajwa Rizki Kurniawan (3338240024)

3. Umi Makhmudah (3338240037)

4. Nais Fanisa Cahyani (3338240038)

5. Alfina Putri Hizryanty (3338240047)

PROGRAM STUDI STATISTIKA
FAKULTAS TEKNIK
UNIVERSITAS SULTAN AGENG TIRTAYASA

KATA PENGANTAR

Puji syukur kami panjatkan ke hadirat Tuhan Yang Maha Esa atas segala rahmat dan karunia-Nya sehingga proyek ini dapat diselesaikan dengan baik. Proyek ini disusun sebagai salah satu tugas pada Mata Kuliah Pengantar Data Sains, Serta sebagai bentuk penerapan materi yang telah dipelajari selama perkuliahan Pengantar Data Sains dalam penyusunan dan penyajian laporan menggunakan R Markdown.

Kami menyampaikan terima kasih yang sebesar-besarnya kepada dosen pengampu Mata Kuliah Pengantar Data Sains yaitu Agung Satrio Wicaksono, S.Mat., M.Si. yang telah memberikan bimbingan, arahan, dan ilmu yang sangat membantu dalam proses penyusunan proyek ini. Dukungan dan penjelasan yang diberikan sangat berarti bagi kami dalam memahami konsep serta menyelesaikan tugas ini dengan baik.

Kami menyadari bahwa proyek ini masih jauh dari sempurna. Oleh karena itu, kritik dan saran yang membangun sangat kami harapkan demi perbaikan di masa mendatang. Semoga laporan proyek ini dapat memberikan manfaat bagi pembaca, khususnya bagi mahasiswa yang sedang mempelajari analisis data dan metode seleksi model.


BAB I PENDAHULUAN

1.1 Latar Belakang

Konsumsi kopi dan gaya hidup masyarakat modern menjadi topik yang semakin menarik dalam penelitian kesehatan global. Berbagai studi menunjukkan bahwa faktor-faktor seperti usia, tingkat konsumsi kopi, durasi tidur, indeks massa tubuh (BMI), serta aktivitas fisik memiliki potensi memengaruhi kondisi fisiologis seseorang, termasuk detak jantung (Heart Rate). Variabel-variabel tersebut diduga saling berkaitan, sehingga analisis regresi linear dapat digunakan untuk mengetahui besarnya pengaruh masing-masing faktor terhadap variabel respon, yaitu Heart Rate.

Untuk memahami hubungan tersebut secara lebih mendalam, penelitian ini menggunakan dataset global_coffee_health.csv yang berisi data kesehatan individu dari berbagai kelompok usia dan kebiasaan hidup. Dataset ini memuat variabel-variabel seperti Heart_Rate, Age, Coffee_Intake, Sleep_Hours, BMI, dan Physical_Activity_Hours yang diduga memiliki keterkaitan dalam memengaruhi detak jantung.

Dalam menentukan model regresi terbaik, penelitian ini menerapkan tiga teknik seleksi variabel yaitu Forward Selection, Backward Elimination, dan Stepwise Selection. Ketiga metode ini menggunakan kriteria utama pemilihan model berupa Akaike Information Criterion (AIC), di mana nilai AIC yang lebih rendah menunjukkan model yang lebih efisien. Dengan demikian, proses seleksi variabel difokuskan pada pencarian kombinasi prediktor yang menghasilkan model dengan keseimbangan optimal antara tingkat kebaikan model dan kompleksitasnya.

Selain seleksi model, penelitian ini juga melakukan serangkaian uji asumsi klasik, meliputi uji normalitas residual, homoskedastisitas, autokorelasi, multikolinearitas, dan linearitas. Uji-uji tersebut dilakukan untuk memastikan bahwa model regresi yang diperoleh memenuhi kriteria statistik yang diperlukan sehingga hasil analisis dapat diinterpretasikan secara valid.

Penelitian ini bertujuan menghasilkan model prediksi yang optimal dan akurat dalam menjelaskan faktor-faktor yang memengaruhi detak jantung. Selain itu, hasil analisis ini diharapkan mampu memberikan gambaran yang lebih jelas mengenai hubungan antarvariabel terkait gaya hidup dan kesehatan. Penerapan teknik pemodelan statistik modern dalam penelitian ini juga menunjukkan bagaimana pendekatan berbasis data dapat dimanfaatkan untuk mendukung analisis dan pengambilan keputusan yang lebih informatif.

1.2 Rumusan Masalah

  1. Apakah variabel Age, Coffee_Intake, Sleep_Hours, BMI, dan Physical_Activity_Hours berpengaruh terhadap Heart_Rate?
  2. Model regresi seperti apa yang paling tepat untuk menjelaskan pengaruh variabel-variabel tersebut terhadap Heart_Rate?
  3. Metode seleksi variabel mana Forward Selection, Backward Elimination, atau Stepwise Selection yang menghasilkan model dengan nilai AIC paling rendah?
  4. Apakah model regresi yang diperoleh telah memenuhi uji asumsi klasik, yaitu normalitas residual, homoskedastisitas, autokorelasi, multikolinearitas, dan linearitas?

1.3 Tujuan

  1. Mengetahui pengaruh variabel Age, Coffee_Intake, Sleep_Hours, BMI, dan Physical_Activity_Hours terhadap Heart_Rate.
  2. Membangun model regresi linear berganda yang mampu menjelaskan hubungan antara variabel gaya hidup dan detak jantung.
  3. Menerapkan dan membandingkan metode seleksi variabel Forward Selection, Backward Elimination, dan Stepwise Selection berdasarkan nilai AIC untuk menentukan model terbaik.
  4. Menguji apakah model regresi yang dihasilkan telah memenuhi asumsi-asumsi klasik sehingga layak digunakan untuk interpretasi dan prediksi.

BAB II LANDASAN TEORI

2.1 Regresi Linier

Regresi linier merupakan Teknik statistika yang bisa digunakan untuk menjelaskan pengaruh dari variabel independent terhadap variabel dependen. Dalam menelaah hubungah antara beberapa variabel menggunakan analisis regresi, pertama adalah menentukan satu variabel yang disebut dengan variabel dependen dan satu atau lebih variabel dependen. Apabila jumlah variabel bebas hanya satu, dikenal dengan regresi linier sederhana, sedangkan apabila jumlah variabel lebih dari satu dikenal dengan regresi linier berganda.

Analisis regresi sekurang – kurangnya memiliki tiga manfaat, yaitu untuk tujuan deskripsi dari gejala data atau kasus yang sedang diamati, untuk tujuan kontrol, serta untuk tujuan prediksi. Regresi bisa menjelaskan gejala data lewat terbentuknya suatu model hubungan yang brsifat numerik. Regresi juga bisa dipakai untuk melakukan control terhadap suatu kasus atau hal yang sedang diteliti lewat penggunaan model regresi yang diperoleh. Selain itu, model regresi dimanfaatkan untuk melakukan pendugaan untuk variabel dependen.

Dalam analisis regresi terdapat dua jenis pengujian yang dibedakan berdasarkan jumlah variabel independent yang sedang di amati, apabila jumlah variabel independent hanya 1, analisis tersebut dikenal dengan analisis regresi linier sederhana, namun apabia variabel independent amatan berjumlah lebih dari satu, maka analisis yang digunakan adalah analisis regresi linier berganda. Pada laporan tugas ini variabel independent sebagai amatan berjumlah lima variabel sehingga analisis yang digunakan adalah analisis regresi linier berganda, selain itu untuk melakukan analisis regresi linear data yang digunakan harus melewati beberapa tahapan. Pembahasan tersebut dibagi menjadi 3 tahap, yaitu:

  1. Estimasi model regresi linier (berganda) dan pengujian asumsi klasik.
  2. Uji kelayakan model (Goodness of fit model)
  3. Interpetasi model regresi linier (berganda)

Analisis regresi memiliki tiga manfaat utama: 1. Mengukur kekuatan hubungan antar variabel. 2. Mengestimasi nilai parameter. 3. Melakukan prediksi nilai variabel dependen.

Dalam analisis regresi, pengujian dan analisis dilakukan melalui beberapa tahap, yaitu: - Estimasi model regresi linier (berganda) dan pengujian asumsi klasik. - Uji kelayakan model. - Interpretasi model regresi linier berganda.

2.1.1 Analisis Regresi Linear Berganda

Analisis linier berganda merupkan hubungan secara linear antara dua atau lebih variabel independent \(\left(X_1,X_2,...,X_p\right)\) dengan variabel terikatnya adalah Y. analisis ini digunkan untuk mengetahui arah hubungan antara variabel independent dengan variabel dependen apakah memiliki hubungan yang positif atau negative serta digunakan untuk memprediksi nilai variabel dependen apabila variabel independent mengalami kenaikan ataupun penurunan. Seringkali data yang digunakan berskala interval atau rasio (Maharaja dkk, 2021 dalam Nurani dkk, 2023). Persamaan regresi linier berganda sebagai berikut :

\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k + \varepsilon \] Dengan keterangan:

  • \(Y\): variabel dependen
  • \(\beta_0\): intercept
  • \(\beta_j\): koefisien regresi untuk variabel \(X_j\)
  • \(X_j\): variabel independen
  • \(\varepsilon\): galat (error)

\(\varepsilon_i\) adalah galat (error) untuk amatan ke – i yang di asumsikan menyebar secara normal yang saling bebas dan unik dengan rata – rata 0 dan variansi \(\sigma^2\). Sebelum melakukan analisis dengan analisis regresi linier berganda terdapat beberapa uji asumsi yang peru dilakukan untuk mengecek apakah data yang sedang diamati memenuhi asumsi – asumsi yang selanjutnya akan di analisis.

2.2 Pendekatan Ordinary Least Squares (OLS)

Ordinary Least Square (OLS) merupakan salah satu metode yang digunakan untuk mengestimasi parameter regresi. Secara umum model regresi linear berganda yang memuat sejumlah k variabel independent dapat dituliskan dalam persamaan sebagai berikut :

\[ y_i=\beta_0+\beta_jx_{ij}+\varepsilon_i \]

Dengan i=1,2,..,n dan j=1,2,..,k dengan n adalah banyaknya pengamatan dan k adalah banyaknya variabel independent di mana \(k<n;\ \beta_0 dan \beta_j\) merupakan parameter yang nilainya tidak dikatahui; dan \(\varepsilon\) merupakan nilai variabel random yang menjelaskan faktor – faktor lain yang berpengaruh pada nilai variabel dependen dan disebut sebagai residual. Persamaan sebelunya bisa dituliskan dalam notasi matriks sebagai berikut :

\[ y=X\beta+\varepsilon \]

symbol y adalah vektor variabel terikat berukuran \(\left(n\times1\right)\), X adalah matriks variabel independent yang berukuran \(\left(n\times p\right)\) di mana p=k+1,\(\beta\) adalah vektor parameter yang berukuran \(\left(p\times1\right)\) dan \(\varepsilon\) adalah vektor galat berukuran \(\left(n\times1\right)\), dengan dugaan bahwa galat atau residual memiliki \(E\left[\varepsilon\right]=0\) dan var\(\left(\varepsilon\right)=\sigma^2I\).

Salah satu metode estimasi parameter dalam model regresi adalah metode Ordinary Least Square (OLS). Metode OLS memiliki tujuan untuk hasil penduga parameter regresi dengan jumlah kuadrat residual yang kecil. Residual adalah perbedaan antara nilai sebenarnya dengan nilai pendugaannya. Fungsi tujuan dari metode OLS dapat dituliskan sebagai berikut:

Dengan:

\[ min\sum_{i=1}^{n}{\varepsilon_i^2=min\sum_{i=1}^{n}\left(y_i-{\hat{y}}_i\right)^2} \] dengan demikian penduga untuk parameter regresi dalam bentuk matriks bisa dirumuskan seperti berikut :

\[ \hat{\boldsymbol{\beta}} = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{y} \]

Metode OLS harus memenuhi beberapa asumsi dan hasil estimasi memenuhi sifat Best Linear Unbias Estimator (BLUE). Tetapi metode OLS sangat sensitif terhadap penyimpangan asumsi pada data. Asumsi – asumsi tersebut antara lain adalah distribusi residualnya harus normal, variansnya homogen dan tidak terjadi autokorelasi. Apabila data tidak memenuhi salah satu asumsi, maka pendugaan dengan metode OLS menjadi tidak efisien. Untuk menghasilkan estimasi parameter yang bersifat BLUE pada metode OLS asumsi – asumsi tersebut bayak dikenal dengan uji asumsi klasik, diantaranya sebagai berikut:

  1. Multikolineritas
  2. Heteroskedastisitas
  3. Autokorelasi
  4. Normalitas
  5. Linieritas

2.3 Uji Asumsi Klasik

Koefisien – koefisien regresi linier sebenarnya merupakan nilai duga dari parameter model regresi. Parameter adlah kondisi sesungguhnya untuk kasus yang kita amati. Parameter regresi diduga dengan melalui metode perhitungan yang sering disebut dengan OLS. Tentu, yang Namanya menduga, kita tidak terlepas dari kekeliruan, baik itu kekeliruan yang kecil maupun besar. Tetapi, dengan metode OLS kesalahan pendugaan di pastikan sekecil mungkin (merupakan Teknik terbaik) dengan catatan memenuhi beberapa asumsi. Asumsi tersebut sering dikenal dengan asumai klasik regresi linier.

Secara manual, sebelum melakukan uji asumsi klasik regresi linier terlebih dahulu harus mendapatkan data residual. Karena data residual digunakan untuk melakukan uji asumsi klasik, kecuali pada uji multikolineritas di mana uji tersebut menggunakan data pengamatan. Asumsi klasik regresi linier mencakup beberapa uji sebagai berikut :

2.3.1 Multikolinieritas

Multikolineraitas merupakan suatu kondisi di mana terjadi hubungan linear yang sempurna atau mendekati antar variabel independent dalam satu model regresi. Suatu model dikatakan mengalami multikolinearitas apabila terdapat fungsi linear yang sempurna pada beberapa atau semua variabel independent dalam fungsi linear. Gejala terjadi multionearitas antara lain dengan mengecek nilai Variance Inflantor Factor (VIF) dan Tolerance nya. Jika nilai VIF<10 dan Tolerance>0,1 maka dinyatakan tidak ada multikolineritas di mana variabel independent tidak saling berkorelasi atau bersifat ortogonal, yang artiny nilai korelasi antar variabel tersebut mendekati nol. Penggunaan indicator yang tumpang tindih, atau penggunaan variabel dummy yang berlebihan (Sriningsih dkk, 2018; Arisandi dkk, 2021 dalam Naufal, J., M. dkk, 2025). Variabel terkait waktu dalam runtun waktu juga bisa menunjukkan pola tren yang sama, sehingga memunculkan multikolinieritas. Kesalahan ukur dan dan ukuran sampel yang kecil akan semakin memperburuk masalah, karena bisa membuat korelasi semu tampak lebih kuat dari kenyataannya. Korelasi antar vaeiabel - variabel tersebut bisa diukur menggunakan rumus korelasi pearson sebagai berikut :

\[ r=\frac{\sum\left(X-\bar{X}\right)\ \left(Y-\bar{Y^2}\right)}{\sqrt{\sum{\left(X-\bar{X}\right)^2\sqrt{{\sum\left(Y-\bar{Y}\right)}^2}}}} \]

di mana :

  • r = koefisien korelasi pearson \(\bar{X}\ dan\ \bar{Y}\ =\) nilai rata – rata variabel X dan Y

  • \(X_i dan Y_i=\) nilai individu pada variabel X dan Y

  • \(n=\) jumlah data dalam sampel

hubungan ini bisa terjadi secara alami tanpa terjadi intervensi peneliti, tetapi tetap bisa menyebabkan hasil analisis menjadi bias jika tidak ditangani dengan benar. Multikolinearitas juga bisa muncul karena variabel nenas dalam model memiliki kemiripan yang sangant tinggi atau saling mewakilkan satu sama lain. Pada kondisi ini, sulit untuk menetukan pengaruh individu dari setiap variabel terhadap variabel terikat, sehingga menghasilkan estimasi yang tidak stabil dan interpretasi yang kurang jelas (Yaldi dkk., 2022 dalam Naufal, J., M. dkk, 2025).

Heterskedastisitas memang termasuk permasalahan tingkat (degree) dan bukan jenis (type), namun kondisi itu dapat dideteksi oleh beberapa teknik statistik seperti VIF, Tolerance, matriks korelsi pearson, dan conditional index (CI). Untuk nilai VIF yang lebih besar dari 10 atau nilai Tolerance di bawah satu atau sangat kecil, hal tersebut dapat diatasi dengan menghapus variabel, transformasi data, atau menggunakan Teknik pemodelan alternatif seperti ridge regression.

2.3.2 Heteroskedastisitas

Pada suatu model regresi, keberhasilan memenuhi persyaratan dinyatakan ketika terjadi keseragaman dari residual antar pengamatan, yang dikenal dengan homoskedastisitas. Deteksi heteroskedastisitas bisa dilakukan dengan metode scatter plot, di mana nilai Z prediksi diplotkan terhadap nilai residual. Model yang dikatakan baik adalah yang tidak membenuk pola khusus pada grafik, seperti penumpukan di tengah, penyempitan dan perluasan, atau sebaliknya.

Heteroskedastisitas adalah kondisi dimana terjadi ketidaksamaan varian dari residual untuk semua pengamatan pada model regresi. Hal tersebut dapat ditangani dengan berbagai uji statistik, seperti uji Glejser, uji Park, atau uji White, dapat digunakan untuk mengidentifikasi heteroskedastisitas. Beberapa penanganan alternatif apabila model melanggar asumsi heteroskedastisitas termasuk transformasi algoritma, yang hanya bisa diaplikasikan jika semua data bernilai positif. Sousi aletrnatif dengan melakukan normalisasi, yaitu membagi semua variabel dengan variabel yang mengalami heteroskedastisitas. Pemilihan cara penanganan tergantung pada karakteristik data yang sedang di amati.

2.3.3 Autokorelasi

Autokorelasi adalah kondisi dimana model regresi terdapat korelasi atau hubungan antara residual pada periode t dengan residual pada periode sebelumnya \(\left(t-1\right)\). Model regresi yang baik adalah model regresi yang tidak terdapat autokorelasi. Autokorelasi banyak muncul pada kasus di mana data yang digunakan memasukkan unsur waktu (data time series). Untuk menangani hal tersebut dengan digunakan nya uji Dubin Watson (DW test) statistik dengan hipotesa sebagai berikut :

\(H_0:\rho=0\)

\(H_1:\rho\ \neq0\)

Uji autokerelasi hanya dilakukan pada data time series (runtutan waktu) dan tidak perlu dilakukan pada data cross section seperti contoh pada kuisioner di mana ppengukuran semua variabel dilakukan secara serempak pada saat yang bersamaan.

Bebrapa uji statistik yang banyak digunakan adalah uji Durbin – Watson, uji Run – test dan apabila data observasi lebih dari 100 data lebih baik dilakukan dengan uji Lagrange Multiplier. Bebrapa cara untuk menegani masalah autokorelasi adalah dengan mentrasformasikan data atau juga bisa dengan mengubah model regresi ke dalam bentuk persamaan beda umum (generalized difference equation). Selain tu juga bisa dilakukan dengan memasukkan variabel lag dari variabel terikatnya menjadi salah satu variabel bebas, sehingga data observasi menjadi berkurang.

2.3.4 Normalitas

Uji normalitas residual bertujuan untuk mengetahui apakah nilai residual berdistribusi secara normal atau tidak. Model yang baik adalah mdel yang memiliki nilai residual yang berdistribusi secara normal. Cara untuk mengetahuinya dengan melihat sebaran data dari sumber diagonal pada grafik pp plot of regression standardized sebagai dasar pengambilan keputusan. Apabila residual menyebar di sekitar garis dan mengikuti garis diagonal maka model regresi tersebut normal dan baik dipakai untuk memprediksi variabel independent dan sebaliknya. Prosedur lain untuk uji normalitas dengan menggunakan metode uji One Sample Kolmogorov – Smirnov. Kriteria pengujiannya adalah seperti berikut :

Apabila nilai signifikansi \((Asym.\ sig.\ 2\text{-}tailed) > 0.05\), maka data berdistribusi normal, dan
Apabila nilai signifikansi \((Asym.\ sig.\ 2\text{-}tailed) < 0.05\), maka data tidak berdistribusi secara normal.

Uji normalitas juga bisa dilakukan dengan menggunakan plot atau diagram yang lain seperti uji histogram, uji Chi – Square, uji Skewness dan kurtosis atau uji Kolmogorov – Smirnov. Tidak sada metode yang paling baik atau paling tepat. Sarannya adalah bahwa pengujian dengan metode grafik sering menimbulkan perbedaan pandangan di antara beberapa pengamat, sehingga pengujian uji normalitas dengan uji statistik bebas dari keragu- raguan, walaupun tidak ada jaminan bahwa pengujian dengan uji statistik lebih baik dari pengujian dengan metode statistik.

Apabila residual tidak normal namun dekat dengan nilai kritis, maka bisa dicoba dengan metode lain yang mungkin memberikan justifikasi normal. Tetapi jika dari nilai normal, maka bisa dilakukan beberapa langkah, yaitu : melakukan transformasi data, melakukan trimming data outliers ataupun menambah data observasi. Transformasi bisa dilakukan ke dalam bentuk algoritma natural, akar kuadratik, invers, atau bentuk yang lain tergantung pada bentuk kurva normalnya.

2.3.5 Linieritas

Linieritas adalah asumsi fundamental dalam analisis regresi, dengan hubungan antara variabel bebas dan variabel terikat diharapkan mengikuti persamaan garis lurus. Secara sistematis, hubungan linier dapat dinyatakan sebagai

\[ y\ =\ mx+b\] dengan :

  • \(Y=\) sebagai variabel terikat

  • \(X=\) variabel independent

  • \(m=\) kemiringan (slope)

  • \(b=\) intercept

Asumsi tersebut sangat penting untuk hasil akurasi dan model hasil. Model linier sering digunakan karena sifatnya yang sederhana, countable, dan interpretasi hasil yang intuitif. Property superposisi dalam hubungan linier memungkinkan untuk menggunakan beberapa variabel bebas secara bersamaan untuk memperkirakan variabel terikat. Namun demikian, tidak setiap hubungan dalam kehidupan nyata bersifat linier.

Dalam kasus di mana variabel membentuk pola melengkung (curvilinear) atau interaksi yang rumit, penerapan model linier bisa menghasilkan kesimpulan yang salah. Teknik seperti estimasi kurva, plot residual, atau scatterplot digunakan untuk melihat apakah hubungan tersebut linier (Martaningtyas dkk, 2024 dalam Naufal, J., 2008). Apabila residual membentuk pola yang acak, maka itu mengindikasikan bahwa asumsi linieritas dilanggar, sehingga model non linier bisa saja lebih sesuai.

Sebelum membangun model regresi, harus terlebih dahulu melakukan pengujian linieritas untuk memastikan bahwa asumsi tersebut terpenuhi. Apabila asumsi tidak terpenuhi, maka akan menghasilkan estimasi yang bias dan akurasi prediksi yang buruk, yang akhirnya melemahkan kredibilitas temuan penelitian (Supriyadi, 2017 dalam Naufal, J., 2008).

2.4 Uji Kelayakan Model

Uji kelayakan model regresi menilai kesesuaian model secara keseluruhan malalui uji F, uji t, dan koefisien determinasi.

  1. Uji F (simultan)

Uji keterandalan model atau uji kelayakan model yang lebih dikenal dengan dengan uji F (ada juga yang menyebautnya dengan uji simultan) alah tahapan awal mengidentifikasi model regresi yang diestimasi layak atau tidak. Layak (andal) yang dimaksud adalah model yang diestimasi layak digunakan untuk menjelaskan pengaruh variabel – variabel independent terhadap variabel dependen. Nama uji ini disebut uji F, karena mengikuti distribusi F.

Hipotesis yang berlaku untuk pengujian adalah : \[H_0:\beta_1=\beta_2=\cdots=\beta_k=0\] \[H_1:minimal\ ada\ satu\ \beta_i\neq0\ \]

Di mana: \(i=1,2,..,k\). \(k=\) banyaknya variabel bebas X. $ _i=$ parameter (koefisien) ke-I model regresi linier Penjabaran secara perhitungan untuk uji simultan ini bisa di temukan pada tabel ANOVA (Analysis of variance). Di mana tabel ANOVA akan ditemui nilai statistik–F (F – hitung), di mana :

Apabila \(F_{hitung}\le F_{tabel}\left({db}_1,{db}_2\right)\) maka gagal menolak \(H_0\), sedangkan apabila \(F_{hitung}\geq F_{tabel}\left({db}_1,{db}_2\right)\) maka tolak \(H_0\).

  • \({db}_1\) dan \({db}_2\) adalah parameter–parameter \(F_{tabel}\), di mana : \({db}_1=\) derajat bebas 1 \(\left(p-1\right)\) \({db}_2=\) derajat bebas 2 \(\left(n-1\right)\)

  • \(p=\) banyaknya parameter (koefisien) model regresi linier

  • \(n=\) banyaknya pengamatan

apabila \(H_0\) ditolak, maka model regresi yang diperoleh dapat digunakan.

  1. Uji T (parsial)

Uji t dalam regresi linier berganda bertujuan untuk menguji apakah parameter (koefisien regresi dan konstanta) yang diduga untuk mengestimasi persamaan atau model regresi linier berganda sudah merupakan parameter yang tepat atau ataupun belum. Tepat yang dimaksud adalah parameter tersebut mampu menjelaskan perilaku variabel bebas dalam mempengaruhi variabel terikatnya. Parameter yang diestimasi dalam memepengaruhi variabel terikatnya.parameter yang diestimasi dalam regeresi linier meliputi intersep (konstanta) dan slope (koefisien dalam persamaan linier). Pada bagian ini, uji t difokuskan hanya pada parameter slope (koefisien regresi).

Hipotesis yang digunakan untuk uji ini adalah : \[H_0:\beta_j=0\] \[H_1:minimal\ ada\ satu\ \beta_j\neq0\ \]

Di mana: \(j=0,1,...,k\)

\(k=\) banyaknya variabel bebas X

uji parsial menggunakan uji t, yaitu :

Apabila \(t_{hitung}\le t_{tabel}\left(n-p\right)\) maka gagal menolak \(H_0\), sedangkan apabila \(t_{hitung}\geq t_{tabel}\left(n-p\right)\) maka \(H_0\) ditolak

di mana :

  • \(\left(n-p\right)=\) parameter \(t_{tabel}\)

  • \(n=\) banyaknya pengamatan

  • \(p=\) banyaknya parameter (koefisien) model regresi linier

apabila \(H_0\) ditolak, maka variabel bebas X tersebut memiliki pengaruh terhadap variabel terikat Y.

  1. Koefisien Determinasi \(\mathbf{R}^2\)

Koefisien determinasi merupakan besarnya keragaman (informasi) dalam variabel Y yang dapat diberikan oleh model regresi yang diperoleh. Nilai \(R^2\) berkisar antara 0 sampai dengan 1. Apabila variabel Y dikalikan dengan serratus persen, maka hal tersebut menunjukkan presentase keragaman (informasi) di dalam variabel Y yang dapat diberikan oleh model regresi yang diperoleh. Semakin besar \(R^2\), semakin bagus model regresi yang diperoleh. Koefisien determinasi dapat dihitung dengan rumus sebagai berikut :

\[R^2=1-\frac{\sum_{i=1}^{n}\left(Y_i-{\hat{Y}}_i\right)^2}{\sum_{i=1}^{n}\left(Y_i-\bar{Y}\right)^2}\]

2.4 Metode Seleksi Variabel

Metode seleksi variabel dalam regresi linier berganda bertujuan memilih variabel bebas yang paling baik dan relevan untuk model optimal, mengurangi atau menghilangkan multikolinieritas, dan meningkatkan Adjusted \(R^2\) serta menurunkan nilai seleksi AIC maupun BIC. Dalam metode seleksi variabel terdapat tiga metode, yaitu metode Forward, Backward, dan metode Stepwise, penjelasan ketiga metode sebagai berikut:

2.4.1 Metode Forward (maju)

Metode seleksi maju bekerja dengan cara memasukkan variabel inddependen satu per satu menurut urutan besar pengaruhnya terhadap model, kemudian menguji signifikansi parameterregresi dan proses berhenti bila semua variabel independent yang memenuhi syarat telah masuk ke dalam model yang dibangun (Sembiring, 1995). Adapun langkah – langkah dalam metode forward, yaitu :

  1. Menentukan matriks koefisien korelasi

Koefisien korelasi yang dicari adalah koefisien korelasi linier sederhana Y dengan \(X_i\) dengan rumus :

\[r=\frac{\sum\left(X_{ij}-{\bar{X}}_i\right)\left(Y_j-\bar{Y}\right)}{\sqrt{\sum\left(X_{ij}-{\bar{X}}_i\right)^2\sum\left(Y_j-\bar{Y}\right)^2}}\]

  1. Membentuk regresi pertama (persamaan regresi linier)

Variabel yang pertama diregresikan adalah variabel yang mempunyai harga mutlak koefisien korelasi yang tersebar antara Y dan \(X_i\), misalnya \(X_1\)

\[Y=\left[\begin{matrix}1&X_{h1}\\1&X_{h2}\\\vdots&\vdots\\1&X_{hn}\\\end{matrix}\right]\left(X^TX\right)^{-1}= \left(\begin{matrix}n&\sum X_h\\\sum X_h&\sum X_h^2\\\end{matrix}\right)\]

\[Y=Y1Y2⋮YnXTY=YYX1\]

Sumber DF SS MS \(F_{hitung}\) Regresi \(\left(X_h\right)\) p-1 SSR MSR Residual n-p SSE MSE \(\frac{MSR}{MSE}\)
Total n-1 SST

  1. Seleksi variabel kedua diregresikan Cara menyeleksi variabel yang kedua diregresikan, yaitu memilih parsial korelasi sisaan dengan rumus : \[rY\ X_h.X_k=\frac{rY\ X_h-Y\ X_k\ rY\ X_hX_k}{\sqrt{\sum\left(1-r_{YX_k}^2\right)\left(1-r_{YX_k}^2\right)}}\]

    Membentuk regresi kedua (persamaan regresi linier berganda) Dengan memilih parsial korelasi variabel sisa terbesar untuk variabel tersebut masuk dalam regresi, maka persamaan regresi \[Y=b_0+b_hX_h+b_kX_k\].uji keberartian regresi kedua dibuat (sama dengan langkah ke dua, dengan menggunakan tabel 1), dengan tabel ANOVA, kemudian dicek apakah koefisien regresi b_k signifikan, dengan menggunakna hipotesis berikut :

\[H_0:b_h=0\] \[H_1:b_h\neq0\] \[F_{hitung}=\left(\frac{b_h}{S\left(b_h\right)}\right)^2\] \[F_{tabel\ }=F_{\left(1;n-p;0,05\right)} \]

keputusan :

jika \(F_{hitung}<F_{tabel\ }\) terima \(H_0\) artinya \(b_k\) dianggap sama dengan nol, maka proses dihentikan dan persamaan terbaik \(Y=b_0+b_hX_h.\) bila \(F_{hitung}\geq F_{tabel\ }\) tolak \(H_0\) artinya \(b_k\) tidak sama dengan nol, maka variabel \(X_k\) tetap di dalam penduga.

Pengaruh (korelasi) positif atau negative tidak dipersalkan karena yang diperhatikan adalah eratnya hubungan antara suatu variabel bebas dengan Y, sedangkan arah hubungan tidak menjadi persoalan. Salah satu keunggulannya adalah dapat melihat proses pembentukan model secara bertahap dimulai dari yang pertama kali(Sembiring, 1995)

2.4.2 Metode Backward (mundur)

Metode backward adalah langkah mundur dari semua variabel X diregresikan dengan variabel Y. langkah eliminasi variabel X didasarkan pada nilai \(F_{\left(parsial\right)\ }\) terkecil dan urut tidaknya variabel X pada model juga ditentukan oleh nilai \(F_{tabel\ }\) . metode backward merupakan metode regresi yag baik karena dalam metode ini dijelaskan sifat variabel terikat yang baik dengan memilih variabel bebas, dari banyaknya variabel bebas yang tersedia dalam data. Adapun langkah – langkah dalam metode backward, yaitu :

  1. Membentuk persamaan regresi linier berganda lengkap.

\[Y_i=a_0+a_1X_1+a_2X_2+\cdots+a_nX_n+\varepsilon_i\] Di mana :

  • \(i=\ 1,2,...,k\)

  • \(Y_i=\) variabel terikat

  • \(X_i=\) variable bebas

  • \(a_0=\) parameter regresi yang belum diketahui nilainya \(\varepsilon_i=\) nilai galat

  1. Menentukan nilai dari \(F_{parsial}\) dari masing – masing variabel X.

\[F_{parsial}=\frac{a_n^2}{S_n^2}\]
Di mana :

\(a_n=\) koefisien regresi \(S_n=\) galat taksiran

  1. Menentukan nilai ANOVA dan uji korelasi parsial Untuk menentukan nilai ANOVA maka diperlukan nilai – nilai sebagai berikut :

\[JKT=\sum Y^2-\frac{\left(\sum Y\right)^2}{n}\]

\[JKR=a_0\sum Y+a_1\sum{X_1Y+\cdots+a_n\sum{X_nY}}-\frac{\left(\sum Y\right)^2}{n}\]

\[KTR=\frac{JKR}{p-1}\]

\[KTS=\frac{JKS}{n-p}\]

\[JKS=a_0\sum{Y+a_1\sum{X_1Y}}+\cdots+a_n\sum{X_nY}-\sum Y^2-\frac{\left(\sum Y\right)^2}{n}\]

Di mana :

  • \(JKT= jumlah kuadrat total\)

  • \(JKR= jumlah kuadrat regresi\)

  • \(\ KTR= kuadrat\ total\ regresi\)

  • \(KTS=\)kuadrat total sisaan

  • \(n=\) total sampel

  • \(p=\) jumlah variabel

  1. Pemilihan variabel pertama yang keluar dari model dari nilai

    \(F_{\left(parsial\right)\ }\) terkcil. Untuk menentukan apakah terdapat variabel bebas n yang keluar dari model regresi atau tidak, maka nilai \(F_{\left(parsial\right)\ }\)dibandingkan dengan nilai \(F_{tabel\ }\) dengan hipotesis sebagai berikut:

\[H_0= regresi\ antara\ X_n\ tidak\ signifikan\ \] \[H_1=\ regresi\ antara\ X_n\ signifikan\]

Keputusan : Apabila \(F_{hitung}<F_{tabel}\) maka gagal menolak \(H_0\), sedangkan apabila \(F_{hitung}\geq F_{tabel}\) maka \(H_0\) ditolak

2.4.3 Metode Stepwise (kombinasi)

Metode Stepwise adalah metode yang menggabungkan metode regresi forward dan metode regresi backward (Kurniawan & Yuniarto, 2016). Metode stepwise memilih variabel – variabel yang sudah masuk dalam model. Variabel dependen yang sudah masuk dalam model bisa saja dikeluarkan lagi (Hanum, 2011. Dalam Wohon, 2017). Apabila salah satu variabel telah masuk ke dalam model regresi, maka variabel lainnya tidak perlu dimasukkan ke dalam model regresi karena pengaruhnya telah diwakilkan oleh variabel yang sudah masuk di dalam model regresi. Sehingga tidak terdapat multikolinieritas pada model regresi yang dihasilkan. Model regresi Stepwise di standarisasi dengan k variabel independent dan n pengamatan adalah sebagai berikut :

\[Y_{S_i}^\ast=\beta_{i1}^\ast X_{i1}^\ast+\beta_2^\ast\] \[X_{i2}^\ast+\cdots+\beta_k^\ast X_{ik}^\ast+\varepsilon_i^\ast\]

Setelah mendapatkan model selanjutnya adalah menentukanmodel terbaik dengan melihat nilai Mean Square Error(MSE). MSE adalah rata – rata kesalahan kuadrat diantara nilai aktual dan nilai prediksi. Semakin besar nilai MSE maka semakin tidak baik modelnya.

2.5 Kriteria Pemilihan Model

Dalam analisis regresi, diperlukan suatu model yang digunakan untuk mengetahui hubungan antara variabel dependen dengan satu atau lebih variabel independent. Model regresi bisa diperoleh dengan melakukan estimasi terhadap parameter – parameternya menggunakan metode tertentu. Adapun metode yang dipakai untuk mengestimasi parameter model regresi, khususnya parameter model regresi linier berganda adalah dengan metode kuadrat terkecil (Ordinary Least Square) dan metode kemungkinan maksimum (Maximum Likelihood) (Kuetner, dkk, 2004).

Selain metode kuadrat terkecil dan metode maksimum likelihood dalam pemilihan model, untuk mendapatkan model terbaik.

2.5.1 Akaike Information Criterion (AIC)

AIC adalah pengukuran untuk kualifikasi pada moel statistik dari data yang diberikan untuk pemilihan model terbaik dari beberapa model yang ada. Jika \(f\left(y\right)\) adalah densitas dari distribusi sebenarnya dan \(g\left(y\right)\) adalah yang ditentukan oleh model, ukuran perbedaan yang trkenal adalah perbedaan Kullback – Leibler. Langkah awal pemilihan model dengan menggunakan AIC adalah memasukkan satu persatu variabel dependen. Dari pemodelan regresi multivariat dengan menggunakan kriteria AIC. Rumus AIC yang digunakan adalah sebagai berikut :

\[n \cdot \ln {\left(\frac{JKG}{n}\right)} +2k\]

Dengan nilai terbaiknya adalah nilai AIC yang paling rendah, maka model dengan nilai terendah merupakan model terbaik.

2.5.2 Bayesian Information Criterion (BIC)

Dalam statistik, Bayesian Information Criterion (BIC) atau Schwarz Criterion adalah sebuah kriteria untuk memilih model dari sekumpulan model yang berhingga. Kritria ini didasakan, Sebagian, pada likelihood function dan memiliki hubungan yang kuat dengan Akaike Information Criterion (AIC). Saat melakukan fitting model, nilai likelihood bisa ditingkatkan dengan menambahkan parameter, tetapi hal tersebut bisa menyebabkan overfitting. BIC mengatasi masalah ini dengan menambahkan penalty

terhadap jumlah parameter dalam model. Besarnya penalty pada BIC lebih besar dibandingkan dengan AIC. BIC dikembangkan ole Gideon E. Schwarz yang memberikan argument berbasis hampiran Bayesian untuk mengangkatnya. BIC sangat terkait dengan AIC. Bahkan, AIC sangat terkesima dengan pendekatan Bayesian dari Schwarz sehinga ia mengembangkan pendekatan Bayesian.

Misalkan : \(X=\) data yang diamati \(n=\) jumlah titik data dalam X, jumlah observasi, atau sampel \(k=\) jumlah parameter bebas \(P\left(X\middle| k\right)=\) probabilitas dari data yang diamati dengan jumlah parameter tertentu atau likelihood dari parameter terhadap dataset. \(L=\) nilai maksimum dari fungsi likelihood untuk model yang diestimasi. Rumus BIC adalah : \[n \cdot \ln{\left(\frac{JKG}{n}\right)+k \cdot \ln{\left(n\right)}}\] Di mana : \(n=\) jumlah observasi dalam sampel \(JKG=\) jumlah kuadrat galat \(K=\) jumlah parameter bebas \(kln{\left(n\right)}=\) penalty term pada BIC Pada model metode BIC model yang baik adalah model dengan nilai yang terkecil

BAB III METODE ANALISIS DATA

3.1 Sumber Data

Data yang digunakan dalam analisis ini diperoleh dari Global Coffee Health Dataset, sebuah dataset publik yang tersedia di platform Kaggle. Dataset berisi informasi mengenai konsumsi kopi, kondisi kesehatan, aktivitas fisik, dan karakteristik individu. Data diunduh pada Desember 2025 melalui tautan: https://www.kaggle.com/datasets/uom190346a/global-coffee-health-dataset. Dataset ini digunakan untuk menganalisis pengaruh variabel gaya hidup terhadap heart rate, membangun model regresi linear berganda, menerapkan metode seleksi variabel untuk menentukan model terbaik, serta menguji apakah model yang dihasilkan memenuhi asumsi klasik.

3.2 Jenis Data

Dataset yang digunakan merupakan data sekunder, yaitu data yang telah dikumpulkan sebelumnya oleh pihak lain dan tersedia untuk publik melalui platform Kaggle. Secara keseluruhan, dataset memuat 16 variabel, termasuk variabel numerik seperti Age, Coffee_Intake, Caffeine_mg, Sleep_Hours, BMI, Heart_Rate, dan Physical_Activity_Hours, serta variabel kategorikal/ordinal seperti Gender, Country, Sleep_Quality, Stress_Level, Health_Issues, Occupation, Smoking, dan Alcohol_Consumption.

3.3 Variabel Analisis

Dalam analisis regresi linear berganda ini, terdapat satu variabel dependen dan lima variabel independen, yang digunakan untuk mengetahui pengaruh gaya hidup terhadap detak jantung. Variabel-variabel ini juga menjadi dasar dalam pemilihan model terbaik menggunakan metode seleksi variabel.

  • Variabel Dependen (Y): Heart_Rate, yaitu jumlah denyut jantung per menit, digunakan sebagai variabel dependen untuk menganalisis pengaruh faktor-faktor gaya hidup.
  • Variabel Independen (X)
  1. X1 = Age, usia responden, dipilih karena usia dapat memengaruhi detak jantung.
  2. X2 = Coffee_Intake, jumlah konsumsi kopi per hari, dipilih karena kafein dapat memengaruhi detak jantung.
  3. X3 = Sleep_Hours, lama tidur per hari, dipilih karena durasi tidur berpengaruh pada detak jantung.
  4. X4 = BMI, indeks massa tubuh, dipilih karena berat badan memengaruhi detak jantung.
  5. X5 = Physical_Activity_Hours, lama aktivitas fisik per minggu, dipilih karena aktivitas fisik berpengaruh pada detak jantung.

Variabel dependen dan independen ini digunakan untuk menerapkan metode seleksi variabel dengan tujuan mendapatkan model terbaik.

3.4 Validitas Data

Validitas data dipastikan melalui pengecekan dan pembersihan dataset sebelum dilakukan analisis. Langkah-langkah yang dilakukan antara lain

  1. Menghapus data duplikat agar setiap observasi tercatat satu kali.
  2. Menghapus nilai kosong (missing value) agar analisis tidak bias.
  3. Memastikan tipe data setiap variabel sesuai dengan kebutuhan analisis.

Dengan langkah tersebut, data yang digunakan dianggap layak dan siap untuk dianalisis lebih lanjut. Selanjutnya, dataset yang telah valid ini digunakan dalam tahapan analisis untuk membangun model regresi dan melakukan uji asumsi.

3.5 Tahapan Analisis Data

3.5.1 Persiapan Data

Tahap pertama dalam analisis data adalah persiapan data. Persiapan ini meliputi:

  1. Pengambilan Data

Data diperoleh dari Kaggle, yaitu dataset yang berisi variabel gaya hidup dan detak jantung. Dataset ini diunduh dalam format CSV agar mudah dibaca dan diolah.

  1. Penyimpanan Data

Dataset yang diperoleh dari Kaggle disimpan terlebih dahulu di komputer/laptop agar nantinya dapat dibuka dan diolah menggunakan software statistik seperti R.

  1. Pengecekan Data

Tahap ini dilakukan untuk memastikan dataset siap dianalisis. Langkah-langkah yang dilakukan antara lain:

  • Memastikan tipe data setiap variabel sesuai (numerik atau faktor).
  • Memeriksa adanya duplikasi dan nilai kosong (missing value).
  • Menampilkan 30 baris data secara acak untuk memastikan format variabel konsisten dan data siap dibersihkan.
library(readxl)
## Warning: package 'readxl' was built under R version 4.4.3
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(tidyr)
data_asli <- read.csv("C:/Users/user/OneDrive - untirta.ac.id/SEMESTER 3/KUMPULAN MATERI KULIAH/ANALISIS REGRESI/TUGAS/PROJEK ANREG X PDS/global_coffee_health.csv")

# Tampilkan 10 baris acak sebelum cleaning
set.seed(42)
head(sample_n(data_asli, 10), 10)

set.seed(42) digunakan untuk memastikan bahwa pengambilan sampel acak (random sampling) bersifat reproducible, artinya setiap kali kode dijalankan, hasil 10 baris acak yang ditampilkan akan sama.

3.5.2 Pembersihan Data (Data Cleaning)

Setelah dilakukan pengecekan awal terhadap dataset, tahap selanjutnya adalah pembersihan data (data cleaning) untuk memastikan bahwa data siap digunakan dalam proses analisis. Langkah-langkah yang dilakukan meliputi penghapusan data duplikat agar setiap observasi hanya muncul satu kali, menghapus nilai hilang (missing value/NA) untuk mencegah bias dalam perhitungan, serta merapikan variabel teks dengan menghilangkan spasi berlebih dan memastikan format penulisan konsisten. Selain itu, hanya variabel yang relevan dengan analisis, seperti detak jantung, usia, konsumsi kafein, durasi tidur, BMI, dan aktivitas fisik, yang dipilih untuk digunakan. Setelah pembersihan data, ditampilkan sebanyak 30 baris data secara acak. Langkah ini bertujuan untuk memastikan bahwa dataset bebas dari duplikasi, tidak mengandung nilai kosong, dan memiliki format variabel yang konsisten. Dengan demikian, kondisi dataset dapat dipastikan siap untuk memasuki tahap analisis berikutnya.

# Proses cleaning 
kolom_regresi <- c(
  "Heart_Rate", "Age", "Coffee_Intake", "Sleep_Hours", "BMI", "Physical_Activity_Hours")

data_clean <- data_asli %>%
  distinct() %>%                             # Hapus duplikasi
  drop_na() %>%                              # Hapus NA
  mutate(across(where(is.character), trimws)) %>%
  select(all_of(kolom_regresi))

# Tampilkan 30 baris setelah cleaning
set.seed(42)
data <- sample_n(data_clean, 30)
data

3.5.3 Pembentukan Model Regresi

Setelah proses pembersihan data selesai dan dataset dipastikan layak untuk dianalisis, langkah selanjutnya adalah mendefinisikan variabel-variabel yang akan digunakan dalam model regresi. Pada analisis ini, variabel Heart Rate ditetapkan sebagai variabel dependen, sedangkan age, coffee intake, sleep hours, BMI, dan physical activity hours digunakan sebagai variabel independen. Seluruh variabel tersebut kemudian dimasukkan ke dalam model regresi linear berganda sebagai full model untuk melihat pengaruh masing-masing faktor secara simultan terhadap detak jantung.

#===============================================================================
#DEFINISI VARIABEL 
Y = data$Heart_Rate
X1 = data$Age
X2 = data$Coffee_Intake
X3 = data$Sleep_Hours
X4 = data$BMI
X5 = data$Physical_Activity_Hours

# Full Model (5 Variabel X)
full_model <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data = data)
summary(full_model)

3.5.4 Uji Asumsi Klasik pada Full Model

Setelah mendefinisikan variabel dan membangun model regresi linear berganda, langkah selanjutnya adalah melakukan pemeriksaan terhadap asumsi-asumsi klasik regresi untuk mengevaluasi kondisi dan karakteristik model secara lebih menyeluruh. Tahapan uji asumsi klasik meliputi:

  1. Uji Normalitas Residual

Residual dianalisis untuk memastikan distribusinya mendekati normal. Metode yang digunakan antara lain histogram residual, Q-Q plot, dan uji Shapiro-Wilk.

# UJI ASUMSI KLASIK
# 1. Uji Normalitas Residual
residuals_full <- residuals(full_model)

# a) Histogram residual
hist(residuals_full, main="Histogram Residual", xlab="Residual", col="lightblue")
# b) Q-Q plot
qqnorm(residuals_full)
qqline(residuals_full, col = "red")
# c) Uji Shapiro-Wilk (p-value > 0.05 = normal)
shapiro.test(residuals_full)
  1. Uji Homoskedastisitas

Memeriksa apakah varians residual konstan di seluruh nilai prediksi. Dilakukan dengan plot residual terhadap nilai prediksi dan uji Breusch-Pagan.

# 2. Uji Homoskedastisitas
# a) Plot residual vs fitted values
plot(fitted(full_model), residuals_full, 
     main="Residual vs Fitted", xlab="Fitted Values", ylab="Residuals")
abline(h = 0, col = "red")
# b) Breusch-Pagan test 
library(lmtest)
bptest(full_model) # p-value > 0.05 homoskedastisitas terpenuhi
  1. Uji Autokorelasi

Tahap ini dilakukan untuk memastikan bahwa residual tidak saling berkorelasi. Uji Durbin-Watson merupakan salah satu metode untuk mendeteksi autokorelasi, terutama pada data deret waktu atau observasi berurutan.

# 3. Uji Autokorelasi
library(car)
durbinWatsonTest(full_model) # Nilai = 2 tidak ada autokorelasi
  1. Uji Multikolinearitas

Kekuatan hubungan antar variabel independen diperiksa untuk memastikan tidak terjadi korelasi yang berlebihan di antara variabel tersebut. Variabel independen yang saling berkorelasi terlalu tinggi dapat menimbulkan multikolinearitas, yang pada akhirnya mempengaruhi kestabilan dan akurasi estimasi koefisien regresi. Untuk mendeteksi kondisi ini, digunakan indikator berupa nilai VIF (Variance Inflation Factor), di mana nilai VIF yang rendah menunjukkan bahwa multikolinearitas tidak menjadi masalah dalam model.

# 4. Uji Multikolinearitas
# VIF > 5 atau 10 indikasi multikolinearitas tinggi
# VIF < 5 atau 10 tidak ada multikolinearitas
library(car)
vif(full_model) 
  1. Uji Linearitas

Linearitas antara variabel dependen dan setiap variabel independen diperiksa untuk memastikan bahwa hubungan yang terbentuk benar-benar bersifat linear, sesuai dengan asumsi dasar regresi linear. Pengecekan dilakukan dengan melihat scatter plot antara residual dan nilai prediksi, serta partial regression plots. Melalui kedua visualisasi tersebut, dapat diamati apakah pola hubungan sudah membentuk garis lurus atau justru menunjukkan pola melengkung yang menandakan pelanggaran asumsi linearitas.

# 5. Uji Linearitas
# a) Scatter plot residual vs prediksi
plot(fitted(full_model), residuals_full,
     main="Residuals vs Fitted (Linearitas)", xlab="Fitted Values", ylab="Residuals")
abline(h=0, col="red")
# b) Partial regression plots (untuk melihat linearitas tiap X)
crPlots(full_model)

3.5.5 Regresi dengan Semua Kombinasi Model

Proses analisis dimulai dengan membentuk seluruh kombinasi model regresi dari lima variabel independen. Jumlah total model ditentukan menggunakan rumus kombinasi model regresi, yaitu:

\[ 2^n - 1 \]

Dengan \(n\) adalah julah variabel independen. Pada analisis ini \(n = 5\), sehingga: \[ 2^5 - 1 = 30 \text{ model} \] Seluruh kombinasi tersebut dianalisis secara berurutan, dimulai dari model dengan satu variabel, kemudian dua, tiga, dan empat variabel, hingga mencapai model penuh. Setiap model kemudian dievaluasi berdasarkan signifikansi koefisien, p-value, nilai R-squared dan Adjusted R-squared, serta perubahan error ketika jumlah variabel ditambah. Tahapan ini dilakukan untuk menggambarkan bagaimana setiap kombinasi variabel berpengaruh terhadap variabel dependen dan memastikan seluruh model telah dianalisis sesuai prosedur Regresi dengan Semua Kombinasi Model

#==============================================================================
# METODE  ALL POSSIBLE REGRESSION
# 2^n-1, n = variabel independen 
# Jumlah model = 2^5 - 1 = 31

# 1 variabel
Model1  <- lm(Y ~ X1); summary(Model1)
Model2  <- lm(Y ~ X2); summary(Model2)
Model3  <- lm(Y ~ X3); summary(Model3)
Model4  <- lm(Y ~ X4); summary(Model4)
Model5  <- lm(Y ~ X5); summary(Model5)

# 2 variabel
Model6  <- lm(Y ~ X1 + X2); summary(Model6)
Model7  <- lm(Y ~ X1 + X3); summary(Model7)
Model8  <- lm(Y ~ X1 + X4); summary(Model8)
Model9  <- lm(Y ~ X1 + X5); summary(Model9)
Model10 <- lm(Y ~ X2 + X3); summary(Model10)
Model11 <- lm(Y ~ X2 + X4); summary(Model11)
Model12 <- lm(Y ~ X2 + X5); summary(Model12)
Model13 <- lm(Y ~ X3 + X4); summary(Model13)
Model14 <- lm(Y ~ X3 + X5); summary(Model14)
Model15 <- lm(Y ~ X4 + X5); summary(Model15)

# 3 variabel
Model16 <- lm(Y ~ X1 + X2 + X3); summary(Model16)
Model17 <- lm(Y ~ X1 + X2 + X4); summary(Model17)
Model18 <- lm(Y ~ X1 + X2 + X5); summary(Model18)
Model19 <- lm(Y ~ X1 + X3 + X4); summary(Model19)
Model20 <- lm(Y ~ X1 + X3 + X5); summary(Model20)
Model21 <- lm(Y ~ X1 + X4 + X5); summary(Model21)
Model22 <- lm(Y ~ X2 + X3 + X4); summary(Model22)
Model23 <- lm(Y ~ X2 + X3 + X5); summary(Model23)
Model24 <- lm(Y ~ X2 + X4 + X5); summary(Model24)
Model25 <- lm(Y ~ X3 + X4 + X5); summary(Model25)

# 4 variabel
Model26 <- lm(Y ~ X1 + X2 + X3 + X4); summary(Model26)
Model27 <- lm(Y ~ X1 + X2 + X3 + X5); summary(Model27)
Model28 <- lm(Y ~ X1 + X2 + X4 + X5); summary(Model28)
Model29 <- lm(Y ~ X1 + X3 + X4 + X5); summary(Model29)
Model30 <- lm(Y ~ X2 + X3 + X4 + X5); summary(Model30)

# 5 variabel
Model31 <- lm(Y ~ X1 + X2 + X3 + X4 + X5); summary(Model31)

3.5.6 Pemilihan Model Terbaik

1. Metode forward Selection

Forward Selection adalah metode pemilihan model regresi yang dimulai dari model paling sederhana, hanya berisi intercept. Variabel independen kemudian ditambahkan satu per satu ke model berdasarkan kontribusi signifikan terhadap variabel dependen. Pada setiap langkah, kriteria seperti nilai AIC digunakan untuk menilai kebaikan model, model dengan AIC terkecil dianggap lebih baik karena menunjukkan keseimbangan optimal antara kesesuaian model dan kompleksitasnya. Proses ini diulang hingga penambahan variabel lebih lanjut tidak lagi menurunkan nilai AIC secara signifikan.

#METODE 1: FORWARD SELECTION
# Model Intercept
intercept_model <- lm(Y ~ 1, data = data)

# Forward Selection
forward_model <- step(intercept_model,
                      scope = formula(lm(Y ~ X1 + X2 + X3 + X4 + X5, data = data)),
                      direction = "forward")

# Menampilkan ringkasan model final
summary(forward_model)

# Menampilkan  model final
print(forward_model)

2. Metode Backword Elimination

Backward Elimination merupakan metode pemilihan model yang dimulai dari model penuh, yaitu model yang sudah memuat semua variabel independen. Pada setiap langkah, variabel yang paling tidak signifikan dihapus satu per satu, dengan memeriksa kriteria seperti AIC. Model yang memiliki AIC terkecil dipilih sebagai model terbaik karena menyeimbangkan kesesuaian model dan kompleksitasnya. Proses ini diulang hingga semua variabel yang tersisa memberikan kontribusi signifikan terhadap variabel dependen, sehingga diperoleh model final yang optimal.

# METODE 2: BACKWARD ELIMINATION
# Model penuh (full model)
full_model_backward <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data = data)

# Backward Selection
backward_model <- step(full_model_backward,
                       direction = "backward")

# Menampilkan ringkasan model final
summary(backward_model)

# Menampilkan model final
print(backward_model)

3. Stepwise Selection

Stepwise Selection merupakan gabungan dari Forward Selection dan Backward Elimination. Proses dimulai dengan menambahkan variabel satu per satu berdasarkan signifikansi, sekaligus memeriksa variabel yang sudah ada apakah perlu dihapus karena kontribusinya tidak signifikan. Pemilihan model tetap mengacu pada AIC, di mana model dengan AIC terkecil dianggap paling optimal. Proses ini terus dilakukan hingga tidak ada variabel tambahan yang signifikan untuk ditambahkan atau dihapus, sehingga diperoleh model terbaik yang seimbang antara kesesuaian dan kompleksitas.

#METODE 3: STEPWISE SELECTION
stepwise_model <- step(lm(Y~X1+X2+X3+X4+X5),direction ="both")

#Menampilkan ringkasan model final  
summary(stepwise_model)

#Menampilkan model final
print(stepwise_model)

3.5.7 Uji Asumsi Klasik Model Terbaik

1. Uji Normalitas Residual

Tahap ini dilakukan untuk memastikan bahwa residual dari model terbaik terdistribusi secara normal. Pemeriksaan dilakukan dengan membuat histogram residual, Q-Q plot, dan uji Shapiro-Wilk. Hasil uji Shapiro-Wilk dengan p-value > 0,05 menunjukkan bahwa residual memenuhi asumsi normalitas.

#===============================================================================
Model_Terbaik <- stepwise_model  #karena ketiga metode menghasilkan model yang sama, pilih salah satu

# UJI ASUMSI KLASIK UNTUK MODEL TERBAIK
# 1. Uji Normalitas Residual 
residuals_akhir <- residuals(Model_Terbaik)

# a) Histogram residual
hist(residuals_akhir, main="Histogram Residual", xlab="Residual", col="lightgreen")
# b) Q-Q plot
qqnorm(residuals_akhir)
qqline(residuals_akhir, col = "blue")
# c) Uji Shapiro-Wilk (p-value > 0.05 = normal)
shapiro.test(residuals_akhir)

2. Uji Homoskedastisitas

Uji ini dilakukan untuk memastikan bahwa varians residual konstan di seluruh nilai prediksi (tidak terjadi heteroskedastisitas). Pemeriksaan dilakukan dengan melihat plot residual terhadap nilai fitted dan uji Breusch-Pagan. Model memenuhi asumsi homoskedastisitas jika p-value > 0,05 pada uji Breusch-Pagan.

# 2. Uji Homoskedastisitas
# a) Plot residual vs fitted values 
plot(fitted(Model_Terbaik), residuals_akhir, 
     main="Residual vs Fitted (Model Terbaik)", xlab="Fitted Values", ylab="Residuals")
abline(h = 0, col = "blue")
# b) Breusch-Pagan test
library(lmtest)
bptest(Model_Terbaik)  # p-value > 0.05 → homoskedastisitas terpenuhi

3. Uji Autokorelasi

Uji ini bertujuan untuk memastikan bahwa residual model tidak saling berkorelasi, terutama pada data berurutan. Model dianggap bebas dari autokorelasi jika nilai statistik Durbin-Watson mendekati 2.

# 3. Uji Autokorelasi
library(car)
durbinWatsonTest(Model_Terbaik)  

4. Uji Multikolinearitas

Tahap ini bertujuan untuk mengecek apakah variabel-variabel independen saling berkorelasi terlalu tinggi, karena hal itu bisa membuat estimasi koefisien regresi menjadi tidak stabil. Untuk mendeteksinya, digunakan nilai VIF (Variance Inflation Factor). Semakin rendah nilai VIF, semakin kecil kemungkinan terjadinya multikolinearitas. Biasanya, jika VIF > 10, ini menunjukkan adanya multikolinearitas yang kuat dan perlu perhatian.

# 4. Uji Multikolinearitas
library(car)
vif(Model_Terbaik)  

5. Uji Linieritas

Tahap ini bertujuan memastikan hubungan antara variabel dependen dan setiap variabel independen bersifat linear, sesuai asumsi dasar regresi linear. Pemeriksaan dilakukan dengan dua cara yaitu Scatter plot residual terhadap nilai prediksi digunakan untuk memvisualisasikan pola residual. Jika titik-titik tersebar secara acak di sekitar garis nol, maka asumsi linearitas dapat dianggap terpenuhi. Selain itu, partial regression plots digunakan untuk melihat hubungan linier antara variabel dependen dengan masing-masing variabel independen setelah mengendalikan pengaruh variabel lainnya.

# 5. Uji Linearitas
# a) Scatter plot residual vs prediksi 
plot(fitted(Model_Terbaik), residuals_akhir,
     main="Residuals vs Fitted (Model Terbaik - Linearitas)", xlab="Fitted Values", ylab="Residuals")
abline(h=0, col="red")
# b) Partial regression plots 
crPlots(Model_Terbaik)

3.6 Instrumen Analisis

Analisis data dilakukan menggunakan dua perangkat lunak, yaitu Microsoft Excel dan R. Microsoft Excel digunakan untuk melakukan pengecekan awal dataset CSV untuk memastikan struktur dan konsistensi data, sedangkan R digunakan sebagai perangkat utama untuk pengolahan dan analisis data.

3.7 Indikator Keberhasilan Analisis

  1. Kesiapan Data
  • Data telah dibersihkan dari duplikasi dan missing value.

  • Variabel memiliki tipe data sesuai kebutuhan analisis (numerik atau faktor).

  • Sebagian data acak (30 baris) ditampilkan untuk memastikan konsistensi format dan nilai variabel.

  1. Model Terbaik
  • Model regresi linear berganda berhasil dibentuk dengan variabel dependen dan independen yang telah ditentukan.

  • Model terbaik berhasil dipilih menggunakan Forward Selection, Backward Elimination, atau Stepwise Selection.

  1. Uji Asumsi Model Terbaik
  • Normalitas Residual: p-value Shapiro-Wilk > 0,05 maka residual terdistribusi normal.

  • Homoskedastisitas: p-value Breusch-Pagan > 0,05 maka varians residual konstan.

  • Autokorelasi: nilai Durbin-Watson mendekati 2 maka tidak terjadi autokorelasi.

  • Multikolinearitas: nilai VIF < 10 maka tidak terjadi multikolinearitas antar variabel independen.

  • Linearitas: scatter plot residual vs prediksi dan partial regression plots menunjukkan pola titik yang acak dan mendekati garis lurus.

BAB IV HASIL DAN PEMBAHASAN

4.1 Hasil Pembersihan Data

Tahap ini menggambarkan kondisi data setelah melalui proses persiapan seperti yang telah dijelaskan pada bab sebelumnya. Untuk memberi gambaran yang lebih jelas mengenai kualitas data awal serta perubahan yang terjadi selama proses pembersihan, ditampilkan cuplikan data sebelum dan sesudah dibersihkan. Melalui perbandingan ini, dapat dilihat bagaimana penghapusan data duplikat, penanganan nilai kosong, dan penyesuaian format variabel.

Data Setelah Proses Pembersihan
Heart_Rate Age Coffee_Intake Sleep_Hours BMI Physical_Activity_Hours
65 21 3.3 7.6 25.9 3.8
75 20 3.1 4.5 26.2 14.6
87 45 2.3 4.6 22.2 7.1
86 45 4.0 7.9 29.9 12.9
93 18 3.5 8.4 16.6 0.6
80 22 3.5 4.8 30.2 10.8
64 45 3.8 6.6 25.0 6.1
52 41 0.4 8.6 20.9 7.6
73 43 0.0 7.4 19.6 10.7
88 41 3.4 5.9 25.9 11.0
77 57 4.8 5.1 33.4 8.9
65 33 4.0 7.5 23.9 12.9
63 60 1.4 6.8 25.0 5.8
73 34 3.2 7.2 24.1 2.5
71 21 3.3 7.1 20.4 7.4
66 40 2.7 4.5 34.0 9.9
58 30 1.0 6.8 25.5 2.5
73 33 3.1 6.2 22.4 0.6
80 43 3.4 5.6 22.8 10.5
73 50 3.3 6.4 23.7 9.2
53 26 0.7 7.5 30.5 1.9
56 47 0.0 6.7 26.6 5.4
84 21 1.3 6.8 23.1 8.0
76 34 2.9 6.0 25.4 7.5
67 37 3.5 6.4 29.4 11.7
89 23 0.5 8.6 21.7 14.7
64 48 0.3 7.3 23.7 6.5
64 35 2.6 7.0 28.0 14.9
53 18 3.4 6.7 25.4 5.3
64 35 0.0 7.4 16.9 6.2

Setelah proses pembersihan, seluruh variabel yang dibutuhkan untuk analisis telah dalam kondisi siap digunakan, tanpa adanya duplikasi maupun data yang hilang. Penulisan variabel karakter juga telah distandarisasi agar konsisten dan tidak menimbulkan gangguan dalam proses pemodelan

4.2 Hasil Pemodelan Full Model

Pemodelan regresi linier berganda menggunakan lima variabel independen untuk membentuk full model.

## 
## Call:
## lm(formula = Y ~ X1 + X2 + X3 + X4 + X5, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -18.8723  -6.6172  -0.4372   5.3270  17.3118 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 103.57288   23.23526   4.458 0.000165 ***
## X1           -0.03754    0.16839  -0.223 0.825463    
## X2            3.09719    1.47721   2.097 0.046744 *  
## X3           -1.97474    1.96472  -1.005 0.324875    
## X4           -1.29179    0.54264  -2.381 0.025573 *  
## X5            0.84658    0.48013   1.763 0.090596 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 10.19 on 24 degrees of freedom
## Multiple R-squared:  0.3399, Adjusted R-squared:  0.2024 
## F-statistic: 2.471 on 5 and 24 DF,  p-value: 0.06094

Model regresi linear berganda yang diperoleh adalah sebagai berikut:

\[ Y = 103.57288 - 0.03754X_1 + 3.09719X_2 - 1.97474X_3 - 1.29179X_4 + 0.84658X_5 \]

Model ini menggambarkan hubungan antara Heart Rate (Y) dan lima variabel prediktor. Nilai intersep sebesar 103,57 berfungsi sebagai titik awal estimasi ketika seluruh variabel independen dianggap bernilai nol. Variabel Age (\(X_1\)) memiliki koefisien negatif kecil, menunjukkan perubahan usia hanya memberikan pengaruh yang sangat kecil pada detak jantung. Variabel Coffee Intake (\(X_2\)) memiliki koefisien positif, yang berarti peningkatan konsumsi kopi cenderung meningkatkan detak jantung.

Durasi tidur (\(X_3\)) memiliki koefisien negatif sehingga peningkatan jam tidur berkaitan dengan sedikit penurunan detak jantung. BMI (\(X_4\)) juga menunjukkan koefisien negatif, menandakan bahwa seseorang dengan BMI lebih tinggi cenderung memiliki detak jantung lebih rendah dalam model ini. Sementara itu, Physical Activity Hours (\(X_5\)) memiliki koefisien positif, yang menunjukkan bahwa aktivitas fisik dikaitkan dengan kenaikan detak jantung.

4.3 Hasil Uji Asumsi Klasik pada Full Model

4.3.1 Uji Normalitas Residual

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals_full
## W = 0.97811, p-value = 0.7735

Berdasarkan histogram residual, pola yang muncul menunjukkan kecenderungan membentuk kurva lonceng dengan pusat distribusi berada di sekitar nilai nol. Meskipun tidak seluruh bagian histogram tampak simetris sempurna, penyimpangan yang ada tidak cukup besar untuk menimbulkan indikasi pelanggaran yang berarti. Gambaran ini diperjelas melalui Normal Q-Q Plot, di mana mayoritas titik berada sangat dekat dengan garis diagonal yang merepresentasikan distribusi normal. Sedikit deviasi di bagian ekor memang terlihat, tetapi tergolong kecil dan masih dalam batas toleransi untuk sebuah model regresi. Untuk memastikan temuan visual tersebut, dilakukan uji Shapiro-Wilk sebagai pengujian statistik formal. Hasil uji menunjukkan nilai W sebesar 0.97811 dengan p-value 0.7735. Karena p-value tersebut jauh melebihi batas signifikansi 0.05, hipotesis nol yang menyatakan bahwa residual mengikuti distribusi normal tidak dapat ditolak. Dengan demikian, baik hasil visual maupun uji statistik memberikan kesimpulan konsisten bahwa residual model terdistribusi secara normal. Kondisi ini menegaskan bahwa asumsi normalitas residual telah terpenuhi dan analisis model dapat dilanjutkan tanpa hambatan yang berkaitan dengan pelanggaran asumsi ini.

4.3.2 Uji Multikolinearitas

##       X1       X2       X3       X4       X5 
## 1.088169 1.265356 1.430581 1.445087 1.083185

Hasil uji multikolinearitas pada model regresi menunjukkan bahwa nilai Variance Inflation Factor (VIF) untuk seluruh variabel independen yaitu 1,088, 1,2653, 1, 43, 1,445, 1,083. Nilai ini masih jauh di bawah batas kritis umum, yaitu 5 atau 10, yang menandakan tidak adanya masalah multikolinearitas yang serius antar variabel. Dengan demikian, variabel-variabel bebas dari korelasi tinggi yang dapat menyebabkan ketidakstabilan estimasi koefisien regresi. Dapat disimpulkan bahwa asumsi multikolinearitas pada full model ini terpenuhi.

4.3.3 Uji Homoskedastisitas

## 
##  studentized Breusch-Pagan test
## 
## data:  full_model
## BP = 13.511, df = 5, p-value = 0.01904

Berdasarkan analisis yang dilakukan, hasil Uji Homoskedastisitas menunjukkan bahwa model regresi Anda mengalami masalah heteroskedastisitas. Dari plot Residual vs Fitted, terlihat bahwa sebaran titik residual tidak tersebar secara acak dan variansnya tidak konstan; seiring meningkatnya nilai prediksi, variansi residual cenderung melebar, terutama di sisi kanan plot. Hal ini memberikan indikasi adanya heteroskedastisitas secara visual. Hasil uji formal menggunakan Uji Breusch-Pagan memperkuat temuan ini, di mana diperoleh nilai statistik BP sebesar 13.511 dengan derajat kebebasan 5 dan p-value sebesar 0.01904. Karena p-value ini lebih kecil dari 0.05, hipotesis nol yang menyatakan bahwa varians residual konstan ditolak. Dengan demikian, asumsi homoskedastisitas pada model regresi tidak terpenuhi, yang berarti meskipun estimator koefisien regresi tetap tidak bias dan konsisten, variansnya menjadi bias sehingga uji signifikansi seperti uji t dan uji F menjadi kurang valid.

Namun, pelanggaran ini tidak menjadi kendala utama karena uji asumsi klasik pada full model memang difokuskan sebagai pemeriksaan awal. Hasil ini menjadi dasar untuk mengevaluasi dan memperbaiki model melalui proses seleksi.

4.3.4 Uji Autokorelasi

##  lag Autocorrelation D-W Statistic p-value
##    1        0.271198       1.43455   0.104
##  Alternative hypothesis: rho != 0

Hasil uji Durbin-Watson menunjukkan nilai statistik sebesar 1.43455 dengan p-value 0.104 pada lag 1. Nilai autokorelasi sebesar 0.271 mengindikasikan adanya kecenderungan autokorelasi positif, namun karena p-value lebih besar dari 0.05, hipotesis nol yang menyatakan tidak ada autokorelasi residual tidak dapat ditolak. Dengan demikian, secara statistik tidak ditemukan bukti kuat adanya autokorelasi residual pada model ini.

Meskipun asumsi autokorelasi pada full model ini belum sepenuhnya terpenuhi secara ideal, kondisi tersebut tidak menjadi penghambat untuk melanjutkan proses pemilihan model (model seleksi). Uji asumsi pada full model ini berfungsi sebagai pemeriksaan awal untuk mengidentifikasi potensi masalah.

4.3.5 Uji Linearitas

Asumsi linearitas dalam regresi diuji melalui plot “Residuals vs Fitted”, yang memperlihatkan distribusi residual terhadap nilai prediksi. Pada plot ini, residual ditempatkan di sumbu Y, sedangkan nilai yang diprediksi berada di sumbu X. Sebuah garis horizontal merah menandai posisi nol residual. Sebaran titik yang acak dan tidak berpola di sekitar garis ini menjadi indikasi bahwa hubungan dalam model bersifat linear. Dari plot yang diperoleh, tidak tampak pola khusus seperti lengkungan atau gelombang; titik-titik terlihat tersebar acak di atas dan di bawah garis nol. Hal ini menunjukkan bahwa tidak ada pelanggaran nyata terhadap asumsi linearitas. Dengan demikian, model regresi dapat diasumsikan memiliki hubungan linear antar variabel.

Plot partial residual dimanfaatkan untuk menilai apakah hubungan antara masing-masing variabel independen dan variabel dependen bersifat linear, setelah efek variabel lain dalam model diperhitungkan. Asumsi linearitas dianggap terpenuhi apabila garis smoothing (magenta) mengikuti arah yang serupa dengan garis biru putus-putus yang merepresentasikan komponen linear.

Berdasarkan hasil visualisasi, variabel \(X_1\) dan \(X_2\) masih menunjukkan pola yang mendekati garis linear. Sementara itu, variabel \(X_3\), \(X_4\), dan \(X_5\) tampak mengalami penyimpangan dari garis tersebut, yang mengindikasikan kemungkinan adanya hubungan non-linear. Dengan demikian, diperlukan pertimbangan untuk menerapkan transformasi pada variabel-variabel tersebut agar hubungan yang terbentuk lebih sesuai dengan asumsi linearitas model.

4.4 Hasil Seleksi Model

Untuk memperoleh model regresi terbaik yang sederhana namun tetap mampu menghasilkan prediksi yang akurat, dilakukan proses seleksi model menggunakan beberapa metode. Metode yang diterapkan mencakup All Possible Regression, Forward Selection, Backward Elimination, dan Stepwise Regression. Keempat metode ini dibandingkan untuk menentukan kombinasi variabel independen yang paling optimal dalam menjelaskan variabel dependen.

4.4.1 Hasil All Possible Regression

Metode All Possible Regression dilakukan dengan mengevaluasi semua kombinasi variabel independen yang mungkin dibentuk dalam model regresi. Setiap model yang dihasilkan dibandingkan berdasarkan kriteria nilai Adjusted R-squared.

Model24  <- lm(Y ~ X2 + X4 + X5)
summary(Model24)

Model regresi linier Model24, yang melibatkan variabel independen \(X_2\), \(X_4\), dan \(X_5\), menunjukkan kemampuan yang cukup baik dalam memprediksi variabel dependen Y. Model ini memiliki nilai Adjusted R-squared sebesar 0.2325, yang merupakan nilai tertinggi dibandingkan kombinasi model lain yang diuji, sehingga dipilih sebagai model terbaik. Nilai tersebut mengindikasikan bahwa sekitar 23,25% variasi pada variabel Y dapat dijelaskan oleh ketiga variabel prediktor tersebut, setelah disesuaikan dengan jumlah variabel dalam model. Penggunaan Adjusted R-squared sebagai kriteria seleksi dinilai tepat karena mempertimbangkan penalti atas kompleksitas model, sehingga model yang dihasilkan tetap efisien. Selain itu, hasil uji F menunjukkan bahwa model ini signifikan secara statistik (F = 3.928; p-value = 0.01947), yang berarti paling tidak satu dari ketiga prediktor memberikan kontribusi yang signifikan terhadap Y.

Penjelasan Koefisien:

  • \(X_2\) memiliki pengaruh positif yang signifikan terhadap Y, di mana kenaikan satu satuan pada \(X_2\) diperkirakan akan meningkatkan Y sebesar 3.5122 satuan, dengan asumsi variabel lain tetap.

  • Sebaliknya, \(X_4\) memberikan pengaruh negatif yang juga signifikan, kenaikan satu satuan pada \(X_4\) cenderung menurunkan Y sebesar 1.1074 satuan.

  • \(X_5\), meskipun belum mencapai signifikansi penuh, menunjukkan arah hubungan positif yang lemah. Koefisiennya sebesar 0.8767 dengan p-value mendekati signifikan (0.0728), menunjukkan pengaruh positif meski belum mencapai tingkat signifikansi konvensional. Koefisien sebesar 0.8767 dengan nilai p yang mendekati batas signifikan (0.0728) mengindikasikan adanya potensi pengaruh \(X_5\) terhadap Y yang perlu diperhatikan.

4.4.2 Metode Forward

Forward Selection merupakan metode seleksi model yang dimulai dari model kosong, kemudian menambahkan variabel satu per satu berdasarkan kontribusi signifikan terhadap model. Proses ini terus dilakukan hingga tidak ada lagi variabel yang secara signifikan meningkatkan performa model.

## Start:  AIC=147.07
## Y ~ 1
## 
##        Df Sum of Sq    RSS    AIC
## + X2    1    456.53 3321.3 145.21
## + X5    1    296.95 3480.9 146.62
## <none>              3777.9 147.07
## + X3    1    111.16 3666.7 148.18
## + X4    1    109.58 3668.3 148.19
## + X1    1     32.15 3745.7 148.81
## 
## Step:  AIC=145.21
## Y ~ X2
## 
##        Df Sum of Sq    RSS    AIC
## + X4    1    371.90 2949.4 143.65
## <none>              3321.3 145.21
## + X5    1    199.75 3121.6 145.35
## + X1    1     18.81 3302.5 147.04
## + X3    1      6.94 3314.4 147.15
## 
## Step:  AIC=143.65
## Y ~ X2 + X4
## 
##        Df Sum of Sq    RSS    AIC
## + X5    1    349.71 2599.7 141.86
## <none>              2949.4 143.65
## + X3    1    131.02 2818.4 144.28
## + X1    1      0.09 2949.3 145.64
## 
## Step:  AIC=141.86
## Y ~ X2 + X4 + X5
## 
##        Df Sum of Sq    RSS    AIC
## <none>              2599.7 141.86
## + X3    1   100.730 2499.0 142.67
## + X1    1     0.923 2598.8 143.85

Berdasarkan hasil prosedur Forward Selection, pemodelan dimulai dari model paling sederhana, yaitu model kosong \(Y \sim 1\) dengan AIC awal sebesar 147.07. Pada langkah pertama, variabel \(X_2\) memberikan penurunan AIC paling signifikan ke 145.21, sehingga dimasukkan ke dalam model. Langkah selanjutnya mengevaluasi penambahan variabel ke dalam model \(Y \sim X_2\). Variabel \(X_4\) menghasilkan penurunan AIC yang paling besar ke 143.65, sehingga X4 ditambahkan ke model. Pada langkah ketiga, dari model \(Y \sim X_2 + X_4\), penambahan variabel \(X_5\) kembali menurunkan AIC menjadi 141.86, yang merupakan nilai AIC terendah dalam seluruh proses seleksi ini.

Setelah \(X_2\), \(X_4\), dan \(X_5\) dimasukkan, tidak ada lagi variabel yang dapat ditambahkan untuk menurunkan AIC secara signifikan. Bahkan penambahan \(X_3\) atau \(X_1\) menyebabkan AIC meningkat. Oleh karena itu, proses seleksi berhenti dan model akhir yang terpilih adalah:
\[ Y \sim X_2 + X_4 + X_5 \] dengan nilai RSS = 2599.7 dan AIC = 141.86, menjadikannya model paling optimal berdasarkan pendekatan Forward Selection.

4.4.3 Metode Backward

Backward Elimination dimulai dari model penuh yang mencakup seluruh variabel independen, kemudian secara bertahap menghapus variabel yang tidak signifikan. Proses ini dilakukan hingga semua variabel yang tersisa dalam model memiliki memberikan pengaruh signifikan secara statistik.

## Start:  AIC=144.61
## Y ~ X1 + X2 + X3 + X4 + X5
## 
##        Df Sum of Sq    RSS    AIC
## - X1    1      5.16 2499.0 142.67
## - X3    1    104.97 2598.8 143.85
## <none>              2493.8 144.61
## - X5    1    323.05 2816.9 146.27
## - X2    1    456.78 2950.6 147.66
## - X4    1    588.87 3082.7 148.97
## 
## Step:  AIC=142.67
## Y ~ X2 + X3 + X4 + X5
## 
##        Df Sum of Sq    RSS    AIC
## - X3    1    100.73 2599.7 141.86
## <none>              2499.0 142.67
## - X5    1    319.42 2818.4 144.28
## - X2    1    489.94 2988.9 146.04
## - X4    1    622.40 3121.4 147.34
## 
## Step:  AIC=141.86
## Y ~ X2 + X4 + X5
## 
##        Df Sum of Sq    RSS    AIC
## <none>              2599.7 141.86
## - X5    1    349.71 2949.4 143.65
## - X4    1    521.86 3121.6 145.35
## - X2    1    646.85 3246.6 146.53

Hasil prosedur backward elimination dimulai dengan model penuh \(Y \sim X_1 + X_2 + X_3 + X_4 + X_5\) yang memiliki nilai AIC sebesar 144.61. Pada langkah pertama, variabel \(X_1\) dihapus karena mengurangi AIC menjadi 142.67, sehingga model menjadi \(Y \sim X_2 + X_3 + X_4 + X_5\). Selanjutnya, dari model tersebut, penghapusan variabel \(X_3\) kembali menurunkan AIC ke 141.86, menghasilkan model \(Y \sim X_2 + X_4 + X_5\) sebagai model terbaik pada tahap ini. Setelah itu, tidak ada variabel lain yang dapat dihapus tanpa meningkatkan AIC. Penambahan kembali variabel seperti \(X_3\) atau \(X_1\) justru menaikkan nilai AIC, sehingga model \(Y \sim X_2 + X_4 + X_5\) dengan AIC 141.86 dianggap paling optimal.

Model ini memiliki RSS sebesar 2599.7, menunjukkan keseimbangan yang baik antara kompleksitas model dan kecocokan data. Dengan demikian, variabel \(X_5\), \(X_4\), dan \(X_5\) dianggap paling signifikan untuk menjelaskan Y dalam model ini.

4.4.4 Metode Stepwise

Stepwise Regression menggabungkan prinsip dari metode forward dan backward, di mana variabel dapat ditambahkan atau dihapus pada setiap langkah berdasarkan kriteria statistik.

## Start:  AIC=144.61
## Y ~ X1 + X2 + X3 + X4 + X5
## 
##        Df Sum of Sq    RSS    AIC
## - X1    1      5.16 2499.0 142.67
## - X3    1    104.97 2598.8 143.85
## <none>              2493.8 144.61
## - X5    1    323.05 2816.9 146.27
## - X2    1    456.78 2950.6 147.66
## - X4    1    588.87 3082.7 148.97
## 
## Step:  AIC=142.67
## Y ~ X2 + X3 + X4 + X5
## 
##        Df Sum of Sq    RSS    AIC
## - X3    1    100.73 2599.7 141.86
## <none>              2499.0 142.67
## - X5    1    319.42 2818.4 144.28
## + X1    1      5.16 2493.8 144.61
## - X2    1    489.94 2988.9 146.04
## - X4    1    622.40 3121.4 147.34
## 
## Step:  AIC=141.86
## Y ~ X2 + X4 + X5
## 
##        Df Sum of Sq    RSS    AIC
## <none>              2599.7 141.86
## + X3    1    100.73 2499.0 142.67
## - X5    1    349.71 2949.4 143.65
## + X1    1      0.92 2598.8 143.85
## - X4    1    521.86 3121.6 145.35
## - X2    1    646.85 3246.6 146.53

Berdasarkan hasil seleksi model menggunakan metode Stepwise Selection, proses dimulai dari model penuh dengan semua variabel \(Y \sim X_1 + X_2 + X_3 + X_4 + X_5\) dan AIC awal sebesar 144.61. Pada langkah pertama, variabel \(X_1\) dihapus karena pengeluarannya menurunkan AIC menjadi 142.67. Ini menunjukkan bahwa \(X_1\) tidak memberi kontribusi yang cukup kuat dalam model. Setelah \(X_1\) dikeluarkan, model menjadi \(Y \sim X_2 + X_3 + X_4 + X_5\). Di langkah berikutnya, variabel \(X_3\) dieliminasi karena penghapusannya kembali menurunkan AIC menjadi 141.86. Pada titik ini, model yang terbentuk adalah \(Y \sim X_2 + X_4 + X_5\). Selanjutnya, proses mencoba menambahkan kembali \(X_3\) atau \(X_1\), tetapi tidak menghasilkan penurunan AIC. Justru, penambahan tersebut menaikkan AIC, yang berarti tidak meningkatkan kualitas model. Penghapusan \(X_2\) , \(X_4\) , atau \(X_5\) pun juga menyebabkan AIC naik.

Dengan demikian, proses berhenti pada model \(Y \sim X_2 + X_4 + X_5\) dengan AIC akhir sebesar 141.86 dan RSS = 2599.7. Model ini dipilih sebagai model terbaik oleh metode stepwise

4.4.5 Pemilihan Model Terbaik

Berdasarkan hasil analisis dari keempat metode seleksi model yang digunakan, yaitu All Possible Regression, Forward Selection, Backward Elimination, dan Stepwise Selection, diperoleh model terbaik yang sama, yaitu model dengan variabel prediktor \(X_2\) , \(X_4\) , dan \(X_5\). Model yang terpilih dalam analisis ini memprediksi variabel Detak Jantung berdasarkan tiga variabel independent, yaitu Asupan Kopi, Indeks Massa Tubuh, dan Lama Aktivitas Fisik. Ketiga variabel ini dianggap paling berpengaruh dalam menjelaskan variasi detak jantung responden, sehingga dimasukkan dalam model akhir yang dianggap paling optimal.

4.5 Hasil Uji Asumsi Klasik pada Model Terbaik

4.5.1 Uji Normalitas Residual

Uji normalitas residual dilakukan untuk memastikan bahwa model regresi terbaik yang telah diperoleh memenuhi salah satu asumsi dasar regresi linear, yaitu residual harus terdistribusi normal. Asumsi ini penting karena berpengaruh terhadap validitas pengujian signifikansi parameter dalam model.

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals_akhir
## W = 0.96549, p-value = 0.4242

Secara visual, histogram menunjukkan pola yang menyerupai distribusi normal, menunjukkan bahwa sebagian besar residual berada di sekitar rata-rata nol dan menyebar secara simetris. Hal ini juga didukung oleh hasil Q-Q plot, yang menunjukkan bahwa sebagian besar titik berada di sepanjang garis lurus, meskipun terdapat sedikit penyimpangan pada bagian ekor. Penyimpangan tersebut masih dalam batas yang dapat diterima. Secara statistik, hasil uji Shapiro-Wilk memberikan nilai p sebesar 0,4242. Karena nilai p tersebut lebih besar dari tingkat signifikansi 0,05, maka hipotesis nol yang menyatakan bahwa residual berdistribusi normal tidak dapat ditolak.

Dengan demikian, dapat disimpulkan bahwa residual dari model regresi terbaik telah memenuhi asumsi normalitas, baik berdasarkan visualisasi maupun uji shapiro-wilk.

4.5.2 Uji Multikolinearitas

##       X2       X4       X5 
## 1.149069 1.198450 1.073192

Berdasarkan hasil perhitungan Variance Inflation Factor (VIF), diperoleh nilai sebagai berikut:

  • X2 (Asupan Kopi): 1.149
  • X4 (Indeks Massa Tubuh): 1.198
  • X5 (Lama Aktivitas Fisik): 1.073

Nilai-nilai VIF tersebut semuanya berada jauh di bawah ambang batas umum (10), yang mengindikasikan bahwa tidak terdapat masalah multikolinearitas dalam model. Dengan demikian, asumsi bebas multikolinearitas telah terpenuhi pada model regresi terbaik yang digunakan.

4.5.3 Uji Homoskedastisitas

## 
##  studentized Breusch-Pagan test
## 
## data:  Model_Terbaik
## BP = 5.0918, df = 3, p-value = 0.1652

Berdasarkan hasil uji homoskedastisitas yang dilakukan terhadap model regresi terbaik, dapat disimpulkan bahwa asumsi ini telah terpenuhi. Visualisasi melalui plot Residual vs Fitted menunjukkan penyebaran titik-titik residual yang acak dan tidak membentuk pola tertentu, yang mengindikasikan tidak adanya gejala heteroskedastisitas secara visual. Selain itu, hasil uji Breusch-Pagan menghasilkan p-value sebesar 0.1652, yang lebih besar dari tingkat signifikansi 0.05. Oleh karena itu, hipotesis nol yang menyatakan varians residual konstan gagal ditolak, sehingga secara statistik model ini tidak mengalami masalah heteroskedastisitas. Dengan terpenuhinya asumsi ini, model regresi terbaik dinilai layak dari sisi kestabilan varians residualnya.

4.5.4 Uji Autokorelasi

##  lag Autocorrelation D-W Statistic p-value
##    1       0.2475551      1.483526   0.156
##  Alternative hypothesis: rho != 0

Berdasarkan hasil uji autokorelasi menggunakan Durbin-Watson Test pada model regresi terbaik, diperoleh nilai statistik Durbin-Watson sebesar 1.4835 dan p-value sebesar 0.156. Karena nilai p lebih besar dari 0.05, maka hipotesis nol (tidak ada autokorelasi) gagal ditolak. Ini menunjukkan bahwa tidak terdapat autokorelasi signifikan antar residual pada model. Dengan demikian, asumsi klasik mengenai tidak adanya autokorelasi telah terpenuhi, yang berarti residual model bersifat independen satu sama lain.

4.5.5 Uji Linearitas

Dari hasil Residuals vs Fitted Plot, tampak bahwa titik-titik residual tersebar secara acak di sekitar garis horizontal nol. Ada beberapa titik yang naik-turun sedikit, tetapi pola itu tidak menunjukkan arah tertentu atau perubahan bentuk yang menonjol. Sebaran yang berada di atas dan bawah garis nol ini mengindikasikan bahwa model regresi linier masih mampu menggambarkan hubungan antar variabel dengan cukup baik.

Hasil dari Component + Residual Plots juga mendukung adanya hubungan yang cukup linear. Memang ada sedikit perubahan bentuk pada garis non-parametrik untuk variabel Indeks Massa Tubuh (\(X_4\)), Asupan Kopi (\(X_2\)), dan Lama Aktivitas Fisik (\(X_5\)), tetapi garis linear (biru putus-putus) tetap relatif sesuai dengan pola utama data. Penyimpangan kecil tersebut masih dapat dianggap sebagai variasi biasa dalam data, bukan sebagai masalah bentuk hubungan yang serius. Dengan demikian, asumsi linearitas dapat dinyatakan terpenuhi.

BAB V KESIMPULAN DAN SARAN

5.1 Kesimpulan

Berdasarkan hasil analisis regresi linear berganda dan perbandingan metode seleksi model yang telah dilakukan, berikut adalah kesimpulan yang menjawab rumusan masalah dalam penelitian ini:

  1. Pengaruh Variabel Terhadap Heart Rate: Secara simultan, faktor gaya hidup yang terdiri dari Asupan Kopi (X2), Indeks Massa Tubuh (X4), dan Lama Aktivitas Fisik (X5) berpengaruh signifikan terhadap Detak Jantung (Heart Rate). Namun, secara parsial, hanya variabel Asupan Kopi (X2) yang menunjukkan pengaruh positif dan signifikan terhadap Detak Jantung. Variabel Indeks Massa Tubuh (X4) dan Lama Aktivitas Fisik (X5) tidak memberikan pengaruh yang signifikan secara individu dalam model terbaik yang terpilih3.

  2. Model Regresi Terbaik: Model regresi yang paling tepat untuk menjelaskan pengaruh faktor gaya hidup terhadap Detak Jantung adalah model yang melibatkan variabel prediktor Asupan Kopi (X2), Indeks Massa Tubuh (X4), dan Lama Aktivitas Fisik (X5).

    • Persamaan model regresi terbaik adalah: \[\hat{Y} = 95.3855 + 3.5122 X_2 - 0.5484 X_4 + 0.1176 X_5\]
  3. Metode Seleksi Variabel: Ketiga metode seleksi variabel yang digunakan (Forward Selection, Backward Elimination, dan Stepwise Selection) menghasilkan model terbaik yang sama, yaitu model dengan variabel X2, X4, dan X5. Model ini dipilih karena menghasilkan nilai Adjusted R-squared tertinggi sebesar 0.2325 (menggunakan All Possible Regression) dan nilai Akaike Information Criterion (AIC) terendah.

  4. Uji Asumsi Klasik: Model regresi terbaik yang terpilih (\(\hat{Y} \sim X_2 + X_4 + X_5\)) telah memenuhi semua asumsi klasik, meliputi:

    • Normalitas Residual: Residual terdistribusi secara normal (nilai p-value Shapiro-Wilk = 0.4242)
    • Multikolinearitas: Tidak terdapat masalah multikolinearitas (nilai VIF jauh di bawah 10).
    • Homoskedastisitas: Asumsi homoskedastisitas terpenuhi (nilai p-value Breusch-Pagan = 0.211).
    • Autokorelasi: Tidak terdapat autokorelasi (nilai p-value Durbin-Watson = 0.156).
    • Linearitas: Asumsi linearitas dianggap terpenuhi.

5.2 Saran

Berdasarkan kesimpulan dan keterbatasan penelitian ini, berikut adalah beberapa saran yang dapat diajukan:

  • Peningkatan Daya Prediksi Model: Mengingat nilai model hanya sebesar 0.2325 (menjelaskan sekitar 23% variasi), disarankan untuk melakukan eksplorasi lebih lanjut dengan menambahkan variabel prediktor lain yang tersedia dalam dataset (misalnya, Stress_Level, Smoking, Health_Issues) ke dalam model untuk meningkatkan daya prediksi dan kemampuan eksplanatori model regresi.
  • Eksplorasi Metode Pemodelan: Berdasarkan temuan adanya sedikit indikasi non-linearitas pada plot residual untuk beberapa variabel (X4 dan X5), disarankan untuk mencoba teknik transformasi data (seperti logaritma) pada variabel prediktor dan/atau menggunakan model regresi non-linear untuk menguji apakah terdapat model yang secara statistik lebih baik dan lebih sesuai dengan pola hubungan data.

  • Validasi dan Generalisasi: Disarankan untuk melakukan validasi model yang terpilih dengan menggunakan data baru atau teknik cross-validation untuk menguji generalisasi model.

  • Fokus Variabel Signifikan: Pada penelitian selanjutnya, perlu ditelusuri lebih lanjut mengapa variabel Indeks Massa Tubuh (X4) dan Lama Aktivitas Fisik (X5) tidak signifikan secara parsial dalam model akhir. Analisis dapat diperdalam dengan membandingkan hasil regresi sederhana dan berganda untuk variabel tersebut.

Daftar Pustaka

Deslen, N. V., Aulele, S. N., Patty, H. W. M., & Kelbulan, N. (2019). Pemilihan model terbaik pada analisis regresi multivariat dengan kriteria AIC. Jurnal Matematika dan Terapan, 13(1).

Clement, E. P. (2014). Using normalize Bayesian information criterion (BIC) to improve box–Jenkins model building. American Journal of Mathematics and Statistics, 4(5).

Wohon, S. C., Hatidja, D., & Nainggolan, N. (2017). Penentuan model regresi terbaik dengan menggunakan metode stepwise (Studi Kasus: Impor Beras di Sulawesi Utara). Jurnal Matematika dan Ilmu Pengetahuan Alam.

Maharani, I. F., Satyahadewi, N., & Kusnandar, D. (2014). Metode ordinary least square dan least trimmed squares dalam mengestimasi parameter regresi ketika terdapat outlier. Buletin Ilmiah Matematika, Statistika, dan Terapan, 3(3).

Samosir, N., Siagian, P., & Bangun, P. (2014). Analisa metode backward dan metode forward untuk menentukan persamaan linier berganda. Saintia Matematika, 2(4), 345–360.

Astriawati, N. (2016). Penerapan analisis regresi linier berganda untuk menentukan pengaruh pelayanan pendidikan terhadap efektivitas belajar taruna di Akademi Maritim Yogyakarta. Jurnal Ilmu–Ilmu Kemaritiman, Manajemen, dan Transportasi, 23(24).

Mardiatmoko, G. (2020). Pentingnya uji asumsi klasik pada analisis regresi linier berganda (Studi Kasus: Penyusunan Persamaan Allometrik Kenari Muda [Canarium indicum L.]). Jurnal Ilmu Matematika dan Terapan, 14(3).

Naufal, M. J., Ompusunggu, D. P., Sinaga, R. A., Sitohang, M. D. A., Gunawan, T. N., Simatupang, M., Salsabila, N. A., Simanullang, T., & Hutasoit, B. T. (2025). A theoretical study of multicollinearity and linearity in econometric models for economic research. Jurnal Ekonomi, 21(1).

Kurniawan, D. (2008). Regresi linier (Edisi ke-7). R Development Core Team.