1 PENDAHULUAN
1.1 Latar Belakang
Analisis regresi adalah suatu analisis yang dilakukan terhadap dua variabel yaitu variabel independen (prediktor) dan variabel dependen (respon) untuk mengetahui apakah ada pengaruh variabel prediktor terhadap variabel respon sehingga variabel respon dapat diduga berdasarkan variabel prediktornya. Berdasarkan jumlah variabel independennya, analisis regresi linier dibagi menjadi dua macam yaitu, analisis regresi linier sederhana dan analisis regresi linier ganda. Pada, analisis regresi linier sederhana, jumlah variabel independen yang digunakan sebagai penduga variabel dependen adalah satu. Sedangkan pada analisis regresi linier ganda, jumlah variabel independen yang digunakan sebagai penduga variabel dependen adalah lebih dari satu.
Saat ini, analisis regresi yang lebih sering digunakan adalah analisis regresi linier ganda. Dapat dilihat dari berbagai kejadian yang terjadi dalam kehidupan sehari-hari yaitu suatu peristiwa dapat disebabkan oleh berbagai faktor yang mempengaruhinya. Contohnya, tinggi bayi sekarang yang dipengaruhi oleh usia bayi, panjang bayi waktu lahir , berat bayi waktu lahir, dan ukuran dada bayi waktu lahir. Regresi sendiri memiliki sejarah dan terus dikembangkan. Serangkaian studi yang dikembangkan oleh para statistisi berhasil menunjukkan bahwa dalam banyak kasus, regresi menggunakan teknik kuadrat terkecil (khususnya teknik Ordinary Least Square/OLS) sering memberikan hasil yang kurang tepat. Oleh sebab itu,banyak bermunculan teknik “Regresi Modern”, yaitu regresi yang digunakan pada kondisi dimana asumsi-asumsi klasik tidak terpenuhi.
Berdasarkan latar belakang inilah peneliti memberi judul “Model Regresi Ridge untuk Mengatasi Model Regresi Linier Berganda yang Mengandung Multikolinieritas (Studi Kasus : Data Pertumbuhan Bayi pada Kelurahan Namaelo RT 001, Kota Masohi)“.
1.2 Principal Component Anallysis (PCA)
Metode PCA bertujuan untuk menyederhanakan variabel yang diamati dengan cara mereduksi dimensinya. Hal ini dilakukan dengan cara menghilangkan korelasi diantara variabel bebas melalui transformasi variabel bebas asal ke variabel baru yang tidak berkorelasi sama sekali. Setelah beberapa komponen hasil PCA yang bebas multikolinearitas diperoleh, maka komponen-komponen tersebut menjadi variabel bebas baru yang akan diregresikan atau dianalisis pengaruhnya terhadap variabel tak bebas (Y) dengan menggunakan analisis regresi. Keunggulan metode PCA diantaranya adalah dapat menghilangkan korelasi secara bersih tanpa harus mengurahi jumlah variabel asal.
1.3 Software R
Software sangat memegang peranan penting untuk keperluan analisis data. Untuk menggunakan software kelompok pertama sangat dibutuhkan biaya yang relatif mahal bagi sebagian besar pengguna di Indonesia. Alternatif lain adalah menggunakan software kelompok kedua, yang salah satunya adalah R. R adalah bahasa komputer yang memungkinkan pengguna dalam hal algoritma program dan menggunakan apa yang sudah dibuat oleh pengguna lain (Ohyver, 2011: 1). Pengguna dapat menuliskan fungsi-fungsi, melakukan kalkulasi, mengaplikasikan teknikteknik statistika, menciptakan grafik sederhana dan rumit, dan bahkan membuat fungsi library milik sendiri. Kelebihan R dibanding beberapa software yang biasa digunakan oleh pengguna di Indonesia adalah free of charge. Untuk mengunduh dan menginstal R, pengguna dapat mengunjungi website www.r-project.org. Seperti halnya software statistik yang lain, R juga dapat menjadi alat dalam analisis data. Mulai dari statistik deskriptif, analisis peluang, statistik multivariat, sampai analisis deret waktu. Pada makalah kali ini akan dilakukan pemodelan PCR dengan bantuan R. Sehingga permasalahan yang akan dibahas adalah bagaimana aplikasi PCR pada data yang mengandung multikolinear serta bagaimana aplikasi R dalam membantu pemodelan PCR. Adapun tujuan yang hendak dicapai adalah memperoleh model PCR untuk data yang mengandung multikolinear dengan bantuan R
1.4 Data
Data diambil dari jurnal ilmu matematika dan terapan Jurusan Matematika FMIPA UNPATI 2014 dengan judul ‘Model regresi ridge untuk mengatasi model regresi linier berganda yang mengandung multikoinieritas’ dengan studi kasus yaitu ‘Data pertumbuhan bayi di kelurahan Namaelo RT 001, Kota Masohi’.
2 SOURCE CODE
2.1 Library yang Dibutuhkan
> # Library
> library(stats)
> library(car)
> library(factoextra)
Error in library(factoextra): there is no package called 'factoextra'
> library(readxl) 2.2 Membangkitkan Data
> #pemanggilan data
> laprak2anreglan <-read_excel("D:/Kuliah/Semester4/AnregLanjutan/laprak2anreglan.xlsx")
Error: `path` does not exist: 'D:/Kuliah/Semester4/AnregLanjutan/laprak2anreglan.xlsx'2.3 PCA (Principal Component Analysis)
> #melakukan analisis regresi
+ Modelregresinya <- lm(Y ~ X1+X2+X3+X4, data = laprak2anreglan)
+ Modelregresinya
+ summary(Modelregresinya)
+
+ #mengecek VIF
+ vif(Modelregresinya)
+ ##karena nilai vif tinggi pada variabel X1 maka lakukan PC pada variabel X1##
+
+ #melakukan standarisasi pada data
+ z1 <- scale(laprak2anreglan$X1)
+ z1
+ z2 <- scale(laprak2anreglan$X2)
+ z2
+ z3 <- scale(laprak2anreglan$X3)
+ z3
+ z4 <- scale(laprak2anreglan$X4)
+ z4
+
+ #menghitung eigen value dan eigen vector untuk membuat persamaan KU
+ eigen(cov(datastandarisasi))
+
+ #melakukan pca dengan fungsi princomp
+ pca <- princomp(datastandarisasi,cor=T,score=T)
+ Pca
+ summary(pca)
+
+ #menghitung koefisien KU data standarisasi
+ pca$loadings
+
+ #menghitung model PC1 dengan koefisien diambil dari langkah sebelumnya
+ PC1 = 0.459*z1+0.190*z20.611*z3+0.617*z4
+ PC1
+
+ #memanggil ulang variabel Y, variabel ini digunakan untuk membuat regresi komponen utama
+ Y = laprak2anreglan$Y
+ Y
+
+ #memodelkan data dengan regresi komponen utama
+ reg = lm(Y ~ PC1) summary(reg)
+
+ #visualisasi data pca (biplot)
+ fviz_pca(pca)
Error: <text>:40:19: unexpected symbol
39: #memodelkan data dengan regresi komponen utama
40: reg = lm(Y ~ PC1) summary
^3 HASIL DAN PEMBAHASAN
3.1 PCA (Principal Component Analysis)
∴ Persamaan Model hasil dari regresi PCA:
𝑌̂ = 43.8831 + 0.0163𝑋1 + 0.279𝑋2 − 3.4937𝑋3 + 0.4361𝑋4
Interpretasi: Setiap kenaikan 1 hari usia bayi akan menaikkan tinggi bayi sekarang sebesar 0.0163 cm dengan anggapan variable X2, X3, dan X4 konstan. Setiap kenaikan 1 cm tubuh bayi akan menaikkan tinggi bayi sekarang sebesar 0.297 cm dengan anggapan variabel X1, X3, dan X4 konstan. Setiap kenaikan 1 kg berat bayi waktu lahir akan menurunkan tinggi bayi sekarang sebesar 3.4937 cm dengan anggapan variable X1, X2, dan X4 konstan. Setiap kenaikan 1 cm ukuran dada bayi waktu lahir akan menaikkan tinggi bayi sekarang sebesar 0.4361 cm dengan anggapan variable X1, X2, dan X3 konstan.