library(readxl) Raisin_Dataset <- read_excel(“C:/Users/HP/OneDrive/Desktop/raisin/Raisin_Dataset/Raisin_Dataset/Raisin_Dataset.xlsx”) View(Raisin_Dataset) head(Raisin_Dataset)
Dataset Raisin berhasil diimpor ke dalam RStudio menggunakan fungsi read_excel(). Dataset terdiri dari 900 observasi dan 8 variabel, yang mencakup 7 variabel numerik dan 1 variabel kategorik (Class). Variabel numerik merepresentasikan karakteristik fisik biji kismis seperti luas area, panjang sumbu, eksentrisitas, dan perimeter.
data_num <- Raisin_Dataset[, sapply(Raisin_Dataset, is.numeric)] str(data_num)
Data numerik dipisahkan dari dataset utama untuk keperluan analisis multivariat. Variabel kategorik Class tidak disertakan karena tidak dapat digunakan dalam perhitungan matriks kovarians dan korelasi. Dataset numerik yang digunakan terdiri dari 7 variabel bertipe numerik (double).
cor_matrix <- cor(data_num) cor_matrix cov_matrix <- cov(data_num) cov_matrix
Matriks korelasi menunjukkan hubungan linier antar variabel numerik. Nilai korelasi berkisar antara -1 hingga 1. Nilai korelasi yang mendekati 1 menunjukkan hubungan positif yang kuat, sedangkan nilai mendekati -1 menunjukkan hubungan negatif yang kuat. Dari hasil matriks korelasi, terlihat bahwa beberapa variabel seperti Area, ConvexArea, dan Perimeter memiliki korelasi positif yang cukup tinggi, yang mengindikasikan keterkaitan ukuran fisik biji kismis.
Matriks varians–kovarians menggambarkan besarnya penyebaran data dan hubungan antar variabel dalam satuan asli. Nilai diagonal matriks menunjukkan varians masing-masing variabel, sedangkan nilai di luar diagonal menunjukkan kovarians antar pasangan variabel. Kovarians bernilai positif menunjukkan bahwa kedua variabel cenderung meningkat bersama, sedangkan nilai negatif menunjukkan hubungan berlawanan arah.
eig <- eigen(cov_matrix) eig\(values eig\)vectors
Eigen value merepresentasikan jumlah variasi data yang dijelaskan oleh masing-masing komponen utama. Eigen value terbesar menunjukkan komponen yang paling dominan dalam menjelaskan variasi data. Dari hasil yang diperoleh, terlihat bahwa eigen value pertama jauh lebih besar dibandingkan eigen value lainnya, sehingga sebagian besar variasi data dapat dijelaskan oleh komponen utama pertama.
Eigen vector menunjukkan arah pembentukan komponen utama, yaitu kombinasi linier dari variabel asli. Setiap elemen dalam eigen vector merepresentasikan kontribusi relatif suatu variabel terhadap komponen utama tertentu. Variabel dengan nilai absolut eigen vector yang lebih besar memiliki pengaruh yang lebih dominan dalam membentuk komponen utama tersebut.
Kesimpulan:
Berdasarkan hasil analisis, sebagian besar variasi data Raisin dapat dijelaskan oleh satu atau dua komponen utama sehingga data dapat direduksi tanpa kehilangan informasi yang signifikan.