Analisis Komponen Utama (PCA) untuk Reduksi Dimensi pada Dataset Iris

Muhammad Rifqi

2025-12-03


1 Pendahuluan

1.1 Latar Belakang

Karakteristik morfologi bunga merupakan aspek penting dalam bidang botani karena digunakan untuk membedakan spesies, memahami hubungan kekerabatan, serta menganalisis variasi alami dalam suatu populasi tanaman. Dataset Iris yang tersedia secara default pada bahasa pemrograman R menjadi salah satu dataset paling populer untuk analisis multivariat karena memuat berbagai indikator morfologi yang saling berkaitan, seperti panjang sepal, lebar sepal, panjang petal, dan lebar petal. Keempat indikator ini menggambarkan struktur fisik bunga dan sering digunakan untuk membedakan tiga spesies utama, yaitu setosa, versicolor, dan virginica.

Mengingat banyaknya variabel morfologi yang memiliki hubungan korelatif, diperlukan metode statistik yang mampu mereduksi dimensi tanpa menghilangkan informasi penting di dalam data. Oleh karena itu, Principal Component Analysis (PCA) dipilih untuk merangkum variabel-variabel tersebut menjadi sejumlah komponen utama yang lebih sederhana namun tetap mewakili sebagian besar variasi data. PCA dapat membantu mengidentifikasi pola hubungan antar variabel morfologi, memvisualisasikan pemisahan antar spesies, serta memberikan gambaran struktur keragaman data secara lebih jelas.

Pendekatan ini memberikan manfaat dalam memahami karakteristik morfologi bunga secara lebih ringkas dan terstruktur, sehingga dapat mendukung analisis klasifikasi, identifikasi spesies, hingga pengembangan model pembelajaran mesin yang lebih efisien. Dengan demikian, penerapan PCA pada dataset Iris menjadi langkah penting dalam analisis data multivariat untuk menggambarkan variasi morfologi bunga secara komprehensif.

1.2 Tujuan

  1. Mereduksi jumlah variabel pada dataset Iris menjadi beberapa komponen utama yang mampu mewakili sebagian besar variasi data tanpa kehilangan informasi penting.

  2. Mengidentifikasi dan memahami struktur hubungan antar variabel sepal dan petal untuk menemukan pola korelasi yang mendasari pembentukan komponen utama.

  3. Menyajikan representasi data yang lebih sederhana dan informatif sehingga memudahkan proses analisis lanjutan seperti visualisasi, klasifikasi, atau klastering.

1.3 Latar Belakang Metode

Analisis Komponen Utama atau Principal Component Analysis (PCA) merupakan metode statistik multivariat yang digunakan untuk mereduksi dimensi data dengan mengubah variabel-variabel asli yang saling berkorelasi menjadi sejumlah komponen utama yang tidak saling berkorelasi, namun tetap mampu mewakili sebagian besar variasi data. Pada dataset Iris, variabel seperti Sepal Length, Sepal Width, Petal Length, dan Petal Width diketahui memiliki korelasi yang cukup tinggi, terutama pada dimensi petal, sehingga menimbulkan potensi redundansi informasi. Melalui penerapan PCA, variabel-variabel tersebut dapat diringkas menjadi komponen yang lebih sederhana dan informatif, sehingga memudahkan proses analisis, visualisasi, serta mengurangi masalah multikolinieritas. Oleh karena itu, PCA digunakan sebagai metode yang efektif untuk menyederhanakan struktur data sekaligus mempertahankan karakteristik utama dataset Iris, sehingga pola dan perbedaan antar spesies dapat dianalisis dengan lebih jelas dan efisien.

2 Data

Data penelitian ini menggunakan dataset iris, yaitu data klasik mengenai karakteristik bunga Iris yang pertama kali diperkenalkan oleh Fisher (1936). Dataset ini berisi 150 observasi yang terdiri dari tiga spesies bunga, yaitu Setosa, Versicolor, dan Virginica. ada penelitian ini, digunakan empat variabel numerik yang akan dianalisis menggunakan metode Principal Component Analysis (PCA).

Variabel yang digunakan meliputi:

  • \(X_1\) : Sepal.Length (Panjang sepal dalam cm)
  • \(X_2\) : Sepal.Width (Lebar sepal dalam cm)
  • \(X_3\) : Petal.Length (Panjang petal dalam cm)
  • \(X_4\) : Petal.Width (Lebar petal dalam cm)

3 Tinjauan Pustaka

3.1 Principal Component Analysis (PCA)

Principal Component Analysis (PCA) adalah suatu teknik reduksi dimensi yang digunakan untuk mengubah sejumlah variabel yang saling berkorelasi menjadi sejumlah komponen utama yang tidak saling berkorelasi (orthogonal) melalui transformasi linear. PCA bekerja dengan mengekstraksi varians terbesar dalam data sehingga komponen pertama (PC1) mewakili variasi terbesar, diikuti komponen berikutnya dengan variasi yang lebih kecil secara berurutan. Metode ini membantu menyederhanakan struktur data tanpa kehilangan banyak informasi, memudahkan visualisasi, serta meningkatkan efisiensi analisis lanjutan seperti klastering atau regresi. PCA banyak digunakan dalam berbagai bidang seperti statistik, machine learning, pengolahan citra, serta analisis sosial ekonomi untuk mengidentifikasi pola dan faktor utama dalam data berukuran besar.

4 Source Code

4.1 Load Packages

library(REdaS)
library(psych)

Penjelasan fungsi Library:

  • REdaS digunakan untuk melakukan pemeriksaan kelayakan analisis faktor seperti uji KMO (Kaiser-Meyer-Olkin), Bartlett’s Test of Sphericity, serta menyediakan fungsi pendukung eksplorasi data statistik awal.
  • psych digunakan untuk melakukan analisis statistik dasar seperti reliabilitas (Cronbach’s Alpha), korelasi, Principal Component Analysis (PCA), dan analisis faktor eksploratori (EFA).

4.2 Memanggil Data

data(iris)
  • iris adalah dataset bawaan R yang berisi 150 observasi bunga Iris dengan empat variabel numerik (Sepal Length, Sepal Width, Petal Length, Petal Width) serta satu variabel kategori Species, dan sering digunakan untuk demonstrasi analisis statistik serta machine learning.

4.3 Mengambil Variabel

Faktor <-iris[,1:4]
View(Faktor)
  • Faktor <- iris[,1:4] merupakan proses pemilihan empat variabel numerik pertama dari dataset iris, yaitu Sepal Length, Sepal Width, Petal Length, dan Petal Width, yang kemudian disimpan sebagai objek Faktor untuk keperluan analisis multivariat seperti PCA atau analisis faktor.

4.4 Uji KMO Data Faktor

kmos <- KMOS(Faktor)
kmos
  • kmos <- KMOS(Faktor) digunakan untuk menghitung nilai Kaiser-Meyer-Olkin (KMO) pada objek Faktor, yaitu ukuran kelayakan sampel untuk analisis faktor atau PCA. Perintah kmos kemudian menampilkan hasil KMO secara lengkap, termasuk nilai KMO keseluruhan dan Measure of Sampling Adequacy (MSA) untuk setiap variabel.

4.5 Uji Bartlett’s Test of Sphericity

bart_spher(Faktor)
  • bart_spher(Faktor) digunakan untuk melakukan Bartlett’s Test of Sphericity, yaitu uji statistik yang mengevaluasi apakah matriks korelasi dari variabel dalam Faktor berbeda secara signifikan dari matriks identitas. Hasil uji ini menentukan apakah data layak untuk analisis faktor atau PCA, dengan p-value kecil menunjukkan bahwa variabel saling berkorelasi dan analisis dapat dilanjutkan.

4.6 Uji KMO Data Numerik

kmo <- KMO(data_numerik)
print(kmo)
  • kmo <- KMO(data_numerik) digunakan untuk menghitung nilai Kaiser-Meyer-Olkin (KMO) pada objek data_numerik, yaitu ukuran kelayakan sampel untuk analisis faktor atau PCA. Perintah print(kmo) kemudian menampilkan hasil KMO secara lengkap, termasuk nilai KMO keseluruhan serta nilai MSA (Measure of Sampling Adequacy) untuk setiap variabel guna menilai kecukupan korelasi antarvariabel.

4.7 Menghitung Matriks Korelasi

R <- cor(Faktor)
R
  • R <- cor(Faktor) digunakan untuk menghitung matriks korelasi dari variabel-variabel numerik dalam objek Faktor. Matriks korelasi ini menunjukkan hubungan linear antarvariabel dan menjadi dasar penting dalam analisis PCA maupun analisis faktor. Perintah R kemudian menampilkan matriks korelasi tersebut secara lengkap.

4.8 Menghitung Nilai Eigen

eigen <- eigen(R)
eigen$values
  • eigen <- eigen(R) digunakan untuk menghitung nilai eigen (eigenvalues dan eigenvectors) dari matriks korelasi R. Nilai eigen ini penting dalam PCA karena menentukan besarnya variasi yang dijelaska

4.9 Membuat Scree Plot

plot(eigen$values, xlab="Eigenvalue Number", ylab="Eigenvalue Size",
     main="Scree Plot", type="b")
  • plot(eigen$values, xlab="Eigenvalue Number", ylab="Eigenvalue Size", main="Scree Plot", type="b") digunakan untuk membuat Scree Plot, yaitu grafik yang menampilkan nilai eigen dari setiap komponen utama. Grafik ini membantu menentukan jumlah komponen yang layak dipertahankan dalam PCA, biasanya dengan melihat titik “elbow” atau komponen dengan nilai eigen lebih dari 1. Argumen type="b" menampilkan grafik berupa garis dan titik.

5 Hasil dan Pembahasan

5.1 Uji Kelayakan Data Untuk PCA

5.1.1 Uji KMO (Kaiser-Meyer-Olkin)

## Loading required package: grid
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = Faktor)
## Overall MSA =  0.54
## MSA for each item = 
## Sepal.Length  Sepal.Width Petal.Length  Petal.Width 
##         0.58         0.27         0.53         0.63

Hasil uji KMO menunjukkan bahwa nilai KMO keseluruhan sebesar 0.540, yang termasuk dalam kategori mediocre atau kurang baik, namun masih dapat diterima untuk dilakukan analisis komponen utama (PCA). Nilai MSA untuk masing-masing variabel juga memperlihatkan tingkat kelayakan yang berbeda-beda. Variabel Sepal.Width memiliki nilai MSA paling rendah, yaitu 0.269, yang menunjukkan bahwa variabel ini tidak memiliki korelasi yang cukup kuat dengan variabel lain sehingga kurang layak digunakan dalam PCA. Sementara itu, variabel Sepal.Length (0.584), Petal.Length (0.530), dan Petal.Width (0.634) memiliki nilai MSA pada kategori sedang hingga cukup baik, sehingga ketiganya masih mendukung pembentukan komponen utama. Secara keseluruhan, meskipun struktur korelasi antar variabel tidak terlalu kuat, dataset iris tetap dapat dianalisis menggunakan PCA, namun interpretasi hasilnya perlu dilakukan dengan lebih hati-hati mengingat kualitas kelayakan sampel yang tidak sepenuhnya optimal.

5.1.2 Uji Bartlett’s Test of Sphericity

##  Bartlett's Test of Sphericity
## 
## Call: bart_spher(x = Faktor)
## 
##      X2 = 706.959
##      df = 6
## p-value < 2.22e-16

Hasil Bartlett’s Test of Sphericity menunjukkan nilai statistik chi-square sebesar 706.959 dengan derajat bebas (df) = 6 serta nilai p-value yang sangat kecil, yaitu kurang dari 2.22e-16. Nilai p-value yang jauh di bawah tingkat signifikansi 0,05 mengindikasikan bahwa matriks korelasi antarvariabel tidak berbentuk matriks identitas. Dengan demikian, terdapat korelasi yang signifikan antarvariabel dalam dataset Iris, sehingga data layak untuk dilakukan analisis Principal Component Analysis (PCA). Uji ini mengonfirmasi bahwa variabel-variabel memiliki hubungan yang cukup kuat untuk diekstraksi menjadi komponen utama.

5.2 Analisis Komponen Utama

5.2.1 Matrix Korelasi PCA

##              Sepal.Length Sepal.Width Petal.Length Petal.Width
## Sepal.Length    1.0000000  -0.1175698    0.8717538   0.8179411
## Sepal.Width    -0.1175698   1.0000000   -0.4284401  -0.3661259
## Petal.Length    0.8717538  -0.4284401    1.0000000   0.9628654
## Petal.Width     0.8179411  -0.3661259    0.9628654   1.0000000

Berdasarkan matriks korelasi antar variabel, terlihat bahwa hubungan antar variabel bunga (sepal dan petal) menunjukkan pola yang kuat dan relevan untuk analisis PCA. Variabel Petal.Length dan Petal.Width memiliki korelasi yang sangat tinggi (0.9629), mengindikasikan bahwa keduanya bergerak hampir searah dan menyediakan informasi yang mirip. Sepal.Length juga berkorelasi kuat dengan Petal.Length (0.8718) dan Petal.Width (0.8179), menunjukkan bahwa dimensi petal dan sepal cenderung meningkat bersama-sama. Sebaliknya, Sepal.Width menunjukkan korelasi negatif terhadap variabel lainnya, dengan nilai paling rendah terhadap Petal.Length (–0.4284) dan Petal.Width (–0.3661), yang mengindikasikan arah hubungan berlawanan. Pola korelasi ini menunjukkan bahwa sebagian variabel memiliki informasi yang tumpang tindih, sehingga PCA sangat sesuai untuk mereduksi dimensi dengan menggabungkan variabel yang saling berkorelasi tinggi menjadi komponen utama yang lebih ringkas namun tetap menjelaskan sebagian besar variasi data.

5.2.2 Nilai Eigen Dari Analisis PCA

## [1] 2.91849782 0.91403047 0.14675688 0.02071484

Berdasarkan hasil perhitungan nilai eigen dari matriks korelasi, diperoleh empat nilai eigen yaitu 2.9185, 0.9140, 0.1468, dan 0.0207. Nilai-nilai ini menunjukkan besarnya varians yang dapat dijelaskan oleh masing-masing komponen utama (Principal Component). Komponen pertama memiliki nilai eigen terbesar, yaitu 2.9185, yang berarti PC1 mampu menjelaskan sekitar 72.96% dari total variasi data (karena total varians = 4 pada matriks korelasi). Komponen kedua memiliki nilai eigen 0.9140 atau sekitar 22.85% variasi data. Sementara itu, komponen ketiga dan keempat hanya menjelaskan 3.67% dan 0.52% variasi, yang sangat kecil dan kurang informatif. Dengan demikian, dua komponen utama pertama sudah cukup mewakili struktur utama data karena mampu menjelaskan lebih dari 95% total variasi. Hal ini mengindikasikan bahwa PCA dapat mereduksi dimensi data dari empat variabel menjadi hanya dua komponen tanpa kehilangan banyak informasi penting.

5.2.3 Scree Plot

Berdasarkan scree plot di atas, terlihat bahwa nilai eigen menurun tajam dari komponen pertama ke komponen kedua, yaitu dari sekitar 3 menjadi mendekati 1. Setelah itu, penurunan nilai eigen menjadi jauh lebih landai pada komponen ketiga dan keempat, masing-masing berada di bawah 1. Pola ini menunjukkan adanya elbow yang cukup jelas pada komponen kedua, sehingga komponen utama yang sebaiknya dipertahankan adalah sebanyak dua komponen. Dua komponen pertama tersebut merupakan yang paling informatif karena menjelaskan sebagian besar variasi dalam data, sedangkan komponen berikutnya memberikan kontribusi yang relatif kecil sehingga kurang relevan untuk dimasukkan dalam analisis lanjutan.

6 Kesimpulan

Berdasarkan serangkaian uji kelayakan dan hasil analisis Principal Component Analysis (PCA) pada dataset Iris, dapat disimpulkan bahwa data memiliki struktur korelasi yang cukup kuat untuk dilakukan reduksi dimensi, meskipun tidak sepenuhnya optimal. Uji KMO menunjukkan nilai sebesar 0.540 yang berada pada kategori mediocre, sehingga PCA masih dapat dilakukan namun interpretasinya perlu hati-hati, terutama karena variabel Sepal.Width memiliki nilai MSA sangat rendah. Di sisi lain, hasil Bartlett’s Test of Sphericity memberikan bukti kuat bahwa matriks korelasi bukan matriks identitas, sehingga variabel-variabel dalam dataset memiliki hubungan signifikan dan layak untuk diekstraksi menjadi komponen utama. Analisis terhadap matriks korelasi memperlihatkan adanya hubungan yang sangat kuat antara variabel-variabel petal dan hubungan yang cukup kuat antara sepal dan petal, yang menandakan adanya informasi tumpang tindih. Hal ini mendukung tujuan PCA untuk merangkum variabel yang saling berkorelasi tinggi. Hasil nilai eigen menunjukkan bahwa dua komponen utama pertama sudah mampu menjelaskan lebih dari 95% total variasi data, di mana PC1 merupakan komponen yang paling dominan. Hal ini diperkuat oleh scree plot yang memperlihatkan titik elbow yang jelas pada komponen kedua, sehingga dua komponen utama sudah cukup untuk merangkum pola utama dalam data. Secara keseluruhan, PCA berhasil mereduksi empat variabel asli menjadi dua komponen utama yang informatif dan representatif terhadap struktur data, sehingga dapat digunakan dalam analisis lebih lanjut seperti visualisasi, klastering, atau pemodelan dengan kompleksitas yang lebih rendah tanpa kehilangan informasi penting.

7 Daftar Pustaka

Field, A. (2013). Discovering Statistics Using IBM SPSS Statistics (4th edition ed.). Sage Publications.

J, F. B., W, C. B., & Anderson, R. E. (2019). Multivariate Data Analysis (8th edition ed.). Cengage Learning.

Jolliffe, I. T., & Cadima, J. (2016). Principal component analysis: A review and recent developments. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 374(2065).