Mengapa Perlu Korelasi?
PCA bertujuan meringkas informasi dari variabel-variabel yang saling berkorelasi
Apabila seluruh variabel tidak berkorelasi, maka PCA tidak memberikan manfaat yang berarti karena setiap variabel sudah membawa informasi yang berbeda.
Oleh karena itu, sebelum melakukan PCA perlu dilakukan:
1. Pemeriksaan matriks korelasi.
2. Uji KMO.
3. Uji Bartlett.
Korelasi
Mengetahui hubungan antar variabel. Variabel yang memiliki korelasi cukup tinggi menunjukkan adanya informasi yang saling tumpang tindih (redundansi), sehingga PCA dapat digunakan untuk mereduksi dimensi.
cor(data)
Tinggi Diameter Daun Nitrogen Fosfor
Tinggi 1.0000000 0.9881955 0.9863588 0.9791041 0.9819278
Diameter 0.9881955 1.0000000 0.9958455 0.9903280 0.9925485
Daun 0.9863588 0.9958455 1.0000000 0.9816959 0.9822125
Nitrogen 0.9791041 0.9903280 0.9816959 1.0000000 0.9940158
Fosfor 0.9819278 0.9925485 0.9822125 0.9940158 1.0000000
Mengukur kecukupan sampel (*sampling adequacy*) sebelum dilakukan PCA. Semakin besar nilai KMO, semakin baik struktur korelasi data untuk dianalisis menggunakan PCA.
KMO(data)
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data)
Overall MSA = 0.85
MSA for each item =
Tinggi Diameter Daun Nitrogen Fosfor
0.98 0.78 0.79 0.92 0.80
Menguji apakah terdapat korelasi yang signifikan antar variabel.
Hipotesis:
H₀ : Tidak terdapat korelasi antar variabel.
H₁ : Terdapat korelasi antar variabel.
|p-value|Keputusan|
|<0,05|Layak dilakukan PCA|
|≥0,05|Tidak disarankan menggunakan PCA|
Setelah data dinyatakan layak dilakukan PCA melalui uji Korelasi, KMO, dan Bartlett, langkah berikutnya adalah melakukan Principal Component Analysis (PCA).
PCA
pca <-prcomp( data,center =TRUE,scale. =TRUE)
Keterangan
- center = TRUE : setiap variabel dikurangi nilai rata-ratanya sehingga memiliki rata-rata nol.
- scale. = TRUE : setiap variabel dinormalisasi sehingga memiliki simpangan baku satu.
Karena setiap variabel memiliki satuan yang berbeda (cm, mm, %, dll.), maka PCA hampir selalu menggunakan data yang telah distandarisasi.
Eigenvalue, Proportion, dan Cumulative
Menentukan jumlah Principal Component (PC) yang akan digunakan.
Eigenvalue
Eigenvalue menunjukkan besarnya variasi yang dapat dijelaskan oleh setiap Principal Component.
Semakin besar eigenvalue, semakin penting komponen tersebut.
Proportion (Variance Percent)
Variance Percent menunjukkan persentase variasi data yang dapat dijelaskan oleh setiap komponen.
Cumulative
Cumulative menunjukkan total variasi yang berhasil dijelaskan secara bertahap.
Menentukan Jumlah Komponen
Beberapa pedoman yang umum digunakan adalah:
1. Eigenvalue > 1 (Kaiser Criterion)
2. Cumulative Variance ≥70%
3. Scree Plot
fviz_eig( pca,addlabels =TRUE,ylim =c(0,100))
Grafik ini disebut Scree Plot.
Scree Plot membantu menentukan jumlah Principal Component yang dipertahankan.
Factor Loading
Menentukan variabel mana yang paling berkontribusi terhadap setiap Principal Component.
Dalam PCA, tanda positif (+) atau negatif (-) bukan menunjukkan baik atau buruk, tetapi hanya menunjukkan arah hubungan.
Individual PCA (Score Plot)
Score Plot digunakan untuk melihat posisi setiap objek penelitian berdasarkan Principal Component yang terbentuk.
fviz_pca_ind( pca,repel =TRUE)
Semakin dekat posisi dua titik, semakin mirip karakteristik kedua objek tersebut.
Sebaliknya, semakin jauh posisi dua titik, semakin besar perbedaan karakteristiknya.
Variable PCA (Loading Plot)
Loading Plot digunakan untuk melihat hubungan antar variabel.
Pada grafik ini, setiap panah mewakili satu variabel.
fviz_pca_var( pca,repel =TRUE)
Cara Membaca Loading Plot
Hubungan antar variabel dapat dilihat berdasarkan sudut antar panah.
Sudut kecil (<90°)
Menunjukkan korelasi positif.
Sudut sekitar 90°
Menunjukkan hubungan yang sangat lemah atau hampir tidak berkorelasi.
Sudut mendekati 180°
Menunjukkan korelasi negatif.
Panjang Panah
Semakin panjang panah, semakin baik variabel tersebut dijelaskan oleh Principal Component.
Sebaliknya, panah yang pendek menunjukkan bahwa variabel kurang terwakili oleh dua komponen pertama.
Biplot PCA
Biplot merupakan gabungan antara
- Score Plot
- Loading Plot
Dalam satu grafik akan ditampilkan
- titik = objek penelitian
- panah = variabel
Biplot merupakan visualisasi PCA yang paling banyak digunakan dalam publikasi ilmiah.
fviz_pca_biplot( pca,repel =TRUE)
Cara Membaca Biplot
1. Hubungan Antar Variabel
Dilihat dari sudut antar panah.
- Sudut kecil → korelasi positif.
- Sudut 90° → tidak berkorelasi.
- Sudut 180° → korelasi negatif.
2. Hubungan Antar Objek
Dilihat dari jarak antar titik.
Semakin dekat
↓
semakin mirip.
Semakin jauh
↓
semakin berbeda.
3. Hubungan Objek dengan Variabel
Objek yang berada searah dengan suatu panah cenderung memiliki nilai tinggi pada variabel tersebut.
ANOVA
- Main Plot : 5 dosis Hg
- Sub Plot : 25 varietas padi
- Ulangan : 3 kali
Perlu dipahami bahwa ANOVA memiliki beberapa asumsi.
1. Residual berdistribusi normal.
2. Residual memiliki ragam yang homogen.
3. Observasi saling independen.
Perhatikan bahwa yang diuji adalah residual, bukan data mentah.
Selain p-value perlu melihat
- Histogram
- QQ Plot
Untuk rancangan Split Plot, analisis yang lebih tepat adalah menggunakan struktur galat sesuai rancangan.
model <- aov(
Respon ~ Hg*Varietas +
Error(Ulangan/Hg),
data=data
)