library(knitr)
opts_chunk$set(echo = TRUE)
opts_chunk$set(message = FALSE)
opts_chunk$set(warning = FALSE)
opts_chunk$set(comment = "")
opts_chunk$set(collapse = TRUE)
opts_chunk$set(error = TRUE)
opts_chunk$set(prompt = TRUE)
opts_chunk$set(fig.align = "center")1 PENDAHULUAN
1.1 Latar Belakang
Dalam bidang kesehatan, istilah “komposisi tubuh” umumnya sering digunakan. Para ahli kesehatan menggunakan istilah “komposisi tubuh” untuk mengetahui berapa persen dari berat badan manusia yang terdiri dari lemak, yang dapat membantu menentukan tingkat kesehatan seseorang. Hal ini menjadi penting, karena seseorang dengan berat badan dan tinggi badan yang sama dapat memiliki tingkat massa otot dan lemak yang berbeda. Oleh karena itu, komposisi tubuh dapat menunjukkan berbagai masalah kesehatan.
Lemak merupakan nutrisi yang dibutuhkan tubuh untuk membangun membran sel, jaringan saraf, dan hormon. Selain itu, lemak juga diolah oleh tubuh manusia sebagai bahan bakar. Jika lemak yang ada tidak diolah oleh tubuh sebagai energi atau digunakan sebagai nutrisi pembangun, maka lemak akan disimpan dalam sel lemak. Hal inilah yang menjadi cara kerja tubuh dalam menyimpan lemak sebagai energi untuk dapat digunakan di waktu yang akan datang. Komposisi tubuh yang lebih sehat adalah yang memiliki lebih sedikit lemak. Terlalu banyak lemak dapat menyebabkan risiko seperti kanker, diabetes, penyakit jantung, dan masalah kesehatan yang lain.
Pada analisis ini memiliki tujuan untuk mengidentifikasi dan mengurutkan faktor-faktor yang paling berpengaruh dalam variabilitas persen lemak tubuh pria dewasa. PCA dapat membantu dalam mereduksi dimensi data kompleks yang terkait dengan berbagai parameter dan komposisi tubuh menjadi komponen-komponen yang lebih sederhana. Selain itu, PCA dapat membantu dalam mengungkap pola dan hubungan antara variabel-variabel tersebut, serta membantu dalam mengidentifikasi faktor-faktor utama yang memengaruhi persen lemak tubuh pria dewasa.
2 TINJAUAN PUSTAKA
2.1 PCA
PCA (Principal Component Analysis) merupakan suatu teknik analisis statistik multivariat. Analisis ini berkaitan dengan penjelasan struktur varians-kovarians dari sekumpulan variabel melalui beberapa kombinasi linier dari variabel-variabel tersebut. Tujuan utama dari penggunaan PCA adalah mereduksi data dan interpretasi (Johson & Wichern, 1998).
PCA dapat mengurangi dimensi dari kumpulan data, sehingga memungkinkan untuk sebagaian besar variabilitas dapat dijelaskan dengan menggunakan lebih sedikit variabel. PCA digunakan sebagai salah satu langkah dalam serangkaian analisis. Selain itu, PCA dapat menghidari adanya multikolinieritas saat memiliki terlalu banyak prediktor dibandingkan dengan jumlah observasi.
Komponen utama pertama dari kumpulan data \(X_1,X_2,...,X_p\) adalah kombinasi linier dari fitur-fitur.
\[ Y_1=\phi_{11}X_1+\phi_{12}X_2+...+\phi_{1p}X_p\ (1) \]
\(Y_1\) memiliki varians terbesar, di mana \(\phi_1\) merupakan vektor pembobot komponen utama pertama. \(\phi\) telah dinormalisasi, sehingga dapat diartikan bahwa \(\Sigma_{j=1}^p\phi_{1j}^2=1\). Setelah komponen utama pertama \(Y_1\) dari fitur-fitur tersebut telah ditentukan, dapat menentukan komponen utama kedua \(Y_2\). Komponen utama kedua adalah kombinasi linier dari \(X_1,X_2,...,X_p\) yang memiliki varians maksimal dari semua kombinasi linier yang tidak berkorelasi dengan \(Y_1\).
\[ Y_2=\phi_{21}X_1+\phi_{22}X_2+...+\phi_{2p}X_p\ (2) \]
Hal ini berlangsung sampai seluruh komponen utama dihitung. Elemen-elemen \(\phi_{11},\phi_{12},...,\phi_{1p}\) pada persamaan 1 dapat dihitung dengan menemukan vektor \(\phi\) yang memaksimalkan varians. Hal ini dapat ditunjukkan dengan menggunakan teknik aljabar linier bahwa vektor eigen yang sesuai dengan nilai eigen terbesar dari matriks varians kovarians merupakan himpunan pembobot yang dapat menjelaskan proporsi terbesar dari variabilitas.
3 DATA
Data yang digunakan adalah data dalam jurnal “Generalized Body Composition Prediction Equation for Men Using Simple Measurement Techniques” dan tersedia di Kaggle. Data “The Percentage of Body Fat” terdiri dari beberapa variabel, sebagai berikut.
\(Y:\) Percent body fat from Siri’s (1956) equation
\(X_1:\) Density determined from underwater weighing
\(X_2:\) Age (years)
\(X_3:\) Weight (lbs)
\(X_4:\) Height (inches)
\(X_5:\) Neck circumference (cm)
\(X_6:\) Chest circumference (cm)
\(X_7:\) Abdomen 2 circumference (cm)
\(X_8:\) Hip circumference (cm)
\(X_9:\) Thigh circumference (cm)
\(X_{10}:\) Knee circumference (cm)
\(X_{11}:\) Ankle circumference (cm)
\(X_{12}:\) Biceps (extended) circumference (cm)
\(X_{13}:\) Forearm circumference (cm)
\(X_{14}:\) Wrist circumference (cm)
4 SOURCE CODE
4.1 Library
> library(rmarkdown)
> library(knitr)
> library(tinytex)
> library(prettydoc)
> library(readxl)
> library(ggplot2)
> library(ggcorrplot)
> library(ggfortify)
> library(gridExtra)
> library(corrr)
> library(corrplot)
> library(FactoMineR)
> library(factoextra)
> library(PerformanceAnalytics)
> library(runner)4.2 Struktur Data
Pemanggilan data dapat memanfaatkan fungsi import yang
tersedia di dalam RStudio. Salah satu caranya adalah memanfaatkan
file bertipe .xlsx.
> pcadata = read_excel("D:/Statistika Semester 5/Analisis Multivariat/The Percentage of Body Fat.xlsx")
> head(pcadata)
# A tibble: 6 × 15
Y X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 12.3 1.07 23 154. 67.8 36.2 93.1 85.2 94.5 59 37.3 21.9 32
2 6.1 1.09 22 173. 72.2 38.5 93.6 83 98.7 58.7 37.3 23.4 30.5
3 25.3 1.04 22 154 66.2 34 95.8 87.9 99.2 59.6 38.9 24 28.8
4 10.4 1.08 26 185. 72.2 37.4 102. 86.4 101. 60.1 37.3 22.8 32.4
5 28.7 1.03 24 184. 71.2 34.4 97.3 100 102. 63.2 42.2 24 32.2
6 20.9 1.05 24 210. 74.8 39 104. 94.4 108. 66 42 25.6 35.7
# ℹ 2 more variables: X13 <dbl>, X14 <dbl>
> str(pcadata)
tibble [252 × 15] (S3: tbl_df/tbl/data.frame)
$ Y : num [1:252] 12.3 6.1 25.3 10.4 28.7 20.9 19.2 12.4 4.1 11.7 ...
$ X1 : num [1:252] 1.07 1.09 1.04 1.08 1.03 ...
$ X2 : num [1:252] 23 22 22 26 24 24 26 25 25 23 ...
$ X3 : num [1:252] 154 173 154 185 184 ...
$ X4 : num [1:252] 67.8 72.2 66.2 72.2 71.2 ...
$ X5 : num [1:252] 36.2 38.5 34 37.4 34.4 39 36.4 37.8 38.1 42.1 ...
$ X6 : num [1:252] 93.1 93.6 95.8 101.8 97.3 ...
$ X7 : num [1:252] 85.2 83 87.9 86.4 100 94.4 90.7 88.5 82.5 88.6 ...
$ X8 : num [1:252] 94.5 98.7 99.2 101.2 101.9 ...
$ X9 : num [1:252] 59 58.7 59.6 60.1 63.2 66 58.4 60 62.9 63.1 ...
$ X10: num [1:252] 37.3 37.3 38.9 37.3 42.2 42 38.3 39.4 38.3 41.7 ...
$ X11: num [1:252] 21.9 23.4 24 22.8 24 25.6 22.9 23.2 23.8 25 ...
$ X12: num [1:252] 32 30.5 28.8 32.4 32.2 35.7 31.9 30.5 35.9 35.6 ...
$ X13: num [1:252] 27.4 28.9 25.2 29.4 27.7 30.6 27.8 29 31.1 30 ...
$ X14: num [1:252] 17.1 18.2 16.6 18.2 17.7 18.8 17.7 18.8 18.2 19.2 ...Struktur dari pcadata dapat diidentifikasi berupa
tibble dengan 252 observasi dan terdapat 15 variabel yang
bertipe numerik.
Function read_excel() berfungsi agar R dapat
mengakses file bertipe .xlsx dengan
argument berupa file path dari data Microsoft Excel.
Function head() berfungsi untuk menampilkan 6
observasi awal dari data dan str() berfungsi untuk
menampilkan deskripsi singkat jenis data yang tersedia.
4.3 Statistika Deskriptif
> summary(pcadata)Function summary() berfungsi untuk menampilkan
penjelasan ringkas pada data dengan argument berupa data yang
telah didefinisikan sebelumnya.
4.4 Korelasi Data
> cor(pcadata)
> ggcorrplot(cor(pcadata))
> corrplot(cor(pcadata), method = "number", type = "upper")Function corr() berfungsi untuk menampilkan
perhitungan matriks korelasi dengan argument berupa data yang
telah didefinisikan sebelumnya. Function
ggcorrplot() dan corrplot() berfungsi untuk
memvisualisasikan plot perhitungan matriks korelasi dengan
argument berupa matriks korelasi.
4.5 PCA
> pca = prcomp(pcadata[,-1], center = TRUE, scale. = TRUE)
> summary(pca)
> fviz_cos2(pca, choice = "var", axes = 1:3)
> fviz_pca_var(pca, col.var = "cos2",
+ gradient.cols = c("#FEAC5E", "#C779D0", "#4BC0C8"),
+ repel = TRUE)
>
> a = fviz_contrib(pca, choice = "var", axes = 1)
> b = fviz_contrib(pca, choice = "var", axes = 2)
> c = fviz_contrib(pca, choice = "var", axes = 3)
> grid.arrange(a, b, c, ncol = 1, top = 'Contribution of the variables to the first two PCs')Function prcomp() berfungsi untuk melakukan PCA
pada matriks data yang diberikan dengan argument x
adalah matriks yang menyediakan data untuk PCA, center
adalah nilai logika yang menunjukkan apakah variabel perlu digeser ke
nilai tengah nol, dan scale. adalah nilai logika yang
menunjukkan apakah variabel harus diskalakan agar memiliki varians unit
sebelum analisis dilakukan.
Function fviz_cos2() berfungsi untuk
memvisualisasikan grafik kualitas representasi (cos2) baris/kolom dari
hasil fungsi PCA dengan argument X adalah objek
dari kelas PCA, choice menunjukkan nilai yang dipilih yaitu
var untuk PCA, dan axes adalah vektor numerik
yang menentukan dimensi yang diinginkan.
PCA mengurangi dimensi data multivariat, menjadi dua atau tiga yang
dapat divisualisasikan secara grafis dengan sedikit kehilangan
informasi. fviz_pca_var() berfungsi memvisualisasikan plot
variabel. fviz_contrib() berfungsi memvisualisasikan
kontribusi baris/kolom dari hasil fungsi PCA.
4.6 Nilai Eigen
> pca.data = PCA(pcadata[,-1], scale.unit = TRUE, graph = FALSE)
> pca.eigen = as.data.frame(pca.data$eig)
> pca.eigen
> fviz_eig(pca, addlabels = TRUE)Function PCA() berfungsi untuk melakukan PCA
dengan individu tambahan, variabel kuantitatif tambahan, dan variabel
kategorikal tambahan. pca.data$eig untuk melihat nilai
eigen dari hasil PCA. Function fviz_eig()
berfungsi untuk memvisualisasikan grafik nilai/varians eigen terhadap
jumlah dimensi dengan argument X adalah objek dari
kelas PCA dan addlabels menunjukkan informasi yang disimpan
oleh setiap dimensi.
4.7 Model PCA
> pca$rotation[,1:3]Function pca$rotation berfungsi untuk melihat
komposisi nilai variabel \(X\) dalam
komponen utama (PC).
5 HASIL DAN PEMBAHASAN
5.1 Statistika Deskriptif
Y X1 X2 X3
Min. : 0.00 Min. :0.995 Min. :22.00 Min. :118.5
1st Qu.:12.47 1st Qu.:1.041 1st Qu.:35.75 1st Qu.:159.0
Median :19.20 Median :1.055 Median :43.00 Median :176.5
Mean :19.15 Mean :1.056 Mean :44.88 Mean :178.9
3rd Qu.:25.30 3rd Qu.:1.070 3rd Qu.:54.00 3rd Qu.:197.0
Max. :47.50 Max. :1.109 Max. :81.00 Max. :363.1
X4 X5 X6 X7
Min. :29.50 Min. :31.10 Min. : 79.30 Min. : 69.40
1st Qu.:68.25 1st Qu.:36.40 1st Qu.: 94.35 1st Qu.: 84.58
Median :70.00 Median :38.00 Median : 99.65 Median : 90.95
Mean :70.15 Mean :37.99 Mean :100.82 Mean : 92.56
3rd Qu.:72.25 3rd Qu.:39.42 3rd Qu.:105.38 3rd Qu.: 99.33
Max. :77.75 Max. :51.20 Max. :136.20 Max. :148.10
X8 X9 X10 X11 X12
Min. : 85.0 Min. :47.20 Min. :33.00 Min. :19.1 Min. :24.80
1st Qu.: 95.5 1st Qu.:56.00 1st Qu.:36.98 1st Qu.:22.0 1st Qu.:30.20
Median : 99.3 Median :59.00 Median :38.50 Median :22.8 Median :32.05
Mean : 99.9 Mean :59.41 Mean :38.59 Mean :23.1 Mean :32.27
3rd Qu.:103.5 3rd Qu.:62.35 3rd Qu.:39.92 3rd Qu.:24.0 3rd Qu.:34.33
Max. :147.7 Max. :87.30 Max. :49.10 Max. :33.9 Max. :45.00
X13 X14
Min. :21.00 Min. :15.80
1st Qu.:27.30 1st Qu.:17.60
Median :28.70 Median :18.30
Mean :28.66 Mean :18.23
3rd Qu.:30.00 3rd Qu.:18.80
Max. :34.90 Max. :21.40
Berdasarkan output di atas, dapat diketahui ringkasan atau gambaran umum dari variabel-variabel dalam analisis. Ringkasan hasil meliputi nilai \(Min\), \(Q_1\), \(Median\), \(Mean\), \(Q_3\), dan \(Max\) setiap variabel.
5.2 Korelasi Data
Y X1 X2 X3 X4 X5
Y 1.00000000 -0.98778240 0.29145844 0.61241400 -0.08949538 0.4905919
X1 -0.98778240 1.00000000 -0.27763721 -0.59406188 0.09788114 -0.4729664
X2 0.29145844 -0.27763721 1.00000000 -0.01274609 -0.17164514 0.1135052
X3 0.61241400 -0.59406188 -0.01274609 1.00000000 0.30827854 0.8307162
X4 -0.08949538 0.09788114 -0.17164514 0.30827854 1.00000000 0.2537099
X5 0.49059185 -0.47296636 0.11350519 0.83071622 0.25370988 1.0000000
X6 0.70262034 -0.68259865 0.17644968 0.89419052 0.13489181 0.7848350
X7 0.81343228 -0.79895463 0.23040942 0.88799494 0.08781291 0.7540774
X8 0.62520092 -0.60933143 -0.05033212 0.94088412 0.17039426 0.7349579
X9 0.55960753 -0.55309098 -0.20009576 0.86869354 0.14843561 0.6956973
X10 0.50866524 -0.49504035 0.01751569 0.85316739 0.28605321 0.6724050
X11 0.26596977 -0.26489003 -0.10505810 0.61368542 0.26474369 0.4778924
X12 0.49327113 -0.48710872 -0.04116212 0.80041593 0.20781557 0.7311459
X13 0.36138690 -0.35164842 -0.08505555 0.63030143 0.22864922 0.6236603
X14 0.34657486 -0.32571598 0.21353062 0.72977489 0.32206533 0.7448264
X6 X7 X8 X9 X10 X11
Y 0.7026203 0.81343228 0.62520092 0.5596075 0.50866524 0.2659698
X1 -0.6825987 -0.79895463 -0.60933143 -0.5530910 -0.49504035 -0.2648900
X2 0.1764497 0.23040942 -0.05033212 -0.2000958 0.01751569 -0.1050581
X3 0.8941905 0.88799494 0.94088412 0.8686935 0.85316739 0.6136854
X4 0.1348918 0.08781291 0.17039426 0.1484356 0.28605321 0.2647437
X5 0.7848350 0.75407737 0.73495788 0.6956973 0.67240498 0.4778924
X6 1.0000000 0.91582767 0.82941992 0.7298586 0.71949640 0.4829879
X7 0.9158277 1.00000000 0.87406618 0.7666239 0.73717888 0.4532227
X8 0.8294199 0.87406618 1.00000000 0.8964098 0.82347262 0.5583868
X9 0.7298586 0.76662393 0.89640979 1.0000000 0.79917030 0.5397971
X10 0.7194964 0.73717888 0.82347262 0.7991703 1.00000000 0.6116082
X11 0.4829879 0.45322269 0.55838682 0.5397971 0.61160820 1.0000000
X12 0.7279075 0.68498272 0.73927252 0.7614774 0.67870883 0.4848545
X13 0.5801727 0.50331609 0.54501412 0.5668422 0.55589819 0.4190500
X14 0.6601623 0.61983243 0.63008954 0.5586848 0.66450729 0.5661946
X12 X13 X14
Y 0.49327113 0.36138690 0.3465749
X1 -0.48710872 -0.35164842 -0.3257160
X2 -0.04116212 -0.08505555 0.2135306
X3 0.80041593 0.63030143 0.7297749
X4 0.20781557 0.22864922 0.3220653
X5 0.73114592 0.62366027 0.7448264
X6 0.72790748 0.58017273 0.6601623
X7 0.68498272 0.50331609 0.6198324
X8 0.73927252 0.54501412 0.6300895
X9 0.76147745 0.56684218 0.5586848
X10 0.67870883 0.55589819 0.6645073
X11 0.48485454 0.41904999 0.5661946
X12 1.00000000 0.67825513 0.6321264
X13 0.67825513 1.00000000 0.5855883
X14 0.63212642 0.58558825 1.0000000
Berdasarkan output di atas, dapat diketahui tingkat korelasi antar variabel dalam analisis. Tentunya variabel akan memiliki nilai korelasi sempurna sebesar 1 dengan dirinya sendiri. Adanya korelasi yang sangat tinggi antar variabel, sebagai berikut.
\(X_1\) dengan \(X_7\)
\(X_3\) dengan \(X_5\), \(X_6\), \(X_7\), \(X_8\), \(X_9\), \(X_{10}\), dan \(X_{12}\)
\(X_6\) dengan \(X_7\) dan \(X_8\)
\(X_7\) dengan \(X_8\)
\(X_8\) dengan \(X_9\) dan \(X_{10}\)
\(X_9\) dengan \(X_{10}\)
Korelasi yang tinggi antara variabel prediktor dapat menjadi masalah multikolinieritas dalam model. Oleh karena itu, perlu melakukan PCA untuk menghilangkan korelasi yang tinggi dan mereduksi 14 variabel prediktor tersebut.
5.3 PCA
Importance of components:
PC1 PC2 PC3 PC4 PC5 PC6 PC7
Standard deviation 2.9048 1.2541 1.02367 0.82123 0.79040 0.65252 0.55179
Proportion of Variance 0.6027 0.1123 0.07485 0.04817 0.04462 0.03041 0.02175
Cumulative Proportion 0.6027 0.7150 0.78989 0.83806 0.88269 0.91310 0.93485
PC8 PC9 PC10 PC11 PC12 PC13 PC14
Standard deviation 0.51146 0.44628 0.42341 0.36149 0.27730 0.20285 0.15290
Proportion of Variance 0.01869 0.01423 0.01281 0.00933 0.00549 0.00294 0.00167
Cumulative Proportion 0.95353 0.96776 0.98056 0.98990 0.99539 0.99833 1.00000
Berdasarkan output di atas, dapat diketahui standar deviasi, proporsi varians, dan proporsi varians kumulatif setiap komponen utama. Kualitas representasi dari hasil PCA faktor paling tinggi pada \(X_3\) dan faktor paling rendah pada \(X_{11}\).
Plot variabel dapat memberikan informasi bahwa jika terjadi peningkatan nilai di suatu anak panah, anak panah lainnya memberikan estimasi tentang apa yang terjadi pada variabel lain. Sebagai contoh, semakin besar variabel Ankle circumference (\(X_{11}\)), maka variabel Forearm circumference (\(X_{13}\)) juga akan semakin besar (yang mana kedua anak panah mengarah ke arah yang sama).
Gradien warna dapat memberikan informasi tentang kuadrat kosinus masing-masing variabel terhadap PCA. Hal tersebut memberikan informasi seberapa besar representasi masing-masing variabel dalam komponen utama. Variabel Ankle circumference (\(X_{11}\)) dan Forearm circumference (\(X_{13}\)) memiliki representasi rendah dalam PCA. Sementara, variabel Weight (\(X_3\)), Age (\(X_2\)), dan Abdomen 2 circumference (\(X_7\)) memiliki representasi tinggi dalam PCA.
Plot terakhir menunjukkan persentase variabel pada tiga komponen utama pertama. Pada komponen utama pertama (\(PC_1\)), \(X_3\), \(X_8\), \(X_6\), \(X_7\), \(X_9\), \(X_{10}\), \(X_5\), \(X_{12}\), dan \(X_{14}\) adalah variabel yang terpenting. Pada komponen utama kedua (\(PC_2\)), \(X_2\), \(X_4\), dan \(X_1\) adalah variabel yang terpenting. Sementara pada komponen utama ketiga (\(PC_3\)), \(X_2\), \(X_4\), \(X_{14}\) dan \(X_9\) adalah variabel yang terpenting.
5.4 Nilai Eigen
eigenvalue percentage of variance cumulative percentage of variance
comp 1 8.43784115 60.2702939 60.27029
comp 2 1.57270697 11.2336212 71.50392
comp 3 1.04790534 7.4850381 78.98895
comp 4 0.67442069 4.8172906 83.80624
comp 5 0.62473644 4.4624031 88.26865
comp 6 0.42578716 3.0413369 91.30998
comp 7 0.30447636 2.1748311 93.48482
comp 8 0.26159009 1.8685006 95.35332
comp 9 0.19916570 1.4226121 96.77593
comp 10 0.17927597 1.2805427 98.05647
comp 11 0.13067508 0.9333934 98.98986
comp 12 0.07689434 0.5492453 99.53911
comp 13 0.04114629 0.2939020 99.83301
comp 14 0.02337843 0.1669888 100.00000
Terdapat tiga kriteria untuk memilih banyak komponen utama yang relevan digunakan (Camargo, 2022).
- Proporsi varians kumulatif lebih dari 80%.
- Nilai eigen lebih dari 1.
- Scree plot.
Nilai eigen pada komponen utama 1, 2, dan 3 lebih dari 1. Secara proporsi varians kumulatif, dapat menjelaskan sekitar 79% varians. Oleh karena itu, pada kasus ini menggunakan 3 komponen utama pertama.
5.5 Model PCA
PC1 PC2 PC3
X1 -0.22581343 0.429113998 -0.1948279800
X2 0.01797477 -0.595410151 -0.5998437495
X3 0.33570802 0.044571158 0.0308432587
X4 0.08978746 0.500233190 -0.4753434353
X5 0.29632742 -0.001593207 -0.1710017560
X6 0.31227481 -0.171785361 -0.0042676326
X7 0.31157419 -0.257369548 0.0576403884
X8 0.31897312 -0.006329201 0.1967515192
X9 0.30258774 0.087660408 0.3243036852
X10 0.29928615 0.080353729 -0.0006119755
X11 0.22038585 0.249229127 -0.0744833535
X12 0.29075906 0.074463875 0.0601612566
X13 0.24076352 0.165878188 -0.0540358813
X14 0.26751888 0.063399809 -0.4321726281
Persamaan komponen utama dapat ditulis, sebagai berikut.
\[ \begin{aligned} PC_1 &= -0.2258X_1+0.0180X_2+0.3357X_3+0.0898X_4+0.2963X_5+0.3123X_6+ 0.3116X_7+0.3190X_8+0.3026X_9+0.2993X_{10}+0.2204X_{11}+0.2908X_{12}+ 0.2408X_{13}+0.2675X{14} \\ PC_2 &= 0.4291X_1-0.5954X_2+0.0446X_3+0.5002X_4-0.0016X_5-0.1718X_6-0.2574X_7-0.0063X_8+0.0877X_9+0.0804X_{10}+0.2492X_{11}+0.0745X_{12}+0.1659X_{13}+0.0634X{14} \\ PC_3 &= -0.1948X_1-0.5998X_2+0.0308X_3-0.4753X_4-0.1710X_5-0.0043X_6+0.0576X_7+0.1968X_8+0.3243X_9-0.0006X_{10}-0.0745X_{11}+0.0602X_{12}-0.0540X_{13}-.4322{14} \end{aligned} \]
\(PC_1\) berkorelasi dengan sembilan variabel. \(PC_1\) meningkat seiring dengan meningkatnya Weight, Hip circumference, Chest circumference, Abdomen 2 circumference, Thigh circumference, Neck circumference, Biceps (extended) circumference, dan Wrist circumference. Hal ini menunjukkan bahwa kesembilan kriteria ini bervariasi secara bersama-sama. Jika salah satu meningkat, maka yang lainnya cenderung meningkat juga.
\(PC_2\) berkorelasi dengan tiga variabel. \(PC_2\) meningkat seiring dengan menurunnya Age serta meningkatnya Height dan Density.
\(PC_3\) berkorelasi dengan empat variabel. \(PC_3\) meningkat seiring dengan menurunnya Age, Height, dan Wrist circumference serta meningkatnya Thigh circumference.
6 KESIMPULAN
Berdasarkan analisis yang telah dilakukan, PCA dapat mereduksi kumpulan data yang besar dengan banyak variabel menjadi lebih kecil melalui pengurangan dimensi. Di mana hasil analisis terdapat 3 komponen utama pertama yakni, \(PC_1\), \(PC_2\), dan \(PC_3\). PCA adalah alat preprocessing yang dapat digunakan dalam pemodelan menengah seperti, regresi, clustering, analisis diskriminan, dll. Hal ini dikarenakan PCA mampu menangani multikolinieritas dan korelasi yang tinggi antar variabel-variabel prediktor.
7 DAFTAR PUSTAKA
Camargo, A. (2022). PCAtest: testing the statistical significance of Principal Component Analysis in R. PeerJ, 10, e12967. https://doi.org/10.7717%2Fpeerj.12967
Johson, R. A., & Wichern, D. W. (1998). Applied Multivariate Statistical Analysis. New Jersey: Prentice-Hall.
Penrose, K., Nelson, A. and Fisher, A. (1985) Generalized Body Composition Prediction Equation for Men Using Simple Measurement Techniques. Medicine and Science in Sports and Exercise, 17, 189. http://dx.doi.org/10.1249/00005768-198504000-00037
https://www.kaggle.com/datasets/fedesoriano/body-fat-prediction-dataset/ (diakses pada 20 Oktober 2023)