Principal Component Analysis pada Segmentasi Persen Lemak Tubuh Pria Dewasa

Faisal Khoirudin

2023-10-20

library(knitr)
opts_chunk$set(echo = TRUE)
opts_chunk$set(message = FALSE)
opts_chunk$set(warning = FALSE)
opts_chunk$set(comment = "")
opts_chunk$set(collapse = TRUE)
opts_chunk$set(error = TRUE)
opts_chunk$set(prompt = TRUE)
opts_chunk$set(fig.align = "center")

1 PENDAHULUAN

1.1 Latar Belakang

Dalam bidang kesehatan, istilah “komposisi tubuh” umumnya sering digunakan. Para ahli kesehatan menggunakan istilah “komposisi tubuh” untuk mengetahui berapa persen dari berat badan manusia yang terdiri dari lemak, yang dapat membantu menentukan tingkat kesehatan seseorang. Hal ini menjadi penting, karena seseorang dengan berat badan dan tinggi badan yang sama dapat memiliki tingkat massa otot dan lemak yang berbeda. Oleh karena itu, komposisi tubuh dapat menunjukkan berbagai masalah kesehatan.

Lemak merupakan nutrisi yang dibutuhkan tubuh untuk membangun membran sel, jaringan saraf, dan hormon. Selain itu, lemak juga diolah oleh tubuh manusia sebagai bahan bakar. Jika lemak yang ada tidak diolah oleh tubuh sebagai energi atau digunakan sebagai nutrisi pembangun, maka lemak akan disimpan dalam sel lemak. Hal inilah yang menjadi cara kerja tubuh dalam menyimpan lemak sebagai energi untuk dapat digunakan di waktu yang akan datang. Komposisi tubuh yang lebih sehat adalah yang memiliki lebih sedikit lemak. Terlalu banyak lemak dapat menyebabkan risiko seperti kanker, diabetes, penyakit jantung, dan masalah kesehatan yang lain.

Pada analisis ini memiliki tujuan untuk mengidentifikasi dan mengurutkan faktor-faktor yang paling berpengaruh dalam variabilitas persen lemak tubuh pria dewasa. PCA dapat membantu dalam mereduksi dimensi data kompleks yang terkait dengan berbagai parameter dan komposisi tubuh menjadi komponen-komponen yang lebih sederhana. Selain itu, PCA dapat membantu dalam mengungkap pola dan hubungan antara variabel-variabel tersebut, serta membantu dalam mengidentifikasi faktor-faktor utama yang memengaruhi persen lemak tubuh pria dewasa.

2 TINJAUAN PUSTAKA

2.1 PCA

PCA (Principal Component Analysis) merupakan suatu teknik analisis statistik multivariat. Analisis ini berkaitan dengan penjelasan struktur varians-kovarians dari sekumpulan variabel melalui beberapa kombinasi linier dari variabel-variabel tersebut. Tujuan utama dari penggunaan PCA adalah mereduksi data dan interpretasi (Johson & Wichern, 1998).

PCA dapat mengurangi dimensi dari kumpulan data, sehingga memungkinkan untuk sebagaian besar variabilitas dapat dijelaskan dengan menggunakan lebih sedikit variabel. PCA digunakan sebagai salah satu langkah dalam serangkaian analisis. Selain itu, PCA dapat menghidari adanya multikolinieritas saat memiliki terlalu banyak prediktor dibandingkan dengan jumlah observasi.

Komponen utama pertama dari kumpulan data \(X_1,X_2,...,X_p\) adalah kombinasi linier dari fitur-fitur.

\[ Y_1=\phi_{11}X_1+\phi_{12}X_2+...+\phi_{1p}X_p\ (1) \]

\(Y_1\) memiliki varians terbesar, di mana \(\phi_1\) merupakan vektor pembobot komponen utama pertama. \(\phi\) telah dinormalisasi, sehingga dapat diartikan bahwa \(\Sigma_{j=1}^p\phi_{1j}^2=1\). Setelah komponen utama pertama \(Y_1\) dari fitur-fitur tersebut telah ditentukan, dapat menentukan komponen utama kedua \(Y_2\). Komponen utama kedua adalah kombinasi linier dari \(X_1,X_2,...,X_p\) yang memiliki varians maksimal dari semua kombinasi linier yang tidak berkorelasi dengan \(Y_1\).

\[ Y_2=\phi_{21}X_1+\phi_{22}X_2+...+\phi_{2p}X_p\ (2) \]

Hal ini berlangsung sampai seluruh komponen utama dihitung. Elemen-elemen \(\phi_{11},\phi_{12},...,\phi_{1p}\) pada persamaan 1 dapat dihitung dengan menemukan vektor \(\phi\) yang memaksimalkan varians. Hal ini dapat ditunjukkan dengan menggunakan teknik aljabar linier bahwa vektor eigen yang sesuai dengan nilai eigen terbesar dari matriks varians kovarians merupakan himpunan pembobot yang dapat menjelaskan proporsi terbesar dari variabilitas.

3 DATA

Data yang digunakan adalah data dalam jurnal “Generalized Body Composition Prediction Equation for Men Using Simple Measurement Techniques” dan tersedia di Kaggle. Data “The Percentage of Body Fat” terdiri dari beberapa variabel, sebagai berikut.

\(Y:\) Percent body fat from Siri’s (1956) equation

\(X_1:\) Density determined from underwater weighing

\(X_2:\) Age (years)

\(X_3:\) Weight (lbs)

\(X_4:\) Height (inches)

\(X_5:\) Neck circumference (cm)

\(X_6:\) Chest circumference (cm)

\(X_7:\) Abdomen 2 circumference (cm)

\(X_8:\) Hip circumference (cm)

\(X_9:\) Thigh circumference (cm)

\(X_{10}:\) Knee circumference (cm)

\(X_{11}:\) Ankle circumference (cm)

\(X_{12}:\) Biceps (extended) circumference (cm)

\(X_{13}:\) Forearm circumference (cm)

\(X_{14}:\) Wrist circumference (cm)

4 SOURCE CODE

4.1 Library

> library(rmarkdown)
> library(knitr)
> library(tinytex)
> library(prettydoc)
> library(readxl)
> library(ggplot2)
> library(ggcorrplot)
> library(ggfortify)
> library(gridExtra)
> library(corrr)
> library(corrplot)
> library(FactoMineR)
> library(factoextra)
> library(PerformanceAnalytics)
> library(runner)

4.2 Struktur Data

Pemanggilan data dapat memanfaatkan fungsi import yang tersedia di dalam RStudio. Salah satu caranya adalah memanfaatkan file bertipe .xlsx.

> pcadata = read_excel("D:/Statistika Semester 5/Analisis Multivariat/The Percentage of Body Fat.xlsx")
> head(pcadata)
# A tibble: 6 × 15
      Y    X1    X2    X3    X4    X5    X6    X7    X8    X9   X10   X11   X12
  <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1  12.3  1.07    23  154.  67.8  36.2  93.1  85.2  94.5  59    37.3  21.9  32  
2   6.1  1.09    22  173.  72.2  38.5  93.6  83    98.7  58.7  37.3  23.4  30.5
3  25.3  1.04    22  154   66.2  34    95.8  87.9  99.2  59.6  38.9  24    28.8
4  10.4  1.08    26  185.  72.2  37.4 102.   86.4 101.   60.1  37.3  22.8  32.4
5  28.7  1.03    24  184.  71.2  34.4  97.3 100   102.   63.2  42.2  24    32.2
6  20.9  1.05    24  210.  74.8  39   104.   94.4 108.   66    42    25.6  35.7
# ℹ 2 more variables: X13 <dbl>, X14 <dbl>
> str(pcadata)
tibble [252 × 15] (S3: tbl_df/tbl/data.frame)
 $ Y  : num [1:252] 12.3 6.1 25.3 10.4 28.7 20.9 19.2 12.4 4.1 11.7 ...
 $ X1 : num [1:252] 1.07 1.09 1.04 1.08 1.03 ...
 $ X2 : num [1:252] 23 22 22 26 24 24 26 25 25 23 ...
 $ X3 : num [1:252] 154 173 154 185 184 ...
 $ X4 : num [1:252] 67.8 72.2 66.2 72.2 71.2 ...
 $ X5 : num [1:252] 36.2 38.5 34 37.4 34.4 39 36.4 37.8 38.1 42.1 ...
 $ X6 : num [1:252] 93.1 93.6 95.8 101.8 97.3 ...
 $ X7 : num [1:252] 85.2 83 87.9 86.4 100 94.4 90.7 88.5 82.5 88.6 ...
 $ X8 : num [1:252] 94.5 98.7 99.2 101.2 101.9 ...
 $ X9 : num [1:252] 59 58.7 59.6 60.1 63.2 66 58.4 60 62.9 63.1 ...
 $ X10: num [1:252] 37.3 37.3 38.9 37.3 42.2 42 38.3 39.4 38.3 41.7 ...
 $ X11: num [1:252] 21.9 23.4 24 22.8 24 25.6 22.9 23.2 23.8 25 ...
 $ X12: num [1:252] 32 30.5 28.8 32.4 32.2 35.7 31.9 30.5 35.9 35.6 ...
 $ X13: num [1:252] 27.4 28.9 25.2 29.4 27.7 30.6 27.8 29 31.1 30 ...
 $ X14: num [1:252] 17.1 18.2 16.6 18.2 17.7 18.8 17.7 18.8 18.2 19.2 ...

Struktur dari pcadata dapat diidentifikasi berupa tibble dengan 252 observasi dan terdapat 15 variabel yang bertipe numerik.

Function read_excel() berfungsi agar R dapat mengakses file bertipe .xlsx dengan argument berupa file path dari data Microsoft Excel. Function head() berfungsi untuk menampilkan 6 observasi awal dari data dan str() berfungsi untuk menampilkan deskripsi singkat jenis data yang tersedia.

4.3 Statistika Deskriptif

> summary(pcadata)

Function summary() berfungsi untuk menampilkan penjelasan ringkas pada data dengan argument berupa data yang telah didefinisikan sebelumnya.

4.4 Korelasi Data

> cor(pcadata)
> ggcorrplot(cor(pcadata))
> corrplot(cor(pcadata), method = "number", type = "upper")

Function corr() berfungsi untuk menampilkan perhitungan matriks korelasi dengan argument berupa data yang telah didefinisikan sebelumnya. Function ggcorrplot() dan corrplot() berfungsi untuk memvisualisasikan plot perhitungan matriks korelasi dengan argument berupa matriks korelasi.

4.5 PCA

> pca = prcomp(pcadata[,-1], center = TRUE, scale. = TRUE)
> summary(pca)
> fviz_cos2(pca, choice = "var", axes = 1:3)
> fviz_pca_var(pca, col.var = "cos2",
+              gradient.cols = c("#FEAC5E", "#C779D0", "#4BC0C8"),
+              repel = TRUE)
> 
> a = fviz_contrib(pca, choice = "var", axes = 1)
> b = fviz_contrib(pca, choice = "var", axes = 2)
> c = fviz_contrib(pca, choice = "var", axes = 3)
> grid.arrange(a, b, c, ncol  = 1, top = 'Contribution of the variables to the first two PCs')

Function prcomp() berfungsi untuk melakukan PCA pada matriks data yang diberikan dengan argument x adalah matriks yang menyediakan data untuk PCA, center adalah nilai logika yang menunjukkan apakah variabel perlu digeser ke nilai tengah nol, dan scale. adalah nilai logika yang menunjukkan apakah variabel harus diskalakan agar memiliki varians unit sebelum analisis dilakukan.

Function fviz_cos2() berfungsi untuk memvisualisasikan grafik kualitas representasi (cos2) baris/kolom dari hasil fungsi PCA dengan argument X adalah objek dari kelas PCA, choice menunjukkan nilai yang dipilih yaitu var untuk PCA, dan axes adalah vektor numerik yang menentukan dimensi yang diinginkan.

PCA mengurangi dimensi data multivariat, menjadi dua atau tiga yang dapat divisualisasikan secara grafis dengan sedikit kehilangan informasi. fviz_pca_var() berfungsi memvisualisasikan plot variabel. fviz_contrib() berfungsi memvisualisasikan kontribusi baris/kolom dari hasil fungsi PCA.

4.6 Nilai Eigen

> pca.data = PCA(pcadata[,-1], scale.unit = TRUE, graph = FALSE)
> pca.eigen = as.data.frame(pca.data$eig)
> pca.eigen
> fviz_eig(pca, addlabels = TRUE)

Function PCA() berfungsi untuk melakukan PCA dengan individu tambahan, variabel kuantitatif tambahan, dan variabel kategorikal tambahan. pca.data$eig untuk melihat nilai eigen dari hasil PCA. Function fviz_eig() berfungsi untuk memvisualisasikan grafik nilai/varians eigen terhadap jumlah dimensi dengan argument X adalah objek dari kelas PCA dan addlabels menunjukkan informasi yang disimpan oleh setiap dimensi.

4.7 Model PCA

> pca$rotation[,1:3]

Function pca$rotation berfungsi untuk melihat komposisi nilai variabel \(X\) dalam komponen utama (PC).

5 HASIL DAN PEMBAHASAN

5.1 Statistika Deskriptif

       Y               X1              X2              X3       
 Min.   : 0.00   Min.   :0.995   Min.   :22.00   Min.   :118.5  
 1st Qu.:12.47   1st Qu.:1.041   1st Qu.:35.75   1st Qu.:159.0  
 Median :19.20   Median :1.055   Median :43.00   Median :176.5  
 Mean   :19.15   Mean   :1.056   Mean   :44.88   Mean   :178.9  
 3rd Qu.:25.30   3rd Qu.:1.070   3rd Qu.:54.00   3rd Qu.:197.0  
 Max.   :47.50   Max.   :1.109   Max.   :81.00   Max.   :363.1  
       X4              X5              X6               X7        
 Min.   :29.50   Min.   :31.10   Min.   : 79.30   Min.   : 69.40  
 1st Qu.:68.25   1st Qu.:36.40   1st Qu.: 94.35   1st Qu.: 84.58  
 Median :70.00   Median :38.00   Median : 99.65   Median : 90.95  
 Mean   :70.15   Mean   :37.99   Mean   :100.82   Mean   : 92.56  
 3rd Qu.:72.25   3rd Qu.:39.42   3rd Qu.:105.38   3rd Qu.: 99.33  
 Max.   :77.75   Max.   :51.20   Max.   :136.20   Max.   :148.10  
       X8              X9             X10             X11            X12       
 Min.   : 85.0   Min.   :47.20   Min.   :33.00   Min.   :19.1   Min.   :24.80  
 1st Qu.: 95.5   1st Qu.:56.00   1st Qu.:36.98   1st Qu.:22.0   1st Qu.:30.20  
 Median : 99.3   Median :59.00   Median :38.50   Median :22.8   Median :32.05  
 Mean   : 99.9   Mean   :59.41   Mean   :38.59   Mean   :23.1   Mean   :32.27  
 3rd Qu.:103.5   3rd Qu.:62.35   3rd Qu.:39.92   3rd Qu.:24.0   3rd Qu.:34.33  
 Max.   :147.7   Max.   :87.30   Max.   :49.10   Max.   :33.9   Max.   :45.00  
      X13             X14       
 Min.   :21.00   Min.   :15.80  
 1st Qu.:27.30   1st Qu.:17.60  
 Median :28.70   Median :18.30  
 Mean   :28.66   Mean   :18.23  
 3rd Qu.:30.00   3rd Qu.:18.80  
 Max.   :34.90   Max.   :21.40  

Berdasarkan output di atas, dapat diketahui ringkasan atau gambaran umum dari variabel-variabel dalam analisis. Ringkasan hasil meliputi nilai \(Min\), \(Q_1\), \(Median\), \(Mean\), \(Q_3\), dan \(Max\) setiap variabel.

5.2 Korelasi Data

              Y          X1          X2          X3          X4         X5
Y    1.00000000 -0.98778240  0.29145844  0.61241400 -0.08949538  0.4905919
X1  -0.98778240  1.00000000 -0.27763721 -0.59406188  0.09788114 -0.4729664
X2   0.29145844 -0.27763721  1.00000000 -0.01274609 -0.17164514  0.1135052
X3   0.61241400 -0.59406188 -0.01274609  1.00000000  0.30827854  0.8307162
X4  -0.08949538  0.09788114 -0.17164514  0.30827854  1.00000000  0.2537099
X5   0.49059185 -0.47296636  0.11350519  0.83071622  0.25370988  1.0000000
X6   0.70262034 -0.68259865  0.17644968  0.89419052  0.13489181  0.7848350
X7   0.81343228 -0.79895463  0.23040942  0.88799494  0.08781291  0.7540774
X8   0.62520092 -0.60933143 -0.05033212  0.94088412  0.17039426  0.7349579
X9   0.55960753 -0.55309098 -0.20009576  0.86869354  0.14843561  0.6956973
X10  0.50866524 -0.49504035  0.01751569  0.85316739  0.28605321  0.6724050
X11  0.26596977 -0.26489003 -0.10505810  0.61368542  0.26474369  0.4778924
X12  0.49327113 -0.48710872 -0.04116212  0.80041593  0.20781557  0.7311459
X13  0.36138690 -0.35164842 -0.08505555  0.63030143  0.22864922  0.6236603
X14  0.34657486 -0.32571598  0.21353062  0.72977489  0.32206533  0.7448264
            X6          X7          X8         X9         X10        X11
Y    0.7026203  0.81343228  0.62520092  0.5596075  0.50866524  0.2659698
X1  -0.6825987 -0.79895463 -0.60933143 -0.5530910 -0.49504035 -0.2648900
X2   0.1764497  0.23040942 -0.05033212 -0.2000958  0.01751569 -0.1050581
X3   0.8941905  0.88799494  0.94088412  0.8686935  0.85316739  0.6136854
X4   0.1348918  0.08781291  0.17039426  0.1484356  0.28605321  0.2647437
X5   0.7848350  0.75407737  0.73495788  0.6956973  0.67240498  0.4778924
X6   1.0000000  0.91582767  0.82941992  0.7298586  0.71949640  0.4829879
X7   0.9158277  1.00000000  0.87406618  0.7666239  0.73717888  0.4532227
X8   0.8294199  0.87406618  1.00000000  0.8964098  0.82347262  0.5583868
X9   0.7298586  0.76662393  0.89640979  1.0000000  0.79917030  0.5397971
X10  0.7194964  0.73717888  0.82347262  0.7991703  1.00000000  0.6116082
X11  0.4829879  0.45322269  0.55838682  0.5397971  0.61160820  1.0000000
X12  0.7279075  0.68498272  0.73927252  0.7614774  0.67870883  0.4848545
X13  0.5801727  0.50331609  0.54501412  0.5668422  0.55589819  0.4190500
X14  0.6601623  0.61983243  0.63008954  0.5586848  0.66450729  0.5661946
            X12         X13        X14
Y    0.49327113  0.36138690  0.3465749
X1  -0.48710872 -0.35164842 -0.3257160
X2  -0.04116212 -0.08505555  0.2135306
X3   0.80041593  0.63030143  0.7297749
X4   0.20781557  0.22864922  0.3220653
X5   0.73114592  0.62366027  0.7448264
X6   0.72790748  0.58017273  0.6601623
X7   0.68498272  0.50331609  0.6198324
X8   0.73927252  0.54501412  0.6300895
X9   0.76147745  0.56684218  0.5586848
X10  0.67870883  0.55589819  0.6645073
X11  0.48485454  0.41904999  0.5661946
X12  1.00000000  0.67825513  0.6321264
X13  0.67825513  1.00000000  0.5855883
X14  0.63212642  0.58558825  1.0000000

Berdasarkan output di atas, dapat diketahui tingkat korelasi antar variabel dalam analisis. Tentunya variabel akan memiliki nilai korelasi sempurna sebesar 1 dengan dirinya sendiri. Adanya korelasi yang sangat tinggi antar variabel, sebagai berikut.

  • \(X_1\) dengan \(X_7\)

  • \(X_3\) dengan \(X_5\), \(X_6\), \(X_7\), \(X_8\), \(X_9\), \(X_{10}\), dan \(X_{12}\)

  • \(X_6\) dengan \(X_7\) dan \(X_8\)

  • \(X_7\) dengan \(X_8\)

  • \(X_8\) dengan \(X_9\) dan \(X_{10}\)

  • \(X_9\) dengan \(X_{10}\)

Korelasi yang tinggi antara variabel prediktor dapat menjadi masalah multikolinieritas dalam model. Oleh karena itu, perlu melakukan PCA untuk menghilangkan korelasi yang tinggi dan mereduksi 14 variabel prediktor tersebut.

5.3 PCA

Importance of components:
                          PC1    PC2     PC3     PC4     PC5     PC6     PC7
Standard deviation     2.9048 1.2541 1.02367 0.82123 0.79040 0.65252 0.55179
Proportion of Variance 0.6027 0.1123 0.07485 0.04817 0.04462 0.03041 0.02175
Cumulative Proportion  0.6027 0.7150 0.78989 0.83806 0.88269 0.91310 0.93485
                           PC8     PC9    PC10    PC11    PC12    PC13    PC14
Standard deviation     0.51146 0.44628 0.42341 0.36149 0.27730 0.20285 0.15290
Proportion of Variance 0.01869 0.01423 0.01281 0.00933 0.00549 0.00294 0.00167
Cumulative Proportion  0.95353 0.96776 0.98056 0.98990 0.99539 0.99833 1.00000

Berdasarkan output di atas, dapat diketahui standar deviasi, proporsi varians, dan proporsi varians kumulatif setiap komponen utama. Kualitas representasi dari hasil PCA faktor paling tinggi pada \(X_3\) dan faktor paling rendah pada \(X_{11}\).

Plot variabel dapat memberikan informasi bahwa jika terjadi peningkatan nilai di suatu anak panah, anak panah lainnya memberikan estimasi tentang apa yang terjadi pada variabel lain. Sebagai contoh, semakin besar variabel Ankle circumference (\(X_{11}\)), maka variabel Forearm circumference (\(X_{13}\)) juga akan semakin besar (yang mana kedua anak panah mengarah ke arah yang sama).

Gradien warna dapat memberikan informasi tentang kuadrat kosinus masing-masing variabel terhadap PCA. Hal tersebut memberikan informasi seberapa besar representasi masing-masing variabel dalam komponen utama. Variabel Ankle circumference (\(X_{11}\)) dan Forearm circumference (\(X_{13}\)) memiliki representasi rendah dalam PCA. Sementara, variabel Weight (\(X_3\)), Age (\(X_2\)), dan Abdomen 2 circumference (\(X_7\)) memiliki representasi tinggi dalam PCA.

Plot terakhir menunjukkan persentase variabel pada tiga komponen utama pertama. Pada komponen utama pertama (\(PC_1\)), \(X_3\), \(X_8\), \(X_6\), \(X_7\), \(X_9\), \(X_{10}\), \(X_5\), \(X_{12}\), dan \(X_{14}\) adalah variabel yang terpenting. Pada komponen utama kedua (\(PC_2\)), \(X_2\), \(X_4\), dan \(X_1\) adalah variabel yang terpenting. Sementara pada komponen utama ketiga (\(PC_3\)), \(X_2\), \(X_4\), \(X_{14}\) dan \(X_9\) adalah variabel yang terpenting.

5.4 Nilai Eigen

        eigenvalue percentage of variance cumulative percentage of variance
comp 1  8.43784115             60.2702939                          60.27029
comp 2  1.57270697             11.2336212                          71.50392
comp 3  1.04790534              7.4850381                          78.98895
comp 4  0.67442069              4.8172906                          83.80624
comp 5  0.62473644              4.4624031                          88.26865
comp 6  0.42578716              3.0413369                          91.30998
comp 7  0.30447636              2.1748311                          93.48482
comp 8  0.26159009              1.8685006                          95.35332
comp 9  0.19916570              1.4226121                          96.77593
comp 10 0.17927597              1.2805427                          98.05647
comp 11 0.13067508              0.9333934                          98.98986
comp 12 0.07689434              0.5492453                          99.53911
comp 13 0.04114629              0.2939020                          99.83301
comp 14 0.02337843              0.1669888                         100.00000

Terdapat tiga kriteria untuk memilih banyak komponen utama yang relevan digunakan (Camargo, 2022).

  1. Proporsi varians kumulatif lebih dari 80%.
  2. Nilai eigen lebih dari 1.
  3. Scree plot.

Nilai eigen pada komponen utama 1, 2, dan 3 lebih dari 1. Secara proporsi varians kumulatif, dapat menjelaskan sekitar 79% varians. Oleh karena itu, pada kasus ini menggunakan 3 komponen utama pertama.

5.5 Model PCA

            PC1          PC2           PC3
X1  -0.22581343  0.429113998 -0.1948279800
X2   0.01797477 -0.595410151 -0.5998437495
X3   0.33570802  0.044571158  0.0308432587
X4   0.08978746  0.500233190 -0.4753434353
X5   0.29632742 -0.001593207 -0.1710017560
X6   0.31227481 -0.171785361 -0.0042676326
X7   0.31157419 -0.257369548  0.0576403884
X8   0.31897312 -0.006329201  0.1967515192
X9   0.30258774  0.087660408  0.3243036852
X10  0.29928615  0.080353729 -0.0006119755
X11  0.22038585  0.249229127 -0.0744833535
X12  0.29075906  0.074463875  0.0601612566
X13  0.24076352  0.165878188 -0.0540358813
X14  0.26751888  0.063399809 -0.4321726281

Persamaan komponen utama dapat ditulis, sebagai berikut.

\[ \begin{aligned} PC_1 &= -0.2258X_1+0.0180X_2+0.3357X_3+0.0898X_4+0.2963X_5+0.3123X_6+ 0.3116X_7+0.3190X_8+0.3026X_9+0.2993X_{10}+0.2204X_{11}+0.2908X_{12}+ 0.2408X_{13}+0.2675X{14} \\ PC_2 &= 0.4291X_1-0.5954X_2+0.0446X_3+0.5002X_4-0.0016X_5-0.1718X_6-0.2574X_7-0.0063X_8+0.0877X_9+0.0804X_{10}+0.2492X_{11}+0.0745X_{12}+0.1659X_{13}+0.0634X{14} \\ PC_3 &= -0.1948X_1-0.5998X_2+0.0308X_3-0.4753X_4-0.1710X_5-0.0043X_6+0.0576X_7+0.1968X_8+0.3243X_9-0.0006X_{10}-0.0745X_{11}+0.0602X_{12}-0.0540X_{13}-.4322{14} \end{aligned} \]

\(PC_1\) berkorelasi dengan sembilan variabel. \(PC_1\) meningkat seiring dengan meningkatnya Weight, Hip circumference, Chest circumference, Abdomen 2 circumference, Thigh circumference, Neck circumference, Biceps (extended) circumference, dan Wrist circumference. Hal ini menunjukkan bahwa kesembilan kriteria ini bervariasi secara bersama-sama. Jika salah satu meningkat, maka yang lainnya cenderung meningkat juga.

\(PC_2\) berkorelasi dengan tiga variabel. \(PC_2\) meningkat seiring dengan menurunnya Age serta meningkatnya Height dan Density.

\(PC_3\) berkorelasi dengan empat variabel. \(PC_3\) meningkat seiring dengan menurunnya Age, Height, dan Wrist circumference serta meningkatnya Thigh circumference.

6 KESIMPULAN

Berdasarkan analisis yang telah dilakukan, PCA dapat mereduksi kumpulan data yang besar dengan banyak variabel menjadi lebih kecil melalui pengurangan dimensi. Di mana hasil analisis terdapat 3 komponen utama pertama yakni, \(PC_1\), \(PC_2\), dan \(PC_3\). PCA adalah alat preprocessing yang dapat digunakan dalam pemodelan menengah seperti, regresi, clustering, analisis diskriminan, dll. Hal ini dikarenakan PCA mampu menangani multikolinieritas dan korelasi yang tinggi antar variabel-variabel prediktor.

7 DAFTAR PUSTAKA

Camargo, A. (2022). PCAtest: testing the statistical significance of Principal Component Analysis in R. PeerJ, 10, e12967. https://doi.org/10.7717%2Fpeerj.12967

Johson, R. A., & Wichern, D. W. (1998). Applied Multivariate Statistical Analysis. New Jersey: Prentice-Hall.

Penrose, K., Nelson, A. and Fisher, A. (1985) Generalized Body Composition Prediction Equation for Men Using Simple Measurement Techniques. Medicine and Science in Sports and Exercise, 17, 189. http://dx.doi.org/10.1249/00005768-198504000-00037

https://www.kaggle.com/datasets/fedesoriano/body-fat-prediction-dataset/ (diakses pada 20 Oktober 2023)