UJIAN AKHIR SEMESTER METODE MULTIVARIAT

Sekar Ayun Cahyani/4112322003/D3-Statistika Terapan dan Komputasi

5. Membuat analisis PCA dari dataset yang diberikan

Persiapan Data

Instalasi package

menginstall package yang diperlukan

library(FactoMineR)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)

Analisis PCA

Melihat data terpusat dan terskala

Kita perlu menskalakan data ketika variabel dinyatakan pada urutan besarnya yang berbeda.

data(decathlon)
dec <- decathlon %>% 
  select(-Competition)

dec_scaled <- scale(dec)
dec_scaled
##                    100m  Long.jump     Shot.put   High.jump        400m
## SEBRLE       0.15949639  1.0113727  0.428087000  1.04744448  0.16789492
## CLAY        -0.90504930  0.4424756 -0.263301610 -1.31341860 -0.21356911
## KARPOV       0.08345742  0.1264216  0.355309251  0.71017832 -1.08053282
## BERNARD      0.08345742 -0.0948162 -0.275431235 -0.63888629 -0.59503314
## YURKOV       1.30008106 -0.5372918  0.864753490  1.38471063  0.69674279
## WARNERS      0.42563282  1.0745835 -0.202653486  0.03564602 -0.81177407
## ZSIVOCZKY    0.50167179  0.1264216 -1.209412340  0.37291217 -0.86379189
## McMULLEN    -0.63891288  0.1580270 -0.869782847  1.72197679  0.25459130
## MARTINEAU    2.44066574 -1.4222429  0.112716757 -0.30162014  0.45399295
## HERNU        1.41413953  0.9481620 -0.081357239 -1.31341860  1.28627811
## BARRAS       1.26206158 -0.9165566 -0.469505231 -0.30162014 -0.11820310
## NOOL         1.26206158  0.0316054 -2.179782319  0.03564602 -0.36095294
## BOURGUIGNON  1.37612004 -1.4538483 -1.233671589 -1.31341860  1.33829594
## Sebrle      -0.56287390  1.8331131  2.283919585  1.60955474 -1.08920246
## Clay        -2.12167295  2.2123779  0.913271989  0.93502243 -0.36962258
## Karpov      -1.89355602  1.7382969  1.762345721  1.27228858 -2.43299621
## Macey       -0.41079594  0.6637134  1.519753226  1.94682089 -0.56035459
## Warners     -1.43732215  1.5170591  0.003550134 -0.07677604 -1.42731831
## Zsivoczky   -0.33475696 -0.3792648  1.010308987  1.60955474 -0.18756020
## Hernu       -0.10664003 -0.2212378  0.209753755  0.59775627 -0.76842589
## Nool        -0.75297134  0.8533458 -0.263301610 -1.08857450 -0.69906879
## Bernard     -1.17118572  0.6953188  0.391698126  1.60955474 -0.42164040
## Schwarzl    -0.06862054  0.7269242 -0.566542229 -0.41404219  0.12454674
## Pogorelov   -0.18267901  0.1580270  0.755586868  0.93502243  1.01751936
## Schoenbeck  -0.37277645  0.1264216  0.355309251 -1.08857450  0.59270714
## Barras       0.53969128 -0.8533458  0.525123998 -0.41404219 -0.17889056
## Smith       -0.56287390 -1.4222429  0.925401614 -0.75130834 -0.30026548
## Averyanov   -1.70345857  0.2528432 -0.044968365 -0.41404219  0.08986819
## Ojaniemi    -1.20920521  0.7585296  0.597901746 -0.41404219 -0.43031004
## Smirnov     -0.41079594 -0.6005026 -0.724227350 -0.41404219 -0.43897967
## Qi           0.23553537  0.2528432 -1.124504967 -0.07677604  0.02918073
## Drews       -0.48683492  0.3792648 -1.706726954 -1.08857450 -0.95915790
## Parkhomenko  0.53969128 -2.0543509  1.471234727  0.59775627  1.23426029
## Terek       -0.29673748 -1.0113727  0.816234992 -0.41404219 -0.04884600
## Gomez        0.31157435  0.0000000  0.112716757 -1.42584065 -0.87246153
## Turi         0.31157435 -1.1061889 -1.039597593  0.59775627  1.78044743
## Lorenzo      0.38761333 -0.7269242 -1.524782583 -1.42584065 -0.23957802
## Karlivans    1.26206158  0.0000000 -1.427745585 -0.07677604  0.80077843
## Korkizoglou -0.52485441 -0.6005026  0.403827750 -0.41404219  1.33829594
## Uldal        0.88186669 -0.8533458 -1.148764216 -1.42584065  1.15623356
## Casarsa      1.37612004 -1.8331131  0.537253623 -0.41404219  3.10690191
##             110m.hurdle      Discus Pole.vault     Javeline       1500m
## SEBRLE       0.17835587 -0.17040740  0.9264789  1.009653240  1.08582657
## CLAY        -1.17818270  1.89303852  0.5667665  0.379839017  1.92535303
## KARPOV      -1.09339904  1.36903575  0.5667665 -1.658770177  1.81398728
## BERNARD      0.81423333 -1.02302207  2.0056163  0.922639433  0.09210136
## YURKOV       1.49250261  0.57266997 -0.1526585  1.061447173 -0.22486271
## WARNERS     -0.79665623 -0.95493132  0.5667665 -1.356293610 -0.07923057
## ZSIVOCZKY   -0.92383172  0.39800238 -1.2317958 -0.610460978 -0.94445683
## McMULLEN    -0.47871750  0.02498346 -1.2317958 -0.403285246  0.52043119
## MARTINEAU    0.68705783  0.96937262  0.5667665 -1.240275200 -1.44988603
## HERNU        0.96260473  0.19669058  0.2070540 -0.233401147  0.52043119
## BARRAS      -0.26675835 -0.65888456 -0.1526585 -0.604245706  0.25486670
## NOOL         1.45011078 -1.89636002 -0.5123709 -0.181607214 -1.06438918
## BOURGUIGNON  2.25555555 -1.13551984  0.9264789 -0.753412232  1.08582657
## Sebrle      -1.17818270  1.30094500  0.8545364  2.528251350  0.08439142
## Clay        -1.00861538  1.71244999  0.4948240  2.360439007  0.25486670
## Karpov      -1.34775002  2.16836201 -0.5843134 -0.575241103 -0.07837391
## Macey       -0.09719103  1.18844723 -1.3037383  0.029712032 -1.16547502
## Warners     -1.26296636 -0.17632834  0.4948240 -0.606317463 -0.08351387
## Zsivoczky    0.72944966  0.38320004 -0.2246009  1.063518930 -0.81253124
## Hernu       -0.75426439  0.11675795  0.1351115 -0.115310980 -1.25713760
## Nool         0.41151094 -0.67368690  2.2933863  0.624306380 -0.23085933
## Bernard     -0.92383172  0.12563936 -1.3037383 -0.631178551 -0.23257265
## Schwarzl    -0.75426439 -0.56118913  1.2142489 -0.413644033 -0.46815406
## Pogorelov   -0.83904806  0.08123234  0.8545364 -1.008238381  0.73716609
## Schoenbeck  -0.56350116  0.02498346  0.8545364  0.533149058 -0.01755108
## Barras      -0.49991341  0.14932310 -0.5843134  1.291412235 -1.02241286
## Smith       -1.26296636  1.38975902 -2.0231632  0.663669769 -0.53840015
## Averyanov   -0.45752158 -1.31610837  0.1351115 -0.788632106 -0.68574561
## Ojaniemi     0.85662516 -1.17696639 -0.5843134  0.195452617 -0.28397223
## Smirnov      0.34792319 -0.54934726 -0.2246009  0.531077301 -1.34623021
## Qi           0.36911911  0.23813713 -0.9440259  0.512431485 -0.54782341
## Drews       -1.26296636 -1.24801761  0.8545364 -1.406015785 -0.41247118
## Parkhomenko  0.58107826 -0.71809391  0.1351115  1.554525413 -0.09293713
## Terek        1.08978022  0.38320004  1.9336738 -1.594545701  0.97103417
## Gomez       -0.41512975 -0.99933833 -1.3037383  0.495857427 -0.79882469
## Turi        -0.73306848 -1.33091071  0.1351115  0.212026675  0.94105108
## Lorenzo      1.64087402 -1.21545247 -0.9440259  0.008994459 -1.36593338
## Karlivans    0.79303741 -0.29178658 -0.9440259 -1.118041519 -0.03040097
## Korkizoglou  0.75064558  0.51642108 -0.2246009 -1.091108674  3.25317551
## Uldal        1.02619248 -0.38948201 -0.9440259  0.348762658  0.22916691
## Casarsa      1.66206993  1.28318219 -1.3037383  0.062860149  1.46447014
##                    Rank       Points
## SEBRLE      -1.40447311  0.618117197
## CLAY        -1.27819373  0.340651888
## KARPOV      -1.15191435  0.273476077
## BERNARD     -1.02563497  0.180014078
## YURKOV      -0.89935559  0.089472767
## WARNERS     -0.77307621  0.071948642
## ZSIVOCZKY   -0.64679683 -0.003989232
## McMULLEN    -0.52051745 -0.030275419
## MARTINEAU   -0.39423807 -0.593968098
## HERNU       -0.26795869 -0.795495533
## BARRAS      -0.14167931 -0.868512719
## NOOL        -0.01539992 -1.034991904
## BOURGUIGNON  0.11087946 -2.022184265
## Sebrle      -1.40447311  2.592501918
## Clay        -1.27819373  2.379291734
## Karpov      -1.15191435  2.101826425
## Macey       -1.02563497  1.193492626
## Warners     -0.89935559  0.986123817
## Zsivoczky   -0.77307621  0.822565319
## Hernu       -0.64679683  0.676530946
## Nool        -0.52051745  0.670689571
## Bernard     -0.39423807  0.641482697
## Schwarzl    -0.26795869  0.282238139
## Pogorelov   -0.14167931  0.229665765
## Schoenbeck  -0.01539992  0.209220953
## Barras       0.11087946  0.180014078
## Smith        0.23715884  0.051503830
## Averyanov    0.36343822  0.045662455
## Ojaniemi     0.48971760  0.001852143
## Smirnov      0.61599698 -0.036116794
## Qi           0.74227636 -0.208437354
## Drews        0.86855574 -0.231802853
## Parkhomenko  0.99483512 -0.255168353
## Terek        1.12111450 -0.328185539
## Gomez        1.24739388 -0.409964788
## Turi         1.37367327 -0.868512719
## Lorenzo      1.49995265 -1.207312464
## Karlivans    1.62623203 -1.233598651
## Korkizoglou  1.75251141 -1.262805526
## Uldal        1.87879079 -1.490619148
## Casarsa      2.00507017 -1.756401706
## attr(,"scaled:center")
##        100m   Long.jump    Shot.put   High.jump        400m 110m.hurdle 
##   10.998049    7.260000   14.477073    1.976829   49.616341   14.605854 
##      Discus  Pole.vault    Javeline       1500m        Rank      Points 
##   44.325610    4.762439   58.316585  279.024878   12.121951 8005.365854 
## attr(,"scaled:scale")
##         100m    Long.jump     Shot.put    High.jump         400m  110m.hurdle 
##   0.26302300   0.31640164   0.82442781   0.08895052   1.15345081   0.47178902 
##       Discus   Pole.vault     Javeline        1500m         Rank       Points 
##   3.37784476   0.27799982   4.82682018  11.67324722   7.91894918 342.38514542

Memilih variabel aktif dan variabel ilustratif

disini kita memilih variabel Rank, Point, (dan mungkin juga Competition) sebagai variabel Ilustratif, dan variabel lain sebagai variabel aktif.

res.pca <- PCA(decathlon, scale = T, quanti.sup = c(11,12), quali.sup = c(13))
## Warning: ggrepel: 3 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps

summary.PCA(res.pca)
## 
## Call:
## PCA(X = decathlon, scale.unit = T, quanti.sup = c(11, 12), quali.sup = c(13)) 
## 
## 
## Eigenvalues
##                        Dim.1   Dim.2   Dim.3   Dim.4   Dim.5   Dim.6   Dim.7
## Variance               3.272   1.737   1.405   1.057   0.685   0.599   0.451
## % of var.             32.719  17.371  14.049  10.569   6.848   5.993   4.512
## Cumulative % of var.  32.719  50.090  64.140  74.708  81.556  87.548  92.061
##                        Dim.8   Dim.9  Dim.10
## Variance               0.397   0.215   0.182
## % of var.              3.969   2.148   1.822
## Cumulative % of var.  96.030  98.178 100.000
## 
## Individuals (the 10 first)
##                 Dist    Dim.1    ctr   cos2    Dim.2    ctr   cos2    Dim.3
## SEBRLE      |  2.369 |  0.792  0.467  0.112 |  0.772  0.836  0.106 |  0.827
## CLAY        |  3.507 |  1.235  1.137  0.124 |  0.575  0.464  0.027 |  2.141
## KARPOV      |  3.396 |  1.358  1.375  0.160 |  0.484  0.329  0.020 |  1.956
## BERNARD     |  2.763 | -0.610  0.277  0.049 | -0.875  1.074  0.100 |  0.890
## YURKOV      |  3.018 | -0.586  0.256  0.038 |  2.131  6.376  0.499 | -1.225
## WARNERS     |  2.428 |  0.357  0.095  0.022 | -1.685  3.986  0.482 |  0.767
## ZSIVOCZKY   |  2.563 |  0.272  0.055  0.011 | -1.094  1.680  0.182 | -1.283
## McMULLEN    |  2.561 |  0.588  0.257  0.053 |  0.231  0.075  0.008 | -0.418
## MARTINEAU   |  3.742 | -1.995  2.968  0.284 |  0.561  0.442  0.022 | -0.730
## HERNU       |  2.794 | -1.546  1.782  0.306 |  0.488  0.335  0.031 |  0.841
##                ctr   cos2  
## SEBRLE       1.187  0.122 |
## CLAY         7.960  0.373 |
## KARPOV       6.644  0.332 |
## BERNARD      1.375  0.104 |
## YURKOV       2.606  0.165 |
## WARNERS      1.020  0.100 |
## ZSIVOCZKY    2.857  0.250 |
## McMULLEN     0.303  0.027 |
## MARTINEAU    0.925  0.038 |
## HERNU        1.227  0.091 |
## 
## Variables
##                Dim.1    ctr   cos2    Dim.2    ctr   cos2    Dim.3    ctr
## 100m        | -0.775 18.344  0.600 |  0.187  2.016  0.035 | -0.184  2.420
## Long.jump   |  0.742 16.822  0.550 | -0.345  6.869  0.119 |  0.182  2.363
## Shot.put    |  0.623 11.844  0.388 |  0.598 20.607  0.358 | -0.023  0.039
## High.jump   |  0.572  9.998  0.327 |  0.350  7.064  0.123 | -0.260  4.794
## 400m        | -0.680 14.116  0.462 |  0.569 18.666  0.324 |  0.131  1.230
## 110m.hurdle | -0.746 17.020  0.557 |  0.229  3.013  0.052 | -0.093  0.611
## Discus      |  0.552  9.328  0.305 |  0.606 21.162  0.368 |  0.043  0.131
## Pole.vault  |  0.050  0.077  0.003 | -0.180  1.873  0.033 |  0.692 34.061
## Javeline    |  0.277  2.347  0.077 |  0.317  5.784  0.100 | -0.390 10.807
## 1500m       | -0.058  0.103  0.003 |  0.474 12.946  0.225 |  0.782 43.543
##               cos2  
## 100m         0.034 |
## Long.jump    0.033 |
## Shot.put     0.001 |
## High.jump    0.067 |
## 400m         0.017 |
## 110m.hurdle  0.009 |
## Discus       0.002 |
## Pole.vault   0.479 |
## Javeline     0.152 |
## 1500m        0.612 |
## 
## Supplementary continuous variables
##                Dim.1   cos2    Dim.2   cos2    Dim.3   cos2  
## Rank        | -0.671  0.450 |  0.051  0.003 | -0.058  0.003 |
## Points      |  0.956  0.914 | -0.017  0.000 | -0.066  0.004 |
## 
## Supplementary categories
##                 Dist    Dim.1   cos2 v.test    Dim.2   cos2 v.test    Dim.3
## Decastar    |  0.946 | -0.600  0.403 -1.430 | -0.038  0.002 -0.123 |  0.289
## OlympicG    |  0.439 |  0.279  0.403  1.430 |  0.017  0.002  0.123 | -0.134
##               cos2 v.test  
## Decastar     0.093  1.050 |
## OlympicG     0.093 -1.050 |
options(ggrepel.max.overlaps = 20)
plot(res.pca, choix = "ind", axes = c(1,2))

plot(res.pca, choix = "var", axes = c(1,2))

Persentase variabilitas dari setiap dimensi

round(res.pca$eig,2)
##         eigenvalue percentage of variance cumulative percentage of variance
## comp 1        3.27                  32.72                             32.72
## comp 2        1.74                  17.37                             50.09
## comp 3        1.40                  14.05                             64.14
## comp 4        1.06                  10.57                             74.71
## comp 5        0.68                   6.85                             81.56
## comp 6        0.60                   5.99                             87.55
## comp 7        0.45                   4.51                             92.06
## comp 8        0.40                   3.97                             96.03
## comp 9        0.21                   2.15                             98.18
## comp 10       0.18                   1.82                            100.00

Dari analisis pada dua dimensi utama pertama, kita dapat melihat bahwa kombinasi dimensi pertama (33%) dan dimensi kedua (17%) mencakup total 50% dari variabilitas data. Ini berarti proyeksi data ke dalam ruang dua dimensi ini mampu menjelaskan separuh dari informasi yang terkandung dalam dataset. Namun, untuk mencapai pengurangan dimensi yang efektif, persentase total variabilitas yang dijelaskan sebaiknya ditingkatkan semaksimal mungkin. Hal ini bertujuan agar informasi yang hilang dalam proses reduksi dimensi dapat diminimalkan.

Interpretasi Hasil PCA:

  1. Korelasi antar variabel pada correlation circle (variables factor map):
    • Variabel 100m dan long.jump menunjukkan korelasi negatif. Artinya, atlet yang memiliki performa baik dalam lari 100 meter cenderung juga memiliki kemampuan yang baik dalam lompat jauh. Korelasi negatif ini mengindikasikan bahwa kemampuan yang baik di salah satu bidang olahraga sering kali diimbangi dengan kemampuan yang baik di bidang olahraga lainnya.
    • Variabel 110m.hurdle, 400m, dan 100m menunjukkan korelasi positif satu sama lain. Hal ini berarti atlet yang memiliki performa baik dalam salah satu dari ketiga kategori ini cenderung menunjukkan performa yang baik pula dalam kategori lainnya. Namun, ada juga beberapa atlet yang mungkin tidak unggul secara seragam di semua kategori tersebut.
  2. Panjang vektor dalam correlation circle:
    • Variabel long.jump terwakili dengan baik pada dimensi pertama. Sebaliknya, variabel Pole.vault tidak terwakili dengan baik dalam dimensi ini, yang terlihat dari panjang vektornya yang lebih pendek.
    • Hubungan antara variabel long.jump dan Pole.vault bersifat ortogonal, yang berarti kedua variabel ini tidak berkorelasi secara signifikan. Dengan kata lain, performa seorang atlet dalam lompat jauh (long.jump) tidak memberikan indikasi yang kuat tentang performanya dalam lompat galah (Pole.vault).
  3. Hubungan dengan komponen utama pertama:
    • Variabel yang terkait dengan kecepatan, seperti 100m, memiliki korelasi negatif terhadap komponen utama pertama (PC1). Sebaliknya, variabel yang berhubungan dengan lemparan atau lompatan, seperti long.jump, memiliki korelasi positif dengan PC1. Hal ini mencerminkan bahwa komponen utama pertama membedakan atlet berdasarkan kemampuan mereka dalam kategori yang berfokus pada kecepatan dibandingkan dengan kekuatan atau ketangkasan.

Secara keseluruhan, analisis PCA ini memberikan wawasan penting mengenai struktur korelasi antar variabel dalam dataset. Informasi tersebut dapat digunakan untuk memahami hubungan antar variabel dan mengidentifikasi kelompok variabel yang memiliki kontribusi besar terhadap variansi dalam dataset. Dimensi yang dihasilkan juga dapat membantu dalam mereduksi kompleksitas data tanpa kehilangan informasi yang signifikan.

round(cbind(res.pca$var$coord[,1:4],res.pca$var$cos2[,1:4], res.pca$var$contrib[,1:4]),2)
##             Dim.1 Dim.2 Dim.3 Dim.4 Dim.1 Dim.2 Dim.3 Dim.4 Dim.1 Dim.2 Dim.3
## 100m        -0.77  0.19 -0.18 -0.04  0.60  0.04  0.03  0.00 18.34  2.02  2.42
## Long.jump    0.74 -0.35  0.18  0.10  0.55  0.12  0.03  0.01 16.82  6.87  2.36
## Shot.put     0.62  0.60 -0.02  0.19  0.39  0.36  0.00  0.04 11.84 20.61  0.04
## High.jump    0.57  0.35 -0.26 -0.14  0.33  0.12  0.07  0.02 10.00  7.06  4.79
## 400m        -0.68  0.57  0.13  0.03  0.46  0.32  0.02  0.00 14.12 18.67  1.23
## 110m.hurdle -0.75  0.23 -0.09  0.29  0.56  0.05  0.01  0.08 17.02  3.01  0.61
## Discus       0.55  0.61  0.04 -0.26  0.31  0.37  0.00  0.07  9.33 21.16  0.13
## Pole.vault   0.05 -0.18  0.69  0.55  0.00  0.03  0.48  0.30  0.08  1.87 34.06
## Javeline     0.28  0.32 -0.39  0.71  0.08  0.10  0.15  0.51  2.35  5.78 10.81
## 1500m       -0.06  0.47  0.78 -0.16  0.00  0.22  0.61  0.03  0.10 12.95 43.54
##             Dim.4
## 100m         0.14
## Long.jump    0.98
## Shot.put     3.44
## High.jump    1.74
## 400m         0.08
## 110m.hurdle  8.00
## Discus       6.38
## Pole.vault  28.78
## Javeline    48.00
## 1500m        2.46

Dengan melihat Peta Faktor Individu (Individual Factor Map), kita dapat menarik beberapa kesimpulan penting mengenai profil atlet yang dianalisis:

  1. Atlet Casarsa memiliki profil yang atipikal, yang berarti hasilnya sangat ekstrem pada komponen utama pertama dan kedua. Hal ini menunjukkan bahwa Casarsa memiliki performa yang sangat berbeda dari atlet lainnya dalam data set. Atlet ini mungkin menonjol dalam beberapa aspek olahraga (misalnya kecepatan atau kekuatan), yang tercermin pada posisi ekstrimnya di peta faktor individu.

  2. Bourguignon dan Karpov memiliki profil kinerja yang sangat berbeda karena posisi mereka yang berlawanan sepanjang sumbu/komponen pertama. Ini menunjukkan bahwa kedua atlet ini memiliki pola kinerja yang sangat kontras, dimana salah satu mungkin lebih unggul dalam aspek tertentu (misalnya kecepatan atau daya tahan) sementara yang lainnya unggul di area yang berbeda (seperti kekuatan atau teknik). Posisi mereka yang berlawanan pada komponen pertama menandakan perbedaan yang signifikan dalam performa mereka.

  3. Sebrle dan Clay memiliki profil yang sangat mirip, yang terlihat dari kedekatan mereka pada peta faktor individu. Posisi mereka yang dekat pada kedua komponen utama pertama menunjukkan bahwa keduanya memiliki pola performa yang serupa, baik dalam kecepatan, kekuatan, atau keterampilan dalam olahraga yang dianalisis.

Meningkatkan Output Grafis

Untuk memperbaiki dan meningkatkan output grafis, kita dapat mempertimbangkan beberapa opsi berikut:

  1. Pewarnaan Berdasarkan Kelompok Atlet:
    • Menggunakan warna berbeda untuk mengelompokkan atlet berdasarkan kategori seperti negara, jenis kelamin, atau jenis keahlian olahraga. Ini dapat memperjelas pola dan membedakan kelompok atlet dalam analisis.
  2. Menambahkan Label untuk Setiap Atlet:
    • Memberikan label pada titik-titik individu di peta faktor untuk memudahkan identifikasi atlet tertentu. Ini akan membantu menghubungkan setiap titik di plot dengan atlet nyata dalam data.
  3. Menambahkan Vektor Variabel:
    • Menambahkan vektor yang mewakili variabel-variabel asli (seperti 100m, long.jump, pole.vault) di dalam peta faktor individu. Vektor ini akan memperlihatkan kontribusi masing-masing variabel terhadap komponen utama yang membentuk peta.
  4. Highlight Outliers atau Titik Ekstrem:
    • Menyoroti atlet yang terletak di posisi ekstrem atau outliers (seperti Casarsa), untuk memberikan perhatian khusus pada data yang mungkin memiliki profil unik atau atipikal.
  5. Peta Faktor 3D:
    • Jika memungkinkan, plot PCA dalam tiga dimensi untuk mencakup dimensi ketiga. Hal ini akan memberikan gambaran lebih lengkap tentang hubungan antar individu dan variabel di seluruh ruang tiga dimensi.
  6. Menambahkan Garis Referensi atau Klaster:
    • Menambahkan garis referensi atau area klaster untuk menunjukkan hubungan antar kelompok atlet berdasarkan performa mereka. Ini dapat membantu memahami lebih baik bagaimana kelompok atlet yang berbeda berperforma di berbagai komponen utama.

Dengan menerapkan opsi-opsi tersebut, visualisasi PCA akan menjadi lebih informatif dan memberikan wawasan yang lebih dalam tentang perbedaan profil atlet dalam dataset ini.

plot.PCA(res.pca, choix = "ind", habillage = ncol(decathlon), cex = 0.7)

plot.PCA(res.pca, choix = "ind", habillage = ncol(decathlon), cex = 0.7, 
         autoLab = "no")

plot(res.pca, select = "cos2 0.8",  invisible = "quali")

plot(res.pca, select = "contrib 10")

plot(res.pca, choix = "var", select = "contrib 8", unselect = 0)

plot(res.pca, choix = "var", select = c("400m", "1500m"))

Pada lingkaran korelasi, terlihat bahwa variabel tambahan “jumlah titik” hampir kolinier dengan arah pertama. Hal ini menunjukkan bahwa atlet decathlon cenderung tampil baik dalam olahraga yang berkorelasi dengan komponen utama pertama.

res.pca$var$coord
##                   Dim.1      Dim.2       Dim.3       Dim.4       Dim.5
## 100m        -0.77471983  0.1871420 -0.18440714 -0.03781826  0.30219639
## Long.jump    0.74189974 -0.3454213  0.18221105  0.10178564  0.03667805
## Shot.put     0.62250255  0.5983033 -0.02337844  0.19059161  0.11115082
## High.jump    0.57194530  0.3502936 -0.25951193 -0.13559420  0.55543957
## 400m        -0.67960994  0.5694378  0.13146970  0.02930198 -0.08769157
## 110m.hurdle -0.74624532  0.2287933 -0.09263738  0.29083103  0.16432095
## Discus       0.55246652  0.6063134  0.04295225 -0.25967143 -0.10482712
## Pole.vault   0.05034151 -0.1803569  0.69175665  0.55153397  0.32995932
## Javeline     0.27711085  0.3169891 -0.38965541  0.71227728 -0.30512892
## 1500m       -0.05807706  0.4742238  0.78214280 -0.16108904 -0.15356189

Terdapat hubungan yang kuat antara komponen utama pertama dengan olahraga seperti 100m, 400m, 110m hurdles, dan lompat jauh. Hal ini menunjukkan bahwa struktur uji coba decathlon dan sistem penilaian yang digunakan mungkin tidak ideal, karena lebih mendukung pelari jarak pendek. Selanjutnya, dapat dilakukan penyelidikan lebih mendalam mengenai olahraga yang memberikan kontribusi terbesar pada empat komponen utama pertama menggunakan fungsi berikut.

dimdesc(res.pca, 1:4)
## $Dim.1
## 
## Link between the variable and the continuous variables (R-square)
## =================================================================================
##             correlation      p.value
## Points        0.9561543 2.099191e-22
## Long.jump     0.7418997 2.849886e-08
## Shot.put      0.6225026 1.388321e-05
## High.jump     0.5719453 9.362285e-05
## Discus        0.5524665 1.802220e-04
## Rank         -0.6705104 1.616348e-06
## 400m         -0.6796099 1.028175e-06
## 110m.hurdle  -0.7462453 2.136962e-08
## 100m         -0.7747198 2.778467e-09
## 
## $Dim.2
## 
## Link between the variable and the continuous variables (R-square)
## =================================================================================
##           correlation      p.value
## Discus      0.6063134 2.650745e-05
## Shot.put    0.5983033 3.603567e-05
## 400m        0.5694378 1.020941e-04
## 1500m       0.4742238 1.734405e-03
## High.jump   0.3502936 2.475025e-02
## Javeline    0.3169891 4.344974e-02
## Long.jump  -0.3454213 2.696969e-02
## 
## $Dim.3
## 
## Link between the variable and the continuous variables (R-square)
## =================================================================================
##            correlation      p.value
## 1500m        0.7821428 1.554450e-09
## Pole.vault   0.6917567 5.480172e-07
## Javeline    -0.3896554 1.179331e-02
## 
## $Dim.4
## 
## Link between the variable and the continuous variables (R-square)
## =================================================================================
##            correlation      p.value
## Javeline     0.7122773 1.761578e-07
## Pole.vault   0.5515340 1.857748e-04

Untuk setiap dimensi, hanya olahraga yang memiliki korelasi signifikan dengan dimensi tersebut yang dijelaskan. Dimensi pertama sangat dipengaruhi oleh variabel jumlah poin (korelasi 0,96) dan variabel 100m (korelasi -0,77). Sementara itu, dimensi kedua sebagian besar dipengaruhi oleh variabel cakram dan tolak peluru.

Selain itu, tidak ada kategori variabel kategoris yang secara signifikan mengkarakterisasi komponen utama pertama hingga keempat pada tingkat keyakinan 0,95.

Jawaban Pertanyaan:

a) Tentukan berapa banyak komponen utama yang dihasilkan untuk menjelaskan variasi data. Jelaskan interpretasinya.

Dari hasil analisis PCA (Principal Component Analysis) yang dilakukan pada data decathlon, berikut adalah penjelasan lebih rinci mengenai komponen utama yang dihasilkan berdasarkan data yang ada.

Komponen Utama Berdasarkan PCA:

PCA menghasilkan beberapa dimensi yang menggambarkan variasi data dengan cara mengubah variabel-variabel yang ada menjadi komponen-komponen baru (principal components). Dalam hal ini, terdapat 10 komponen utama yang dihasilkan dengan rincian sebagai berikut:

  1. Dimensi 1 (Dim.1): Memiliki kontribusi terbesar terhadap variasi total dalam data dengan variansi 3.272, yang menyumbang sekitar 32.7% dari total variasi. Hal ini menunjukkan bahwa Dim.1 mengandung informasi paling signifikan mengenai data, dengan kontribusi individu yang tinggi terhadap faktor-faktor penting yang mempengaruhi performa atlet di berbagai cabang olahraga. Dimensi ini kemungkinan besar terkait dengan kecepatan dan daya tahan, karena memiliki nilai kosinus (cos2) yang relatif tinggi pada atlet seperti Sebrle dan Yurkow.

  2. Dimensi 2 (Dim.2): Memiliki variansi 1.737, yang berkontribusi sebesar 17.37% terhadap total variasi data. Komponen ini mungkin berhubungan dengan kemampuan atlet dalam olahraga lompat, seperti lompat jauh dan lompat tinggi, yang cenderung memperlihatkan pola berbeda dibandingkan dimensi pertama.

  3. Dimensi 3 (Dim.3): Variansi untuk dimensi ini adalah 1.405, berkontribusi sebesar 14.05% terhadap total variasi. Dimensi ini bisa menggambarkan variasi yang lebih kecil namun masih relevan untuk karakteristik lain dalam decathlon seperti lempar lembing dan tembakan.

  4. Dimensi 4 (Dim.4) dan seterusnya: Dimensi-dimensi ini memiliki kontribusi yang lebih kecil terhadap total variasi, masing-masing menyumbang sekitar 10.57% hingga 3.97%. Meski demikian, mereka tetap penting dalam menggambarkan aspek-aspek lain dari data, seperti keseimbangan antara keterampilan teknis dan fisik yang berbeda di tiap cabang olahraga dalam decathlon.

Interpretasi Berdasarkan Individu (Atlet):

Dari hasil analisis komponen individu untuk atlet-atlet yang terlibat, dapat dilihat bahwa beberapa atlet lebih dominan dalam komponen-komponen tertentu:

  • Sebrle menunjukkan skor tinggi di Dimensi 1 dan Dimensi 3, yang mencerminkan dominasi dalam kecepatan dan daya tahan, serta kemampuan fisik lainnya seperti loncat tinggi dan lempar lembing.
  • Clay menonjol di Dimensi 2, yang menunjukkan keunggulannya dalam cabang-cabang seperti lompat jauh, serta kemampuannya dalam mempertahankan performa pada jarak lebih pendek dan teknik teknis.
  • Karpov menunjukkan distribusi nilai yang lebih merata pada Dimensi 1 dan 2, menunjukkan kemampuan yang seimbang antara kekuatan, kelincahan, dan daya tahan.

Kontribusi Setiap Variabel Terhadap Komponen:

Setiap variabel dalam data (seperti 100m, lompat jauh, tolak peluru, dll.) memiliki kontribusi yang berbeda terhadap masing-masing komponen utama yang dihasilkan oleh PCA. Misalnya:

  • 100m, 400m, dan 110m hurdles memberikan kontribusi yang signifikan pada Dimensi 1, menunjukkan peran besar kecepatan dan stamina dalam performa atlet.
  • Lompat jauh dan lompat tinggi memberikan kontribusi yang besar pada Dimensi 2, mengindikasikan peran keterampilan teknis dalam berbagai cabang.

Peringkat dan Poin:

Peringkat dan skor yang dihasilkan dalam analisis ini menunjukkan bagaimana masing-masing atlet berperforma berdasarkan komponen utama yang dihitung. Peringkat lebih rendah dalam tabel menunjukkan atlet yang lebih beradaptasi dengan komponen-komponen utama yang lebih relevan untuk keberhasilan dalam decathlon secara keseluruhan.

Kesimpulan: PCA memungkinkan untuk merangkum kompleksitas data yang berhubungan dengan performa atlet dalam decathlon, mengidentifikasi faktor-faktor dominan seperti kecepatan, kelincahan, daya tahan, dan keterampilan teknis. Hasil ini memberikan wawasan tentang bagaimana komponen utama berhubungan dengan performa dan bagaimana atlet dapat dikelompokkan berdasarkan karakteristik tersebut.

b) Buat scatter plot data dalam ruang dua dimensi menggunakan komponen utama pertama dan kedua. Apa pola atau kluster yang terlihat.

ggplot(decathlon, aes(x = `100m`, y = `110m.hurdle`)) +
  geom_point(color = "blue", size = 3) +  # Menambahkan titik
  labs(title = "Scatter Plot: 100m vs 110m Hurdles", 
       x = "100m (detik)", 
       y = "110m Hurdles (detik)") +
  theme_minimal()

Dari analisis scatter plot yang dihasilkan, terlihat adanya hubungan positif antara variabel 100m dan 110m Hurdles. Ini menunjukkan bahwa semakin lama waktu yang dibutuhkan untuk menyelesaikan lari 100m, semakin lama pula waktu yang dibutuhkan untuk menyelesaikan 110m Hurdles. Dengan kata lain, atlet yang lebih lambat dalam lari 100m cenderung juga menunjukkan performa yang lebih lambat pada 110m Hurdles. Meskipun demikian, tidak terlihat adanya pola klaster yang jelas, karena distribusi titik data pada plot ini tampak tersebar secara merata tanpa kelompok yang mencolok.

c) Jelaskan hubungan antara hasil PCA yang diperoleh dengan variabel/cabang lomba serta sampel/atlet yang diperoleh.

Berdasarkan hasil analisis PCA, didapatkan beberapa hubungan penting antara variabel (cabang lomba) dan sampel (atlet). Berikut merupakan hubungan antara hasil PCA, variabel (cabang lomba), dan sampel (atlet):

  1. Penjelasan Dimensi Utama (Principal Components):

    Dimensi 1 (Dim.1) menjelaskan 32.72% dari variasi total data, sedangkan Dimensi 2 (Dim.2) menjelaskan 17.37%, sehingga secara kumulatif kedua dimensi ini mencakup sekitar 50.09% dari total variasi. Hal ini menunjukkan bahwa dua dimensi utama tersebut dapat digunakan untuk meringkas sebagian besar informasi penting dari data asli. Dimensi-dimensi ini merupakan kombinasi linier dari variabel-variabel awal (cabang lomba), yang berfungsi untuk mengungkap pola hubungan antar variabel dengan cara yang lebih sederhana dan terstruktur.

  2. Hubungan Antar Variabel (Cabang Lomba):

    Dari grafik variabel (PCA graph of variables), terlihat bahwa cabang lomba seperti “Long jump” dan “Pole vault” memberikan kontribusi besar pada Dimensi 1 (Dim.1), ditunjukkan oleh panjang vektor mereka yang signifikan ke arah tersebut. Sementara itu, cabang lomba seperti “1500m” dan “400m” lebih dominan dalam Dimensi 2 (Dim.2), karena vektor mereka lebih mengarah ke dimensi tersebut. Arah dan panjang panah pada grafik mencerminkan seberapa besar setiap variabel berkontribusi terhadap dimensi tertentu, di mana panah yang lebih panjang menunjukkan bahwa variabel tersebut memiliki peran yang lebih penting dalam menjelaskan variasi data pada dimensi.

  3. Hubungan Antar Sampel (Atlet):

    Grafik individu (PCA graph of individuals) menggambarkan distribusi atlet berdasarkan nilai pada Dimensi 1 (Dim.1) dan Dimensi 2 (Dim.2). Atlet yang posisinya berdekatan pada grafik menunjukkan bahwa mereka memiliki pola kinerja yang serupa dalam cabang-cabang lomba tertentu. Sebaliknya, atlet yang terletak jauh dari pusat grafik (titik 0,0) menunjukkan performa yang lebih ekstrem, baik itu sangat unggul atau sebaliknya, kurang baik dalam cabang lomba tertentu yang dijelaskan oleh kedua dimensi tersebut.

  4. Hubungan Variabel dengan Sampel:

    Pada grafik PCA, variabel yang terletak dekat dengan seorang atlet menunjukkan bahwa atlet tersebut unggul dalam cabang lomba yang diwakili oleh variabel tersebut. Sebagai contoh, jika seorang atlet berada dekat dengan variabel “Long jump,” maka atlet tersebut cenderung memiliki performa yang baik dalam cabang long jump. Sebaliknya, atlet yang posisinya jauh dari suatu variabel tertentu menunjukkan bahwa kontribusinya terhadap cabang lomba tersebut relatif kecil, atau performanya kurang menonjol dalam cabang tersebut.

  5. Variabel Tambahan (Supplementary Variables):

    Posisi variabel tambahan seperti “Rank” dan “Points” menunjukkan hubungan mereka dengan Dim.1 dan Dim.2, di mana variabel seperti “Points” tampak berkontribusi lebih signifikan ke arah Dim.1.

d) Komponen utama mana yang paling berkaitan dengan performa atlet di cabang tertentu.

Dimensi 1 (Dim.1) merupakan komponen utama yang paling berkaitan dengan performa atlet di cabang seperti “Long jump,” “Pole vault,” dan “Shot put,” karena variabel-variabel ini memiliki kontribusi besar terhadap Dim.1.

e) Jelaskan berdasarkan analisis, urutan atlet yang memiliki performa terbaik.

options(ggrepel.max.overlaps = 20)
plot(res.pca, choix = "ind", axes = c(1,2))

Berdasarkan hasil analisis grafik dan peta faktor individu, berikut adalah penjelasan yang lebih mendalam:

  • Karpov dan Sebrle menonjol di posisi kanan atas pada Dimensi 1, yang menunjukkan bahwa kedua atlet ini memiliki performa yang sangat baik pada variabel-variabel yang lebih dominan dalam Dimensi 1. Hal ini menunjukkan bahwa mereka unggul dalam keterampilan yang terkait dengan kecepatan, daya tahan, atau kekuatan, yang merupakan ciri khas dari dimensi pertama yang lebih mengarah pada lari dan lompat.

  • Clay dan Macey juga menunjukkan performa yang kuat dalam Dimensi 1, meskipun tidak sejauh Karpov dan Sebrle. Keduanya berada sedikit lebih rendah dalam Dimensi 1, yang menandakan bahwa mereka memiliki kualitas yang hampir setara dengan Karpov dan Sebrle, meskipun tidak dalam tingkat yang sama.

  • Yurkov berbeda dengan atlet lainnya, karena ia lebih menonjol pada Dimensi 2, yang terlihat dari posisinya yang jauh ke arah vertikal atas pada peta faktor. Dimensi 2 ini kemungkinan besar berkaitan dengan variabel-variabel yang lebih berfokus pada ketangkasan dan kekuatan eksplosif, seperti tolak peluru atau lompat tinggi. Yurkov tampaknya unggul dalam hal kekuatan atau keterampilan terkait dengan Dimensi 2.

Secara keseluruhan, urutan performa atlet dapat dirangkum berdasarkan analisis grafik sebagai berikut:

  1. Karpov – Atlet dengan performa paling dominan, unggul pada Dimensi 1.
  2. Sebrle – Atlet yang sangat baik dengan profil serupa Karpov, menunjukkan performa solid pada Dimensi 1.
  3. Clay – Atlet yang menonjol pada Dimensi 1, meskipun tidak sekuat Karpov atau Sebrle.
  4. Macey – Kinerja baik pada Dimensi 1, meskipun sedikit tertinggal dibandingkan atlet lainnya.
  5. Yurkov – Atlet yang berbeda dari lainnya, dengan keunggulan lebih jelas pada Dimensi 2, menunjukkan keunggulan dalam variabel yang lebih terkait dengan kekuatan dan ketangkasan.

Dengan urutan ini, kita dapat menyimpulkan bahwa meskipun Karpov dan Sebrle memiliki performa yang sangat dominan di Dimensi 1, Yurkov menunjukkan keunggulannya dalam Dimensi 2, yang berfokus pada aspek lain dari kemampuan atlet seperti ketangkasan dan kekuatan eksplosif.