UAS METODE MULTIVARIAT

Nama = Agnes Damai Arifiana

NIM = 4112322023

Program Studi = Statistika Terapan dan Komputasi

5. Membuat analisis PCA dari dataset yang diberikan

Persiapan Data

Instalasi package

menginstall package yang diperlukan

library(FactoMineR)
## Warning: package 'FactoMineR' was built under R version 4.4.2
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.2
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.2

Analisis PCA

Melihat data terpusat dan terskala

Kita perlu menskalakan data ketika variabel dinyatakan pada urutan besarnya yang berbeda.

data(decathlon)
dec <- decathlon %>% 
  select(-Competition)

dec_scaled <- scale(dec)
dec_scaled
##                    100m  Long.jump     Shot.put   High.jump        400m
## SEBRLE       0.15949639  1.0113727  0.428087000  1.04744448  0.16789492
## CLAY        -0.90504930  0.4424756 -0.263301610 -1.31341860 -0.21356911
## KARPOV       0.08345742  0.1264216  0.355309251  0.71017832 -1.08053282
## BERNARD      0.08345742 -0.0948162 -0.275431235 -0.63888629 -0.59503314
## YURKOV       1.30008106 -0.5372918  0.864753490  1.38471063  0.69674279
## WARNERS      0.42563282  1.0745835 -0.202653486  0.03564602 -0.81177407
## ZSIVOCZKY    0.50167179  0.1264216 -1.209412340  0.37291217 -0.86379189
## McMULLEN    -0.63891288  0.1580270 -0.869782847  1.72197679  0.25459130
## MARTINEAU    2.44066574 -1.4222429  0.112716757 -0.30162014  0.45399295
## HERNU        1.41413953  0.9481620 -0.081357239 -1.31341860  1.28627811
## BARRAS       1.26206158 -0.9165566 -0.469505231 -0.30162014 -0.11820310
## NOOL         1.26206158  0.0316054 -2.179782319  0.03564602 -0.36095294
## BOURGUIGNON  1.37612004 -1.4538483 -1.233671589 -1.31341860  1.33829594
## Sebrle      -0.56287390  1.8331131  2.283919585  1.60955474 -1.08920246
## Clay        -2.12167295  2.2123779  0.913271989  0.93502243 -0.36962258
## Karpov      -1.89355602  1.7382969  1.762345721  1.27228858 -2.43299621
## Macey       -0.41079594  0.6637134  1.519753226  1.94682089 -0.56035459
## Warners     -1.43732215  1.5170591  0.003550134 -0.07677604 -1.42731831
## Zsivoczky   -0.33475696 -0.3792648  1.010308987  1.60955474 -0.18756020
## Hernu       -0.10664003 -0.2212378  0.209753755  0.59775627 -0.76842589
## Nool        -0.75297134  0.8533458 -0.263301610 -1.08857450 -0.69906879
## Bernard     -1.17118572  0.6953188  0.391698126  1.60955474 -0.42164040
## Schwarzl    -0.06862054  0.7269242 -0.566542229 -0.41404219  0.12454674
## Pogorelov   -0.18267901  0.1580270  0.755586868  0.93502243  1.01751936
## Schoenbeck  -0.37277645  0.1264216  0.355309251 -1.08857450  0.59270714
## Barras       0.53969128 -0.8533458  0.525123998 -0.41404219 -0.17889056
## Smith       -0.56287390 -1.4222429  0.925401614 -0.75130834 -0.30026548
## Averyanov   -1.70345857  0.2528432 -0.044968365 -0.41404219  0.08986819
## Ojaniemi    -1.20920521  0.7585296  0.597901746 -0.41404219 -0.43031004
## Smirnov     -0.41079594 -0.6005026 -0.724227350 -0.41404219 -0.43897967
## Qi           0.23553537  0.2528432 -1.124504967 -0.07677604  0.02918073
## Drews       -0.48683492  0.3792648 -1.706726954 -1.08857450 -0.95915790
## Parkhomenko  0.53969128 -2.0543509  1.471234727  0.59775627  1.23426029
## Terek       -0.29673748 -1.0113727  0.816234992 -0.41404219 -0.04884600
## Gomez        0.31157435  0.0000000  0.112716757 -1.42584065 -0.87246153
## Turi         0.31157435 -1.1061889 -1.039597593  0.59775627  1.78044743
## Lorenzo      0.38761333 -0.7269242 -1.524782583 -1.42584065 -0.23957802
## Karlivans    1.26206158  0.0000000 -1.427745585 -0.07677604  0.80077843
## Korkizoglou -0.52485441 -0.6005026  0.403827750 -0.41404219  1.33829594
## Uldal        0.88186669 -0.8533458 -1.148764216 -1.42584065  1.15623356
## Casarsa      1.37612004 -1.8331131  0.537253623 -0.41404219  3.10690191
##             110m.hurdle      Discus Pole.vault     Javeline       1500m
## SEBRLE       0.17835587 -0.17040740  0.9264789  1.009653240  1.08582657
## CLAY        -1.17818270  1.89303852  0.5667665  0.379839017  1.92535303
## KARPOV      -1.09339904  1.36903575  0.5667665 -1.658770177  1.81398728
## BERNARD      0.81423333 -1.02302207  2.0056163  0.922639433  0.09210136
## YURKOV       1.49250261  0.57266997 -0.1526585  1.061447173 -0.22486271
## WARNERS     -0.79665623 -0.95493132  0.5667665 -1.356293610 -0.07923057
## ZSIVOCZKY   -0.92383172  0.39800238 -1.2317958 -0.610460978 -0.94445683
## McMULLEN    -0.47871750  0.02498346 -1.2317958 -0.403285246  0.52043119
## MARTINEAU    0.68705783  0.96937262  0.5667665 -1.240275200 -1.44988603
## HERNU        0.96260473  0.19669058  0.2070540 -0.233401147  0.52043119
## BARRAS      -0.26675835 -0.65888456 -0.1526585 -0.604245706  0.25486670
## NOOL         1.45011078 -1.89636002 -0.5123709 -0.181607214 -1.06438918
## BOURGUIGNON  2.25555555 -1.13551984  0.9264789 -0.753412232  1.08582657
## Sebrle      -1.17818270  1.30094500  0.8545364  2.528251350  0.08439142
## Clay        -1.00861538  1.71244999  0.4948240  2.360439007  0.25486670
## Karpov      -1.34775002  2.16836201 -0.5843134 -0.575241103 -0.07837391
## Macey       -0.09719103  1.18844723 -1.3037383  0.029712032 -1.16547502
## Warners     -1.26296636 -0.17632834  0.4948240 -0.606317463 -0.08351387
## Zsivoczky    0.72944966  0.38320004 -0.2246009  1.063518930 -0.81253124
## Hernu       -0.75426439  0.11675795  0.1351115 -0.115310980 -1.25713760
## Nool         0.41151094 -0.67368690  2.2933863  0.624306380 -0.23085933
## Bernard     -0.92383172  0.12563936 -1.3037383 -0.631178551 -0.23257265
## Schwarzl    -0.75426439 -0.56118913  1.2142489 -0.413644033 -0.46815406
## Pogorelov   -0.83904806  0.08123234  0.8545364 -1.008238381  0.73716609
## Schoenbeck  -0.56350116  0.02498346  0.8545364  0.533149058 -0.01755108
## Barras      -0.49991341  0.14932310 -0.5843134  1.291412235 -1.02241286
## Smith       -1.26296636  1.38975902 -2.0231632  0.663669769 -0.53840015
## Averyanov   -0.45752158 -1.31610837  0.1351115 -0.788632106 -0.68574561
## Ojaniemi     0.85662516 -1.17696639 -0.5843134  0.195452617 -0.28397223
## Smirnov      0.34792319 -0.54934726 -0.2246009  0.531077301 -1.34623021
## Qi           0.36911911  0.23813713 -0.9440259  0.512431485 -0.54782341
## Drews       -1.26296636 -1.24801761  0.8545364 -1.406015785 -0.41247118
## Parkhomenko  0.58107826 -0.71809391  0.1351115  1.554525413 -0.09293713
## Terek        1.08978022  0.38320004  1.9336738 -1.594545701  0.97103417
## Gomez       -0.41512975 -0.99933833 -1.3037383  0.495857427 -0.79882469
## Turi        -0.73306848 -1.33091071  0.1351115  0.212026675  0.94105108
## Lorenzo      1.64087402 -1.21545247 -0.9440259  0.008994459 -1.36593338
## Karlivans    0.79303741 -0.29178658 -0.9440259 -1.118041519 -0.03040097
## Korkizoglou  0.75064558  0.51642108 -0.2246009 -1.091108674  3.25317551
## Uldal        1.02619248 -0.38948201 -0.9440259  0.348762658  0.22916691
## Casarsa      1.66206993  1.28318219 -1.3037383  0.062860149  1.46447014
##                    Rank       Points
## SEBRLE      -1.40447311  0.618117197
## CLAY        -1.27819373  0.340651888
## KARPOV      -1.15191435  0.273476077
## BERNARD     -1.02563497  0.180014078
## YURKOV      -0.89935559  0.089472767
## WARNERS     -0.77307621  0.071948642
## ZSIVOCZKY   -0.64679683 -0.003989232
## McMULLEN    -0.52051745 -0.030275419
## MARTINEAU   -0.39423807 -0.593968098
## HERNU       -0.26795869 -0.795495533
## BARRAS      -0.14167931 -0.868512719
## NOOL        -0.01539992 -1.034991904
## BOURGUIGNON  0.11087946 -2.022184265
## Sebrle      -1.40447311  2.592501918
## Clay        -1.27819373  2.379291734
## Karpov      -1.15191435  2.101826425
## Macey       -1.02563497  1.193492626
## Warners     -0.89935559  0.986123817
## Zsivoczky   -0.77307621  0.822565319
## Hernu       -0.64679683  0.676530946
## Nool        -0.52051745  0.670689571
## Bernard     -0.39423807  0.641482697
## Schwarzl    -0.26795869  0.282238139
## Pogorelov   -0.14167931  0.229665765
## Schoenbeck  -0.01539992  0.209220953
## Barras       0.11087946  0.180014078
## Smith        0.23715884  0.051503830
## Averyanov    0.36343822  0.045662455
## Ojaniemi     0.48971760  0.001852143
## Smirnov      0.61599698 -0.036116794
## Qi           0.74227636 -0.208437354
## Drews        0.86855574 -0.231802853
## Parkhomenko  0.99483512 -0.255168353
## Terek        1.12111450 -0.328185539
## Gomez        1.24739388 -0.409964788
## Turi         1.37367327 -0.868512719
## Lorenzo      1.49995265 -1.207312464
## Karlivans    1.62623203 -1.233598651
## Korkizoglou  1.75251141 -1.262805526
## Uldal        1.87879079 -1.490619148
## Casarsa      2.00507017 -1.756401706
## attr(,"scaled:center")
##        100m   Long.jump    Shot.put   High.jump        400m 110m.hurdle 
##   10.998049    7.260000   14.477073    1.976829   49.616341   14.605854 
##      Discus  Pole.vault    Javeline       1500m        Rank      Points 
##   44.325610    4.762439   58.316585  279.024878   12.121951 8005.365854 
## attr(,"scaled:scale")
##         100m    Long.jump     Shot.put    High.jump         400m  110m.hurdle 
##   0.26302300   0.31640164   0.82442781   0.08895052   1.15345081   0.47178902 
##       Discus   Pole.vault     Javeline        1500m         Rank       Points 
##   3.37784476   0.27799982   4.82682018  11.67324722   7.91894918 342.38514542

Memilih variabel aktif dan variabel ilustratif

disini kita memilih variabel Rank, Point, (dan mungkin juga Competition) sebagai variabel Ilustratif, dan variabel lain sebagai variabel aktif.

res.pca <- PCA(decathlon, scale = T, quanti.sup = c(11,12), quali.sup = c(13))
## Warning: ggrepel: 3 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps

summary.PCA(res.pca)
## 
## Call:
## PCA(X = decathlon, scale.unit = T, quanti.sup = c(11, 12), quali.sup = c(13)) 
## 
## 
## Eigenvalues
##                        Dim.1   Dim.2   Dim.3   Dim.4   Dim.5   Dim.6   Dim.7
## Variance               3.272   1.737   1.405   1.057   0.685   0.599   0.451
## % of var.             32.719  17.371  14.049  10.569   6.848   5.993   4.512
## Cumulative % of var.  32.719  50.090  64.140  74.708  81.556  87.548  92.061
##                        Dim.8   Dim.9  Dim.10
## Variance               0.397   0.215   0.182
## % of var.              3.969   2.148   1.822
## Cumulative % of var.  96.030  98.178 100.000
## 
## Individuals (the 10 first)
##                 Dist    Dim.1    ctr   cos2    Dim.2    ctr   cos2    Dim.3
## SEBRLE      |  2.369 |  0.792  0.467  0.112 |  0.772  0.836  0.106 |  0.827
## CLAY        |  3.507 |  1.235  1.137  0.124 |  0.575  0.464  0.027 |  2.141
## KARPOV      |  3.396 |  1.358  1.375  0.160 |  0.484  0.329  0.020 |  1.956
## BERNARD     |  2.763 | -0.610  0.277  0.049 | -0.875  1.074  0.100 |  0.890
## YURKOV      |  3.018 | -0.586  0.256  0.038 |  2.131  6.376  0.499 | -1.225
## WARNERS     |  2.428 |  0.357  0.095  0.022 | -1.685  3.986  0.482 |  0.767
## ZSIVOCZKY   |  2.563 |  0.272  0.055  0.011 | -1.094  1.680  0.182 | -1.283
## McMULLEN    |  2.561 |  0.588  0.257  0.053 |  0.231  0.075  0.008 | -0.418
## MARTINEAU   |  3.742 | -1.995  2.968  0.284 |  0.561  0.442  0.022 | -0.730
## HERNU       |  2.794 | -1.546  1.782  0.306 |  0.488  0.335  0.031 |  0.841
##                ctr   cos2  
## SEBRLE       1.187  0.122 |
## CLAY         7.960  0.373 |
## KARPOV       6.644  0.332 |
## BERNARD      1.375  0.104 |
## YURKOV       2.606  0.165 |
## WARNERS      1.020  0.100 |
## ZSIVOCZKY    2.857  0.250 |
## McMULLEN     0.303  0.027 |
## MARTINEAU    0.925  0.038 |
## HERNU        1.227  0.091 |
## 
## Variables
##                Dim.1    ctr   cos2    Dim.2    ctr   cos2    Dim.3    ctr
## 100m        | -0.775 18.344  0.600 |  0.187  2.016  0.035 | -0.184  2.420
## Long.jump   |  0.742 16.822  0.550 | -0.345  6.869  0.119 |  0.182  2.363
## Shot.put    |  0.623 11.844  0.388 |  0.598 20.607  0.358 | -0.023  0.039
## High.jump   |  0.572  9.998  0.327 |  0.350  7.064  0.123 | -0.260  4.794
## 400m        | -0.680 14.116  0.462 |  0.569 18.666  0.324 |  0.131  1.230
## 110m.hurdle | -0.746 17.020  0.557 |  0.229  3.013  0.052 | -0.093  0.611
## Discus      |  0.552  9.328  0.305 |  0.606 21.162  0.368 |  0.043  0.131
## Pole.vault  |  0.050  0.077  0.003 | -0.180  1.873  0.033 |  0.692 34.061
## Javeline    |  0.277  2.347  0.077 |  0.317  5.784  0.100 | -0.390 10.807
## 1500m       | -0.058  0.103  0.003 |  0.474 12.946  0.225 |  0.782 43.543
##               cos2  
## 100m         0.034 |
## Long.jump    0.033 |
## Shot.put     0.001 |
## High.jump    0.067 |
## 400m         0.017 |
## 110m.hurdle  0.009 |
## Discus       0.002 |
## Pole.vault   0.479 |
## Javeline     0.152 |
## 1500m        0.612 |
## 
## Supplementary continuous variables
##                Dim.1   cos2    Dim.2   cos2    Dim.3   cos2  
## Rank        | -0.671  0.450 |  0.051  0.003 | -0.058  0.003 |
## Points      |  0.956  0.914 | -0.017  0.000 | -0.066  0.004 |
## 
## Supplementary categories
##                 Dist    Dim.1   cos2 v.test    Dim.2   cos2 v.test    Dim.3
## Decastar    |  0.946 | -0.600  0.403 -1.430 | -0.038  0.002 -0.123 |  0.289
## OlympicG    |  0.439 |  0.279  0.403  1.430 |  0.017  0.002  0.123 | -0.134
##               cos2 v.test  
## Decastar     0.093  1.050 |
## OlympicG     0.093 -1.050 |
options(ggrepel.max.overlaps = 20)
plot(res.pca, choix = "ind", axes = c(1,2))

plot(res.pca, choix = "var", axes = c(1,2))

Persentase variabilitas dari setiap dimensi

round(res.pca$eig,2)
##         eigenvalue percentage of variance cumulative percentage of variance
## comp 1        3.27                  32.72                             32.72
## comp 2        1.74                  17.37                             50.09
## comp 3        1.40                  14.05                             64.14
## comp 4        1.06                  10.57                             74.71
## comp 5        0.68                   6.85                             81.56
## comp 6        0.60                   5.99                             87.55
## comp 7        0.45                   4.51                             92.06
## comp 8        0.40                   3.97                             96.03
## comp 9        0.21                   2.15                             98.18
## comp 10       0.18                   1.82                            100.00

Dari kedua dimensi pertama dapat terlihat bahwa kita memiliki 33% +17% = 50%. hal ini berarti memproyeksikan data dalam kedua dimensi ini dapat mengkonversi 50% dari total variability dari data set. kita harus meningkatkan presentasinya setinggi mungkin agar kami menemukan pengurangan dimensi yang baik dari data.

Interpretasi

Berikut merupakan hasil interpretasi dari hasil PCA sebelumnya

Jika kita melihat pada correlation circle (variables factor map), kita akan menyadari bahwa :

  • 100m and long.jump berkorelasi negatif. Sehingga, seorang atlit dapat lari 100 meter juga biasanya dapat melakukan lompatan jauh yang mana mengindikasikan kemampuan yang baik di kedua bidang olahraga.

  • Variabel 110m.hurdle, 400m, dan 100m berkorelasi positif. Sehingga, beberapa atlet dapat melakukan keempat bidang olahraga (termasuk lompat jauh) sementara tidak dapat melakukan keempatnya.

  • Dengan melihat panjang vektor dalam lingkaran korelasi, kita melihat bahwa long.jump terwakili dengan baik di bidang pertama dan Pole.vault tidak. Kita dapat menyimpulkan bahwa long.jump dan Pole.vault kira-kira ortogonal, hal tersebut berart bahwa variabel yang sesuai kira-kira tidak berkorelasi.

Secara keseluruhan, variabel yang berkaitan dengan kecepatan berkorelasi negatif dengan komponen utama pertama sedangkan variabel lempar dan lompat jauh berkorelasi positif dengan komponen ini.

round(cbind(res.pca$var$coord[,1:4],res.pca$var$cos2[,1:4], res.pca$var$contrib[,1:4]),2)
##             Dim.1 Dim.2 Dim.3 Dim.4 Dim.1 Dim.2 Dim.3 Dim.4 Dim.1 Dim.2 Dim.3
## 100m        -0.77  0.19 -0.18 -0.04  0.60  0.04  0.03  0.00 18.34  2.02  2.42
## Long.jump    0.74 -0.35  0.18  0.10  0.55  0.12  0.03  0.01 16.82  6.87  2.36
## Shot.put     0.62  0.60 -0.02  0.19  0.39  0.36  0.00  0.04 11.84 20.61  0.04
## High.jump    0.57  0.35 -0.26 -0.14  0.33  0.12  0.07  0.02 10.00  7.06  4.79
## 400m        -0.68  0.57  0.13  0.03  0.46  0.32  0.02  0.00 14.12 18.67  1.23
## 110m.hurdle -0.75  0.23 -0.09  0.29  0.56  0.05  0.01  0.08 17.02  3.01  0.61
## Discus       0.55  0.61  0.04 -0.26  0.31  0.37  0.00  0.07  9.33 21.16  0.13
## Pole.vault   0.05 -0.18  0.69  0.55  0.00  0.03  0.48  0.30  0.08  1.87 34.06
## Javeline     0.28  0.32 -0.39  0.71  0.08  0.10  0.15  0.51  2.35  5.78 10.81
## 1500m       -0.06  0.47  0.78 -0.16  0.00  0.22  0.61  0.03  0.10 12.95 43.54
##             Dim.4
## 100m         0.14
## Long.jump    0.98
## Shot.put     3.44
## High.jump    1.74
## 400m         0.08
## 110m.hurdle  8.00
## Discus       6.38
## Pole.vault  28.78
## Javeline    48.00
## 1500m        2.46

Dengan melihat Peta Faktor Individu, kita melihat bahwa :

  • Atlet Casarsa memiliki profil atipikal dalam arti bahwa hasilnya ekstrem untuk komponen utama pertama dan kedua

  • Bourguignon dan Karpov memiliki profil kinerja yang sangat berbeda karena berlawanan di sepanjang sumbu / komponen pertama

  • Sebrle dan Clay memiliki profil yang mirip karena mereka dekat pada individual factor map, yang sesuai dengan proyeksi di sepanjang dua komponen utama pertama

Kita dapat meningkatkan output grafis dengan opsi berikut:

plot.PCA(res.pca, choix = "ind", habillage = ncol(decathlon), cex = 0.7)

plot.PCA(res.pca, choix = "ind", habillage = ncol(decathlon), cex = 0.7, 
         autoLab = "no")

plot(res.pca, select = "cos2 0.8",  invisible = "quali")

plot(res.pca, select = "contrib 10")

plot(res.pca, choix = "var", select = "contrib 8", unselect = 0)

plot(res.pca, choix = "var", select = c("400m", "1500m"))

Kami melihat pada lingkaran korelasi bahwa variabel tambahan “jumlah titik” hampir kolinier ke arah pertama. Ini berarti bahwa mereka yang berolahraga decathlon tampil baik dalam olahraga yang berkorelasi dengan komponen utama pertama.

res.pca$var$coord
##                   Dim.1      Dim.2       Dim.3       Dim.4       Dim.5
## 100m        -0.77471983  0.1871420 -0.18440714 -0.03781826  0.30219639
## Long.jump    0.74189974 -0.3454213  0.18221105  0.10178564  0.03667805
## Shot.put     0.62250255  0.5983033 -0.02337844  0.19059161  0.11115082
## High.jump    0.57194530  0.3502936 -0.25951193 -0.13559420  0.55543957
## 400m        -0.67960994  0.5694378  0.13146970  0.02930198 -0.08769157
## 110m.hurdle -0.74624532  0.2287933 -0.09263738  0.29083103  0.16432095
## Discus       0.55246652  0.6063134  0.04295225 -0.25967143 -0.10482712
## Pole.vault   0.05034151 -0.1803569  0.69175665  0.55153397  0.32995932
## Javeline     0.27711085  0.3169891 -0.38965541  0.71227728 -0.30512892
## 1500m       -0.05807706  0.4742238  0.78214280 -0.16108904 -0.15356189

Kita melihat bahwa olahraga yang paling terkait dengan komponen utama pertama adalah 100m, 400 m, 110m.hurdle, dan Long.jump . Ini bisa menunjukkan bahwa uji coba decathlon dan sistem poin tidak dipilih dengan baik karena mereka mendukung pelari jarak pendek. Kita dapat menyelidiki lebih lanjut olahraga mana yang paling berkontribusi pada 4 dimensi pertama dengan fungsi berikut.

dimdesc(res.pca, 1:4)
## $Dim.1
## 
## Link between the variable and the continuous variables (R-square)
## =================================================================================
##             correlation      p.value
## Points        0.9561543 2.099191e-22
## Long.jump     0.7418997 2.849886e-08
## Shot.put      0.6225026 1.388321e-05
## High.jump     0.5719453 9.362285e-05
## Discus        0.5524665 1.802220e-04
## Rank         -0.6705104 1.616348e-06
## 400m         -0.6796099 1.028175e-06
## 110m.hurdle  -0.7462453 2.136962e-08
## 100m         -0.7747198 2.778467e-09
## 
## $Dim.2
## 
## Link between the variable and the continuous variables (R-square)
## =================================================================================
##           correlation      p.value
## Discus      0.6063134 2.650745e-05
## Shot.put    0.5983033 3.603567e-05
## 400m        0.5694378 1.020941e-04
## 1500m       0.4742238 1.734405e-03
## High.jump   0.3502936 2.475025e-02
## Javeline    0.3169891 4.344974e-02
## Long.jump  -0.3454213 2.696969e-02
## 
## $Dim.3
## 
## Link between the variable and the continuous variables (R-square)
## =================================================================================
##            correlation      p.value
## 1500m        0.7821428 1.554450e-09
## Pole.vault   0.6917567 5.480172e-07
## Javeline    -0.3896554 1.179331e-02
## 
## $Dim.4
## 
## Link between the variable and the continuous variables (R-square)
## =================================================================================
##            correlation      p.value
## Javeline     0.7122773 1.761578e-07
## Pole.vault   0.5515340 1.857748e-04

Untuk setiap dimensi, hanya olahraga yang memiliki korelasi signifikan dengan dimensi tersebut yang dijelaskan.

Kita melihat bahwa dimensi pertama sebagian besar bergantung pada variabel pelengkap jumlah poin (korelasi 0,96), dan variabel aktif 100m (korelasi -0,77).

Demikian pula, dimensi kedua sebagian besar bergantung pada cakram dan tolak peluru.

Tidak ada kategori variabel kategoris yang secara signifikan mengkarakterisasi komponen 1 hingga 4 (pada tingkat keyakinan 0,95).

Jawaban Pertanyaan:

a) Tentukan berapa banyak komponen utama yang dihasilkan untuk menjelaskan variasi data. Jelaskan interpretasinya.

Terdapat 2 komponen utama yang dihasilkan untuk menjelaskan variansi data, yakni dimensi 1 dengan variabel 100m, 110m.hurdle, Long.jump, dan 400m menjadi variabel dengan tingkat kontribusi paling tinggi; dan dimensi 2 dengan variabel Discus, Shot.Put, 400m, dan 1500m menjadi variabel dengan tingkat kontribusi paling tinggi. Berdasarkan variabel yang paling berkontribusi dalam dimensi 1, dapat disimpulkan bahwa komponen utama pertama dalam data ini sangat berkaitan dengan olahraga yang membutuhkan ledakan energi. Kemudian berdasarkan variabel yang paling berkontribusi dalam dimensi 2, dapat disumpulkan bahwa komponen utama kedua dalam data ini berkaitan dengan olahraga yang membutuhkan kekuatan dan ketahanan.

b) Buat scatter plot data dalam ruang dua dimensi menggunakan komponen utama pertama dan kedua. Apa pola atau kluster yang terlihat.

ggplot(decathlon, aes(x = `100m`, y = `110m.hurdle`)) +
  geom_point(color = "pink", size = 3) +  # Menambahkan titik
  labs(title = "Scatter Plot: 100m vs 110m Hurdles", 
       x = "100m (detik)", 
       y = "110m Hurdles (detik)") +
  theme_minimal()

Dari hasil scatter plot data tersebut, dapat terlihat bahwa terdapat pola positif antara variabel 100m dan 110m hurdless. Di mana semakin besar waktu tempuh pada 100m, cenderung semakin besar waktu tempuh pada 110m Hurdles. Artinya, atlet yang lebih lambat pada lari 100m cenderung juga lebih lambat pada 110m Hurdles. Namun, tidak terdapat klaster yang terlihat karena plot data cenderung tersebar secara merata.

c) Jelaskan hubungan antara hasil PCA yang diperoleh dengan variabel/cabang lomba serta sampel/atlet yang diperoleh.

Berdasarkan hasil analisis PCA, didapatkan beberapa hubungan penting antara variabel (cabang lomba) dan sampel (atlet). Berikut merupakan hubungan antara hasil PCA, variabel (cabang lomba), dan sampel (atlet):

  1. Penjelasan Dimensi Utama (Principal Components):

    Dimensi 1 (Dim.1) menjelaskan 32.72% dari variasi total data, sedangkan Dimensi 2 (Dim.2) menjelaskan 17.37%, sehingga secara kumulatif kedua dimensi ini mencakup sekitar 50.09% dari total variasi. Hal ini menunjukkan bahwa dua dimensi utama tersebut dapat digunakan untuk meringkas sebagian besar informasi penting dari data asli. Dimensi-dimensi ini merupakan kombinasi linier dari variabel-variabel awal (cabang lomba), yang berfungsi untuk mengungkap pola hubungan antar variabel dengan cara yang lebih sederhana dan terstruktur.

  2. Hubungan Antar Variabel (Cabang Lomba):

    Dari grafik variabel (PCA graph of variables), terlihat bahwa cabang lomba seperti “Long jump” dan “Pole vault” memberikan kontribusi besar pada Dimensi 1 (Dim.1), ditunjukkan oleh panjang vektor mereka yang signifikan ke arah tersebut. Sementara itu, cabang lomba seperti “1500m” dan “400m” lebih dominan dalam Dimensi 2 (Dim.2), karena vektor mereka lebih mengarah ke dimensi tersebut. Arah dan panjang panah pada grafik mencerminkan seberapa besar setiap variabel berkontribusi terhadap dimensi tertentu, di mana panah yang lebih panjang menunjukkan bahwa variabel tersebut memiliki peran yang lebih penting dalam menjelaskan variasi data pada dimensi.

  3. Hubungan Antar Sampel (Atlet):

    Grafik individu (PCA graph of individuals) menggambarkan distribusi atlet berdasarkan nilai pada Dimensi 1 (Dim.1) dan Dimensi 2 (Dim.2). Atlet yang posisinya berdekatan pada grafik menunjukkan bahwa mereka memiliki pola kinerja yang serupa dalam cabang-cabang lomba tertentu. Sebaliknya, atlet yang terletak jauh dari pusat grafik (titik 0,0) menunjukkan performa yang lebih ekstrem, baik itu sangat unggul atau sebaliknya, kurang baik dalam cabang lomba tertentu yang dijelaskan oleh kedua dimensi tersebut.

  4. Hubungan Variabel dengan Sampel:

    Pada grafik PCA, variabel yang terletak dekat dengan seorang atlet menunjukkan bahwa atlet tersebut unggul dalam cabang lomba yang diwakili oleh variabel tersebut. Sebagai contoh, jika seorang atlet berada dekat dengan variabel “Long jump,” maka atlet tersebut cenderung memiliki performa yang baik dalam cabang long jump. Sebaliknya, atlet yang posisinya jauh dari suatu variabel tertentu menunjukkan bahwa kontribusinya terhadap cabang lomba tersebut relatif kecil, atau performanya kurang menonjol dalam cabang tersebut.

  5. Variabel Tambahan (Supplementary Variables):

    Posisi variabel tambahan seperti “Rank” dan “Points” menunjukkan hubungan mereka dengan Dim.1 dan Dim.2, di mana variabel seperti “Points” tampak berkontribusi lebih signifikan ke arah Dim.1.

d) Komponen utama mana yang paling berkaitan dengan performa atlet di cabang tertentu.

Dimensi 1 (Dim.1) merupakan komponen utama yang paling berkaitan dengan performa atlet di cabang seperti “Long jump,” “Pole vault,” dan “Shot put,” karena variabel-variabel ini memiliki kontribusi besar terhadap Dim.1.

e) Jelaskan berdasarkan analisis, urutan atlet yang memiliki performa terbaik.

options(ggrepel.max.overlaps = 20)
plot(res.pca, choix = "ind", axes = c(1,2))

Berdasarkan grafik hasil analisis, dapat dijabarkan sebagai berikut:

  • Karpov dan Sebrle berada di posisi kanan atas pada Dim.1, menunjukkan performa unggul pada variabel yang dominan di Dim.1.

  • Clay dan Macey juga menonjol dalam Dim.1, meskipun tidak sejauh Karpov.

  • Yurkov menonjol dalam Dim.2 karena berada jauh di arah vertikal atas, menunjukkan performa baik pada variabel terkait Dim.2.

sehingga apabila diurutkan berdasarkan urutan terbaik akan menjadi:

  1. Karpov
  2. Serble
  3. Clay
  4. Macey
  5. Yurkov