Instalasi package
menginstall package yang diperlukan
library(FactoMineR)
## Warning: package 'FactoMineR' was built under R version 4.4.2
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.2
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.2
Melihat data terpusat dan terskala
Kita perlu menskalakan data ketika variabel dinyatakan pada urutan besarnya yang berbeda.
data(decathlon)
dec <- decathlon %>%
select(-Competition)
dec_scaled <- scale(dec)
dec_scaled
## 100m Long.jump Shot.put High.jump 400m
## SEBRLE 0.15949639 1.0113727 0.428087000 1.04744448 0.16789492
## CLAY -0.90504930 0.4424756 -0.263301610 -1.31341860 -0.21356911
## KARPOV 0.08345742 0.1264216 0.355309251 0.71017832 -1.08053282
## BERNARD 0.08345742 -0.0948162 -0.275431235 -0.63888629 -0.59503314
## YURKOV 1.30008106 -0.5372918 0.864753490 1.38471063 0.69674279
## WARNERS 0.42563282 1.0745835 -0.202653486 0.03564602 -0.81177407
## ZSIVOCZKY 0.50167179 0.1264216 -1.209412340 0.37291217 -0.86379189
## McMULLEN -0.63891288 0.1580270 -0.869782847 1.72197679 0.25459130
## MARTINEAU 2.44066574 -1.4222429 0.112716757 -0.30162014 0.45399295
## HERNU 1.41413953 0.9481620 -0.081357239 -1.31341860 1.28627811
## BARRAS 1.26206158 -0.9165566 -0.469505231 -0.30162014 -0.11820310
## NOOL 1.26206158 0.0316054 -2.179782319 0.03564602 -0.36095294
## BOURGUIGNON 1.37612004 -1.4538483 -1.233671589 -1.31341860 1.33829594
## Sebrle -0.56287390 1.8331131 2.283919585 1.60955474 -1.08920246
## Clay -2.12167295 2.2123779 0.913271989 0.93502243 -0.36962258
## Karpov -1.89355602 1.7382969 1.762345721 1.27228858 -2.43299621
## Macey -0.41079594 0.6637134 1.519753226 1.94682089 -0.56035459
## Warners -1.43732215 1.5170591 0.003550134 -0.07677604 -1.42731831
## Zsivoczky -0.33475696 -0.3792648 1.010308987 1.60955474 -0.18756020
## Hernu -0.10664003 -0.2212378 0.209753755 0.59775627 -0.76842589
## Nool -0.75297134 0.8533458 -0.263301610 -1.08857450 -0.69906879
## Bernard -1.17118572 0.6953188 0.391698126 1.60955474 -0.42164040
## Schwarzl -0.06862054 0.7269242 -0.566542229 -0.41404219 0.12454674
## Pogorelov -0.18267901 0.1580270 0.755586868 0.93502243 1.01751936
## Schoenbeck -0.37277645 0.1264216 0.355309251 -1.08857450 0.59270714
## Barras 0.53969128 -0.8533458 0.525123998 -0.41404219 -0.17889056
## Smith -0.56287390 -1.4222429 0.925401614 -0.75130834 -0.30026548
## Averyanov -1.70345857 0.2528432 -0.044968365 -0.41404219 0.08986819
## Ojaniemi -1.20920521 0.7585296 0.597901746 -0.41404219 -0.43031004
## Smirnov -0.41079594 -0.6005026 -0.724227350 -0.41404219 -0.43897967
## Qi 0.23553537 0.2528432 -1.124504967 -0.07677604 0.02918073
## Drews -0.48683492 0.3792648 -1.706726954 -1.08857450 -0.95915790
## Parkhomenko 0.53969128 -2.0543509 1.471234727 0.59775627 1.23426029
## Terek -0.29673748 -1.0113727 0.816234992 -0.41404219 -0.04884600
## Gomez 0.31157435 0.0000000 0.112716757 -1.42584065 -0.87246153
## Turi 0.31157435 -1.1061889 -1.039597593 0.59775627 1.78044743
## Lorenzo 0.38761333 -0.7269242 -1.524782583 -1.42584065 -0.23957802
## Karlivans 1.26206158 0.0000000 -1.427745585 -0.07677604 0.80077843
## Korkizoglou -0.52485441 -0.6005026 0.403827750 -0.41404219 1.33829594
## Uldal 0.88186669 -0.8533458 -1.148764216 -1.42584065 1.15623356
## Casarsa 1.37612004 -1.8331131 0.537253623 -0.41404219 3.10690191
## 110m.hurdle Discus Pole.vault Javeline 1500m
## SEBRLE 0.17835587 -0.17040740 0.9264789 1.009653240 1.08582657
## CLAY -1.17818270 1.89303852 0.5667665 0.379839017 1.92535303
## KARPOV -1.09339904 1.36903575 0.5667665 -1.658770177 1.81398728
## BERNARD 0.81423333 -1.02302207 2.0056163 0.922639433 0.09210136
## YURKOV 1.49250261 0.57266997 -0.1526585 1.061447173 -0.22486271
## WARNERS -0.79665623 -0.95493132 0.5667665 -1.356293610 -0.07923057
## ZSIVOCZKY -0.92383172 0.39800238 -1.2317958 -0.610460978 -0.94445683
## McMULLEN -0.47871750 0.02498346 -1.2317958 -0.403285246 0.52043119
## MARTINEAU 0.68705783 0.96937262 0.5667665 -1.240275200 -1.44988603
## HERNU 0.96260473 0.19669058 0.2070540 -0.233401147 0.52043119
## BARRAS -0.26675835 -0.65888456 -0.1526585 -0.604245706 0.25486670
## NOOL 1.45011078 -1.89636002 -0.5123709 -0.181607214 -1.06438918
## BOURGUIGNON 2.25555555 -1.13551984 0.9264789 -0.753412232 1.08582657
## Sebrle -1.17818270 1.30094500 0.8545364 2.528251350 0.08439142
## Clay -1.00861538 1.71244999 0.4948240 2.360439007 0.25486670
## Karpov -1.34775002 2.16836201 -0.5843134 -0.575241103 -0.07837391
## Macey -0.09719103 1.18844723 -1.3037383 0.029712032 -1.16547502
## Warners -1.26296636 -0.17632834 0.4948240 -0.606317463 -0.08351387
## Zsivoczky 0.72944966 0.38320004 -0.2246009 1.063518930 -0.81253124
## Hernu -0.75426439 0.11675795 0.1351115 -0.115310980 -1.25713760
## Nool 0.41151094 -0.67368690 2.2933863 0.624306380 -0.23085933
## Bernard -0.92383172 0.12563936 -1.3037383 -0.631178551 -0.23257265
## Schwarzl -0.75426439 -0.56118913 1.2142489 -0.413644033 -0.46815406
## Pogorelov -0.83904806 0.08123234 0.8545364 -1.008238381 0.73716609
## Schoenbeck -0.56350116 0.02498346 0.8545364 0.533149058 -0.01755108
## Barras -0.49991341 0.14932310 -0.5843134 1.291412235 -1.02241286
## Smith -1.26296636 1.38975902 -2.0231632 0.663669769 -0.53840015
## Averyanov -0.45752158 -1.31610837 0.1351115 -0.788632106 -0.68574561
## Ojaniemi 0.85662516 -1.17696639 -0.5843134 0.195452617 -0.28397223
## Smirnov 0.34792319 -0.54934726 -0.2246009 0.531077301 -1.34623021
## Qi 0.36911911 0.23813713 -0.9440259 0.512431485 -0.54782341
## Drews -1.26296636 -1.24801761 0.8545364 -1.406015785 -0.41247118
## Parkhomenko 0.58107826 -0.71809391 0.1351115 1.554525413 -0.09293713
## Terek 1.08978022 0.38320004 1.9336738 -1.594545701 0.97103417
## Gomez -0.41512975 -0.99933833 -1.3037383 0.495857427 -0.79882469
## Turi -0.73306848 -1.33091071 0.1351115 0.212026675 0.94105108
## Lorenzo 1.64087402 -1.21545247 -0.9440259 0.008994459 -1.36593338
## Karlivans 0.79303741 -0.29178658 -0.9440259 -1.118041519 -0.03040097
## Korkizoglou 0.75064558 0.51642108 -0.2246009 -1.091108674 3.25317551
## Uldal 1.02619248 -0.38948201 -0.9440259 0.348762658 0.22916691
## Casarsa 1.66206993 1.28318219 -1.3037383 0.062860149 1.46447014
## Rank Points
## SEBRLE -1.40447311 0.618117197
## CLAY -1.27819373 0.340651888
## KARPOV -1.15191435 0.273476077
## BERNARD -1.02563497 0.180014078
## YURKOV -0.89935559 0.089472767
## WARNERS -0.77307621 0.071948642
## ZSIVOCZKY -0.64679683 -0.003989232
## McMULLEN -0.52051745 -0.030275419
## MARTINEAU -0.39423807 -0.593968098
## HERNU -0.26795869 -0.795495533
## BARRAS -0.14167931 -0.868512719
## NOOL -0.01539992 -1.034991904
## BOURGUIGNON 0.11087946 -2.022184265
## Sebrle -1.40447311 2.592501918
## Clay -1.27819373 2.379291734
## Karpov -1.15191435 2.101826425
## Macey -1.02563497 1.193492626
## Warners -0.89935559 0.986123817
## Zsivoczky -0.77307621 0.822565319
## Hernu -0.64679683 0.676530946
## Nool -0.52051745 0.670689571
## Bernard -0.39423807 0.641482697
## Schwarzl -0.26795869 0.282238139
## Pogorelov -0.14167931 0.229665765
## Schoenbeck -0.01539992 0.209220953
## Barras 0.11087946 0.180014078
## Smith 0.23715884 0.051503830
## Averyanov 0.36343822 0.045662455
## Ojaniemi 0.48971760 0.001852143
## Smirnov 0.61599698 -0.036116794
## Qi 0.74227636 -0.208437354
## Drews 0.86855574 -0.231802853
## Parkhomenko 0.99483512 -0.255168353
## Terek 1.12111450 -0.328185539
## Gomez 1.24739388 -0.409964788
## Turi 1.37367327 -0.868512719
## Lorenzo 1.49995265 -1.207312464
## Karlivans 1.62623203 -1.233598651
## Korkizoglou 1.75251141 -1.262805526
## Uldal 1.87879079 -1.490619148
## Casarsa 2.00507017 -1.756401706
## attr(,"scaled:center")
## 100m Long.jump Shot.put High.jump 400m 110m.hurdle
## 10.998049 7.260000 14.477073 1.976829 49.616341 14.605854
## Discus Pole.vault Javeline 1500m Rank Points
## 44.325610 4.762439 58.316585 279.024878 12.121951 8005.365854
## attr(,"scaled:scale")
## 100m Long.jump Shot.put High.jump 400m 110m.hurdle
## 0.26302300 0.31640164 0.82442781 0.08895052 1.15345081 0.47178902
## Discus Pole.vault Javeline 1500m Rank Points
## 3.37784476 0.27799982 4.82682018 11.67324722 7.91894918 342.38514542
Memilih variabel aktif dan variabel ilustratif
disini kita memilih variabel Rank, Point, (dan mungkin juga Competition) sebagai variabel Ilustratif, dan variabel lain sebagai variabel aktif.
res.pca <- PCA(decathlon, scale = T, quanti.sup = c(11,12), quali.sup = c(13))
## Warning: ggrepel: 3 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
summary.PCA(res.pca)
##
## Call:
## PCA(X = decathlon, scale.unit = T, quanti.sup = c(11, 12), quali.sup = c(13))
##
##
## Eigenvalues
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7
## Variance 3.272 1.737 1.405 1.057 0.685 0.599 0.451
## % of var. 32.719 17.371 14.049 10.569 6.848 5.993 4.512
## Cumulative % of var. 32.719 50.090 64.140 74.708 81.556 87.548 92.061
## Dim.8 Dim.9 Dim.10
## Variance 0.397 0.215 0.182
## % of var. 3.969 2.148 1.822
## Cumulative % of var. 96.030 98.178 100.000
##
## Individuals (the 10 first)
## Dist Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3
## SEBRLE | 2.369 | 0.792 0.467 0.112 | 0.772 0.836 0.106 | 0.827
## CLAY | 3.507 | 1.235 1.137 0.124 | 0.575 0.464 0.027 | 2.141
## KARPOV | 3.396 | 1.358 1.375 0.160 | 0.484 0.329 0.020 | 1.956
## BERNARD | 2.763 | -0.610 0.277 0.049 | -0.875 1.074 0.100 | 0.890
## YURKOV | 3.018 | -0.586 0.256 0.038 | 2.131 6.376 0.499 | -1.225
## WARNERS | 2.428 | 0.357 0.095 0.022 | -1.685 3.986 0.482 | 0.767
## ZSIVOCZKY | 2.563 | 0.272 0.055 0.011 | -1.094 1.680 0.182 | -1.283
## McMULLEN | 2.561 | 0.588 0.257 0.053 | 0.231 0.075 0.008 | -0.418
## MARTINEAU | 3.742 | -1.995 2.968 0.284 | 0.561 0.442 0.022 | -0.730
## HERNU | 2.794 | -1.546 1.782 0.306 | 0.488 0.335 0.031 | 0.841
## ctr cos2
## SEBRLE 1.187 0.122 |
## CLAY 7.960 0.373 |
## KARPOV 6.644 0.332 |
## BERNARD 1.375 0.104 |
## YURKOV 2.606 0.165 |
## WARNERS 1.020 0.100 |
## ZSIVOCZKY 2.857 0.250 |
## McMULLEN 0.303 0.027 |
## MARTINEAU 0.925 0.038 |
## HERNU 1.227 0.091 |
##
## Variables
## Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr
## 100m | -0.775 18.344 0.600 | 0.187 2.016 0.035 | -0.184 2.420
## Long.jump | 0.742 16.822 0.550 | -0.345 6.869 0.119 | 0.182 2.363
## Shot.put | 0.623 11.844 0.388 | 0.598 20.607 0.358 | -0.023 0.039
## High.jump | 0.572 9.998 0.327 | 0.350 7.064 0.123 | -0.260 4.794
## 400m | -0.680 14.116 0.462 | 0.569 18.666 0.324 | 0.131 1.230
## 110m.hurdle | -0.746 17.020 0.557 | 0.229 3.013 0.052 | -0.093 0.611
## Discus | 0.552 9.328 0.305 | 0.606 21.162 0.368 | 0.043 0.131
## Pole.vault | 0.050 0.077 0.003 | -0.180 1.873 0.033 | 0.692 34.061
## Javeline | 0.277 2.347 0.077 | 0.317 5.784 0.100 | -0.390 10.807
## 1500m | -0.058 0.103 0.003 | 0.474 12.946 0.225 | 0.782 43.543
## cos2
## 100m 0.034 |
## Long.jump 0.033 |
## Shot.put 0.001 |
## High.jump 0.067 |
## 400m 0.017 |
## 110m.hurdle 0.009 |
## Discus 0.002 |
## Pole.vault 0.479 |
## Javeline 0.152 |
## 1500m 0.612 |
##
## Supplementary continuous variables
## Dim.1 cos2 Dim.2 cos2 Dim.3 cos2
## Rank | -0.671 0.450 | 0.051 0.003 | -0.058 0.003 |
## Points | 0.956 0.914 | -0.017 0.000 | -0.066 0.004 |
##
## Supplementary categories
## Dist Dim.1 cos2 v.test Dim.2 cos2 v.test Dim.3
## Decastar | 0.946 | -0.600 0.403 -1.430 | -0.038 0.002 -0.123 | 0.289
## OlympicG | 0.439 | 0.279 0.403 1.430 | 0.017 0.002 0.123 | -0.134
## cos2 v.test
## Decastar 0.093 1.050 |
## OlympicG 0.093 -1.050 |
options(ggrepel.max.overlaps = 20)
plot(res.pca, choix = "ind", axes = c(1,2))
plot(res.pca, choix = "var", axes = c(1,2))
Persentase variabilitas dari setiap dimensi
round(res.pca$eig,2)
## eigenvalue percentage of variance cumulative percentage of variance
## comp 1 3.27 32.72 32.72
## comp 2 1.74 17.37 50.09
## comp 3 1.40 14.05 64.14
## comp 4 1.06 10.57 74.71
## comp 5 0.68 6.85 81.56
## comp 6 0.60 5.99 87.55
## comp 7 0.45 4.51 92.06
## comp 8 0.40 3.97 96.03
## comp 9 0.21 2.15 98.18
## comp 10 0.18 1.82 100.00
Dari kedua dimensi pertama dapat terlihat bahwa kita memiliki 33% +17% = 50%. hal ini berarti memproyeksikan data dalam kedua dimensi ini dapat mengkonversi 50% dari total variability dari data set. kita harus meningkatkan presentasinya setinggi mungkin agar kami menemukan pengurangan dimensi yang baik dari data.
Interpretasi
Berikut merupakan hasil interpretasi dari hasil PCA sebelumnya
Jika kita melihat pada correlation circle (variables factor map), kita akan menyadari bahwa :
100m and long.jump berkorelasi negatif. Sehingga, seorang atlit dapat lari 100 meter juga biasanya dapat melakukan lompatan jauh yang mana mengindikasikan kemampuan yang baik di kedua bidang olahraga.
Variabel 110m.hurdle, 400m, dan 100m berkorelasi positif. Sehingga, beberapa atlet dapat melakukan keempat bidang olahraga (termasuk lompat jauh) sementara tidak dapat melakukan keempatnya.
Dengan melihat panjang vektor dalam lingkaran korelasi, kita melihat bahwa long.jump terwakili dengan baik di bidang pertama dan Pole.vault tidak. Kita dapat menyimpulkan bahwa long.jump dan Pole.vault kira-kira ortogonal, hal tersebut berart bahwa variabel yang sesuai kira-kira tidak berkorelasi.
Secara keseluruhan, variabel yang berkaitan dengan kecepatan berkorelasi negatif dengan komponen utama pertama sedangkan variabel lempar dan lompat jauh berkorelasi positif dengan komponen ini.
round(cbind(res.pca$var$coord[,1:4],res.pca$var$cos2[,1:4], res.pca$var$contrib[,1:4]),2)
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.1 Dim.2 Dim.3 Dim.4 Dim.1 Dim.2 Dim.3
## 100m -0.77 0.19 -0.18 -0.04 0.60 0.04 0.03 0.00 18.34 2.02 2.42
## Long.jump 0.74 -0.35 0.18 0.10 0.55 0.12 0.03 0.01 16.82 6.87 2.36
## Shot.put 0.62 0.60 -0.02 0.19 0.39 0.36 0.00 0.04 11.84 20.61 0.04
## High.jump 0.57 0.35 -0.26 -0.14 0.33 0.12 0.07 0.02 10.00 7.06 4.79
## 400m -0.68 0.57 0.13 0.03 0.46 0.32 0.02 0.00 14.12 18.67 1.23
## 110m.hurdle -0.75 0.23 -0.09 0.29 0.56 0.05 0.01 0.08 17.02 3.01 0.61
## Discus 0.55 0.61 0.04 -0.26 0.31 0.37 0.00 0.07 9.33 21.16 0.13
## Pole.vault 0.05 -0.18 0.69 0.55 0.00 0.03 0.48 0.30 0.08 1.87 34.06
## Javeline 0.28 0.32 -0.39 0.71 0.08 0.10 0.15 0.51 2.35 5.78 10.81
## 1500m -0.06 0.47 0.78 -0.16 0.00 0.22 0.61 0.03 0.10 12.95 43.54
## Dim.4
## 100m 0.14
## Long.jump 0.98
## Shot.put 3.44
## High.jump 1.74
## 400m 0.08
## 110m.hurdle 8.00
## Discus 6.38
## Pole.vault 28.78
## Javeline 48.00
## 1500m 2.46
Dengan melihat Peta Faktor Individu, kita melihat bahwa :
Atlet Casarsa memiliki profil atipikal dalam arti bahwa hasilnya ekstrem untuk komponen utama pertama dan kedua
Bourguignon dan Karpov memiliki profil kinerja yang sangat berbeda karena berlawanan di sepanjang sumbu / komponen pertama
Sebrle dan Clay memiliki profil yang mirip karena mereka dekat pada individual factor map, yang sesuai dengan proyeksi di sepanjang dua komponen utama pertama
Kita dapat meningkatkan output grafis dengan opsi berikut:
plot.PCA(res.pca, choix = "ind", habillage = ncol(decathlon), cex = 0.7)
plot.PCA(res.pca, choix = "ind", habillage = ncol(decathlon), cex = 0.7,
autoLab = "no")
plot(res.pca, select = "cos2 0.8", invisible = "quali")
plot(res.pca, select = "contrib 10")
plot(res.pca, choix = "var", select = "contrib 8", unselect = 0)
plot(res.pca, choix = "var", select = c("400m", "1500m"))
Kami melihat pada lingkaran korelasi bahwa variabel tambahan “jumlah titik” hampir kolinier ke arah pertama. Ini berarti bahwa mereka yang berolahraga decathlon tampil baik dalam olahraga yang berkorelasi dengan komponen utama pertama.
res.pca$var$coord
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## 100m -0.77471983 0.1871420 -0.18440714 -0.03781826 0.30219639
## Long.jump 0.74189974 -0.3454213 0.18221105 0.10178564 0.03667805
## Shot.put 0.62250255 0.5983033 -0.02337844 0.19059161 0.11115082
## High.jump 0.57194530 0.3502936 -0.25951193 -0.13559420 0.55543957
## 400m -0.67960994 0.5694378 0.13146970 0.02930198 -0.08769157
## 110m.hurdle -0.74624532 0.2287933 -0.09263738 0.29083103 0.16432095
## Discus 0.55246652 0.6063134 0.04295225 -0.25967143 -0.10482712
## Pole.vault 0.05034151 -0.1803569 0.69175665 0.55153397 0.32995932
## Javeline 0.27711085 0.3169891 -0.38965541 0.71227728 -0.30512892
## 1500m -0.05807706 0.4742238 0.78214280 -0.16108904 -0.15356189
Kita melihat bahwa olahraga yang paling terkait dengan komponen utama pertama adalah 100m, 400 m, 110m.hurdle, dan Long.jump . Ini bisa menunjukkan bahwa uji coba decathlon dan sistem poin tidak dipilih dengan baik karena mereka mendukung pelari jarak pendek. Kita dapat menyelidiki lebih lanjut olahraga mana yang paling berkontribusi pada 4 dimensi pertama dengan fungsi berikut.
dimdesc(res.pca, 1:4)
## $Dim.1
##
## Link between the variable and the continuous variables (R-square)
## =================================================================================
## correlation p.value
## Points 0.9561543 2.099191e-22
## Long.jump 0.7418997 2.849886e-08
## Shot.put 0.6225026 1.388321e-05
## High.jump 0.5719453 9.362285e-05
## Discus 0.5524665 1.802220e-04
## Rank -0.6705104 1.616348e-06
## 400m -0.6796099 1.028175e-06
## 110m.hurdle -0.7462453 2.136962e-08
## 100m -0.7747198 2.778467e-09
##
## $Dim.2
##
## Link between the variable and the continuous variables (R-square)
## =================================================================================
## correlation p.value
## Discus 0.6063134 2.650745e-05
## Shot.put 0.5983033 3.603567e-05
## 400m 0.5694378 1.020941e-04
## 1500m 0.4742238 1.734405e-03
## High.jump 0.3502936 2.475025e-02
## Javeline 0.3169891 4.344974e-02
## Long.jump -0.3454213 2.696969e-02
##
## $Dim.3
##
## Link between the variable and the continuous variables (R-square)
## =================================================================================
## correlation p.value
## 1500m 0.7821428 1.554450e-09
## Pole.vault 0.6917567 5.480172e-07
## Javeline -0.3896554 1.179331e-02
##
## $Dim.4
##
## Link between the variable and the continuous variables (R-square)
## =================================================================================
## correlation p.value
## Javeline 0.7122773 1.761578e-07
## Pole.vault 0.5515340 1.857748e-04
Untuk setiap dimensi, hanya olahraga yang memiliki korelasi signifikan dengan dimensi tersebut yang dijelaskan.
Kita melihat bahwa dimensi pertama sebagian besar bergantung pada variabel pelengkap jumlah poin (korelasi 0,96), dan variabel aktif 100m (korelasi -0,77).
Demikian pula, dimensi kedua sebagian besar bergantung pada cakram dan tolak peluru.
Tidak ada kategori variabel kategoris yang secara signifikan mengkarakterisasi komponen 1 hingga 4 (pada tingkat keyakinan 0,95).
Terdapat 2 komponen utama yang dihasilkan untuk menjelaskan variansi data, yakni dimensi 1 dengan variabel 100m, 110m.hurdle, Long.jump, dan 400m menjadi variabel dengan tingkat kontribusi paling tinggi; dan dimensi 2 dengan variabel Discus, Shot.Put, 400m, dan 1500m menjadi variabel dengan tingkat kontribusi paling tinggi. Berdasarkan variabel yang paling berkontribusi dalam dimensi 1, dapat disimpulkan bahwa komponen utama pertama dalam data ini sangat berkaitan dengan olahraga yang membutuhkan ledakan energi. Kemudian berdasarkan variabel yang paling berkontribusi dalam dimensi 2, dapat disumpulkan bahwa komponen utama kedua dalam data ini berkaitan dengan olahraga yang membutuhkan kekuatan dan ketahanan.
ggplot(decathlon, aes(x = `100m`, y = `110m.hurdle`)) +
geom_point(color = "pink", size = 3) + # Menambahkan titik
labs(title = "Scatter Plot: 100m vs 110m Hurdles",
x = "100m (detik)",
y = "110m Hurdles (detik)") +
theme_minimal()
Dari hasil scatter plot data tersebut, dapat terlihat bahwa terdapat pola positif antara variabel 100m dan 110m hurdless. Di mana semakin besar waktu tempuh pada 100m, cenderung semakin besar waktu tempuh pada 110m Hurdles. Artinya, atlet yang lebih lambat pada lari 100m cenderung juga lebih lambat pada 110m Hurdles. Namun, tidak terdapat klaster yang terlihat karena plot data cenderung tersebar secara merata.
Berdasarkan hasil analisis PCA, didapatkan beberapa hubungan penting antara variabel (cabang lomba) dan sampel (atlet). Berikut merupakan hubungan antara hasil PCA, variabel (cabang lomba), dan sampel (atlet):
Penjelasan Dimensi Utama (Principal Components):
Dimensi 1 (Dim.1) menjelaskan 32.72% dari variasi total data, sedangkan Dimensi 2 (Dim.2) menjelaskan 17.37%, sehingga secara kumulatif kedua dimensi ini mencakup sekitar 50.09% dari total variasi. Hal ini menunjukkan bahwa dua dimensi utama tersebut dapat digunakan untuk meringkas sebagian besar informasi penting dari data asli. Dimensi-dimensi ini merupakan kombinasi linier dari variabel-variabel awal (cabang lomba), yang berfungsi untuk mengungkap pola hubungan antar variabel dengan cara yang lebih sederhana dan terstruktur.
Hubungan Antar Variabel (Cabang Lomba):
Dari grafik variabel (PCA graph of variables), terlihat bahwa cabang lomba seperti “Long jump” dan “Pole vault” memberikan kontribusi besar pada Dimensi 1 (Dim.1), ditunjukkan oleh panjang vektor mereka yang signifikan ke arah tersebut. Sementara itu, cabang lomba seperti “1500m” dan “400m” lebih dominan dalam Dimensi 2 (Dim.2), karena vektor mereka lebih mengarah ke dimensi tersebut. Arah dan panjang panah pada grafik mencerminkan seberapa besar setiap variabel berkontribusi terhadap dimensi tertentu, di mana panah yang lebih panjang menunjukkan bahwa variabel tersebut memiliki peran yang lebih penting dalam menjelaskan variasi data pada dimensi.
Hubungan Antar Sampel (Atlet):
Grafik individu (PCA graph of individuals) menggambarkan distribusi atlet berdasarkan nilai pada Dimensi 1 (Dim.1) dan Dimensi 2 (Dim.2). Atlet yang posisinya berdekatan pada grafik menunjukkan bahwa mereka memiliki pola kinerja yang serupa dalam cabang-cabang lomba tertentu. Sebaliknya, atlet yang terletak jauh dari pusat grafik (titik 0,0) menunjukkan performa yang lebih ekstrem, baik itu sangat unggul atau sebaliknya, kurang baik dalam cabang lomba tertentu yang dijelaskan oleh kedua dimensi tersebut.
Hubungan Variabel dengan Sampel:
Pada grafik PCA, variabel yang terletak dekat dengan seorang atlet menunjukkan bahwa atlet tersebut unggul dalam cabang lomba yang diwakili oleh variabel tersebut. Sebagai contoh, jika seorang atlet berada dekat dengan variabel “Long jump,” maka atlet tersebut cenderung memiliki performa yang baik dalam cabang long jump. Sebaliknya, atlet yang posisinya jauh dari suatu variabel tertentu menunjukkan bahwa kontribusinya terhadap cabang lomba tersebut relatif kecil, atau performanya kurang menonjol dalam cabang tersebut.
Variabel Tambahan (Supplementary Variables):
Posisi variabel tambahan seperti “Rank” dan “Points” menunjukkan hubungan mereka dengan Dim.1 dan Dim.2, di mana variabel seperti “Points” tampak berkontribusi lebih signifikan ke arah Dim.1.
Dimensi 1 (Dim.1) merupakan komponen utama yang paling berkaitan dengan performa atlet di cabang seperti “Long jump,” “Pole vault,” dan “Shot put,” karena variabel-variabel ini memiliki kontribusi besar terhadap Dim.1.
options(ggrepel.max.overlaps = 20)
plot(res.pca, choix = "ind", axes = c(1,2))
Berdasarkan grafik hasil analisis, dapat dijabarkan sebagai berikut:
Karpov dan Sebrle berada di posisi kanan atas pada Dim.1, menunjukkan performa unggul pada variabel yang dominan di Dim.1.
Clay dan Macey juga menonjol dalam Dim.1, meskipun tidak sejauh Karpov.
Yurkov menonjol dalam Dim.2 karena berada jauh di arah vertikal atas, menunjukkan performa baik pada variabel terkait Dim.2.
sehingga apabila diurutkan berdasarkan urutan terbaik akan menjadi: