Instalasi package
menginstall package yang diperlukan
library(FactoMineR)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
Melihat data terpusat dan terskala
Kita perlu menskalakan data ketika variabel dinyatakan pada urutan besarnya yang berbeda.
data(decathlon)
dec <- decathlon %>%
select(-Competition)
dec_scaled <- scale(dec)
dec_scaled
## 100m Long.jump Shot.put High.jump 400m
## SEBRLE 0.15949639 1.0113727 0.428087000 1.04744448 0.16789492
## CLAY -0.90504930 0.4424756 -0.263301610 -1.31341860 -0.21356911
## KARPOV 0.08345742 0.1264216 0.355309251 0.71017832 -1.08053282
## BERNARD 0.08345742 -0.0948162 -0.275431235 -0.63888629 -0.59503314
## YURKOV 1.30008106 -0.5372918 0.864753490 1.38471063 0.69674279
## WARNERS 0.42563282 1.0745835 -0.202653486 0.03564602 -0.81177407
## ZSIVOCZKY 0.50167179 0.1264216 -1.209412340 0.37291217 -0.86379189
## McMULLEN -0.63891288 0.1580270 -0.869782847 1.72197679 0.25459130
## MARTINEAU 2.44066574 -1.4222429 0.112716757 -0.30162014 0.45399295
## HERNU 1.41413953 0.9481620 -0.081357239 -1.31341860 1.28627811
## BARRAS 1.26206158 -0.9165566 -0.469505231 -0.30162014 -0.11820310
## NOOL 1.26206158 0.0316054 -2.179782319 0.03564602 -0.36095294
## BOURGUIGNON 1.37612004 -1.4538483 -1.233671589 -1.31341860 1.33829594
## Sebrle -0.56287390 1.8331131 2.283919585 1.60955474 -1.08920246
## Clay -2.12167295 2.2123779 0.913271989 0.93502243 -0.36962258
## Karpov -1.89355602 1.7382969 1.762345721 1.27228858 -2.43299621
## Macey -0.41079594 0.6637134 1.519753226 1.94682089 -0.56035459
## Warners -1.43732215 1.5170591 0.003550134 -0.07677604 -1.42731831
## Zsivoczky -0.33475696 -0.3792648 1.010308987 1.60955474 -0.18756020
## Hernu -0.10664003 -0.2212378 0.209753755 0.59775627 -0.76842589
## Nool -0.75297134 0.8533458 -0.263301610 -1.08857450 -0.69906879
## Bernard -1.17118572 0.6953188 0.391698126 1.60955474 -0.42164040
## Schwarzl -0.06862054 0.7269242 -0.566542229 -0.41404219 0.12454674
## Pogorelov -0.18267901 0.1580270 0.755586868 0.93502243 1.01751936
## Schoenbeck -0.37277645 0.1264216 0.355309251 -1.08857450 0.59270714
## Barras 0.53969128 -0.8533458 0.525123998 -0.41404219 -0.17889056
## Smith -0.56287390 -1.4222429 0.925401614 -0.75130834 -0.30026548
## Averyanov -1.70345857 0.2528432 -0.044968365 -0.41404219 0.08986819
## Ojaniemi -1.20920521 0.7585296 0.597901746 -0.41404219 -0.43031004
## Smirnov -0.41079594 -0.6005026 -0.724227350 -0.41404219 -0.43897967
## Qi 0.23553537 0.2528432 -1.124504967 -0.07677604 0.02918073
## Drews -0.48683492 0.3792648 -1.706726954 -1.08857450 -0.95915790
## Parkhomenko 0.53969128 -2.0543509 1.471234727 0.59775627 1.23426029
## Terek -0.29673748 -1.0113727 0.816234992 -0.41404219 -0.04884600
## Gomez 0.31157435 0.0000000 0.112716757 -1.42584065 -0.87246153
## Turi 0.31157435 -1.1061889 -1.039597593 0.59775627 1.78044743
## Lorenzo 0.38761333 -0.7269242 -1.524782583 -1.42584065 -0.23957802
## Karlivans 1.26206158 0.0000000 -1.427745585 -0.07677604 0.80077843
## Korkizoglou -0.52485441 -0.6005026 0.403827750 -0.41404219 1.33829594
## Uldal 0.88186669 -0.8533458 -1.148764216 -1.42584065 1.15623356
## Casarsa 1.37612004 -1.8331131 0.537253623 -0.41404219 3.10690191
## 110m.hurdle Discus Pole.vault Javeline 1500m
## SEBRLE 0.17835587 -0.17040740 0.9264789 1.009653240 1.08582657
## CLAY -1.17818270 1.89303852 0.5667665 0.379839017 1.92535303
## KARPOV -1.09339904 1.36903575 0.5667665 -1.658770177 1.81398728
## BERNARD 0.81423333 -1.02302207 2.0056163 0.922639433 0.09210136
## YURKOV 1.49250261 0.57266997 -0.1526585 1.061447173 -0.22486271
## WARNERS -0.79665623 -0.95493132 0.5667665 -1.356293610 -0.07923057
## ZSIVOCZKY -0.92383172 0.39800238 -1.2317958 -0.610460978 -0.94445683
## McMULLEN -0.47871750 0.02498346 -1.2317958 -0.403285246 0.52043119
## MARTINEAU 0.68705783 0.96937262 0.5667665 -1.240275200 -1.44988603
## HERNU 0.96260473 0.19669058 0.2070540 -0.233401147 0.52043119
## BARRAS -0.26675835 -0.65888456 -0.1526585 -0.604245706 0.25486670
## NOOL 1.45011078 -1.89636002 -0.5123709 -0.181607214 -1.06438918
## BOURGUIGNON 2.25555555 -1.13551984 0.9264789 -0.753412232 1.08582657
## Sebrle -1.17818270 1.30094500 0.8545364 2.528251350 0.08439142
## Clay -1.00861538 1.71244999 0.4948240 2.360439007 0.25486670
## Karpov -1.34775002 2.16836201 -0.5843134 -0.575241103 -0.07837391
## Macey -0.09719103 1.18844723 -1.3037383 0.029712032 -1.16547502
## Warners -1.26296636 -0.17632834 0.4948240 -0.606317463 -0.08351387
## Zsivoczky 0.72944966 0.38320004 -0.2246009 1.063518930 -0.81253124
## Hernu -0.75426439 0.11675795 0.1351115 -0.115310980 -1.25713760
## Nool 0.41151094 -0.67368690 2.2933863 0.624306380 -0.23085933
## Bernard -0.92383172 0.12563936 -1.3037383 -0.631178551 -0.23257265
## Schwarzl -0.75426439 -0.56118913 1.2142489 -0.413644033 -0.46815406
## Pogorelov -0.83904806 0.08123234 0.8545364 -1.008238381 0.73716609
## Schoenbeck -0.56350116 0.02498346 0.8545364 0.533149058 -0.01755108
## Barras -0.49991341 0.14932310 -0.5843134 1.291412235 -1.02241286
## Smith -1.26296636 1.38975902 -2.0231632 0.663669769 -0.53840015
## Averyanov -0.45752158 -1.31610837 0.1351115 -0.788632106 -0.68574561
## Ojaniemi 0.85662516 -1.17696639 -0.5843134 0.195452617 -0.28397223
## Smirnov 0.34792319 -0.54934726 -0.2246009 0.531077301 -1.34623021
## Qi 0.36911911 0.23813713 -0.9440259 0.512431485 -0.54782341
## Drews -1.26296636 -1.24801761 0.8545364 -1.406015785 -0.41247118
## Parkhomenko 0.58107826 -0.71809391 0.1351115 1.554525413 -0.09293713
## Terek 1.08978022 0.38320004 1.9336738 -1.594545701 0.97103417
## Gomez -0.41512975 -0.99933833 -1.3037383 0.495857427 -0.79882469
## Turi -0.73306848 -1.33091071 0.1351115 0.212026675 0.94105108
## Lorenzo 1.64087402 -1.21545247 -0.9440259 0.008994459 -1.36593338
## Karlivans 0.79303741 -0.29178658 -0.9440259 -1.118041519 -0.03040097
## Korkizoglou 0.75064558 0.51642108 -0.2246009 -1.091108674 3.25317551
## Uldal 1.02619248 -0.38948201 -0.9440259 0.348762658 0.22916691
## Casarsa 1.66206993 1.28318219 -1.3037383 0.062860149 1.46447014
## Rank Points
## SEBRLE -1.40447311 0.618117197
## CLAY -1.27819373 0.340651888
## KARPOV -1.15191435 0.273476077
## BERNARD -1.02563497 0.180014078
## YURKOV -0.89935559 0.089472767
## WARNERS -0.77307621 0.071948642
## ZSIVOCZKY -0.64679683 -0.003989232
## McMULLEN -0.52051745 -0.030275419
## MARTINEAU -0.39423807 -0.593968098
## HERNU -0.26795869 -0.795495533
## BARRAS -0.14167931 -0.868512719
## NOOL -0.01539992 -1.034991904
## BOURGUIGNON 0.11087946 -2.022184265
## Sebrle -1.40447311 2.592501918
## Clay -1.27819373 2.379291734
## Karpov -1.15191435 2.101826425
## Macey -1.02563497 1.193492626
## Warners -0.89935559 0.986123817
## Zsivoczky -0.77307621 0.822565319
## Hernu -0.64679683 0.676530946
## Nool -0.52051745 0.670689571
## Bernard -0.39423807 0.641482697
## Schwarzl -0.26795869 0.282238139
## Pogorelov -0.14167931 0.229665765
## Schoenbeck -0.01539992 0.209220953
## Barras 0.11087946 0.180014078
## Smith 0.23715884 0.051503830
## Averyanov 0.36343822 0.045662455
## Ojaniemi 0.48971760 0.001852143
## Smirnov 0.61599698 -0.036116794
## Qi 0.74227636 -0.208437354
## Drews 0.86855574 -0.231802853
## Parkhomenko 0.99483512 -0.255168353
## Terek 1.12111450 -0.328185539
## Gomez 1.24739388 -0.409964788
## Turi 1.37367327 -0.868512719
## Lorenzo 1.49995265 -1.207312464
## Karlivans 1.62623203 -1.233598651
## Korkizoglou 1.75251141 -1.262805526
## Uldal 1.87879079 -1.490619148
## Casarsa 2.00507017 -1.756401706
## attr(,"scaled:center")
## 100m Long.jump Shot.put High.jump 400m 110m.hurdle
## 10.998049 7.260000 14.477073 1.976829 49.616341 14.605854
## Discus Pole.vault Javeline 1500m Rank Points
## 44.325610 4.762439 58.316585 279.024878 12.121951 8005.365854
## attr(,"scaled:scale")
## 100m Long.jump Shot.put High.jump 400m 110m.hurdle
## 0.26302300 0.31640164 0.82442781 0.08895052 1.15345081 0.47178902
## Discus Pole.vault Javeline 1500m Rank Points
## 3.37784476 0.27799982 4.82682018 11.67324722 7.91894918 342.38514542
disini kita memilih variabel Rank, Point, (dan mungkin juga Competition) sebagai variabel Ilustratif, dan variabel lain sebagai variabel aktif.
res.pca <- PCA(decathlon, scale = T, quanti.sup = c(11,12), quali.sup = c(13))
## Warning: ggrepel: 3 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
summary.PCA(res.pca)
##
## Call:
## PCA(X = decathlon, scale.unit = T, quanti.sup = c(11, 12), quali.sup = c(13))
##
##
## Eigenvalues
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7
## Variance 3.272 1.737 1.405 1.057 0.685 0.599 0.451
## % of var. 32.719 17.371 14.049 10.569 6.848 5.993 4.512
## Cumulative % of var. 32.719 50.090 64.140 74.708 81.556 87.548 92.061
## Dim.8 Dim.9 Dim.10
## Variance 0.397 0.215 0.182
## % of var. 3.969 2.148 1.822
## Cumulative % of var. 96.030 98.178 100.000
##
## Individuals (the 10 first)
## Dist Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3
## SEBRLE | 2.369 | 0.792 0.467 0.112 | 0.772 0.836 0.106 | 0.827
## CLAY | 3.507 | 1.235 1.137 0.124 | 0.575 0.464 0.027 | 2.141
## KARPOV | 3.396 | 1.358 1.375 0.160 | 0.484 0.329 0.020 | 1.956
## BERNARD | 2.763 | -0.610 0.277 0.049 | -0.875 1.074 0.100 | 0.890
## YURKOV | 3.018 | -0.586 0.256 0.038 | 2.131 6.376 0.499 | -1.225
## WARNERS | 2.428 | 0.357 0.095 0.022 | -1.685 3.986 0.482 | 0.767
## ZSIVOCZKY | 2.563 | 0.272 0.055 0.011 | -1.094 1.680 0.182 | -1.283
## McMULLEN | 2.561 | 0.588 0.257 0.053 | 0.231 0.075 0.008 | -0.418
## MARTINEAU | 3.742 | -1.995 2.968 0.284 | 0.561 0.442 0.022 | -0.730
## HERNU | 2.794 | -1.546 1.782 0.306 | 0.488 0.335 0.031 | 0.841
## ctr cos2
## SEBRLE 1.187 0.122 |
## CLAY 7.960 0.373 |
## KARPOV 6.644 0.332 |
## BERNARD 1.375 0.104 |
## YURKOV 2.606 0.165 |
## WARNERS 1.020 0.100 |
## ZSIVOCZKY 2.857 0.250 |
## McMULLEN 0.303 0.027 |
## MARTINEAU 0.925 0.038 |
## HERNU 1.227 0.091 |
##
## Variables
## Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr
## 100m | -0.775 18.344 0.600 | 0.187 2.016 0.035 | -0.184 2.420
## Long.jump | 0.742 16.822 0.550 | -0.345 6.869 0.119 | 0.182 2.363
## Shot.put | 0.623 11.844 0.388 | 0.598 20.607 0.358 | -0.023 0.039
## High.jump | 0.572 9.998 0.327 | 0.350 7.064 0.123 | -0.260 4.794
## 400m | -0.680 14.116 0.462 | 0.569 18.666 0.324 | 0.131 1.230
## 110m.hurdle | -0.746 17.020 0.557 | 0.229 3.013 0.052 | -0.093 0.611
## Discus | 0.552 9.328 0.305 | 0.606 21.162 0.368 | 0.043 0.131
## Pole.vault | 0.050 0.077 0.003 | -0.180 1.873 0.033 | 0.692 34.061
## Javeline | 0.277 2.347 0.077 | 0.317 5.784 0.100 | -0.390 10.807
## 1500m | -0.058 0.103 0.003 | 0.474 12.946 0.225 | 0.782 43.543
## cos2
## 100m 0.034 |
## Long.jump 0.033 |
## Shot.put 0.001 |
## High.jump 0.067 |
## 400m 0.017 |
## 110m.hurdle 0.009 |
## Discus 0.002 |
## Pole.vault 0.479 |
## Javeline 0.152 |
## 1500m 0.612 |
##
## Supplementary continuous variables
## Dim.1 cos2 Dim.2 cos2 Dim.3 cos2
## Rank | -0.671 0.450 | 0.051 0.003 | -0.058 0.003 |
## Points | 0.956 0.914 | -0.017 0.000 | -0.066 0.004 |
##
## Supplementary categories
## Dist Dim.1 cos2 v.test Dim.2 cos2 v.test Dim.3
## Decastar | 0.946 | -0.600 0.403 -1.430 | -0.038 0.002 -0.123 | 0.289
## OlympicG | 0.439 | 0.279 0.403 1.430 | 0.017 0.002 0.123 | -0.134
## cos2 v.test
## Decastar 0.093 1.050 |
## OlympicG 0.093 -1.050 |
options(ggrepel.max.overlaps = 20)
plot(res.pca, choix = "ind", axes = c(1,2))
plot(res.pca, choix = "var", axes = c(1,2))
Persentase variabilitas dari setiap dimensi
round(res.pca$eig,2)
## eigenvalue percentage of variance cumulative percentage of variance
## comp 1 3.27 32.72 32.72
## comp 2 1.74 17.37 50.09
## comp 3 1.40 14.05 64.14
## comp 4 1.06 10.57 74.71
## comp 5 0.68 6.85 81.56
## comp 6 0.60 5.99 87.55
## comp 7 0.45 4.51 92.06
## comp 8 0.40 3.97 96.03
## comp 9 0.21 2.15 98.18
## comp 10 0.18 1.82 100.00
Dari analisis pada dua dimensi utama pertama, kita dapat melihat bahwa kombinasi dimensi pertama (33%) dan dimensi kedua (17%) mencakup total 50% dari variabilitas data. Ini berarti proyeksi data ke dalam ruang dua dimensi ini mampu menjelaskan separuh dari informasi yang terkandung dalam dataset. Namun, untuk mencapai pengurangan dimensi yang efektif, persentase total variabilitas yang dijelaskan sebaiknya ditingkatkan semaksimal mungkin. Hal ini bertujuan agar informasi yang hilang dalam proses reduksi dimensi dapat diminimalkan.
Interpretasi Hasil PCA:
Secara keseluruhan, analisis PCA ini memberikan wawasan penting mengenai struktur korelasi antar variabel dalam dataset. Informasi tersebut dapat digunakan untuk memahami hubungan antar variabel dan mengidentifikasi kelompok variabel yang memiliki kontribusi besar terhadap variansi dalam dataset. Dimensi yang dihasilkan juga dapat membantu dalam mereduksi kompleksitas data tanpa kehilangan informasi yang signifikan.
round(cbind(res.pca$var$coord[,1:4],res.pca$var$cos2[,1:4], res.pca$var$contrib[,1:4]),2)
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.1 Dim.2 Dim.3 Dim.4 Dim.1 Dim.2 Dim.3
## 100m -0.77 0.19 -0.18 -0.04 0.60 0.04 0.03 0.00 18.34 2.02 2.42
## Long.jump 0.74 -0.35 0.18 0.10 0.55 0.12 0.03 0.01 16.82 6.87 2.36
## Shot.put 0.62 0.60 -0.02 0.19 0.39 0.36 0.00 0.04 11.84 20.61 0.04
## High.jump 0.57 0.35 -0.26 -0.14 0.33 0.12 0.07 0.02 10.00 7.06 4.79
## 400m -0.68 0.57 0.13 0.03 0.46 0.32 0.02 0.00 14.12 18.67 1.23
## 110m.hurdle -0.75 0.23 -0.09 0.29 0.56 0.05 0.01 0.08 17.02 3.01 0.61
## Discus 0.55 0.61 0.04 -0.26 0.31 0.37 0.00 0.07 9.33 21.16 0.13
## Pole.vault 0.05 -0.18 0.69 0.55 0.00 0.03 0.48 0.30 0.08 1.87 34.06
## Javeline 0.28 0.32 -0.39 0.71 0.08 0.10 0.15 0.51 2.35 5.78 10.81
## 1500m -0.06 0.47 0.78 -0.16 0.00 0.22 0.61 0.03 0.10 12.95 43.54
## Dim.4
## 100m 0.14
## Long.jump 0.98
## Shot.put 3.44
## High.jump 1.74
## 400m 0.08
## 110m.hurdle 8.00
## Discus 6.38
## Pole.vault 28.78
## Javeline 48.00
## 1500m 2.46
Dengan melihat Peta Faktor Individu (Individual Factor Map), kita dapat menarik beberapa kesimpulan penting mengenai profil atlet yang dianalisis:
Atlet Casarsa memiliki profil yang atipikal, yang berarti hasilnya sangat ekstrem pada komponen utama pertama dan kedua. Hal ini menunjukkan bahwa Casarsa memiliki performa yang sangat berbeda dari atlet lainnya dalam data set. Atlet ini mungkin menonjol dalam beberapa aspek olahraga (misalnya kecepatan atau kekuatan), yang tercermin pada posisi ekstrimnya di peta faktor individu.
Bourguignon dan Karpov memiliki profil kinerja yang sangat berbeda karena posisi mereka yang berlawanan sepanjang sumbu/komponen pertama. Ini menunjukkan bahwa kedua atlet ini memiliki pola kinerja yang sangat kontras, dimana salah satu mungkin lebih unggul dalam aspek tertentu (misalnya kecepatan atau daya tahan) sementara yang lainnya unggul di area yang berbeda (seperti kekuatan atau teknik). Posisi mereka yang berlawanan pada komponen pertama menandakan perbedaan yang signifikan dalam performa mereka.
Sebrle dan Clay memiliki profil yang sangat mirip, yang terlihat dari kedekatan mereka pada peta faktor individu. Posisi mereka yang dekat pada kedua komponen utama pertama menunjukkan bahwa keduanya memiliki pola performa yang serupa, baik dalam kecepatan, kekuatan, atau keterampilan dalam olahraga yang dianalisis.
Untuk memperbaiki dan meningkatkan output grafis, kita dapat mempertimbangkan beberapa opsi berikut:
Dengan menerapkan opsi-opsi tersebut, visualisasi PCA akan menjadi lebih informatif dan memberikan wawasan yang lebih dalam tentang perbedaan profil atlet dalam dataset ini.
plot.PCA(res.pca, choix = "ind", habillage = ncol(decathlon), cex = 0.7)
plot.PCA(res.pca, choix = "ind", habillage = ncol(decathlon), cex = 0.7,
autoLab = "no")
plot(res.pca, select = "cos2 0.8", invisible = "quali")
plot(res.pca, select = "contrib 10")
plot(res.pca, choix = "var", select = "contrib 8", unselect = 0)
plot(res.pca, choix = "var", select = c("400m", "1500m"))
Pada lingkaran korelasi, terlihat bahwa variabel tambahan “jumlah titik”
hampir kolinier dengan arah pertama. Hal ini menunjukkan bahwa atlet
decathlon cenderung tampil baik dalam olahraga yang berkorelasi dengan
komponen utama pertama.
res.pca$var$coord
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## 100m -0.77471983 0.1871420 -0.18440714 -0.03781826 0.30219639
## Long.jump 0.74189974 -0.3454213 0.18221105 0.10178564 0.03667805
## Shot.put 0.62250255 0.5983033 -0.02337844 0.19059161 0.11115082
## High.jump 0.57194530 0.3502936 -0.25951193 -0.13559420 0.55543957
## 400m -0.67960994 0.5694378 0.13146970 0.02930198 -0.08769157
## 110m.hurdle -0.74624532 0.2287933 -0.09263738 0.29083103 0.16432095
## Discus 0.55246652 0.6063134 0.04295225 -0.25967143 -0.10482712
## Pole.vault 0.05034151 -0.1803569 0.69175665 0.55153397 0.32995932
## Javeline 0.27711085 0.3169891 -0.38965541 0.71227728 -0.30512892
## 1500m -0.05807706 0.4742238 0.78214280 -0.16108904 -0.15356189
Terdapat hubungan yang kuat antara komponen utama pertama dengan olahraga seperti 100m, 400m, 110m hurdles, dan lompat jauh. Hal ini menunjukkan bahwa struktur uji coba decathlon dan sistem penilaian yang digunakan mungkin tidak ideal, karena lebih mendukung pelari jarak pendek. Selanjutnya, dapat dilakukan penyelidikan lebih mendalam mengenai olahraga yang memberikan kontribusi terbesar pada empat komponen utama pertama menggunakan fungsi berikut.
dimdesc(res.pca, 1:4)
## $Dim.1
##
## Link between the variable and the continuous variables (R-square)
## =================================================================================
## correlation p.value
## Points 0.9561543 2.099191e-22
## Long.jump 0.7418997 2.849886e-08
## Shot.put 0.6225026 1.388321e-05
## High.jump 0.5719453 9.362285e-05
## Discus 0.5524665 1.802220e-04
## Rank -0.6705104 1.616348e-06
## 400m -0.6796099 1.028175e-06
## 110m.hurdle -0.7462453 2.136962e-08
## 100m -0.7747198 2.778467e-09
##
## $Dim.2
##
## Link between the variable and the continuous variables (R-square)
## =================================================================================
## correlation p.value
## Discus 0.6063134 2.650745e-05
## Shot.put 0.5983033 3.603567e-05
## 400m 0.5694378 1.020941e-04
## 1500m 0.4742238 1.734405e-03
## High.jump 0.3502936 2.475025e-02
## Javeline 0.3169891 4.344974e-02
## Long.jump -0.3454213 2.696969e-02
##
## $Dim.3
##
## Link between the variable and the continuous variables (R-square)
## =================================================================================
## correlation p.value
## 1500m 0.7821428 1.554450e-09
## Pole.vault 0.6917567 5.480172e-07
## Javeline -0.3896554 1.179331e-02
##
## $Dim.4
##
## Link between the variable and the continuous variables (R-square)
## =================================================================================
## correlation p.value
## Javeline 0.7122773 1.761578e-07
## Pole.vault 0.5515340 1.857748e-04
Untuk setiap dimensi, hanya olahraga yang memiliki korelasi signifikan dengan dimensi tersebut yang dijelaskan. Dimensi pertama sangat dipengaruhi oleh variabel jumlah poin (korelasi 0,96) dan variabel 100m (korelasi -0,77). Sementara itu, dimensi kedua sebagian besar dipengaruhi oleh variabel cakram dan tolak peluru.
Selain itu, tidak ada kategori variabel kategoris yang secara signifikan mengkarakterisasi komponen utama pertama hingga keempat pada tingkat keyakinan 0,95.
Dari hasil analisis PCA (Principal Component Analysis) yang dilakukan pada data decathlon, berikut adalah penjelasan lebih rinci mengenai komponen utama yang dihasilkan berdasarkan data yang ada.
Komponen Utama Berdasarkan PCA:
PCA menghasilkan beberapa dimensi yang menggambarkan variasi data dengan cara mengubah variabel-variabel yang ada menjadi komponen-komponen baru (principal components). Dalam hal ini, terdapat 10 komponen utama yang dihasilkan dengan rincian sebagai berikut:
Dimensi 1 (Dim.1): Memiliki kontribusi terbesar terhadap variasi total dalam data dengan variansi 3.272, yang menyumbang sekitar 32.7% dari total variasi. Hal ini menunjukkan bahwa Dim.1 mengandung informasi paling signifikan mengenai data, dengan kontribusi individu yang tinggi terhadap faktor-faktor penting yang mempengaruhi performa atlet di berbagai cabang olahraga. Dimensi ini kemungkinan besar terkait dengan kecepatan dan daya tahan, karena memiliki nilai kosinus (cos2) yang relatif tinggi pada atlet seperti Sebrle dan Yurkow.
Dimensi 2 (Dim.2): Memiliki variansi 1.737, yang berkontribusi sebesar 17.37% terhadap total variasi data. Komponen ini mungkin berhubungan dengan kemampuan atlet dalam olahraga lompat, seperti lompat jauh dan lompat tinggi, yang cenderung memperlihatkan pola berbeda dibandingkan dimensi pertama.
Dimensi 3 (Dim.3): Variansi untuk dimensi ini adalah 1.405, berkontribusi sebesar 14.05% terhadap total variasi. Dimensi ini bisa menggambarkan variasi yang lebih kecil namun masih relevan untuk karakteristik lain dalam decathlon seperti lempar lembing dan tembakan.
Dimensi 4 (Dim.4) dan seterusnya: Dimensi-dimensi ini memiliki kontribusi yang lebih kecil terhadap total variasi, masing-masing menyumbang sekitar 10.57% hingga 3.97%. Meski demikian, mereka tetap penting dalam menggambarkan aspek-aspek lain dari data, seperti keseimbangan antara keterampilan teknis dan fisik yang berbeda di tiap cabang olahraga dalam decathlon.
Dari hasil analisis komponen individu untuk atlet-atlet yang terlibat, dapat dilihat bahwa beberapa atlet lebih dominan dalam komponen-komponen tertentu:
Setiap variabel dalam data (seperti 100m, lompat jauh, tolak peluru, dll.) memiliki kontribusi yang berbeda terhadap masing-masing komponen utama yang dihasilkan oleh PCA. Misalnya:
Peringkat dan skor yang dihasilkan dalam analisis ini menunjukkan bagaimana masing-masing atlet berperforma berdasarkan komponen utama yang dihitung. Peringkat lebih rendah dalam tabel menunjukkan atlet yang lebih beradaptasi dengan komponen-komponen utama yang lebih relevan untuk keberhasilan dalam decathlon secara keseluruhan.
Kesimpulan: PCA memungkinkan untuk merangkum kompleksitas data yang berhubungan dengan performa atlet dalam decathlon, mengidentifikasi faktor-faktor dominan seperti kecepatan, kelincahan, daya tahan, dan keterampilan teknis. Hasil ini memberikan wawasan tentang bagaimana komponen utama berhubungan dengan performa dan bagaimana atlet dapat dikelompokkan berdasarkan karakteristik tersebut.
ggplot(decathlon, aes(x = `100m`, y = `110m.hurdle`)) +
geom_point(color = "blue", size = 3) + # Menambahkan titik
labs(title = "Scatter Plot: 100m vs 110m Hurdles",
x = "100m (detik)",
y = "110m Hurdles (detik)") +
theme_minimal()
Dari analisis scatter plot yang dihasilkan, terlihat adanya
hubungan positif antara variabel 100m dan 110m Hurdles.
Ini menunjukkan bahwa semakin lama waktu yang dibutuhkan untuk
menyelesaikan lari 100m, semakin lama pula waktu yang dibutuhkan untuk
menyelesaikan 110m Hurdles. Dengan kata lain, atlet yang lebih lambat
dalam lari 100m cenderung juga menunjukkan performa yang lebih lambat
pada 110m Hurdles. Meskipun demikian, tidak terlihat adanya pola klaster
yang jelas, karena distribusi titik data pada plot ini tampak tersebar
secara merata tanpa kelompok yang mencolok.
Berdasarkan hasil analisis PCA, didapatkan beberapa hubungan penting antara variabel (cabang lomba) dan sampel (atlet). Berikut merupakan hubungan antara hasil PCA, variabel (cabang lomba), dan sampel (atlet):
Penjelasan Dimensi Utama (Principal Components):
Dimensi 1 (Dim.1) menjelaskan 32.72% dari variasi total data, sedangkan Dimensi 2 (Dim.2) menjelaskan 17.37%, sehingga secara kumulatif kedua dimensi ini mencakup sekitar 50.09% dari total variasi. Hal ini menunjukkan bahwa dua dimensi utama tersebut dapat digunakan untuk meringkas sebagian besar informasi penting dari data asli. Dimensi-dimensi ini merupakan kombinasi linier dari variabel-variabel awal (cabang lomba), yang berfungsi untuk mengungkap pola hubungan antar variabel dengan cara yang lebih sederhana dan terstruktur.
Hubungan Antar Variabel (Cabang Lomba):
Dari grafik variabel (PCA graph of variables), terlihat bahwa cabang lomba seperti “Long jump” dan “Pole vault” memberikan kontribusi besar pada Dimensi 1 (Dim.1), ditunjukkan oleh panjang vektor mereka yang signifikan ke arah tersebut. Sementara itu, cabang lomba seperti “1500m” dan “400m” lebih dominan dalam Dimensi 2 (Dim.2), karena vektor mereka lebih mengarah ke dimensi tersebut. Arah dan panjang panah pada grafik mencerminkan seberapa besar setiap variabel berkontribusi terhadap dimensi tertentu, di mana panah yang lebih panjang menunjukkan bahwa variabel tersebut memiliki peran yang lebih penting dalam menjelaskan variasi data pada dimensi.
Hubungan Antar Sampel (Atlet):
Grafik individu (PCA graph of individuals) menggambarkan distribusi atlet berdasarkan nilai pada Dimensi 1 (Dim.1) dan Dimensi 2 (Dim.2). Atlet yang posisinya berdekatan pada grafik menunjukkan bahwa mereka memiliki pola kinerja yang serupa dalam cabang-cabang lomba tertentu. Sebaliknya, atlet yang terletak jauh dari pusat grafik (titik 0,0) menunjukkan performa yang lebih ekstrem, baik itu sangat unggul atau sebaliknya, kurang baik dalam cabang lomba tertentu yang dijelaskan oleh kedua dimensi tersebut.
Hubungan Variabel dengan Sampel:
Pada grafik PCA, variabel yang terletak dekat dengan seorang atlet menunjukkan bahwa atlet tersebut unggul dalam cabang lomba yang diwakili oleh variabel tersebut. Sebagai contoh, jika seorang atlet berada dekat dengan variabel “Long jump,” maka atlet tersebut cenderung memiliki performa yang baik dalam cabang long jump. Sebaliknya, atlet yang posisinya jauh dari suatu variabel tertentu menunjukkan bahwa kontribusinya terhadap cabang lomba tersebut relatif kecil, atau performanya kurang menonjol dalam cabang tersebut.
Variabel Tambahan (Supplementary Variables):
Posisi variabel tambahan seperti “Rank” dan “Points” menunjukkan hubungan mereka dengan Dim.1 dan Dim.2, di mana variabel seperti “Points” tampak berkontribusi lebih signifikan ke arah Dim.1.
Dimensi 1 (Dim.1) merupakan komponen utama yang paling berkaitan dengan performa atlet di cabang seperti “Long jump,” “Pole vault,” dan “Shot put,” karena variabel-variabel ini memiliki kontribusi besar terhadap Dim.1.
options(ggrepel.max.overlaps = 20)
plot(res.pca, choix = "ind", axes = c(1,2))
Berdasarkan hasil analisis grafik dan peta faktor individu, berikut
adalah penjelasan yang lebih mendalam:
Karpov dan Sebrle menonjol di posisi kanan atas pada Dimensi 1, yang menunjukkan bahwa kedua atlet ini memiliki performa yang sangat baik pada variabel-variabel yang lebih dominan dalam Dimensi 1. Hal ini menunjukkan bahwa mereka unggul dalam keterampilan yang terkait dengan kecepatan, daya tahan, atau kekuatan, yang merupakan ciri khas dari dimensi pertama yang lebih mengarah pada lari dan lompat.
Clay dan Macey juga menunjukkan performa yang kuat dalam Dimensi 1, meskipun tidak sejauh Karpov dan Sebrle. Keduanya berada sedikit lebih rendah dalam Dimensi 1, yang menandakan bahwa mereka memiliki kualitas yang hampir setara dengan Karpov dan Sebrle, meskipun tidak dalam tingkat yang sama.
Yurkov berbeda dengan atlet lainnya, karena ia lebih menonjol pada Dimensi 2, yang terlihat dari posisinya yang jauh ke arah vertikal atas pada peta faktor. Dimensi 2 ini kemungkinan besar berkaitan dengan variabel-variabel yang lebih berfokus pada ketangkasan dan kekuatan eksplosif, seperti tolak peluru atau lompat tinggi. Yurkov tampaknya unggul dalam hal kekuatan atau keterampilan terkait dengan Dimensi 2.
Secara keseluruhan, urutan performa atlet dapat dirangkum berdasarkan analisis grafik sebagai berikut:
Dengan urutan ini, kita dapat menyimpulkan bahwa meskipun Karpov dan Sebrle memiliki performa yang sangat dominan di Dimensi 1, Yurkov menunjukkan keunggulannya dalam Dimensi 2, yang berfokus pada aspek lain dari kemampuan atlet seperti ketangkasan dan kekuatan eksplosif.