Introdução

A Análise de Componentes Principais (PCA) é uma técnica estatística que visa transformar um conjunto de variáveis correlacionadas em um novo conjunto de variáveis não correlacionadas, chamadas de componentes principais. Esses componentes capturam a maior parte da variabilidade presente nos dados originais, permitindo uma representação mais compacta e eficiente.

Dados

Os dados em questão referem-se ao desempenho de atletas nas provas do DecaStar, um evento anual realizado em Talence, França, bem como em competições olímpicas. Este conjunto de dados proporciona uma visão abrangente e detalhada das performances atléticas, abrangendo tanto o prestigiado evento DecaStar quanto as renomadas Olimpíadas.

library(FactoMineR)
data("decathlon")
head(decathlon)

A base de dados possui 41 observações e 13 variáveis, sendo as variáveis de 1 a 10 contínuas e mede o desempenho dos atletas nas modalidades. Já as variáveis 11 e 12 são discretas e medem a pontuação e ranking, e a variável 13, que é categórica, mostra a competição que os atletas participam.

Para facilitar o entendimento colocaremos os nomes das colunas em português.

library(dplyr)
decathlon <- decathlon %>% janitor::clean_names()

data_decat = decathlon %>% 
  rename(salto_dist = long_jump,
         arrem_pse = shot_put,
         salto_altura = high_jump,
         x110m_barre = x110m_hurdle,
         arrem_disco = discus,
         salto_vara = pole_vault,
         laca_dardo = javeline)
head(data_decat)

Modelo PCA

mod = data_decat %>% 
  FactoMineR::PCA(scale.unit = T, 
                  graph = F, 
                  quanti.sup = 11:12, 
                  quali.sup = 13)
g1 = plot.PCA(mod, choix = c('ind'))
g2 = plot.PCA(mod, choix = c('var'))

Plotando os gráficos

GRÁFICO PCA DE INDIVÍDUOS

g1 

Observando o gráfico de indivíduos podemos observar que os indivídos do 1º quadrante são considerados bons em tudo, o do 2º são considerados lentos, no 3º estão os atletas considerados fracos, e por fim no 4º quadrante estão os considerados rápidos. Podemos observar que esses indivíduos estão opostos.

GRÁFICO PCA DAS VARIÁVEIS

g2

Gráficamente podemos ver que as provas que necessitam mais de força e velocidade, estão associadas aos pontos, e os pontos tem correlação negativa com o rank, pois quanto maior o ponto, menor o rank. Podemos obervar que o 1º quadrate esta relacioando a força, ja o 2º lentidão, o 3º esta associado a fraqueza, e por fim o 4º quadrante esta relacioado a velocidade.

Correlação

library(corrplot)
corrplot(mod$var$cor, addCoef.col = T, method = 'pie',tl.col = 'black')

Conslusão

Em conclusão, a aplicação da PCA nos dados do DecaStar proporcionou uma visão abrangente e interpretativa do desempenho atlético, revelando padrões distintos e relações entre variáveis. Essas descobertas têm o potencial não apenas de informar estratégias de treinamento e desenvolvimento atlético, mas também de oferecer insights valiosos para pesquisas futuras sobre os determinantes do sucesso no DecaStar e eventos esportivos similares.