O futebol é o esporte coletivo mais popular e praticado não só no Brasil, mas em grande parte do mundo, com grande variedade de análises possíveis para diferentes aspectos que envolvem seu universo. Nesse trabalho estamos interessados em estudar alguns deles.
Já com quase 200 anos de existência, o entendimento sobre como o esporte deve ser praticado mudou constantemente desde o seu surgimento e permanece em constante transformação. Seja em esquema de jogo, preparação física ou funções de cada jogador dentro de campo, cada nova partida representa não só um confronto técnico entre os jogadores das duas equipes, mas uma disputa entre as diferentes filosofias adotadas por cada um dos lados.
Uma das características que sofreu mudanças mais claras durante o período de existência do esporte foram as posições dos jogadores dentro de campo. Algumas posições populares simplesmente pararam de existir, enquanto outras se tornaram cada vez menos populares e foram substituidas dados os novos tipos de esquemas táticos que foram surgindo. Um exemplo são os ‘Liberos’ (‘Sweeper’ em inglês), populares nos anos 70 e 80 e representado por jogadores que marcaram época como Franz Beckenbauer e Franco Baresi, são vistos apenas em raras aparições, uma vez que existem em esquemas de jogo que não são mais populares, e o entendimento do que esse jogador faz se tornou confuso para o espectator padrão. Outro exemplo é o ‘Segundo atacante’ (‘Second Striker’) que foi resignificado para outras categorias como ‘Ponta’, ‘Extremo’ ou ‘Falso 9’. Hoje, é comum vermos técnicos com ideais de jogo mais modernas ignorarem as funções pré-definidas dos jogadores que estão no elenco e atribuir a eles novas responsabilidade em campo.
O objetivo desse trabalho é ser capaz de classificar os jogadores, a partir de suas características físicas e técnicas, em clusters que identifiquem padrões sobre suas capacidades para além do que é a sua posição de atuação em campo conhecida e, com isso, determinar se é possível englobá-los em novos grupos.
Os dados referentes às características físicas e técnicas dos atletas são de grande interesse para essa análise. Para isso, escolhi trabalhar com os dados dos jogadores do Fifa 20, referente à temporada 2019-2020, uma vez que esses dados são constantemente atualizados durante a temporada e não estão concluídos ainda para o ano de 2021.
Contendo informações sobre 18,278 jogadores com 104 atributos, o arquivo está disponibilizado pelo kaggle, através do link https://www.kaggle.com/stefanoleone992/fifa-20-complete-player-dataset?select=players_20.csv
Por fim, optaremos por escolher jogadores apenas de uma das ligas nacionais, uma vez que o tipo de jogo executado e nível de cobrança em diferentes paises pode dificultar o entendimento do problema. Utilizaremos apenas jogadores da Premier League (liga do futebol inglês) e apenas os titulares dos times. Além disso, os goleiros foram excluídos da análise por serem um grupo muito homogêneo e que não compartilham características com os demais jogadores de linha.
O conjunto de dados contém informações descritivas sobre os jogadores (nome, idade, altura, etc) e atributos referentes às capacidades de cada um deles durante o jogo. Esses atributos são divididos em sete categorias: ataque, habilidade, movimento, força, mentalidade, defesa e atuação como goleiro. Como estamos observando apenas jogadores de linha, essa última categoria será ignorada nas análises.
Os atributos funcionam como notas de 0 até 100. Quanto maior o atributo, maior o peso dele no perfil do jogador.
A seguir uma descrição sobre cada um deles. Para uma descrição mais detalhada consultar https://fifauteam.com/fifa-20-attributes-guide/
A seguir podemos ver a média, o mínimo, o máximo, o primeiro e o terceiro quantil de cada atributo. Chama a atenção que, apesar de variar entre 0 e 100, nenhuma das observações atinjam esses valores extremos. Além disso, os atributos do grupo referente aos goleiros são muito baixos para todos os casos de jogadores não-goleiros.
A idade (age), altura (height_cm) e o peso (weight_kg) são as variáveis que descrevem cada jogador fisicamente. Como estão em escalas diferentes dos demais atributos, deverão ser normalizadas posteriormente. Os demais atributos estão todos na mesma escala e não demandam nenhuma forma de manipulação.
## age height_cm weight_kg
## Min. :19.00 Min. :163.0 Min. : 59.0
## 1st Qu.:24.00 1st Qu.:177.0 1st Qu.: 70.0
## Median :26.00 Median :181.5 Median : 76.0
## Mean :26.13 Mean :182.0 Mean : 76.2
## 3rd Qu.:28.00 3rd Qu.:188.0 3rd Qu.: 81.0
## Max. :35.00 Max. :199.0 Max. :100.0
## pace shooting passing dribbling
## Min. :31.00 Min. :22.00 Min. :43.00 Min. :34.00
## 1st Qu.:62.00 1st Qu.:51.00 1st Qu.:64.00 1st Qu.:68.25
## Median :71.00 Median :65.00 Median :72.00 Median :74.00
## Mean :69.92 Mean :62.49 Mean :70.16 Mean :73.18
## 3rd Qu.:78.00 3rd Qu.:74.00 3rd Qu.:77.00 3rd Qu.:80.00
## Max. :94.00 Max. :91.00 Max. :92.00 Max. :92.00
## defending physic
## Min. :24.00 Min. :44.00
## 1st Qu.:51.00 1st Qu.:68.00
## Median :71.00 Median :74.00
## Mean :64.44 Mean :72.39
## 3rd Qu.:78.00 3rd Qu.:78.00
## Max. :90.00 Max. :88.00
## crossing finishing heading_accuracy short_passing
## Min. :20.00 Min. :19.00 Min. :30.00 Min. :58.00
## 1st Qu.:60.00 1st Qu.:46.00 1st Qu.:58.25 1st Qu.:71.00
## Median :69.00 Median :61.00 Median :68.00 Median :76.00
## Mean :66.62 Mean :59.19 Mean :66.46 Mean :75.54
## 3rd Qu.:77.00 3rd Qu.:73.00 3rd Qu.:76.00 3rd Qu.:80.00
## Max. :93.00 Max. :94.00 Max. :87.00 Max. :92.00
## volleys
## Min. :16.00
## 1st Qu.:44.00
## Median :60.00
## Mean :56.81
## 3rd Qu.:70.00
## Max. :86.00
## dribblings curve fk_accuracy long_passing
## Min. :24.00 Min. :22.00 Min. :20.00 Min. :35.00
## 1st Qu.:67.00 1st Qu.:56.00 1st Qu.:45.00 1st Qu.:63.00
## Median :74.00 Median :68.00 Median :60.00 Median :69.50
## Mean :72.44 Mean :64.62 Mean :57.78 Mean :69.25
## 3rd Qu.:80.00 3rd Qu.:76.00 3rd Qu.:70.75 3rd Qu.:76.00
## Max. :92.00 Max. :91.00 Max. :89.00 Max. :91.00
## ball_control
## Min. :47.00
## 1st Qu.:72.00
## Median :77.00
## Mean :75.84
## 3rd Qu.:81.00
## Max. :92.00
## acceleration sprint_speed agility reactions
## Min. :31.00 Min. :30.00 Min. :29.00 Min. :62.00
## 1st Qu.:61.00 1st Qu.:61.25 1st Qu.:62.00 1st Qu.:72.00
## Median :71.00 Median :72.00 Median :71.00 Median :76.00
## Mean :69.71 Mean :70.07 Mean :69.47 Mean :76.62
## 3rd Qu.:79.00 3rd Qu.:78.00 3rd Qu.:78.00 3rd Qu.:81.00
## Max. :96.00 Max. :95.00 Max. :95.00 Max. :93.00
## balance
## Min. :26.00
## 1st Qu.:61.00
## Median :71.00
## Mean :68.81
## 3rd Qu.:78.00
## Max. :96.00
## shot_power jumping stamina strength
## Min. :25.00 Min. :30.00 Min. :34.00 Min. :30.00
## 1st Qu.:64.25 1st Qu.:64.00 1st Qu.:70.00 1st Qu.:64.25
## Median :74.00 Median :72.00 Median :77.00 Median :72.00
## Mean :71.17 Mean :69.83 Mean :76.15 Mean :70.79
## 3rd Qu.:80.00 3rd Qu.:78.00 3rd Qu.:82.00 3rd Qu.:78.00
## Max. :91.00 Max. :92.00 Max. :97.00 Max. :95.00
## long_shots
## Min. :14.0
## 1st Qu.:52.0
## Median :67.0
## Mean :62.2
## 3rd Qu.:74.0
## Max. :90.0
## aggression interceptions positioning vision
## Min. :31.00 Min. :18.00 Min. :22.00 Min. :25.00
## 1st Qu.:67.25 1st Qu.:49.00 1st Qu.:57.00 1st Qu.:64.00
## Median :75.00 Median :72.00 Median :68.00 Median :72.00
## Mean :71.97 Mean :63.96 Mean :65.92 Mean :69.35
## 3rd Qu.:81.00 3rd Qu.:78.00 3rd Qu.:76.00 3rd Qu.:78.00
## Max. :92.00 Max. :92.00 Max. :93.00 Max. :94.00
## penalties composure
## Min. :24.00 Min. :54.00
## 1st Qu.:51.25 1st Qu.:71.00
## Median :60.00 Median :76.00
## Mean :60.04 Mean :75.53
## 3rd Qu.:71.75 3rd Qu.:80.00
## Max. :91.00 Max. :92.00
## marking standing_tackle sliding_tackle
## Min. :22.00 Min. :16.0 Min. :15.00
## 1st Qu.:50.00 1st Qu.:54.0 1st Qu.:42.50
## Median :71.00 Median :73.0 Median :70.00
## Mean :64.16 Mean :65.3 Mean :61.13
## 3rd Qu.:77.00 3rd Qu.:79.0 3rd Qu.:77.00
## Max. :91.00 Max. :92.0 Max. :88.00
## diving handling kicking positionings
## Min. : 4.0 Min. : 5.00 Min. : 2.00 Min. : 3.00
## 1st Qu.: 8.0 1st Qu.: 8.00 1st Qu.: 8.00 1st Qu.: 7.00
## Median :11.0 Median :11.00 Median :11.00 Median :10.00
## Mean :10.8 Mean :10.85 Mean :10.63 Mean :10.13
## 3rd Qu.:14.0 3rd Qu.:13.75 3rd Qu.:13.75 3rd Qu.:13.00
## Max. :16.0 Max. :16.00 Max. :16.00 Max. :16.00
## reflexes
## Min. : 3.00
## 1st Qu.: 8.00
## Median :10.00
## Mean :10.07
## 3rd Qu.:12.00
## Max. :16.00
Como esperado, os plots referentes ao peso, altura e idade estão estranhos dada a diferença de escala entre eles e os demais atributos. Esses dados serão colocados na escala de interesse a seguir.
Observando os boxplots anteriores, podemos perceber que os dados possuem alguns outliers, mas nada muito significativo. Como não aparenta haver um peso muito grande nesses ponto, nada será removido.
Todos os dados faltantes foram removidos previamente na mesma etapa em que restringimos as variáveis do nosso conjunto de dados. A maior parte dos NA’s ocorria em goleiros. Estes não possuiam atributos de jogadores de linha, prejudicavam os dados para a análise e, portanto, foram excluídos desse estudo.
Para esse conjunto de dados, todos os atributos utilizados são numéricos. O dataset inicial sem modificações possuia dados categoricos relativos à nacionalidade, ser destro ou canhoto, entre outros, mas optei por não utiliza-los.
Observa-se alguns pontos muito correlacionados no gráfico. Faz sentido que isso aconteça, uma vez que diferentes atributos são específicos para o mesmo estilo de jogador, ou mesmo pela própria natureza de cada atributos. Por exemplo, velocidade (‘sprint_speed’) tem alta correlação com a aceleração (‘acceleration’) e ritmo (‘pace’). Apesar disso, são características distintas e serão mantidas no conjunto de dadaos. A redução de dimensionalidade ajudará a descorrelacionar essas variáveis.
Apesar de não utilizar dados categóricos na análise, pareceu interessante criar categorias especificas para cada jogador, a fim de simplificar o entendimento do que cada um representa em campo, dado o grande número de posições possíveis.
Para os zagueiros (“CB”,“LCB”,“RCB”), laterais (“RB”,“LB”) e alas(“LWB”, “RWB”) foi criada a categoria ‘defence’, referente aos jogadores de defesa. Para os jogadores de meio de campo (“CM”, “CDM”,“CAM”,“LM”,“RM”, “LAM”, “RAM”, “LCM”, “RCM”, “LDM”, “RDM”) foi criada a categoria ‘midfielder’. As posições restantes de ataque foram designadas como ‘forward’. Além disso, os reservas foram colocados em um classe especial ‘substitutes’ para fácil remoção durante a limpeza dos dados.
Iremos normalizar os valores da idade, altura e peso para estarem entre 0 e 100. Para isso utilizaremos a seguinte expressão:
\(zi = (xi – min(x)) / (max(x) – min(x)) * 100\)
onde:
\(zi\): o i-ésimo valor normalizado do conjunto de dados
\(xi\): o i-ésimo valor do conjunto de dados
\(min(x)\): Valor mínimo do conjunto de dados
\(max(x)\): Valor máximo do conjunto de dados
## age height_cm weight_kg
## Min. : 0.00 Min. : 0.00 Min. : 0.00
## 1st Qu.: 31.25 1st Qu.: 38.89 1st Qu.: 26.83
## Median : 43.75 Median : 51.39 Median : 41.46
## Mean : 44.57 Mean : 52.79 Mean : 41.95
## 3rd Qu.: 56.25 3rd Qu.: 69.44 3rd Qu.: 53.66
## Max. :100.00 Max. :100.00 Max. :100.00
Agora esses atributos estão na mesma escala do resto dos dados e poderão ser utilizados para análise.
Dada a grande quantidade de variáveis, reduziremos a dimensão dos dados utilizando PCA.
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## Standard deviation 4.1268 2.3936 1.8765 1.61290 1.04524 0.8795 0.77264
## Proportion of Variance 0.4866 0.1637 0.1006 0.07433 0.03122 0.0221 0.01706
## Cumulative Proportion 0.4866 0.6503 0.7509 0.82522 0.85643 0.8785 0.89559
## PC8 PC9 PC10 PC11 PC12 PC13
## Standard deviation 0.71787 0.66442 0.60374 0.56342 0.50313 0.4806
## Proportion of Variance 0.01472 0.01261 0.01041 0.00907 0.00723 0.0066
## Cumulative Proportion 0.91031 0.92293 0.93334 0.94241 0.94964 0.9562
## PC14 PC15 PC16 PC17 PC18 PC19
## Standard deviation 0.44731 0.43429 0.41706 0.37026 0.36092 0.32833
## Proportion of Variance 0.00572 0.00539 0.00497 0.00392 0.00372 0.00308
## Cumulative Proportion 0.96196 0.96735 0.97232 0.97623 0.97996 0.98304
## PC20 PC21 PC22 PC23 PC24 PC25
## Standard deviation 0.31343 0.29099 0.27703 0.25964 0.25157 0.24221
## Proportion of Variance 0.00281 0.00242 0.00219 0.00193 0.00181 0.00168
## Cumulative Proportion 0.98584 0.98826 0.99045 0.99238 0.99419 0.99587
## PC26 PC27 PC28 PC29 PC30 PC31
## Standard deviation 0.22037 0.20352 0.1678 0.15524 0.02627 0.02471
## Proportion of Variance 0.00139 0.00118 0.0008 0.00069 0.00002 0.00002
## Cumulative Proportion 0.99725 0.99844 0.9992 0.99993 0.99995 0.99997
## PC32 PC33 PC34 PC35
## Standard deviation 0.02172 0.01623 0.01540 0.01424
## Proportion of Variance 0.00001 0.00001 0.00001 0.00001
## Cumulative Proportion 0.99998 0.99999 0.99999 1.00000
Observando as duas primeiras componente principais, podemos perceber que as posições de defesa se distinguem melhor das de ataque e meio campo. Enquanto elas aparecem de forma mais segregada à direita do gráfico, ‘forward’ e ‘midfield’ possuem muitos pontos ocupando espaços semelhantes.
Optaremos por trabalho com até 7 componentes principais, explicando aproximadamente 90% da variabilidade. A seguir, os plots das contribuições das variáveis originais para cada dimensão após a redução de dimensionalidade e para o acumulado das sete dimensões.
Como sugerido, modelaremos utilizando clusterização k-means e hierárquica.
Os métodos do Cotovelo e da Silhueta apontam para uma separação em dois grupos, mas ainda muito adequada para três ou quatro. Apesar desse diagnóstico, um número pequeno de clusters parece deixar a análise muito redundante. Se imagina que ocorrerá uma divisão entre “jogador bom” e “jogador ruim” para o caso de apenas dois cluster, por exemplo. Para que tenhamos uma abrangência maior,testaremos para um número maior de clusters.
Para dois clusters, como esperado, obtemos uma separação perfeita entre dois grupos. Como já comentado anteriormente, esse tipo de divisão não parece adequado para o tipo de dados que possuimos.
Para a divisão em 3 clusters, ainda há pouca sobreposição. Apesar disso ser positivo teoricamente, talvez também não seja uma boa escolha . Os centróides parecem estar localizados onde se concentram cada uma das posições criadas anteriormente (‘forward’, ‘midfielder’, ‘defender’), logo não parece ser muito informativo.
Conforme vamos aumentando o número de clusters vemos progressivamente uma divisão menos clara entre eles. Como vimos na nuvem de pontos das posições anteriormente, há uma sobreposição entre certos tipos de jogadores e talvez não seja tão clara a divisão entre eles. Avaliaremos o número de clusters mais a diante durante o processo de validação.
No caso da clusterização hierárquica, observamos que para 3 clusters há um desbalanceamento muito grande entre eles. Sendo um muito mais povoado que os outros dois. Além disso, pela diferença de altura, sabemos que podemos ganhar mais informação optando por mais clusters.
O agrupamento em 5 clusters parece mais adequado que o anterior. Talvez seja possível obter uma divisão ainda melhor, então testaremos para mais clusters.
Para divisões maiores parece ocorrer um problema oposto ao da divisão de 3 clusters. Passam a surgir clusters com poucos casos, causando desbalanceamento.
Faremos a análise de silhueta para validar os modelos, variando o número de clusters entre 2 e 7, para os casos de clusterização por K-means e clusterização hierárquica.
A avaliação da silhueta para o K-means confirma as recomendações oferecidas pelas análise anteriores de que a divisão em dois, três ou quatro grupos são as mais apropriada, com silhuetas de 0.34, 0.31 e 0.31. Há uma queda nas silhuetas médias para cinco clusters para 0.24, mas um aumento logo depois para 0.26 com seis clusters. É importante observar que para todas as divisões acima de dois clusters, existem observações com silhuetas negativas.
## cluster size ave.sil.width
## 1 1 135 0.31
## 2 2 55 0.40
## cluster size ave.sil.width
## 1 1 135 0.31
## 2 2 55 0.40
## cluster size ave.sil.width
## 1 1 85 0.35
## 2 2 48 0.37
## 3 3 57 0.21
## cluster size ave.sil.width
## 1 1 85 0.35
## 2 2 48 0.37
## 3 3 57 0.21
## cluster size ave.sil.width
## 1 1 82 0.34
## 2 2 48 0.36
## 3 3 20 0.29
## 4 4 40 0.20
## cluster size ave.sil.width
## 1 1 82 0.34
## 2 2 48 0.36
## 3 3 20 0.29
## 4 4 40 0.20
## cluster size ave.sil.width
## 1 1 69 0.21
## 2 2 33 0.33
## 3 3 30 0.25
## 4 4 29 0.22
## 5 5 29 0.25
## cluster size ave.sil.width
## 1 1 69 0.21
## 2 2 33 0.33
## 3 3 30 0.25
## 4 4 29 0.22
## 5 5 29 0.25
## cluster size ave.sil.width
## 1 1 24 0.27
## 2 2 33 0.30
## 3 3 20 0.21
## 4 4 19 0.29
## 5 5 71 0.23
## 6 6 23 0.28
## cluster size ave.sil.width
## 1 1 24 0.27
## 2 2 33 0.30
## 3 3 20 0.21
## 4 4 19 0.29
## 5 5 71 0.23
## 6 6 23 0.28
## cluster size ave.sil.width
## 1 1 37 0.17
## 2 2 23 0.27
## 3 3 28 0.24
## 4 4 19 0.28
## 5 5 42 0.19
## 6 6 19 0.22
## 7 7 22 0.26
## cluster size ave.sil.width
## 1 1 37 0.17
## 2 2 23 0.27
## 3 3 28 0.24
## 4 4 19 0.28
## 5 5 42 0.19
## 6 6 19 0.22
## 7 7 22 0.26
Assim como vimos anteriormente, as divisões para dois e três clusters são muito desbalanceados e podemos observar uma silhueta negativa significativa para estes casos. Os valores da silhueta partem de 0.34, para 0.29 e se estabilizam entre 0.22 e 0.23.
Se compararmos com a análise do K-means, a clusterização hierárquica apresenta mais observações negativas.
## cluster size ave.sil.width
## 1 1 155 0.31
## 2 2 35 0.51
## cluster size ave.sil.width
## 1 1 155 0.31
## 2 2 35 0.51
## cluster size ave.sil.width
## 1 1 59 0.21
## 2 2 96 0.29
## 3 3 35 0.43
## cluster size ave.sil.width
## 1 1 59 0.21
## 2 2 96 0.29
## 3 3 35 0.43
## cluster size ave.sil.width
## 1 1 59 0.16
## 2 2 64 0.21
## 3 3 35 0.33
## 4 4 32 0.22
## cluster size ave.sil.width
## 1 1 59 0.16
## 2 2 64 0.21
## 3 3 35 0.33
## 4 4 32 0.22
## cluster size ave.sil.width
## 1 1 33 0.16
## 2 2 64 0.21
## 3 3 26 0.27
## 4 4 35 0.33
## 5 5 32 0.21
## cluster size ave.sil.width
## 1 1 33 0.16
## 2 2 64 0.21
## 3 3 26 0.27
## 4 4 35 0.33
## 5 5 32 0.21
## cluster size ave.sil.width
## 1 1 21 0.25
## 2 2 64 0.20
## 3 3 26 0.18
## 4 4 35 0.33
## 5 5 12 0.29
## 6 6 32 0.21
## cluster size ave.sil.width
## 1 1 21 0.25
## 2 2 64 0.20
## 3 3 26 0.18
## 4 4 35 0.33
## 5 5 12 0.29
## 6 6 32 0.21
## cluster size ave.sil.width
## 1 1 21 0.24
## 2 2 26 0.21
## 3 3 26 0.18
## 4 4 38 0.16
## 5 5 35 0.33
## 6 6 12 0.29
## 7 7 32 0.18
## cluster size ave.sil.width
## 1 1 21 0.24
## 2 2 26 0.21
## 3 3 26 0.18
## 4 4 38 0.16
## 5 5 35 0.33
## 6 6 12 0.29
## 7 7 32 0.18
Para os índices a seguir, com a exceção do Davies-Bouldin, quanto maior o valor, melhor o agrupamento.
Os agrupamentos com dois, três ou quatro clusters apresentam índices com resultados melhores que os demais para o K-means, enquanto para o modelo hierárquico os agrupamentos com dois ou três têm melhores indicadores.
Como já comentado anteriormente, um número muito pequeno de clusters tornará a análise pouco abrangente, dada a variedade de posições de um jogador de futebol dentro do campo. Por isso, consideraremos apenas os casos com mais de cinco clusters.
A partir dessa escolha, observa-se que a modelagem por K-means obteve melhores índices de valida que a modelagem hierárquica. O particionamento em seis clusters com K-means apresentou resultados melhores que os demais e portanto será escolhido para os próximos passos como o melhor modelo.
Divisão das posições por cluster:
##
## Defender Forward Midfielder
## 1 0 9 11
## 2 27 1 43
## 3 21 0 3
## 4 0 18 1
## 5 1 10 12
## 6 31 0 2
Percebe-se que algumas posições claramente dominam alguns clusters. Os clusters 3 e 6 são compostos predominantemente por jogadores de defesa, enquanto o cluster 4 é composto por jogadores de ataque e o cluster 2 tem maioria de jogadores de meio campo. Nos outros clusters há um balanceamento maior entre um par de classes.
Através dos resultados abaixo, podemos caracterizar genericamente as funções dos jogadores de cada cluster:
Os jogadores do cluster 1 são os meias e atacantes especialistas em armar o jogo. Se destacam por terem a maior estabilidade emocional (‘composure’), consciência sobre o posicionamento dos seus companheiros de equipe (‘vision’) e capacidade de reagir ao que acontece ao seu redor (‘reactions’). Entretanto, possuem atributos defensivos, relacionados à disputa de bola e agressividade baixos. Jogadores desse cluster são altamente valorizados por possuirem características raras.
Os jogadores do cluster 2 são volantes e meias centrais. Se destacam pela qualidade nos passes curtos (‘short_passing’) e longos (‘long_passing’), pelo condicionamento físico (‘stamina’) e nos seus altos atributos defesivos. Possuem baixos atributos ofensivos e baixa mobilidade. Esse também é cluster com a maior média de idade.
Os jogadores do cluster 3 são laterais e alas. Não possuem nenhum atributo que os defina de forma específica. São jogadores semelhantes aos do cluster 6, mas com maior habilidade, mobilidade, capacidade de cruzmento (‘crossing’) e condicionamento fisico (‘stamina’), porém menos fortes (‘strength’) e com menor capacidade de disputa pelo alto (‘heading_accuracy’). De forma grosseira, seriam um meio termo entre os cluster 5 e 6.
Os jogadores do cluster 4 são os centroavantes. Jogadores desse cluster são mais altos e pesados que os dos outros clusters, excluindo o cluster 2, e se destacam pelos atributos de ataque, possuindo altos níveis de cabeceio (‘heading’), capacidade de finalização (‘finishing’) e voleio (‘volley’). Além disso, têm a maior capacidade de disputa pelo alto (‘jumping’) e são os melhores cobradores de pênaltis (‘penalties’). Contudo, seus atributos de habilidade e movimento são baixos, assim como sua capacidade de toque curto (‘short_passing’) e cruzamento (‘crossing’). Também possuem a menor capacidade de interceptação (‘interceptions’).
Os jogadores do cluster 5 são predominantemente meias e atacantes de velocidade que têm por principal característica jogar pelos lados do campo. São os jogadores mais baixos, leves e jovens entre todos os clusters. Possuem todos os atributos de habilidade e ataque altos, com excessão da precisão no cabeceio (‘heading_accuracy’), assim como os atributos de mobilidade, com excessão da capacidade de reação (‘reactions’). Os jogadores deste cluster são os fisicamente mais frágeis (‘strength’) e possuem a menor capacidade de disputa pelo alto (‘jumping’) entre todos os clusters. São também os com o menor comportamento agressivo (‘aggression’) e capacidade de interceptação (‘interceptions’).
Os jogadores do cluster 6 são zagueiros. Mais altos e mais pesados que os jogadores dos outros clusters, além de mais disposição para jogar na defesa e atributos físicos maiores de uma forma geral. Têm grande precisão no cabeceio (‘heading_accuracy’), qualidade nas disputas pelo alto (‘jumping’), jogam de forma agressiva (‘aggression’) e têm alta capacidade de interceptação (‘interceptions’). Por outro lado, seus outros atributos chamam a atenção por serem, em geral, muito menores do que os dos jogadores dos outros clusters.
A seguir estão os atletas mais próximos dos centroides para exemplificar o jogador padrão de cada cluster:
Observando a distribuição de cada cluster percebemos de forma imediata que a ordem de cada um deles é diferentes, mas a distribuição dos jogadores entre os clusters equivalentes é semelhante. Mais especificamente: o cluster 1 do K-means equivale ao 1 do Hierarchical clustering, o cluster 2 K-means equivale ao 2, o cluster 3 equivale ao 6, o cluster 4 equivale ao 5, o cluster 5 equivale ao 3 e o cluster 6 equivale ao 4.
##
## Defender Forward Midfielder
## 1 0 9 11
## 2 27 1 43
## 3 21 0 3
## 4 0 18 1
## 5 1 10 12
## 6 31 0 2
##
## Defender Forward Midfielder
## 1 0 12 9
## 2 23 1 40
## 3 1 13 12
## 4 33 0 2
## 5 0 12 0
## 6 23 0 9
Alguns jogadores mudam de cluster quando mudamos a forma de clusterização. Por exemplo, se considerarmos o cluster 1 de cada modelo (esse cluster se refere ao mesmo tipo de jogador para ambos os casos) vemos que existem 4 jogadores que estão nele para o K-means, mas não para a H. clustering. Mais especificamente, os jogadores ‘C. Eriksen’, ‘David Silva’ e ‘Bernardo Silva’ são considerados meias armadores pelo K-means, mas meias de velocidade pelo H. clustering, enquanto o ‘G. Sigurðsson’ é um meia armador pelo K-means, mas um meia central pelo H. clustering.
Existem diversos casos desse tipo entre os clusters com jogadores variando entre eles dependendo do tipo de clusterização. No entanto, é curioso perceber que a maior parte desses jogadores são capazes de desempenhar multiplas funções, apesar de não ser a sua principal posição no time em que atua atualmente. Isso pode ser visto consultando a coluna ‘player_positions’.
Fomos capazer de observar a existência de jogadores que, apesar de possuirem a mesma função dentro de campo, se agrupam melhor com jogadores de diferentes posições. Isso fica muito claro quando testamos para diferentes formas de clusterização. Alguns jogadores que não possuem histórico de atuação em outras posições se mostram bem agrupados longe dos clusters mais característicos.
Em uma segunda iteração seria interessante tentar incluir alguma das variáveis categóricas na análise e testar os jogadores das ligas de outros paises para ver como se agrupam. Utilizar outros modelos de clusterização também seria uma possibilidade.
Referências:
https://www.fifplay.com/fifa-20-player-attributes/
https://fifauteam.com/fifa-20-attributes-guide/
https://www.kaggle.com/stefanoleone992/fifa-20-complete-player-dataset?select=players_20.csv