Introdução

A seguir farei uma análise do Banco de dados da FIFA (Federação Internacional do Futebol). E analisarei os dados a partir das hipóteses:

1. Os jogadores mais altos conseguem fazer mais passes de cabeça (Popularmente conhecido como cabeçada).
2. Os jogadores que tem mais posse de bola são os que mais driblam

Carregamento da base de dados

library(readr)

FifaData <- read_csv("C:/Users/Maria Clara Queiroz/Downloads/Base_de_dados-master/FifaData.csv")
## Rows: 17588 Columns: 53
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (12): Name, Nationality, National_Position, Club, Club_Position, Club_Jo...
## dbl (41): National_Kit, Club_Kit, Contract_Expiry, Rating, Age, Weak_foot, S...
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
View(FifaData)

Carregamento das bibliotecas

library(corrplot)
## corrplot 0.92 loaded
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)

Sumário da base de dados para pré-visualização

summary(FifaData)
##      Name           Nationality        National_Position   National_Kit  
##  Length:17588       Length:17588       Length:17588       Min.   : 1.00  
##  Class :character   Class :character   Class :character   1st Qu.: 6.00  
##  Mode  :character   Mode  :character   Mode  :character   Median :12.00  
##                                                           Mean   :12.22  
##                                                           3rd Qu.:18.00  
##                                                           Max.   :36.00  
##                                                           NA's   :16513  
##      Club           Club_Position         Club_Kit     Club_Joining      
##  Length:17588       Length:17588       Min.   : 1.00   Length:17588      
##  Class :character   Class :character   1st Qu.: 9.00   Class :character  
##  Mode  :character   Mode  :character   Median :18.00   Mode  :character  
##                                        Mean   :21.29                     
##                                        3rd Qu.:27.00                     
##                                        Max.   :99.00                     
##                                        NA's   :1                         
##  Contract_Expiry     Rating         Height             Weight         
##  Min.   :2017    Min.   :45.00   Length:17588       Length:17588      
##  1st Qu.:2017    1st Qu.:62.00   Class :character   Class :character  
##  Median :2019    Median :66.00   Mode  :character   Mode  :character  
##  Mean   :2019    Mean   :66.17                                        
##  3rd Qu.:2020    3rd Qu.:71.00                                        
##  Max.   :2023    Max.   :94.00                                        
##  NA's   :1                                                            
##  Preffered_Foot      Birth_Date             Age        Preffered_Position
##  Length:17588       Length:17588       Min.   :17.00   Length:17588      
##  Class :character   Class :character   1st Qu.:22.00   Class :character  
##  Mode  :character   Mode  :character   Median :25.00   Mode  :character  
##                                        Mean   :25.46                     
##                                        3rd Qu.:29.00                     
##                                        Max.   :47.00                     
##                                                                          
##   Work_Rate           Weak_foot      Skill_Moves     Ball_Control  
##  Length:17588       Min.   :1.000   Min.   :1.000   Min.   : 5.00  
##  Class :character   1st Qu.:3.000   1st Qu.:2.000   1st Qu.:53.00  
##  Mode  :character   Median :3.000   Median :2.000   Median :63.00  
##                     Mean   :2.934   Mean   :2.303   Mean   :57.97  
##                     3rd Qu.:3.000   3rd Qu.:3.000   3rd Qu.:69.00  
##                     Max.   :5.000   Max.   :5.000   Max.   :95.00  
##                                                                    
##    Dribbling       Marking      Sliding_Tackle  Standing_Tackle   Aggression   
##  Min.   : 4.0   Min.   : 3.00   Min.   : 5.00   Min.   : 3.00   Min.   : 2.00  
##  1st Qu.:47.0   1st Qu.:22.00   1st Qu.:23.00   1st Qu.:26.00   1st Qu.:44.00  
##  Median :60.0   Median :48.00   Median :51.00   Median :54.00   Median :59.00  
##  Mean   :54.8   Mean   :44.23   Mean   :45.57   Mean   :47.44   Mean   :55.92  
##  3rd Qu.:68.0   3rd Qu.:64.00   3rd Qu.:64.00   3rd Qu.:66.00   3rd Qu.:70.00  
##  Max.   :97.0   Max.   :92.00   Max.   :95.00   Max.   :92.00   Max.   :96.00  
##                                                                                
##    Reactions     Attacking_Position Interceptions       Vision     
##  Min.   :29.00   Min.   : 2.00      Min.   : 3.00   Min.   :10.00  
##  1st Qu.:55.00   1st Qu.:37.00      1st Qu.:26.00   1st Qu.:43.00  
##  Median :62.00   Median :54.00      Median :52.00   Median :54.00  
##  Mean   :61.77   Mean   :49.59      Mean   :46.79   Mean   :52.71  
##  3rd Qu.:68.00   3rd Qu.:64.00      3rd Qu.:64.00   3rd Qu.:64.00  
##  Max.   :96.00   Max.   :94.00      Max.   :93.00   Max.   :94.00  
##                                                                    
##    Composure        Crossing       Short_Pass      Long_Pass     Acceleration  
##  Min.   : 5.00   Min.   : 6.00   Min.   :10.00   Min.   : 7.0   Min.   :11.00  
##  1st Qu.:47.00   1st Qu.:38.00   1st Qu.:52.00   1st Qu.:42.0   1st Qu.:57.00  
##  Median :57.00   Median :54.00   Median :62.00   Median :56.0   Median :68.00  
##  Mean   :55.85   Mean   :49.74   Mean   :58.12   Mean   :52.4   Mean   :65.29  
##  3rd Qu.:66.00   3rd Qu.:64.00   3rd Qu.:68.00   3rd Qu.:64.0   3rd Qu.:75.00  
##  Max.   :94.00   Max.   :91.00   Max.   :92.00   Max.   :93.0   Max.   :96.00  
##                                                                                
##      Speed          Stamina         Strength        Balance     
##  Min.   :11.00   Min.   :10.00   Min.   :20.00   Min.   :10.00  
##  1st Qu.:58.00   1st Qu.:57.00   1st Qu.:57.00   1st Qu.:56.00  
##  Median :68.00   Median :66.00   Median :66.00   Median :65.00  
##  Mean   :65.48   Mean   :63.48   Mean   :65.09   Mean   :64.01  
##  3rd Qu.:75.00   3rd Qu.:74.00   3rd Qu.:74.00   3rd Qu.:74.00  
##  Max.   :96.00   Max.   :95.00   Max.   :98.00   Max.   :97.00  
##                                                                 
##     Agility         Jumping         Heading        Shot_Power   
##  Min.   :11.00   Min.   :15.00   Min.   : 4.00   Min.   : 3.00  
##  1st Qu.:55.00   1st Qu.:58.00   1st Qu.:45.00   1st Qu.:45.00  
##  Median :65.00   Median :65.00   Median :56.00   Median :59.00  
##  Mean   :63.21   Mean   :64.92   Mean   :52.39   Mean   :55.58  
##  3rd Qu.:74.00   3rd Qu.:73.00   3rd Qu.:65.00   3rd Qu.:69.00  
##  Max.   :96.00   Max.   :95.00   Max.   :94.00   Max.   :93.00  
##                                                                 
##    Finishing       Long_Shots       Curve       Freekick_Accuracy
##  Min.   : 2.00   Min.   : 4.0   Min.   : 6.00   Min.   : 4.00    
##  1st Qu.:29.00   1st Qu.:32.0   1st Qu.:34.00   1st Qu.:31.00    
##  Median :48.00   Median :52.0   Median :48.00   Median :42.00    
##  Mean   :45.16   Mean   :47.4   Mean   :47.18   Mean   :43.38    
##  3rd Qu.:61.00   3rd Qu.:63.0   3rd Qu.:62.00   3rd Qu.:57.00    
##  Max.   :95.00   Max.   :91.0   Max.   :92.00   Max.   :93.00    
##                                                                  
##    Penalties        Volleys      GK_Positioning    GK_Diving    
##  Min.   : 7.00   Min.   : 3.00   Min.   : 1.00   Min.   : 1.00  
##  1st Qu.:39.00   1st Qu.:30.00   1st Qu.: 8.00   1st Qu.: 8.00  
##  Median :50.00   Median :44.00   Median :11.00   Median :11.00  
##  Mean   :49.17   Mean   :43.28   Mean   :16.61   Mean   :16.82  
##  3rd Qu.:61.00   3rd Qu.:57.00   3rd Qu.:14.00   3rd Qu.:14.00  
##  Max.   :96.00   Max.   :93.00   Max.   :91.00   Max.   :89.00  
##                                                                 
##    GK_Kicking     GK_Handling     GK_Reflexes  
##  Min.   : 1.00   Min.   : 1.00   Min.   : 1.0  
##  1st Qu.: 8.00   1st Qu.: 8.00   1st Qu.: 8.0  
##  Median :11.00   Median :11.00   Median :11.0  
##  Mean   :16.46   Mean   :16.56   Mean   :16.9  
##  3rd Qu.:14.00   3rd Qu.:14.00   3rd Qu.:14.0  
##  Max.   :95.00   Max.   :91.00   Max.   :90.0  
## 

Limpeza de dados

class(FifaData$Height)
## [1] "character"
FifaData$Height = gsub("cm", "", FifaData$Height)
FifaData$Height = as.numeric(FifaData$Height)

class(FifaData$Height)
## [1] "numeric"

1. Altura X Passe de cabeça

Análise feita com base na hipótese de que os jogadores mais altos são os que mais conseguem fazer passe de cabeça.

1.1. Diagrama de dispersão das variáveis Altura e Passe de cabeça

plot(FifaData$Height, FifaData$Heading, col='pink',pch=20,
     main="Gráfico 1 - Diagrama de dispersão entre a altura e a cabeçada",
     xlab = "Altura do Jogador em cm" , ylab = "Passe de cabeça")
abline(lsfit(FifaData$Height,FifaData$Heading),col="purple3")

cor(FifaData$Height, FifaData$Heading)
## [1] 0.005491417

O gráfico acima não apresenta correlação, pois os dados do gráfico estão muito dispersos e não estão próximos da linha, e porque o resultado foi um valor muito baixo e irrelevante, de 0,0054.

1.2. Matriz de correlação das variáveis Altura e Passe de cabeça

No gráfico abaixo o resultado é ainda mais evidente, ilustra bem que não há correlação entre as variáveis.

###Gráfico 2:

FifaData %>% select("Height", "Heading") %>%
  cor() %>% corrplot(method = "pie", main = "Matriz de correlação: Altura x Passe de cabeça")

2. Dribles X Posse de Bola

Aqui a hipótese é de que os jogadores que tem mais posse de bola são os que mais driblam.

2.1. Diagrama de dispersão

plot(FifaData$Ball_Control, FifaData$Dribbling, col='pink',pch=20,
     main="Gráfico 3 - Diagrama de dispersão entre a os dribles e a posse de bola",
     xlab = "Posse da bola" , ylab = "Dribles")
abline(lsfit(FifaData$Ball_Control,FifaData$Dribbling),col="purple3")

cor(FifaData$Ball_Control, FifaData$Dribbling)
## [1] 0.9311196

2.2. Matriz de correlação

Gráfico 4

FifaData %>% select("Dribbling", "Ball_Control") %>%
  cor() %>% corrplot(method = "pie")

Conclusão

De acordo com os dados quantitativos analisados, foi possível perceber que uma das hipóteses iniciais estava errada e a outra estava correta.

Na primeira hipótese, se foi deduzido que os jogadores mais altos seriam os que mais conseguiriam executar passes de cabeça, pois imaginei que os jogadores mais altos teriam mais facilidade para encostar na bola com a cabeça para fazer os passes, pois estariam em vantagem por poder encostar na bola antes dos jogadores mais baixos, podendo bloquear a bola do seu alcance usando a altura ao seu favor. A suposição foi levada adiante e resolvi testar, e, surpreendentemente o resultado foi que não há correlação entre as duas variáveis.

Foi perceptível que as variáveis “Altura” e “Passe de cabeça” não se correlacionam ao obter o valor do diagrama de disperção, o qual o seu resultado foi de 0,0054. Esse fato foi bem ilustrado nos gráficos de diagrama de disperção e no da matriz de correlação. O primeiro gráfico mencionado mostrou que as variáveis estavam muito dispersas e não havia um padrão entre elas, e o segundo mostrou um “pedaço” muito pequeno no gráfico de pizza dentro da matriz para correlacionar as duas variáveis. Portanto, a primeira hipótese foi refutada.

Por outro lado, a segunda hipótese era de que os jogadores que tem mais posse de bola são os que mais driblam, visto que, ao driblar com êxito, o jogador ganha a posse da bola, mesmo que por um pequeno período. Logo, utilizei as variáveis “Drible” e “Posse de bola” (ou controle da bola), e fiz os mesmos gráficos que foram utilizados para análise da primeira hipótese.

Primeiro, ao obter o valor do diagrama de disperção, fica evidente a proximidade e correlação entre as duas variáveis, visto que o resultado foi de 0,93. Ou seja, ao criar o gráfico de diagrama de disperção, deu para observar que há uma correlação positiva forte (crescente e com as variáveis mais próximas de 1,0) entre as variáveis escolhidas. Já ao utilizar a Matriz de correlação, é possível observar que o círculo no quadrante em que ficam variáveis distintas tem quase o mesmo tamanho que as variáveis se repetem. Logo, a segunda hipótese foi confirmada.