A seguir farei uma análise do Banco de dados da FIFA (Federação Internacional do Futebol). E analisarei os dados a partir das hipóteses:
library(readr)
FifaData <- read_csv("C:/Users/Maria Clara Queiroz/Downloads/Base_de_dados-master/FifaData.csv")
## Rows: 17588 Columns: 53
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (12): Name, Nationality, National_Position, Club, Club_Position, Club_Jo...
## dbl (41): National_Kit, Club_Kit, Contract_Expiry, Rating, Age, Weak_foot, S...
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
View(FifaData)
library(corrplot)
## corrplot 0.92 loaded
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
summary(FifaData)
## Name Nationality National_Position National_Kit
## Length:17588 Length:17588 Length:17588 Min. : 1.00
## Class :character Class :character Class :character 1st Qu.: 6.00
## Mode :character Mode :character Mode :character Median :12.00
## Mean :12.22
## 3rd Qu.:18.00
## Max. :36.00
## NA's :16513
## Club Club_Position Club_Kit Club_Joining
## Length:17588 Length:17588 Min. : 1.00 Length:17588
## Class :character Class :character 1st Qu.: 9.00 Class :character
## Mode :character Mode :character Median :18.00 Mode :character
## Mean :21.29
## 3rd Qu.:27.00
## Max. :99.00
## NA's :1
## Contract_Expiry Rating Height Weight
## Min. :2017 Min. :45.00 Length:17588 Length:17588
## 1st Qu.:2017 1st Qu.:62.00 Class :character Class :character
## Median :2019 Median :66.00 Mode :character Mode :character
## Mean :2019 Mean :66.17
## 3rd Qu.:2020 3rd Qu.:71.00
## Max. :2023 Max. :94.00
## NA's :1
## Preffered_Foot Birth_Date Age Preffered_Position
## Length:17588 Length:17588 Min. :17.00 Length:17588
## Class :character Class :character 1st Qu.:22.00 Class :character
## Mode :character Mode :character Median :25.00 Mode :character
## Mean :25.46
## 3rd Qu.:29.00
## Max. :47.00
##
## Work_Rate Weak_foot Skill_Moves Ball_Control
## Length:17588 Min. :1.000 Min. :1.000 Min. : 5.00
## Class :character 1st Qu.:3.000 1st Qu.:2.000 1st Qu.:53.00
## Mode :character Median :3.000 Median :2.000 Median :63.00
## Mean :2.934 Mean :2.303 Mean :57.97
## 3rd Qu.:3.000 3rd Qu.:3.000 3rd Qu.:69.00
## Max. :5.000 Max. :5.000 Max. :95.00
##
## Dribbling Marking Sliding_Tackle Standing_Tackle Aggression
## Min. : 4.0 Min. : 3.00 Min. : 5.00 Min. : 3.00 Min. : 2.00
## 1st Qu.:47.0 1st Qu.:22.00 1st Qu.:23.00 1st Qu.:26.00 1st Qu.:44.00
## Median :60.0 Median :48.00 Median :51.00 Median :54.00 Median :59.00
## Mean :54.8 Mean :44.23 Mean :45.57 Mean :47.44 Mean :55.92
## 3rd Qu.:68.0 3rd Qu.:64.00 3rd Qu.:64.00 3rd Qu.:66.00 3rd Qu.:70.00
## Max. :97.0 Max. :92.00 Max. :95.00 Max. :92.00 Max. :96.00
##
## Reactions Attacking_Position Interceptions Vision
## Min. :29.00 Min. : 2.00 Min. : 3.00 Min. :10.00
## 1st Qu.:55.00 1st Qu.:37.00 1st Qu.:26.00 1st Qu.:43.00
## Median :62.00 Median :54.00 Median :52.00 Median :54.00
## Mean :61.77 Mean :49.59 Mean :46.79 Mean :52.71
## 3rd Qu.:68.00 3rd Qu.:64.00 3rd Qu.:64.00 3rd Qu.:64.00
## Max. :96.00 Max. :94.00 Max. :93.00 Max. :94.00
##
## Composure Crossing Short_Pass Long_Pass Acceleration
## Min. : 5.00 Min. : 6.00 Min. :10.00 Min. : 7.0 Min. :11.00
## 1st Qu.:47.00 1st Qu.:38.00 1st Qu.:52.00 1st Qu.:42.0 1st Qu.:57.00
## Median :57.00 Median :54.00 Median :62.00 Median :56.0 Median :68.00
## Mean :55.85 Mean :49.74 Mean :58.12 Mean :52.4 Mean :65.29
## 3rd Qu.:66.00 3rd Qu.:64.00 3rd Qu.:68.00 3rd Qu.:64.0 3rd Qu.:75.00
## Max. :94.00 Max. :91.00 Max. :92.00 Max. :93.0 Max. :96.00
##
## Speed Stamina Strength Balance
## Min. :11.00 Min. :10.00 Min. :20.00 Min. :10.00
## 1st Qu.:58.00 1st Qu.:57.00 1st Qu.:57.00 1st Qu.:56.00
## Median :68.00 Median :66.00 Median :66.00 Median :65.00
## Mean :65.48 Mean :63.48 Mean :65.09 Mean :64.01
## 3rd Qu.:75.00 3rd Qu.:74.00 3rd Qu.:74.00 3rd Qu.:74.00
## Max. :96.00 Max. :95.00 Max. :98.00 Max. :97.00
##
## Agility Jumping Heading Shot_Power
## Min. :11.00 Min. :15.00 Min. : 4.00 Min. : 3.00
## 1st Qu.:55.00 1st Qu.:58.00 1st Qu.:45.00 1st Qu.:45.00
## Median :65.00 Median :65.00 Median :56.00 Median :59.00
## Mean :63.21 Mean :64.92 Mean :52.39 Mean :55.58
## 3rd Qu.:74.00 3rd Qu.:73.00 3rd Qu.:65.00 3rd Qu.:69.00
## Max. :96.00 Max. :95.00 Max. :94.00 Max. :93.00
##
## Finishing Long_Shots Curve Freekick_Accuracy
## Min. : 2.00 Min. : 4.0 Min. : 6.00 Min. : 4.00
## 1st Qu.:29.00 1st Qu.:32.0 1st Qu.:34.00 1st Qu.:31.00
## Median :48.00 Median :52.0 Median :48.00 Median :42.00
## Mean :45.16 Mean :47.4 Mean :47.18 Mean :43.38
## 3rd Qu.:61.00 3rd Qu.:63.0 3rd Qu.:62.00 3rd Qu.:57.00
## Max. :95.00 Max. :91.0 Max. :92.00 Max. :93.00
##
## Penalties Volleys GK_Positioning GK_Diving
## Min. : 7.00 Min. : 3.00 Min. : 1.00 Min. : 1.00
## 1st Qu.:39.00 1st Qu.:30.00 1st Qu.: 8.00 1st Qu.: 8.00
## Median :50.00 Median :44.00 Median :11.00 Median :11.00
## Mean :49.17 Mean :43.28 Mean :16.61 Mean :16.82
## 3rd Qu.:61.00 3rd Qu.:57.00 3rd Qu.:14.00 3rd Qu.:14.00
## Max. :96.00 Max. :93.00 Max. :91.00 Max. :89.00
##
## GK_Kicking GK_Handling GK_Reflexes
## Min. : 1.00 Min. : 1.00 Min. : 1.0
## 1st Qu.: 8.00 1st Qu.: 8.00 1st Qu.: 8.0
## Median :11.00 Median :11.00 Median :11.0
## Mean :16.46 Mean :16.56 Mean :16.9
## 3rd Qu.:14.00 3rd Qu.:14.00 3rd Qu.:14.0
## Max. :95.00 Max. :91.00 Max. :90.0
##
class(FifaData$Height)
## [1] "character"
FifaData$Height = gsub("cm", "", FifaData$Height)
FifaData$Height = as.numeric(FifaData$Height)
class(FifaData$Height)
## [1] "numeric"
Análise feita com base na hipótese de que os jogadores mais altos são os que mais conseguem fazer passe de cabeça.
plot(FifaData$Height, FifaData$Heading, col='pink',pch=20,
main="Gráfico 1 - Diagrama de dispersão entre a altura e a cabeçada",
xlab = "Altura do Jogador em cm" , ylab = "Passe de cabeça")
abline(lsfit(FifaData$Height,FifaData$Heading),col="purple3")
cor(FifaData$Height, FifaData$Heading)
## [1] 0.005491417
O gráfico acima não apresenta correlação, pois os dados do gráfico estão muito dispersos e não estão próximos da linha, e porque o resultado foi um valor muito baixo e irrelevante, de 0,0054.
No gráfico abaixo o resultado é ainda mais evidente, ilustra bem que não há correlação entre as variáveis.
###Gráfico 2:
FifaData %>% select("Height", "Heading") %>%
cor() %>% corrplot(method = "pie", main = "Matriz de correlação: Altura x Passe de cabeça")
Aqui a hipótese é de que os jogadores que tem mais posse de bola são os que mais driblam.
plot(FifaData$Ball_Control, FifaData$Dribbling, col='pink',pch=20,
main="Gráfico 3 - Diagrama de dispersão entre a os dribles e a posse de bola",
xlab = "Posse da bola" , ylab = "Dribles")
abline(lsfit(FifaData$Ball_Control,FifaData$Dribbling),col="purple3")
cor(FifaData$Ball_Control, FifaData$Dribbling)
## [1] 0.9311196
FifaData %>% select("Dribbling", "Ball_Control") %>%
cor() %>% corrplot(method = "pie")
De acordo com os dados quantitativos analisados, foi possível perceber que uma das hipóteses iniciais estava errada e a outra estava correta.
Na primeira hipótese, se foi deduzido que os jogadores mais altos seriam os que mais conseguiriam executar passes de cabeça, pois imaginei que os jogadores mais altos teriam mais facilidade para encostar na bola com a cabeça para fazer os passes, pois estariam em vantagem por poder encostar na bola antes dos jogadores mais baixos, podendo bloquear a bola do seu alcance usando a altura ao seu favor. A suposição foi levada adiante e resolvi testar, e, surpreendentemente o resultado foi que não há correlação entre as duas variáveis.
Foi perceptível que as variáveis “Altura” e “Passe de cabeça” não se correlacionam ao obter o valor do diagrama de disperção, o qual o seu resultado foi de 0,0054. Esse fato foi bem ilustrado nos gráficos de diagrama de disperção e no da matriz de correlação. O primeiro gráfico mencionado mostrou que as variáveis estavam muito dispersas e não havia um padrão entre elas, e o segundo mostrou um “pedaço” muito pequeno no gráfico de pizza dentro da matriz para correlacionar as duas variáveis. Portanto, a primeira hipótese foi refutada.
Por outro lado, a segunda hipótese era de que os jogadores que tem mais posse de bola são os que mais driblam, visto que, ao driblar com êxito, o jogador ganha a posse da bola, mesmo que por um pequeno período. Logo, utilizei as variáveis “Drible” e “Posse de bola” (ou controle da bola), e fiz os mesmos gráficos que foram utilizados para análise da primeira hipótese.
Primeiro, ao obter o valor do diagrama de disperção, fica evidente a proximidade e correlação entre as duas variáveis, visto que o resultado foi de 0,93. Ou seja, ao criar o gráfico de diagrama de disperção, deu para observar que há uma correlação positiva forte (crescente e com as variáveis mais próximas de 1,0) entre as variáveis escolhidas. Já ao utilizar a Matriz de correlação, é possível observar que o círculo no quadrante em que ficam variáveis distintas tem quase o mesmo tamanho que as variáveis se repetem. Logo, a segunda hipótese foi confirmada.