O presente trabalho tem a proposta da disciplina estatística aplicada a Enenharia, proposta pelo professor Steven Dutts, que consiste em analisar duas variáveis quantitativas. Para se fazer essa analise, faremos um diagrama de dispersão e uma matriz de correlação, sobre a base de dados FifaData.csv. Emseguida se propõe a fazer uma publicação no RPUBS do arquivo Rmarkdown.
library(readr)
FifaData <- read_csv("C:/Users/Cliente/Desktop/Base_de_dados-master/FifaData.csv")
##
## -- Column specification --------------------------------------------------------
## cols(
## .default = col_double(),
## Name = col_character(),
## Nationality = col_character(),
## National_Position = col_character(),
## Club = col_character(),
## Club_Position = col_character(),
## Club_Joining = col_character(),
## Height = col_character(),
## Weight = col_character(),
## Preffered_Foot = col_character(),
## Birth_Date = col_character(),
## Preffered_Position = col_character(),
## Work_Rate = col_character()
## )
## i Use `spec()` for the full column specifications.
View(FifaData)
##3. Observando a base de dados
View(FifaData)
head(FifaData)
## # A tibble: 6 x 53
## Name Nationality National_Positi~ National_Kit Club Club_Position Club_Kit
## <chr> <chr> <chr> <dbl> <chr> <chr> <dbl>
## 1 Cristi~ Portugal LS 7 Real~ LW 7
## 2 Lionel~ Argentina RW 10 FC B~ RW 10
## 3 Neymar Brazil LW 10 FC B~ LW 11
## 4 Luis S~ Uruguay LS 9 FC B~ ST 9
## 5 Manuel~ Germany GK 1 FC B~ GK 1
## 6 De Gea Spain GK 1 Manc~ GK 1
## # ... with 46 more variables: Club_Joining <chr>, Contract_Expiry <dbl>,
## # Rating <dbl>, Height <chr>, Weight <chr>, Preffered_Foot <chr>,
## # Birth_Date <chr>, Age <dbl>, Preffered_Position <chr>, Work_Rate <chr>,
## # Weak_foot <dbl>, Skill_Moves <dbl>, Ball_Control <dbl>, Dribbling <dbl>,
## # Marking <dbl>, Sliding_Tackle <dbl>, Standing_Tackle <dbl>,
## # Aggression <dbl>, Reactions <dbl>, Attacking_Position <dbl>,
## # Interceptions <dbl>, Vision <dbl>, Composure <dbl>, Crossing <dbl>,
## # Short_Pass <dbl>, Long_Pass <dbl>, Acceleration <dbl>, Speed <dbl>,
## # Stamina <dbl>, Strength <dbl>, Balance <dbl>, Agility <dbl>, Jumping <dbl>,
## # Heading <dbl>, Shot_Power <dbl>, Finishing <dbl>, Long_Shots <dbl>,
## # Curve <dbl>, Freekick_Accuracy <dbl>, Penalties <dbl>, Volleys <dbl>,
## # GK_Positioning <dbl>, GK_Diving <dbl>, GK_Kicking <dbl>, GK_Handling <dbl>,
## # GK_Reflexes <dbl>
A base de dados contem 17588 jugadores de futebol, divididos em 53 variáveis, sendo que essas variáveis são caracteristicas como, natural de qual pais, idade, avaliação, clube que joga entre outras.
A base de dados, se apresenta distribuida em média, mediana, quartis, como demonstrado abaixo.
summary(FifaData)
## Name Nationality National_Position National_Kit
## Length:17588 Length:17588 Length:17588 Min. : 1.00
## Class :character Class :character Class :character 1st Qu.: 6.00
## Mode :character Mode :character Mode :character Median :12.00
## Mean :12.22
## 3rd Qu.:18.00
## Max. :36.00
## NA's :16513
## Club Club_Position Club_Kit Club_Joining
## Length:17588 Length:17588 Min. : 1.00 Length:17588
## Class :character Class :character 1st Qu.: 9.00 Class :character
## Mode :character Mode :character Median :18.00 Mode :character
## Mean :21.29
## 3rd Qu.:27.00
## Max. :99.00
## NA's :1
## Contract_Expiry Rating Height Weight
## Min. :2017 Min. :45.00 Length:17588 Length:17588
## 1st Qu.:2017 1st Qu.:62.00 Class :character Class :character
## Median :2019 Median :66.00 Mode :character Mode :character
## Mean :2019 Mean :66.17
## 3rd Qu.:2020 3rd Qu.:71.00
## Max. :2023 Max. :94.00
## NA's :1
## Preffered_Foot Birth_Date Age Preffered_Position
## Length:17588 Length:17588 Min. :17.00 Length:17588
## Class :character Class :character 1st Qu.:22.00 Class :character
## Mode :character Mode :character Median :25.00 Mode :character
## Mean :25.46
## 3rd Qu.:29.00
## Max. :47.00
##
## Work_Rate Weak_foot Skill_Moves Ball_Control
## Length:17588 Min. :1.000 Min. :1.000 Min. : 5.00
## Class :character 1st Qu.:3.000 1st Qu.:2.000 1st Qu.:53.00
## Mode :character Median :3.000 Median :2.000 Median :63.00
## Mean :2.934 Mean :2.303 Mean :57.97
## 3rd Qu.:3.000 3rd Qu.:3.000 3rd Qu.:69.00
## Max. :5.000 Max. :5.000 Max. :95.00
##
## Dribbling Marking Sliding_Tackle Standing_Tackle Aggression
## Min. : 4.0 Min. : 3.00 Min. : 5.00 Min. : 3.00 Min. : 2.00
## 1st Qu.:47.0 1st Qu.:22.00 1st Qu.:23.00 1st Qu.:26.00 1st Qu.:44.00
## Median :60.0 Median :48.00 Median :51.00 Median :54.00 Median :59.00
## Mean :54.8 Mean :44.23 Mean :45.57 Mean :47.44 Mean :55.92
## 3rd Qu.:68.0 3rd Qu.:64.00 3rd Qu.:64.00 3rd Qu.:66.00 3rd Qu.:70.00
## Max. :97.0 Max. :92.00 Max. :95.00 Max. :92.00 Max. :96.00
##
## Reactions Attacking_Position Interceptions Vision
## Min. :29.00 Min. : 2.00 Min. : 3.00 Min. :10.00
## 1st Qu.:55.00 1st Qu.:37.00 1st Qu.:26.00 1st Qu.:43.00
## Median :62.00 Median :54.00 Median :52.00 Median :54.00
## Mean :61.77 Mean :49.59 Mean :46.79 Mean :52.71
## 3rd Qu.:68.00 3rd Qu.:64.00 3rd Qu.:64.00 3rd Qu.:64.00
## Max. :96.00 Max. :94.00 Max. :93.00 Max. :94.00
##
## Composure Crossing Short_Pass Long_Pass Acceleration
## Min. : 5.00 Min. : 6.00 Min. :10.00 Min. : 7.0 Min. :11.00
## 1st Qu.:47.00 1st Qu.:38.00 1st Qu.:52.00 1st Qu.:42.0 1st Qu.:57.00
## Median :57.00 Median :54.00 Median :62.00 Median :56.0 Median :68.00
## Mean :55.85 Mean :49.74 Mean :58.12 Mean :52.4 Mean :65.29
## 3rd Qu.:66.00 3rd Qu.:64.00 3rd Qu.:68.00 3rd Qu.:64.0 3rd Qu.:75.00
## Max. :94.00 Max. :91.00 Max. :92.00 Max. :93.0 Max. :96.00
##
## Speed Stamina Strength Balance
## Min. :11.00 Min. :10.00 Min. :20.00 Min. :10.00
## 1st Qu.:58.00 1st Qu.:57.00 1st Qu.:57.00 1st Qu.:56.00
## Median :68.00 Median :66.00 Median :66.00 Median :65.00
## Mean :65.48 Mean :63.48 Mean :65.09 Mean :64.01
## 3rd Qu.:75.00 3rd Qu.:74.00 3rd Qu.:74.00 3rd Qu.:74.00
## Max. :96.00 Max. :95.00 Max. :98.00 Max. :97.00
##
## Agility Jumping Heading Shot_Power
## Min. :11.00 Min. :15.00 Min. : 4.00 Min. : 3.00
## 1st Qu.:55.00 1st Qu.:58.00 1st Qu.:45.00 1st Qu.:45.00
## Median :65.00 Median :65.00 Median :56.00 Median :59.00
## Mean :63.21 Mean :64.92 Mean :52.39 Mean :55.58
## 3rd Qu.:74.00 3rd Qu.:73.00 3rd Qu.:65.00 3rd Qu.:69.00
## Max. :96.00 Max. :95.00 Max. :94.00 Max. :93.00
##
## Finishing Long_Shots Curve Freekick_Accuracy
## Min. : 2.00 Min. : 4.0 Min. : 6.00 Min. : 4.00
## 1st Qu.:29.00 1st Qu.:32.0 1st Qu.:34.00 1st Qu.:31.00
## Median :48.00 Median :52.0 Median :48.00 Median :42.00
## Mean :45.16 Mean :47.4 Mean :47.18 Mean :43.38
## 3rd Qu.:61.00 3rd Qu.:63.0 3rd Qu.:62.00 3rd Qu.:57.00
## Max. :95.00 Max. :91.0 Max. :92.00 Max. :93.00
##
## Penalties Volleys GK_Positioning GK_Diving
## Min. : 7.00 Min. : 3.00 Min. : 1.00 Min. : 1.00
## 1st Qu.:39.00 1st Qu.:30.00 1st Qu.: 8.00 1st Qu.: 8.00
## Median :50.00 Median :44.00 Median :11.00 Median :11.00
## Mean :49.17 Mean :43.28 Mean :16.61 Mean :16.82
## 3rd Qu.:61.00 3rd Qu.:57.00 3rd Qu.:14.00 3rd Qu.:14.00
## Max. :96.00 Max. :93.00 Max. :91.00 Max. :89.00
##
## GK_Kicking GK_Handling GK_Reflexes
## Min. : 1.00 Min. : 1.00 Min. : 1.0
## 1st Qu.: 8.00 1st Qu.: 8.00 1st Qu.: 8.0
## Median :11.00 Median :11.00 Median :11.0
## Mean :16.46 Mean :16.56 Mean :16.9
## 3rd Qu.:14.00 3rd Qu.:14.00 3rd Qu.:14.0
## Max. :95.00 Max. :91.00 Max. :90.0
##
O estudo se propõe a analisar duas variaveis quantitativas: idade dos jogadores e suas avaliações, com o objetivo de verificar se a idade está interferindo diretamente ou não em seus rendimentos, e consequentemente em suas avaliações.
Para isso criamos uma separação por faixa de avaliação com base no cálculo da média:
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.1.2
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
FifaData = FifaData %>%
mutate(
Faixa_rating = case_when(
Rating < 62 ~ "1. Baixa avaliação",
Rating < 68 ~ "2. Média avaliação",
Rating < 71 ~ "3. Alta avaliação",
Rating < 99 ~ "4. Altíssima avaliação",
TRUE ~ "5. Outro Caso"))
O diagrama de dispersão é conhecido como uma das principais ferramentas da estatistica que se propõe a analisar atraves de uma representação gráfica a relação entre duas variáveis quantitativas, medindo uma de causa e uma de efeito.
Essa correlação criada com base no diagrama pode ser:
Positiva: quando os pontos se unem em uma linha crescente. Isso quer dizer que, assim que uma variável aumenta, a outra também cresce; Negativa: quando os pontos se unem em uma linha decrescente. O que significa que, à medida que uma variável aumenta, a outra diminui; Nula: quando os pontos estão bem dispersos e, portanto, indica que não há correlação aparente entre as duas variáveis.
plot(FifaData$Age,FifaData$Rating, main="Diagrama de Dispersão",
xlab = "Idade dos jogadores",
ylab = "Nível das avaliações",col="#c43512", pch=16)
abline(lsfit(FifaData$Age,FifaData$Rating),col="black")
cor(FifaData$Age,FifaData$Rating)
## [1] 0.4582763
Verifica-se uma correlação moderada de 0,4582, o que nos faz demonstrar a matriz de correlação.
library(corrplot)
## Warning: package 'corrplot' was built under R version 4.1.2
## corrplot 0.92 loaded
FifaData %>% select(Vision,Ball_Control, Marking,Aggression,Reactions,Composure) %>%
cor() %>% corrplot.mixed()
Na matriz de correlação acima descrita, identificamos que as variáveis: “Vision”, “Ball_Control”, “Marking”, “Aggression”, “Reactions” e “Compusere” todas positivamente correlacionadas com a idade dos jogadores: “Age”. “Ball_Control” e “Vision” são os que possuem maior grau de relação com a idade, pois índices de correlação são acima de 0,7.
Com as analises descritas no estudo identificamos que o controle da bola e visão do jogador tem uma associação direta com a idade, o que era de se esperar, devidos tais atividades serem se desenvolverem melhor em pessoas mais jovens. “Vision” e “Marking” tem baixa associação com a idade apesar de estarem positivamente correlacionados. Conclue-se com os dados analisados que a carreira do jogador de futebol se torna curta, pois as habilidades físicas como visão, marcação de bola tem relação direta com a idade do jogador.