Para duas variáveis quantitativas: fazer um diagrama de dispersão e uma matriz de correlação na base de dados FifaData.csv
Fazer uma publicação no RPUBS do arquivo Rmarkdown. OBS - Obrigatória a interpretação dos resultados em pelo menos dois parágrafos.
library(readr)
Fifa <- read_csv("C:/Users/renato/Desktop/Mestrado/Disciplinas/2021.2/estatistica/Base_de_dados_master/FifaData.csv")
View(Fifa)
head(Fifa)
# A tibble: 6 x 53
Name Nationality National_Positi~ National_Kit Club Club_Position Club_Kit
<chr> <chr> <chr> <dbl> <chr> <chr> <dbl>
1 Cristi~ Portugal LS 7 Real~ LW 7
2 Lionel~ Argentina RW 10 FC B~ RW 10
3 Neymar Brazil LW 10 FC B~ LW 11
4 Luis S~ Uruguay LS 9 FC B~ ST 9
5 Manuel~ Germany GK 1 FC B~ GK 1
6 De Gea Spain GK 1 Manc~ GK 1
# ... with 46 more variables: Club_Joining <chr>, Contract_Expiry <dbl>,
# Rating <dbl>, Height <chr>, Weight <chr>, Preffered_Foot <chr>,
# Birth_Date <chr>, Age <dbl>, Preffered_Position <chr>, Work_Rate <chr>,
# Weak_foot <dbl>, Skill_Moves <dbl>, Ball_Control <dbl>, Dribbling <dbl>,
# Marking <dbl>, Sliding_Tackle <dbl>, Standing_Tackle <dbl>,
# Aggression <dbl>, Reactions <dbl>, Attacking_Position <dbl>,
# Interceptions <dbl>, Vision <dbl>, Composure <dbl>, Crossing <dbl>, ...
As variáveis “Altura” e “Peso” são quantitativas, porém aparecem como character no banco de dados. Isso acontece devido à unidade de medida que está junto com o valor da variável. Assim, precisaremos fazer o ajuste nessas variáveis, de modo que conste apenas o valor numérico.
Fifa$Height <- gsub("cm","",Fifa$Height)
Fifa$Height <- as.numeric(Fifa$Height)
Fifa$Weight <- gsub("kg","",Fifa$Weight)
Fifa$Weight <- as.numeric(Fifa$Weight)
head(Fifa)
# A tibble: 6 x 53
Name Nationality National_Positi~ National_Kit Club Club_Position Club_Kit
<chr> <chr> <chr> <dbl> <chr> <chr> <dbl>
1 Cristi~ Portugal LS 7 Real~ LW 7
2 Lionel~ Argentina RW 10 FC B~ RW 10
3 Neymar Brazil LW 10 FC B~ LW 11
4 Luis S~ Uruguay LS 9 FC B~ ST 9
5 Manuel~ Germany GK 1 FC B~ GK 1
6 De Gea Spain GK 1 Manc~ GK 1
# ... with 46 more variables: Club_Joining <chr>, Contract_Expiry <dbl>,
# Rating <dbl>, Height <dbl>, Weight <dbl>, Preffered_Foot <chr>,
# Birth_Date <chr>, Age <dbl>, Preffered_Position <chr>, Work_Rate <chr>,
# Weak_foot <dbl>, Skill_Moves <dbl>, Ball_Control <dbl>, Dribbling <dbl>,
# Marking <dbl>, Sliding_Tackle <dbl>, Standing_Tackle <dbl>,
# Aggression <dbl>, Reactions <dbl>, Attacking_Position <dbl>,
# Interceptions <dbl>, Vision <dbl>, Composure <dbl>, Crossing <dbl>, ...
plot(Fifa$Speed,Fifa$Acceleration, main = 'Diagrama de Dispersão: Velocidade vs Aceleração',
xlab = 'Velocidade', ylab = 'Aceleração',
col = 'blue', pch = 16,
cex = 0.5)
abline(lsfit(Fifa$Speed,Fifa$Acceleration),col="black")
round(cor(Fifa$Speed,Fifa$Acceleration),2)
[1] 0.92
O diagrama de dispersão das variáveis “velocidade” e “aceleração” apresenta uma correlação linear positia e forte, onde quanto maior a velocidade do jogador, maior será sua aceleração. Essa constatação é confirmada com o coeficiente de correlação, que apresenta valor 0,92 (bastante forte - próximo à 1).
plot(Fifa$Ball_Control,Fifa$Dribbling, main = 'Diagrama de Dispersão: Controle de bola vs Drible',
xlab = 'Controle de bola', ylab = 'Drible',
col = 'blue', pch = 16,
cex = 0.5)
abline(lsfit(Fifa$Ball_Control,Fifa$Dribbling),col="black")
round(cor(Fifa$Ball_Control,Fifa$Dribbling),2)
[1] 0.93
O diagrama de dispersão das variáveis “controle de bola” e “drible” também apresenta uma correlação linear positia e forte, onde quanto maior o controle de bola do jogador, maior será seu drible. Da mesma forma, essa constatação é confirmada com o coeficiente de correlação, que apresenta valor 0,93 (bastante forte).
plot(Fifa$Height,Fifa$Balance, main = 'Diagrama de Dispersão: Altura vs Equilíbrio',
xlab = 'Altura (cm)', ylab = 'Equilíbrio',
col = 'blue', pch = 16,
cex = 0.5)
abline(lsfit(Fifa$Height,Fifa$Balance),col="black")
round(cor(Fifa$Height,Fifa$Balance),2)
[1] -0.8
O diagrama de dispersão das variáveis “altura” e “equilíbrio” apresenta uma correlação linear negativa e forte, onde quanto maior a altura do jogador, menor será seu equilíbrio. Essa constatação também é confirmada com o coeficiente de correlação, que apresenta valor -0,80 (forte).
library(corrplot)
library(dplyr)
Abaixo a matriz de correlação para as seis variáveis investigadas anteriormente.
Fifa %>% select(Height, Speed, Acceleration, Balance, Ball_Control, Dribbling) %>%
cor()
Height Speed Acceleration Balance Ball_Control
Height 1.0000000 -0.4511171 -0.5216732 -0.7997749 -0.4024727
Speed -0.4511171 1.0000000 0.9226815 0.6195497 0.6657149
Acceleration -0.5216732 0.9226815 1.0000000 0.6815473 0.6689863
Balance -0.7997749 0.6195497 0.6815473 1.0000000 0.5737089
Ball_Control -0.4024727 0.6657149 0.6689863 0.5737089 1.0000000
Dribbling -0.4834429 0.7256883 0.7406304 0.6385794 0.9311196
Dribbling
Height -0.4834429
Speed 0.7256883
Acceleration 0.7406304
Balance 0.6385794
Ball_Control 0.9311196
Dribbling 1.0000000
Em seguida, a representação gráfica da matriz de correlação, no tipo “mixed”.
Fifa %>% select(Height, Speed, Acceleration, Balance, Ball_Control, Dribbling) %>%
cor() %>% corrplot.mixed()
A matriz de correlação é uma ferramenta que perminte analisar o grau de relação entre duas variáveis quantitativas, dentro de um universo de diversas variáveis. O gráfico da matriz facilita a visualização, pois rapidamente podemos verificar o tipo e a intensidade da relação linear entre duas variáveis. A cor azul significa que a correlação é positiva e a cor vermelha significa que a correlação é negativa (conforme escala à direita do gráfico). Já O tamanho das bolas representa a intensidade da correlação. Além disso, uma vez que a matriz de correlação é triangular, onde a parte superior da diagonal é o espelho da parte inferior, o formato gráfico do tipo “mixed”, apresenta tanto a informação visual da correlação (bolas, no trecho superior), quanto a informação numérica do coeficiente (valores, no trecho inferior).
O gráfico acima confirma as constatações que havíamos feito para as variáveis “velocidade” e “aceleração”, apresentando no trecho superior uma bola grande azul (correlação positiva forte) e no trecho inferior o valor 0,92. O mesmo vale para as variáveis “controle de bola”/“drible” e “Altura”/“Equilíbrio”. Porém, a partir da matriz, podemos analisar a correlação de outros pares de variáveis, por exemplo a “velocidade” e o “drible”, que apresenta uma bola azul grande (correlação positiva forte) e o coeficiente com valor de 0,73.
Podemos fazer o gráfico da matriz de correlação para uma grande quantidade de variáveis.
Fifa %>% select(Rating, Height, Weight, Skill_Moves, Ball_Control, Dribbling, Marking, Sliding_Tackle, Standing_Tackle, Aggression, Reactions, Attacking_Position, Interceptions, Vision, Composure, Crossing, Short_Pass, Long_Pass, Acceleration, Speed, Stamina, Strength, Balance, Agility, Jumping, Heading, Shot_Power, Finishing, Long_Shots, Curve, Freekick_Accuracy, Penalties, Volleys) %>%
cor() %>% corrplot()
A partir do gráfico acima, nota-se que a maioria das correlações lineares entre duas variáveis são positivas (bolas azuis). Apenas as variáveis “altura” e “peso” que apresentam correlação negativa com as demais e as correlações entre as variáveis “força”/“equilíbrio” e “força”/“agilidade” que também são negativas.
Fim.