Diagrama de dispersão e coeficiente de correlação

Para duas variáveis quantitativas: fazer um diagrama de dispersão e uma matriz de correlação na base de dados FifaData.csv

Fazer uma publicação no RPUBS do arquivo Rmarkdown. OBS - Obrigatória a interpretação dos resultados em pelo menos dois parágrafos.

Importação do banco de dados

library(readr)
Fifa <- read_csv("C:/Users/renato/Desktop/Mestrado/Disciplinas/2021.2/estatistica/Base_de_dados_master/FifaData.csv")
View(Fifa)

Visualização do banco de dados

head(Fifa)
# A tibble: 6 x 53
  Name    Nationality National_Positi~ National_Kit Club  Club_Position Club_Kit
  <chr>   <chr>       <chr>                   <dbl> <chr> <chr>            <dbl>
1 Cristi~ Portugal    LS                          7 Real~ LW                   7
2 Lionel~ Argentina   RW                         10 FC B~ RW                  10
3 Neymar  Brazil      LW                         10 FC B~ LW                  11
4 Luis S~ Uruguay     LS                          9 FC B~ ST                   9
5 Manuel~ Germany     GK                          1 FC B~ GK                   1
6 De Gea  Spain       GK                          1 Manc~ GK                   1
# ... with 46 more variables: Club_Joining <chr>, Contract_Expiry <dbl>,
#   Rating <dbl>, Height <chr>, Weight <chr>, Preffered_Foot <chr>,
#   Birth_Date <chr>, Age <dbl>, Preffered_Position <chr>, Work_Rate <chr>,
#   Weak_foot <dbl>, Skill_Moves <dbl>, Ball_Control <dbl>, Dribbling <dbl>,
#   Marking <dbl>, Sliding_Tackle <dbl>, Standing_Tackle <dbl>,
#   Aggression <dbl>, Reactions <dbl>, Attacking_Position <dbl>,
#   Interceptions <dbl>, Vision <dbl>, Composure <dbl>, Crossing <dbl>, ...

Correção de variáveis

As variáveis “Altura” e “Peso” são quantitativas, porém aparecem como character no banco de dados. Isso acontece devido à unidade de medida que está junto com o valor da variável. Assim, precisaremos fazer o ajuste nessas variáveis, de modo que conste apenas o valor numérico.

Fifa$Height <- gsub("cm","",Fifa$Height)
Fifa$Height <- as.numeric(Fifa$Height)

Fifa$Weight <- gsub("kg","",Fifa$Weight)
Fifa$Weight <- as.numeric(Fifa$Weight)

head(Fifa)
# A tibble: 6 x 53
  Name    Nationality National_Positi~ National_Kit Club  Club_Position Club_Kit
  <chr>   <chr>       <chr>                   <dbl> <chr> <chr>            <dbl>
1 Cristi~ Portugal    LS                          7 Real~ LW                   7
2 Lionel~ Argentina   RW                         10 FC B~ RW                  10
3 Neymar  Brazil      LW                         10 FC B~ LW                  11
4 Luis S~ Uruguay     LS                          9 FC B~ ST                   9
5 Manuel~ Germany     GK                          1 FC B~ GK                   1
6 De Gea  Spain       GK                          1 Manc~ GK                   1
# ... with 46 more variables: Club_Joining <chr>, Contract_Expiry <dbl>,
#   Rating <dbl>, Height <dbl>, Weight <dbl>, Preffered_Foot <chr>,
#   Birth_Date <chr>, Age <dbl>, Preffered_Position <chr>, Work_Rate <chr>,
#   Weak_foot <dbl>, Skill_Moves <dbl>, Ball_Control <dbl>, Dribbling <dbl>,
#   Marking <dbl>, Sliding_Tackle <dbl>, Standing_Tackle <dbl>,
#   Aggression <dbl>, Reactions <dbl>, Attacking_Position <dbl>,
#   Interceptions <dbl>, Vision <dbl>, Composure <dbl>, Crossing <dbl>, ...

Análise de duas variáveis quantitativas

Relação entre as variáveis “velocidade” e “aceleração”.

Diagrama de dispersão

plot(Fifa$Speed,Fifa$Acceleration, main = 'Diagrama de Dispersão: Velocidade vs Aceleração',
     xlab = 'Velocidade', ylab = 'Aceleração',
     col = 'blue', pch = 16, 
     cex = 0.5)
abline(lsfit(Fifa$Speed,Fifa$Acceleration),col="black")

Cálculo do coeficiente de correlação (duas casas decimais)

round(cor(Fifa$Speed,Fifa$Acceleration),2)
[1] 0.92

O diagrama de dispersão das variáveis “velocidade” e “aceleração” apresenta uma correlação linear positia e forte, onde quanto maior a velocidade do jogador, maior será sua aceleração. Essa constatação é confirmada com o coeficiente de correlação, que apresenta valor 0,92 (bastante forte - próximo à 1).

Relação entre as variáveis “controle de bola” e “drible”.

Diagrama de dispersão

plot(Fifa$Ball_Control,Fifa$Dribbling, main = 'Diagrama de Dispersão: Controle de bola vs Drible',
     xlab = 'Controle de bola', ylab = 'Drible',
     col = 'blue', pch = 16, 
     cex = 0.5)
abline(lsfit(Fifa$Ball_Control,Fifa$Dribbling),col="black")

Cálculo do coeficiente de correlação (duas casas decimais)

round(cor(Fifa$Ball_Control,Fifa$Dribbling),2)
[1] 0.93

O diagrama de dispersão das variáveis “controle de bola” e “drible” também apresenta uma correlação linear positia e forte, onde quanto maior o controle de bola do jogador, maior será seu drible. Da mesma forma, essa constatação é confirmada com o coeficiente de correlação, que apresenta valor 0,93 (bastante forte).

Relação entre as variáveis “altura” e “equilíbrio”.

Diagrama de dispersão

plot(Fifa$Height,Fifa$Balance, main = 'Diagrama de Dispersão: Altura vs Equilíbrio',
     xlab = 'Altura (cm)', ylab = 'Equilíbrio',
     col = 'blue', pch = 16, 
     cex = 0.5)
abline(lsfit(Fifa$Height,Fifa$Balance),col="black")

Cálculo do coeficiente de correlação (duas casas decimais)

round(cor(Fifa$Height,Fifa$Balance),2)
[1] -0.8

O diagrama de dispersão das variáveis “altura” e “equilíbrio” apresenta uma correlação linear negativa e forte, onde quanto maior a altura do jogador, menor será seu equilíbrio. Essa constatação também é confirmada com o coeficiente de correlação, que apresenta valor -0,80 (forte).

Matriz de correlação

library(corrplot)
library(dplyr)

Abaixo a matriz de correlação para as seis variáveis investigadas anteriormente.

Fifa %>% select(Height, Speed, Acceleration, Balance, Ball_Control, Dribbling) %>% 
  cor()
                 Height      Speed Acceleration    Balance Ball_Control
Height        1.0000000 -0.4511171   -0.5216732 -0.7997749   -0.4024727
Speed        -0.4511171  1.0000000    0.9226815  0.6195497    0.6657149
Acceleration -0.5216732  0.9226815    1.0000000  0.6815473    0.6689863
Balance      -0.7997749  0.6195497    0.6815473  1.0000000    0.5737089
Ball_Control -0.4024727  0.6657149    0.6689863  0.5737089    1.0000000
Dribbling    -0.4834429  0.7256883    0.7406304  0.6385794    0.9311196
              Dribbling
Height       -0.4834429
Speed         0.7256883
Acceleration  0.7406304
Balance       0.6385794
Ball_Control  0.9311196
Dribbling     1.0000000

Em seguida, a representação gráfica da matriz de correlação, no tipo “mixed”.

Fifa %>% select(Height, Speed, Acceleration, Balance, Ball_Control, Dribbling) %>% 
  cor() %>% corrplot.mixed()

A matriz de correlação é uma ferramenta que perminte analisar o grau de relação entre duas variáveis quantitativas, dentro de um universo de diversas variáveis. O gráfico da matriz facilita a visualização, pois rapidamente podemos verificar o tipo e a intensidade da relação linear entre duas variáveis. A cor azul significa que a correlação é positiva e a cor vermelha significa que a correlação é negativa (conforme escala à direita do gráfico). Já O tamanho das bolas representa a intensidade da correlação. Além disso, uma vez que a matriz de correlação é triangular, onde a parte superior da diagonal é o espelho da parte inferior, o formato gráfico do tipo “mixed”, apresenta tanto a informação visual da correlação (bolas, no trecho superior), quanto a informação numérica do coeficiente (valores, no trecho inferior).

O gráfico acima confirma as constatações que havíamos feito para as variáveis “velocidade” e “aceleração”, apresentando no trecho superior uma bola grande azul (correlação positiva forte) e no trecho inferior o valor 0,92. O mesmo vale para as variáveis “controle de bola”/“drible” e “Altura”/“Equilíbrio”. Porém, a partir da matriz, podemos analisar a correlação de outros pares de variáveis, por exemplo a “velocidade” e o “drible”, que apresenta uma bola azul grande (correlação positiva forte) e o coeficiente com valor de 0,73.

Matriz de correlação para as variáveis quantitativas

Podemos fazer o gráfico da matriz de correlação para uma grande quantidade de variáveis.

Fifa %>% select(Rating, Height, Weight, Skill_Moves, Ball_Control, Dribbling, Marking, Sliding_Tackle, Standing_Tackle, Aggression, Reactions, Attacking_Position, Interceptions, Vision, Composure, Crossing, Short_Pass, Long_Pass, Acceleration, Speed, Stamina, Strength, Balance, Agility, Jumping, Heading, Shot_Power, Finishing, Long_Shots, Curve, Freekick_Accuracy, Penalties, Volleys) %>% 
  cor() %>% corrplot()

A partir do gráfico acima, nota-se que a maioria das correlações lineares entre duas variáveis são positivas (bolas azuis). Apenas as variáveis “altura” e “peso” que apresentam correlação negativa com as demais e as correlações entre as variáveis “força”/“equilíbrio” e “força”/“agilidade” que também são negativas.

Fim.