Atividade 5 - Diagrama de dispersão e coeficiente de correlação

Carregamento da base de dados

library(readr)
FifaData <- read_csv("C:/Users/Rodolfo/Desktop/Base_de_dados-master/FifaData.csv")
## Rows: 17588 Columns: 53
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (12): Name, Nationality, National_Position, Club, Club_Position, Club_Jo...
## dbl (41): National_Kit, Club_Kit, Contract_Expiry, Rating, Age, Weak_foot, S...
## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
View(FifaData)

head(FifaData)
## # A tibble: 6 x 53
##   Name    Nationality National_Positi~ National_Kit Club  Club_Position Club_Kit
##   <chr>   <chr>       <chr>                   <dbl> <chr> <chr>            <dbl>
## 1 Cristi~ Portugal    LS                          7 Real~ LW                   7
## 2 Lionel~ Argentina   RW                         10 FC B~ RW                  10
## 3 Neymar  Brazil      LW                         10 FC B~ LW                  11
## 4 Luis S~ Uruguay     LS                          9 FC B~ ST                   9
## 5 Manuel~ Germany     GK                          1 FC B~ GK                   1
## 6 De Gea  Spain       GK                          1 Manc~ GK                   1
## # ... with 46 more variables: Club_Joining <chr>, Contract_Expiry <dbl>,
## #   Rating <dbl>, Height <chr>, Weight <chr>, Preffered_Foot <chr>,
## #   Birth_Date <chr>, Age <dbl>, Preffered_Position <chr>, Work_Rate <chr>,
## #   Weak_foot <dbl>, Skill_Moves <dbl>, Ball_Control <dbl>, Dribbling <dbl>,
## #   Marking <dbl>, Sliding_Tackle <dbl>, Standing_Tackle <dbl>,
## #   Aggression <dbl>, Reactions <dbl>, Attacking_Position <dbl>,
## #   Interceptions <dbl>, Vision <dbl>, Composure <dbl>, Crossing <dbl>, ...

Análise da base de dados

Escolhido para analisar as variaveis idade por avaliações, ou seja, verificar se quanto mais velho o jogador mais bem avaliado ele é.

Para isso criou-se uma separação por faixa de avaliação com base na média:

summary(FifaData$Rating)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   45.00   62.00   66.00   66.17   71.00   94.00

Seguem as faixas de quantidade de avaliações:

library(dplyr)
## Warning: package 'dplyr' was built under R version 4.1.2
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
FifaData = FifaData %>%
  mutate(
    Faixa_rating = case_when(
      Rating < 62 ~ "1. Baixa avaliação",
      Rating < 68 ~ "2. Média avaliação",
      Rating < 71 ~ "3. Alta avaliação",
      Rating < 99 ~ "4. Altíssima avaliação",
      TRUE ~ "5. Outro Caso"))

library(reactable)
## Warning: package 'reactable' was built under R version 4.1.2
FifaData %>% select(Faixa_rating) %>% table() %>%
  data.frame() %>% reactable()

Diagrama de Dispersão “Idade dos jogadores” e “Avaliação”

plot(FifaData$Age,FifaData$Rating, main="Diagrama de Dispersão",
     xlab = "Idade dos jogadores", 
     ylab = "Nível das avaliações",col="red", pch=16)

abline(lsfit(FifaData$Age,FifaData$Rating),col="darkblue")

O gráfico apresentado trata-se de uma correlação linear positiva forte, onde a maior parte das observações estão em torno da média. Mostra também uma relação, de que o auge da carreira de boa avaliação do jogador é quando ele está na faixa de idade entre 25 e 35 anos. Isso faz sentido uma vez que a carreira do jogador de futebol é curta. Chama a atenção no gráfico um único jogador de 47 anos com avaliação bem baixa”45”.

A correlação encontrada para o gráfico Idade dos jogadores por Avaliação foi de 0,45, indicando um grau moderado de correlação.

cor(FifaData$Age,FifaData$Rating)
## [1] 0.4582763

Matriz de correlação

FifaData %>% select(Vision,Ball_Control, Marking,Aggression,Reactions,Composure) %>%
  cor() 
##                 Vision Ball_Control   Marking Aggression Reactions Composure
## Vision       1.0000000    0.7325480 0.0977956  0.3122379 0.4821710 0.6489427
## Ball_Control 0.7325480    1.0000000 0.3553238  0.5431890 0.4250702 0.7047603
## Marking      0.0977956    0.3553238 1.0000000  0.7085298 0.2180890 0.3277943
## Aggression   0.3122379    0.5431890 0.7085298  1.0000000 0.3905429 0.5350438
## Reactions    0.4821710    0.4250702 0.2180890  0.3905429 1.0000000 0.5893948
## Composure    0.6489427    0.7047603 0.3277943  0.5350438 0.5893948 1.0000000

Não foram observados números negativos na matriz de correlação.

library(corrplot)
## Warning: package 'corrplot' was built under R version 4.1.2
## corrplot 0.92 loaded
FifaData %>% select(Vision,Ball_Control, Marking,Aggression,Reactions,Composure) %>%
  cor() %>% corrplot.mixed()

Na matriz acima mostramos as variáveis: “Vision”, “Ball_Control”, “Marking”, “Aggression”, “Reactions” e “Compusere” todas positivamente correlacionadas com a idade dos jogadores “Age”. “Ball_Control” e “Vision” são os que possuem maior grau de associação com a idade, pois índices de correlação são acima de 0,7. Controle da bola e visão do jogador tem uma associação muito forte com a idade. “Vision” e “Marking” tem baixa associação com a idade apesar de estarem positivamente correlacionados. Conclue-se com os dados analisados da tabela fornecida que a carreira do jogador de futebol é curta, e que as habilidades físicas como visão, marcação de bola tem relação direta direta com a idade do jogador.