Para duas variáveis quantitativas: fazer um diagrama de dispersão e uma matriz de correlação na base de dados FifaData.csv ou questionário_estresse.xls

A base de dados escolhida foi a FifaData. O passo um foi fazer as importações:

library(readr)
FifaData <- read_csv("C:/Users/tauan/Desktop/Base_de_dados-master/FifaData.csv")
## 
## -- Column specification --------------------------------------------------------
## cols(
##   .default = col_double(),
##   Name = col_character(),
##   Nationality = col_character(),
##   National_Position = col_character(),
##   Club = col_character(),
##   Club_Position = col_character(),
##   Club_Joining = col_character(),
##   Height = col_character(),
##   Weight = col_character(),
##   Preffered_Foot = col_character(),
##   Birth_Date = col_character(),
##   Preffered_Position = col_character(),
##   Work_Rate = col_character()
## )
## i Use `spec()` for the full column specifications.
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(corrplot)
## corrplot 0.90 loaded
library(rio)

Em seguida, seleção de duas variáveis para análise e pltagem do gráfico de dispersão.

par(bg="lightblue")
plot(FifaData$Ball_Control, FifaData$Dribbling,
     col = "Blue",
     main = " Controle de bola e drible",
     ylab = "Drible",
     xlab="Controle de bola")
abline(lsfit(FifaData$Ball_Control, FifaData$Dribbling))

O que se lê do gráfico é que quanto maior o controle de bola, maior a capacidade/habilidade de drible. A inclinação da reta indica uma correlação positiva forte. O uso do comando calculador de correlação confirma isso, apresentando r=0,93 para as variáveis Drible e Controle de bola.

Um segundo gráfico foi plotado para nova análise, buscando relacionar velocidade com estamina.

par(bg="lightyellow")
plot(FifaData$Speed, FifaData$Stamina,
     col = "Blue",
     pch=19, 
     main = " Speed vs Stamina",
     ylab = "Speed",
     xlab="Stamina")
abline(lsfit(FifaData$Speed, FifaData$Stamina))

A leitura do gráfico indica uma correlação positiva média. O cálculo confirma, apresentando um r=0,62. Apesar de a linha estar em tendencia de alta, há uma grande variedade de amostras que fazem do gráfico parecer uma nuvem sem correlação.

Por fim, fiz uma matriz de correlação considerando as 4 variáveis estudadas.

MC <- FifaData %>% select(Ball_Control, Dribbling, Speed, Stamina) %>% cor()
MC
##              Ball_Control Dribbling     Speed   Stamina
## Ball_Control    1.0000000 0.9311196 0.6657149 0.7247157
## Dribbling       0.9311196 1.0000000 0.7256883 0.6764694
## Speed           0.6657149 0.7256883 1.0000000 0.6274962
## Stamina         0.7247157 0.6764694 0.6274962 1.0000000

As variáveis entre si tem correlação positiva entre média e alta. A mior fica por conta do cruzamento de habilidade de controle de bola e drible, e a menor de stamina e velocidade.