Brincando com o banco de dados do FIFA 2017

Introdução

Esse trabalho tem por objetivo demonstrar um simples exemplo de como podemos analisar estatíticamente dados qualitativos.

Importanto a base de dados

library(readr)
FullData <- read_csv("C:/Users/Priscila/Desktop/Base_de_dados-master/complete-fifa-2017-player-dataset-global/FullData.csv")
## 
## -- Column specification --------------------------------------------------------
## cols(
##   .default = col_double(),
##   Name = col_character(),
##   Nationality = col_character(),
##   National_Position = col_character(),
##   Club = col_character(),
##   Club_Position = col_character(),
##   Club_Joining = col_character(),
##   Height = col_character(),
##   Weight = col_character(),
##   Preffered_Foot = col_character(),
##   Birth_Date = col_character(),
##   Preffered_Position = col_character(),
##   Work_Rate = col_character()
## )
## i Use `spec()` for the full column specifications.
View(FullData)

Análise de dados quantitativos: estatísticas descritivas (média, mediana, mínimo, máximo e quartis)

summary(FullData$Ball_Control)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    5.00   53.00   63.00   57.97   69.00   95.00
summary(FullData$Dribbling)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     4.0    47.0    60.0    54.8    68.0    97.0
summary(FullData$Interceptions)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3.00   26.00   52.00   46.79   64.00   93.00
summary(FullData$Finishing)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2.00   29.00   48.00   45.16   61.00   95.00

Visualização de dados quantitativos: histogramas

No histograma, visualizamos a distribuição de dados de uma variável quantitativa. Podemos verificar se há uma simetria ou assimetria e, neste último caso, a presença de outliers, também chamados de valores extremos ou valores atípicos, que são aqueles que se encontram fora da curva.

par(bg= "gray")
hist(FullData$Ball_Control, col = "light yellow", main = "Histograma de Controle de bola")

Nesse exemplo, podemos verificar que a dispersão de dados se encontra entre os intervalos de 5 e 95, indicando que o pior jogador com controle de bola tem 5 e o melhor apresenta 95, representando o mínimo e o máximo, respectivamente. O gráfico é assimétrico, com maior frequencia de jogadores com controle de bola entre os intervalos 60-70.

par(bg= "gray")
hist(FullData$Dribbling, col = "light blue", main = "Histograma de Drible")

Assim como o exemplo anterior, neste histograma podemos verificar que a dispersão de dados se encontra entre os intervalos de 4 e 97, indicando que o pior jogador com habilidade de drible tem 4 e o melhor apresenta 97, representando o mínimo e o máximo, respectivamente. O gráfico é assimétrico, com maior frequencia de jogadores com habilidade de driblar entre os intervalos 60-70.

par(bg= "gray")
hist(FullData$Interceptions, col = "pink", main = "Histograma de Inteceptações")

Diferentemente do que fora apresentado anteriormente, neste histograma podemos verificar a presença de dados multimodais. A dispersão de dados se encontra entre os intervalos de 3 e 93, indicando que o pior jogador com nível de interceptações tem 3 e o melhor apresenta 93, representando o mínimo e o máximo, respectivamente. O gráfico é assimétrico, apresentando dois picos de concentração e, consequentemente, com maior frequencia de jogadores com habilidade de interceptações. O primeiro pico se encontra entre os intervalos 20-25 e o segundo pico entre os intervalos 55-65. Há a presença de um outlier, o jogador que apresenta maior habilidade de interceptação com nível 93.

par(bg= "gray")
hist(FullData$Finishing, col = "light green", main = "Histograma de Finalizações")

Sendo ainda mais acentuado, neste histograma podemos verificar a presença de dados multimodais. A dispersão de dados se encontra entre os intervalos de 2 e 95, indicando que o pior jogador com nível de finalizações tem 2 e o melhor apresenta 95, representando o mínimo e o máximo, respectivamente. O gráfico é totalmente assimétrico, apresentando um pico de concentração mas com a frequencia de jogadores com habilidade de finalizações distribuídas de forma mais homogênea. Há a presença de outliers, os jogador que apresentam maior e menor habilidade de finalizações.

Conclusão

A distribuição dos dados é feita desta maneira porque na base de dados há a presença de jogadores em diversas posições, de forma que suas habilidades apresentam disparidades.