Antes de mais nada, vamos carregar a base de dados FullData.csv, proveniente da pasta do Fifa 2017, da qual trabalharemos neste modelo
FullData <- read.csv("C:/Estatistica/Base_de_dados-master/complete-fifa-2017-player-dataset-global/FullData.csv")
Aqui iremos fazer um resumo estatístico dos dados das 2 variáveis que iremos trabalhar, são elas referentes aos dados de Penalidades e Reflexos de Goleiro, o objetivo é demonstrar como a Média e Mediana tem grandes distúrbios em cada um dos casos
summary(FullData$Penalties)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 7.00 39.00 50.00 49.17 61.00 96.00
summary(FullData$GK_Reflexes)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.0 8.0 11.0 16.9 14.0 90.0
Mostraremos o histograma dessas 2 variáveis, atentar à presença de outliers, princialmente no histograma de Reflexo de Goleiros, onde a concentração de jogadores Não-Goleiros e consequentemente com números baixos neste quesito, tendem a causar um grande distúrbio na Média desta variável
#Histograma
par(mfrow = c (1, 2))
hist(FullData$Penalties,
main = "Precisão de Pênaltis",
col = "#FF8000",
sub = "Exemplo de Outlier não alterando média",
ylim = c(0,2500),
xlim = c(0,100))
hist(FullData$GK_Reflexes,
col = "#2E64FE",
main = "Reflexo de Goleiros",
sub = "Exemplo de Outlier alterando a média",
ylim = c(0,8000),
xlim = c(0,100))
Note que, apesar da presença de outliers no primiro gráfico, eles não são suficientes para causar um distúbio na média, como pode se observado no Passo 1.
Vamos nos aprofundar no segundo exemplo, Reflexo de Goleiros, note que a concentração dos dados se encontra entre 0 e 20, considerando que a maioria dos jogadores não são goleiros, e casando ruído na média final desta variável
FullData50<-FullData[FullData$GK_Reflexes>50,]
boxplot(FullData$GK_Reflexes,
horizontal = TRUE,
col = "red")
Neste segundo gráfico, vamos analisar apenas os valores acima de 50, excluindo os dados dos jogadores não goleiros
boxplot(FullData50$GK_Reflexes,
horizontal = TRUE,
col = "blue")
Note como a Média é significativamente alterada, nos aproximando de um valor mais real da média do reflexo dos goleiros, e apenas deles. Ao analisarmos a variável Reflexo de Goleiros, nos deparamos com uma quantidade alta de outliers, que neste caso eram faziam jus a todos os jogadores não goleiros. Posteriormente filtramos os dados, visando analisar apenas os goleiros, assim, refletindo melhor o resultado esperado.
# texto
summary(FullData$GK_Reflexes)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.0 8.0 11.0 16.9 14.0 90.0
summary(FullData50$GK_Reflexes)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 51.00 61.00 66.00 66.56 72.00 90.00