Passo 1 - Carregar base de dados

Antes de mais nada, vamos carregar a base de dados FullData.csv, proveniente da pasta do Fifa 2017, da qual trabalharemos neste modelo

FullData <- read.csv("C:/Estatistica/Base_de_dados-master/complete-fifa-2017-player-dataset-global/FullData.csv")

Passo 2 - Estatísticas Descritivas

Média, Mediana, Mínimo e Máximo

Aqui iremos fazer um resumo estatístico dos dados das 2 variáveis que iremos trabalhar, são elas referentes aos dados de Penalidades e Reflexos de Goleiro, o objetivo é demonstrar como a Média e Mediana tem grandes distúrbios em cada um dos casos

summary(FullData$Penalties)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    7.00   39.00   50.00   49.17   61.00   96.00
summary(FullData$GK_Reflexes)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     1.0     8.0    11.0    16.9    14.0    90.0

Passo 3 - Histograma

Mostraremos o histograma dessas 2 variáveis, atentar à presença de outliers, princialmente no histograma de Reflexo de Goleiros, onde a concentração de jogadores Não-Goleiros e consequentemente com números baixos neste quesito, tendem a causar um grande distúrbio na Média desta variável

#Histograma


par(mfrow = c (1, 2))
hist(FullData$Penalties,
     main = "Precisão de Pênaltis",
     col = "#FF8000",
     sub = "Exemplo de Outlier não alterando média",
     ylim = c(0,2500),
     xlim = c(0,100))
hist(FullData$GK_Reflexes,
     col = "#2E64FE",
     main = "Reflexo de Goleiros",
     sub = "Exemplo de Outlier alterando a média",
     ylim = c(0,8000),
     xlim = c(0,100))

Note que, apesar da presença de outliers no primiro gráfico, eles não são suficientes para causar um distúbio na média, como pode se observado no Passo 1.

Passo 4 - Gráfico de Caixa

Boxplot da Reflexo de Goleiros

Vamos nos aprofundar no segundo exemplo, Reflexo de Goleiros, note que a concentração dos dados se encontra entre 0 e 20, considerando que a maioria dos jogadores não são goleiros, e casando ruído na média final desta variável

FullData50<-FullData[FullData$GK_Reflexes>50,]

boxplot(FullData$GK_Reflexes,
        horizontal = TRUE,
        col = "red")

Neste segundo gráfico, vamos analisar apenas os valores acima de 50, excluindo os dados dos jogadores não goleiros

boxplot(FullData50$GK_Reflexes,
        horizontal = TRUE,
        col = "blue")

Conclusão

Note como a Média é significativamente alterada, nos aproximando de um valor mais real da média do reflexo dos goleiros, e apenas deles. Ao analisarmos a variável Reflexo de Goleiros, nos deparamos com uma quantidade alta de outliers, que neste caso eram faziam jus a todos os jogadores não goleiros. Posteriormente filtramos os dados, visando analisar apenas os goleiros, assim, refletindo melhor o resultado esperado.

# texto 
summary(FullData$GK_Reflexes)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     1.0     8.0    11.0    16.9    14.0    90.0
summary(FullData50$GK_Reflexes)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   51.00   61.00   66.00   66.56   72.00   90.00