Entrega 3 - Histograma de dados do jogo Fifa

library(readr)
FifaData <- read_csv("C:/Users/Laryssa/Desktop/Mestrado_UFF/Estatistica/Base_de_dados-master/FifaData.csv")
## Rows: 17588 Columns: 53
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (12): Name, Nationality, National_Position, Club, Club_Position, Club_Jo...
## dbl (41): National_Kit, Club_Kit, Contract_Expiry, Rating, Age, Weak_foot, S...
## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
dados <- FifaData$Rating
min1 <- min(dados)
max1 <- max(dados)
mycol <- rgb(230, 114, 12, max = 255, alpha = 125)
mean1 <- mean(dados)
sd1 <- sd(dados)
low1 <- mean1 - sd1
high1 <- mean1 + sd1
low2 <- mean1 - 2*sd1
high2 <- mean1 + 2*sd1
low3 <- mean1 - 3*sd1
high3 <- mean1 + 3*sd1
y1 <- 1/(sqrt(2*pi)*sd1)
hist_info <- hist(dados, plot=F)
inter <-max(hist_info$counts)
fator <- inter/y1

A seguir vamos analisar 3 histogramas feitos para o rating do jogo Fifa, videogame popular para consoles. Esse número pode variar entre 1 e 99, avaliando o potencial de um jogador de acordo com a sua posição em campo e fazendo uma média ponderada dos atributos importantes para essa função e somando a reputação internacional do jogador, isso é sua popularidade. O jogo possui 17588 jogadores na versão avaliada e para isso foram divididos em conjuntos de 5 pontos para o rating, vimos também que o mínimo valor é 45 e o máximo 94 com uma média de aproximadamente 66 e desvio padrão de aproximadamente 7.

Histograma 1

hist(dados,  ylim = c(0,6000), col = "#0aada5", xlab = "",ylab = "", labels = T, main="" )
a=seq(low1,high1,length=200)
b=fator*dnorm(a,mean=mean1,sd=sd1)
polygon(c(low1,a,high1),c(0,b,0),col=mycol)
x=seq(min1,max1,length=200)
y2=fator*dnorm(x,mean=mean1,sd=sd1)
lines(x,y2,lwd=3,col="#e60c80",  ylim = c(0,6000))
title(main = "Histograma 1 de Rating da Fifa", sub = "Com curva normal e 1 desvio-padrão realçado", cex.main=2,cex.sub=1.5,font.main=2,font.sub=2,col.main="#0aada5",col.sub="#e6720c",xlab = "Rating",ylab = "Frequência", font.lab = 3,col.lab="#e60c80")

No primeiro histograma vemos que os resultados separados e distribuidos, mostrando maior concentração nos valores centrais. Para uma análise mais profunda foi sobreposta a curva normal que melhor representa esse histograma e adicionado um poligono em laranja com as distâncias do desvio-padrão. Assim temos que entre os valores de 59.08 e 73.25 estão presentes 68.27% de todos os jogadores, sendo coerente com a simetria do histograma que considera entre 60 e 75 a maior quantidade de jogadores, 69.95%.

Histograma 2

hist(dados,  ylim = c(0,6000), col = "#0aada5", xlab = "",ylab = "", labels = T, main="" )
a=seq(low2,high2,length=200)
b=fator*dnorm(a,mean=mean1,sd=sd1)
polygon(c(low2,a,high2),c(0,b,0),col=mycol)
x=seq(min1,max1,length=200)
y2=fator*dnorm(x,mean=mean1,sd=sd1)
lines(x,y2,lwd=3,col="#e60c80",  ylim = c(0,6000))
title(main = "Histograma 2 de Rating da Fifa", sub = "Com curva normal e 2 desvios-padrão realçado", cex.main=2,cex.sub=1.5,font.main=2,font.sub=2,col.main="#0aada5",col.sub="#e6720c",xlab = "Rating",ylab = "Frequência", font.lab = 3,col.lab="#e60c80")

Para o histograma 2 aumentamos o seu poligono, utilizando a distância de 2 desvio-padrão da média,o que faz a probabilidade conhecida de 95.45%, com os valores de 52.00 e 80.33 como os opostos do intervalo. De novo podemos fazer a comparação com os valores do histograma, que entre os intervalos de 50 a 80 possuimos 96.58% dos jogadores.

Histograma 3

hist(dados,  ylim = c(0,6000), col = "#0aada5", xlab = "",ylab = "", labels = T, main="" )
a=seq(low3,high3,length=200)
b=fator*dnorm(a,mean=mean1,sd=sd1)
polygon(c(low3,a,high3),c(0,b,0),col=mycol)
x=seq(min1,max1,length=200)
y2=fator*dnorm(x,mean=mean1,sd=sd1)
lines(x,y2,lwd=3,col="#e60c80",  ylim = c(0,6000))
title(main = "Histograma 3 de Rating da Fifa", sub = "Com curva normal e 3 desvios-padrão realçado", cex.main=2,cex.sub=1.5,font.main=2,font.sub=2,col.main="#0aada5",col.sub="#e6720c",xlab = "Rating",ylab = "Frequência", font.lab = 3,col.lab="#e60c80")

E por último temos a comparação com 3 desvios-padrão, que tem a probabilidade de 99,7%, utilizado principalmente para descobrir pontos muito fora do comum. Tendo o intervalo entre 44.91 e 87.41, sabemos que temos apenas 5 jogadores acima de 90 pelo histograma, que serão aqueles de mais destaque no jogo e mais raros de se obter. Como Cristiano Ronaldo, Lionel Messi, Neymar Júnior e Luiz Soares, todos muito conhecidos e de grande talento.

Classificação jogo

Pelo jogo sabemos que entre 0 e 64 os jogadores são agrupados em Bronze, entre 65 e 74 são Prata e de 75 a 99 são Ouro.

hist(dados,  ylim = c(0,6000), col = c("#CD7F32","#CD7F32","#CD7F32","#CD7F32","#C0C0C0","#C0C0C0","#FFD700","#FFD700","#FFD700"), xlab = "",ylab = "", labels = T, main="" )
title(main = "Histograma 4 de Rating da Fifa", sub = "Classificações jogo", cex.main=2,cex.sub=1.5,font.main=2,font.sub=2,col.main="#FFD700",col.sub="#c0c0c0",xlab = "Rating",ylab = "Frequência", font.lab = 3,col.lab="#CD7F32")

Assim concluimos que a maior parte dos jogadores são de classificação prata (8054/45.79%), seguido de bronze (7940/45.14%) e a minoria de ouro (1594/9.06%) e a média dos jogadores é prata, com poucos sendo considerados excepcionais e poucos sendo ruins que as pessoas não iriam querer tê-los em suas equipes.

Por fim gostaria de ressaltar que o trabalho foi feito de forma que caso queira analisar outros dados só seria necessário susbtituir a variavel dados no inicio e o limite do eixo y em cada histograma, mas a curva normal e o poligono com 1, 2 ou 3 desvios padrões se alteram sozinhos.