Introdução

A estatística pode ser dividida em dois braços: a estatística descritiva, que visa resumir e sumarizar um conjunto de dados e a inferência estatística, que finda fazer afirmações baseadas nos resultados dos testes estatíscos. Esta publicação é uma sequência direta da pub Data Wrangling. Nesta publicação iremos investigar se há alguma ligação entre a probabilidade de vitória em função do tier e da região(region) dos campeões. Como na publicação supracitada já fizemos uma análise descritiva dos dados, nesse artigo trataremos apenas de inferência.

Bibliotecas

Para você que caiu aqui de paraquedas, antes das análises é necessário realizar o wrangling, os códigos para isso estão aqui

Para seguir com as análises, a única biblioteca necessária será a corrplot

#install.packages("corrplot")
library(corrplot)

Testes estatísticos

Teste de normalidade

O primeiro passo para realiza uma boa inferência é realizar os testes de normalidade. Isso norteará quais testes deverão ser feitos posteriormente para aferição de relações entre as variáveis independentes e a de interesse.

shapiro.test(lol12_3$win)
## 
##  Shapiro-Wilk normality test
## 
## data:  lol12_3$win
## W = 0.99481, p-value = 0.5952
ks.test(lol12_3$win, "pnorm", 
        mean(lol12_3$win), sd(lol12_3$win), exact = TRUE)
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  lol12_3$win
## D = 0.040485, p-value = 0.8149
## alternative hypothesis: two-sided

Ambos os testes apontaram normalidade(p-valor>0.05) sobre as Win Rates. Caso houvesse divergência entre os testes, poderíamos aplicar mais outros dois testes de normalidade, Anderson-Darling e Cramer-Von Mises.

Correlações

Como já chegamos a um veredito, realizaremos a nossa análise de variância(ANOVA) de win em função de region e tier.

aov_win_region <- aov(lol12_3$win ~ lol12_3$region)
summary(aov_win_region)
##                 Df Sum Sq Mean Sq F value Pr(>F)  
## lol12_3$region  13   67.8   5.218     1.8 0.0442 *
## Residuals      224  649.5   2.900                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
aov_win_tier <- aov(lol12_3$win ~lol12_3$tier)
summary(aov_win_tier)
##               Df Sum Sq Mean Sq F value   Pr(>F)    
## lol12_3$tier   5  162.0   32.41   13.54 1.35e-11 ***
## Residuals    232  555.3    2.39                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

A ANOVA mostrou que há influência da taxa de vitória a depender do do tier e da região do campeão. Em ambos, p-valor<0.05. Ou seja, utilizar o tier e a região como critério de seleção do campeão poderia elevar a taxa de vitória do jogador.

Aqui temos nossos primeiros resultados e um primeiro insight, já óbvio para jogadores mais experientes, escolher por tier é melhor do que escolher por região.

Enfim, prossigamos com nossa análise, vamos aplicar o teste de tukey sobre os tiers(já que esse é o que mais impacta)

tukey_tier<-TukeyHSD(aov_win_tier)
plot(tukey_tier, las=1)

Enfim nossa primeira representação gráfica, o que não é o foco do nosso tópico, mas vamos a ela. Tudo o que a linha tracejada(na vertical) encosta quer dizer que são estatisticamente iguais, e o quanto mais centralizado a linha horizontal estiver a linha tracejada, mais esses Tiers se parecem. Podemos ver que no patch 12.3 o Tier B teve uma Win Rate mais semelhante ao Tier que God do que o Tier A, algo muito contraintuitivo.

Vejamos também como se comportaram as demais métricas quantitativas, como se deu a relação entre elas.

lol_cor<-cor(lol_num)
corrplot(lol_cor, type = "lower",method = "number")

Aqui temos uma matriz de correlação entre as métricas, onde quanto mais distante de 0 maior foi a correlação entre os fatores; quanto mais impactante correlacionadas, mais opaca a cor; quando azul, correlação positiva e quando vermelho negativa.

Percebemos algo que todo jogador já sabe, uma relação positiva entre win/score e entre win/kda. Ambos tratam de pontuações advindas de calculos arbitrários, porém, claramente, expressam uma realidade.

Por fim, trend/win também possuem uma leve correlação positiva, indicando que, assim como num mercado financeiro, um campeão que vem aumentando sua taxa de vitória, tende a manter o ritmo até um pico desconhecido antes de serem enfraquecidos pela Riot Games(empresa criadora, detentora dos direitos e gestora de League of Legends).