Nossa amostra tem todos os jogos de 2017, e a partir deles, queremos responder duas perguntas sobre os jogos em geral desse campeonato:
1. Jogos aos domingos têm mais gols que jogos às quartas?
Com ICs
theta_diferenca = function(d, i){
gols_dif = d %>%
slice(i) %>%
group_by(Dia) %>%
summarise(media = mean(gols))
domingos = gols_dif %>% filter(Dia == "Domingo") %>% pull(media)
quartas = gols_dif %>% filter(Dia == "Quarta-feira") %>% pull(media)
domingos - quartas
}
theta_c = theta_diferenca(dados, 1:NROW(dados))
theta_c## [1] -0.01482372
library(boot)
dados %>%
boot(statistic = theta_diferenca, R = 4000) %>%
tidy(conf.level = 0.95,
conf.int = TRUE)## # A tibble: 1 x 5
## statistic bias std.error conf.low conf.high
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 -0.0148 -0.00407 0.218 -0.442 0.408
Com teste de hipótese
Utilizaremos a biblioteca perm.
library(perm)
domingo = dados %>% filter(Dia == "Domingo") %>% pull(gols)
quarta = dados %>% filter(Dia == "Quarta-feira") %>% pull(gols)
permTS(domingo, quarta)##
## Permutation Test using Asymptotic Approximation
##
## data: domingo and quarta
## Z = -0.067022, p-value = 0.9466
## alternative hypothesis: true mean domingo - mean quarta is not equal to 0
## sample estimates:
## mean domingo - mean quarta
## -0.01482372
A partir desta amostra, utilizando Intervalos de Confiança, estimamos que os jogos do domingo têm, em média, aproximadamente 1,5% menos gols que os jogos da quarta-feira (95% CI [-0.4481376, 0.3996224]). Utilizando teste de hipótese, encontramos um p-valor de 0.9466, que não nos deixa descartar a hipótese nula e, portanto, essa diferença com baixa significância.
As análises concordam. Nos Intervalos de Confiança temos ainda a informação do quão diferente (~1,5%) e o sinal (-) dessa diferença.
2. Jogos onde há um vitorioso têm mais ou menos gols que empates?
Com ICs
d <- dados
i <- 1:NROW(dados)
theta_diferenca_2 = function(d, i){
gols_dif = d %>%
slice(i) %>%
mutate(resultado = if_else((Vencedor == "-"), "Empate", "Venceram")) %>%
group_by(resultado) %>%
summarise(media = mean(gols))
empates = gols_dif %>% filter(resultado == "Empate") %>% pull(media)
vencedores = gols_dif %>% filter(resultado == "Venceram") %>% pull(media)
empates - vencedores
}
theta_c_2 = theta_diferenca_2(dados, 1:NROW(dados))
theta_c_2## [1] -0.56181
dados %>%
boot(statistic = theta_diferenca_2, R = 4000) %>%
tidy(conf.level = 0.95,
conf.int = TRUE)## # A tibble: 1 x 5
## statistic bias std.error conf.low conf.high
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 -0.562 0.00274 0.175 -0.895 -0.209
Com teste de hipótese
empates = dados %>% filter(Vencedor == "-") %>% pull(gols)
vencedores = dados %>% filter(Vencedor != "-") %>% pull(gols)
permTS(empates, vencedores)##
## Permutation Test using Asymptotic Approximation
##
## data: empates and vencedores
## Z = -3.1126, p-value = 0.001855
## alternative hypothesis: true mean empates - mean vencedores is not equal to 0
## sample estimates:
## mean empates - mean vencedores
## -0.56181
A partir desta amostra, utilizando Intervalos de Confiança, estimamos que os jogos do empatados têm, em média, aproximadamente 56% menos gols que os jogos com vencedor (95% CI [-0.9087655, -0.2169133]). Utilizando teste de hipótese, encontramos um p-valor de 0.001855, que nos deixa bem confortáveis para descartar a hipótese nula e, portanto, tendo uma diferença com alta significância.
Aqui temos um resultado mais conclusivo. As análises concordaram que existe sim uma diferença e os ICs, indo mais além, nos diz o grau e sinal da diferença.