Nossa amostra tem todos os jogos de 2017, e a partir deles, queremos responder duas perguntas sobre os jogos em geral desse campeonato:

1. Jogos aos domingos têm mais gols que jogos às quartas?

Com ICs

theta_diferenca = function(d, i){
  gols_dif = d %>% 
    slice(i) %>%
    group_by(Dia) %>% 
    summarise(media = mean(gols)) 
   
  domingos = gols_dif %>% filter(Dia == "Domingo") %>% pull(media)
  quartas = gols_dif %>% filter(Dia == "Quarta-feira") %>% pull(media)
  
  domingos - quartas
 
}


theta_c = theta_diferenca(dados, 1:NROW(dados))

theta_c
## [1] -0.01482372
library(boot)
dados %>% 
    boot(statistic = theta_diferenca, R = 4000) %>% 
    tidy(conf.level = 0.95, 
         conf.int = TRUE)
## # A tibble: 1 x 5
##   statistic     bias std.error conf.low conf.high
##       <dbl>    <dbl>     <dbl>    <dbl>     <dbl>
## 1   -0.0148 -0.00407     0.218   -0.442     0.408

Com teste de hipótese

Utilizaremos a biblioteca perm.

library(perm)

domingo = dados %>% filter(Dia == "Domingo") %>% pull(gols)
quarta = dados %>% filter(Dia == "Quarta-feira") %>% pull(gols)
permTS(domingo, quarta)
## 
##  Permutation Test using Asymptotic Approximation
## 
## data:  domingo and quarta
## Z = -0.067022, p-value = 0.9466
## alternative hypothesis: true mean domingo - mean quarta is not equal to 0
## sample estimates:
## mean domingo - mean quarta 
##                -0.01482372

A partir desta amostra, utilizando Intervalos de Confiança, estimamos que os jogos do domingo têm, em média, aproximadamente 1,5% menos gols que os jogos da quarta-feira (95% CI [-0.4481376, 0.3996224]). Utilizando teste de hipótese, encontramos um p-valor de 0.9466, que não nos deixa descartar a hipótese nula e, portanto, essa diferença com baixa significância.

As análises concordam. Nos Intervalos de Confiança temos ainda a informação do quão diferente (~1,5%) e o sinal (-) dessa diferença.

2. Jogos onde há um vitorioso têm mais ou menos gols que empates?

Com ICs

d <- dados
i <- 1:NROW(dados)
theta_diferenca_2 = function(d, i){
  gols_dif = d %>% 
    slice(i) %>%
    mutate(resultado = if_else((Vencedor == "-"), "Empate", "Venceram")) %>% 
    group_by(resultado) %>% 
    summarise(media = mean(gols)) 
   
    empates = gols_dif %>%  filter(resultado == "Empate") %>% pull(media)
    vencedores = gols_dif %>%  filter(resultado == "Venceram") %>% pull(media)
      
  empates - vencedores
 
}


theta_c_2 = theta_diferenca_2(dados, 1:NROW(dados))

theta_c_2
## [1] -0.56181
dados %>% 
    boot(statistic = theta_diferenca_2, R = 4000) %>% 
    tidy(conf.level = 0.95, 
         conf.int = TRUE)
## # A tibble: 1 x 5
##   statistic    bias std.error conf.low conf.high
##       <dbl>   <dbl>     <dbl>    <dbl>     <dbl>
## 1    -0.562 0.00274     0.175   -0.895    -0.209

Com teste de hipótese

empates = dados %>%  filter(Vencedor == "-") %>% pull(gols)
vencedores = dados %>%  filter(Vencedor != "-") %>% pull(gols)
permTS(empates, vencedores)
## 
##  Permutation Test using Asymptotic Approximation
## 
## data:  empates and vencedores
## Z = -3.1126, p-value = 0.001855
## alternative hypothesis: true mean empates - mean vencedores is not equal to 0
## sample estimates:
## mean empates - mean vencedores 
##                       -0.56181

A partir desta amostra, utilizando Intervalos de Confiança, estimamos que os jogos do empatados têm, em média, aproximadamente 56% menos gols que os jogos com vencedor (95% CI [-0.9087655, -0.2169133]). Utilizando teste de hipótese, encontramos um p-valor de 0.001855, que nos deixa bem confortáveis para descartar a hipótese nula e, portanto, tendo uma diferença com alta significância.

Aqui temos um resultado mais conclusivo. As análises concordaram que existe sim uma diferença e os ICs, indo mais além, nos diz o grau e sinal da diferença.