alt text

GET00130 - Métodos Computacionais para Estatística II

Jony Arrais Pinto Junior

Conteúdo da aula

  • Revisando poder do teste;
  • Revisando teste de hipóteses para a proporção.

1 - Revisitando função poder

Suponha que desejamos testar as seguintes hipóteses sobre a proporção populacional \(p\), \[H_0: p = 0,4 \qquad \times \qquad H_1: p < 0,4.\]

O teste acima possui uma região crítica definida por\[ RC = \{\hat{p}: \hat{p} < k\}.\]

Se desejamos calcular o poder do teste (chamado de \(\pi\)) associado ao teste acima, devemos calcular

\[ \def\Xbar{\overline{X}} %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% \begin{align} \pi &= P(\mbox{Poder do teste}) \\ &= P(\mbox{Rejeitar } H_0 \mbox{ | } H_0 \mbox{ é falsa}) \\ &= P(\hat{p} < k \mbox{ | } H_0 \mbox{ é falsa}) \end{align} \] Para resolver a probabilidade acima é necessário conhecer \(k\), mas este só será conhecido se fixarmos um valor para \(\alpha\) = P(Erro Tipo I), por exemplo, vamos definí-lo como 0,05:

\[ \def\Xbar{\overline{X}} %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% \begin{align} \alpha &= P(\mbox{Erro Tipo I}) \\ &= P(\mbox{Rejeitar } H_0 \mbox{ | } H_0 \mbox{ é verdadeira}) \\ &= P(\hat{p} \in \mbox{ RC | } H_0 \mbox{ é verdadeira}) \\ &= P\left(\hat{p} < k \mbox{ | } \hat{p} \sim N \left(0,4;\frac{0,4\times 0,6}{n} \right)\right) = 0,05 \end{align} \]

Deste modo é possível definir o valor de \(k\), basta encontrarmos o quantil da distribuição de \(\hat{p}\) que deixa uma área abaixo dele de \(0,05\) (\(k(0,05)\)).

De forma genérica, Definido o valor de \(k(\alpha)\), podemos calcular \(\pi\)?

Note que só é possível calcularmos \(\pi\) se conhecermos a distribuição de probabilidade de \(\hat{p}\). A mesma só será conhecida se definirmos um valor para \(p\), então \(\pi\) é uma função de \(p\), logo, podemos escrever

\[ \def\Xbar{\overline{X}} %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% \begin{align} \pi(p) &= P(\mbox{Poder do teste}) \\ &= P(\mbox{Rejeitar } H_0 \mbox{ | } p) \\ &= P(\hat{p} \in \mbox{ RC | } p) \\ &= P\left(\hat{p} < k(\alpha) \mbox{ | } \hat{p} \sim N \left(p;\frac{p\times (1-p)}{n} \right)\right) \end{align} \] Com base nas equações desenvolvidas acima, podemos criar uma função que receberá como argumentos: tamanho da amostra, nível de significância, valor da proporção a ser testado (em \(H_0\)) e \(p\) - o valor da proporção na qual será calculado o poder do teste.

#Criando uma função que calcula o poder do teste para um teste de hipóteses
#unilateral a esquerda da proporção
func_poder = function(n,alfa,p,p0){
  k = qnorm(alfa,p0,sqrt((p0*(1-p0))/n))
  pi = pnorm(k, p, sqrt((p*(1-p))/n))
  return(pi)
}

Suponha que foi observada uma amostra de 30 indivíduos, qual será o poder do teste se \(p =\) 0,2?

#Calculando o poder para p = 0,2
func_poder(n = 30,
           alfa = 0.05,
           p = 0.2,
           p0 = 0.4)
[1] 0.7654938

Notamos que a probabilidade de afirmarmos que a proporção é menor do que 0,4 quando na verdade ela é 0,2 é de aproximadamente 76%.

Como podemos obter esta probabilidade para diversos valores de \(p\), vamos plotar a função poder criada para valores de \(p\) de 0 a 0,5?

#Carregando pacote
library(tidyverse)

#Plotando a função do erro tipo II
ggplot(data = tibble(val = c(0,0.5)), aes(x = val)) +
  stat_function(fun = func_poder,
                args = list(n = 30,
                            alfa = 0.05,
                            p0 = 0.4)) +
  xlab("p") +
  ylab(expression(pi(p)))

Percebemos que quanto menor for o valor de \(p\), maior é a probabilidade do teste dizer que a proporção é menor do que 0,4. Isso faz todo o sentido, uma vez que representam situações mais fáceis para o teste acertar.

2 - Situação problema 1

Suponha que possuímos dados referentes a nota da satisfação de clientes (pontos) com serviços prestados por taxis e uber na cidade do Rio de Janeiro.

Na base Satisfacao.csv encontramos disponíveis a informação se os usuários utilizam (em sua maioria) táxi ou uber, a nota da satisfação com o serviço (0 - 100), o valor gasto em média (em reais), o sexo do condutor da última viagem e o sexo do entrevistado. Foram selecionados um grupo de 30 pessoas que usam Táxi e 45 pessoas que usam Uber no ano de 2020.

Suponha que desejamos verificar algumas questões levantadas sobre o assunto.

Atividade: Importe o arquivo Satisfacao.csv. Armazene em um objeto chamado satisfacao.

#Visualizando o objeto satisfacao
satisfacao
# A tibble: 75 × 5
   servico  nota sexo   valor condutor
   <chr>   <dbl> <chr>  <dbl> <chr>   
 1 Taxi     67.4 Mulher  22.2 Homem   
 2 Taxi     65.6 Homem   20.9 Homem   
 3 Taxi     70.6 Mulher  16.7 Homem   
 4 Taxi     64.8 Mulher  14.7 Homem   
 5 Taxi     61.2 Homem   22.4 Homem   
 6 Taxi     70.2 Mulher  21.5 Homem   
 7 Taxi     70.7 Homem   22.8 Homem   
 8 Taxi     64   Mulher  19.1 Homem   
 9 Taxi     67.4 Mulher  22.3 Homem   
10 Taxi     74.6 Mulher  19.3 Homem   
# … with 65 more rows

Suponha que nosso objetivo inicial, seja verificar a afirmação de que a variância da satisfação dos passageiros do Uber é maior do que 60 pontos ao quadrado. Vamos realizar a análise mais completa possível.

#Avaliando o comportamento dos valores da satisfação para usuários do UBER
satisfacao |> 
  filter(servico == "Uber") |> 
  ggplot(mapping = aes(y = nota)) +
  geom_boxplot() +
  theme_minimal() +
  labs(y = "Nota")

#Obtendo descritivas interessantes
satisfacao |> 
  summarise(variancia = var(nota, na.rm = TRUE))
# A tibble: 1 × 1
  variancia
      <dbl>
1      72.9
#Carregando pacote
library(ggpubr)

#Selecionando somente os usuários do Uber
satisfacaoU = satisfacao |>  
           filter(servico == "Uber")

#Verificando normalidade dos dados
qq = ggqqplot(satisfacaoU$nota)


#Plotando o qq-plot
qq

#Testando normalidade
shapiro.test(satisfacaoU$nota)

    Shapiro-Wilk normality test

data:  satisfacaoU$nota
W = 0.98741, p-value = 0.9008
#Carregando o pacote
library(DescTools)

#Realizando o teste de variância
VarTest(satisfacaoU$nota, 
        alternative = "greater",
        sigma.squared = 60)

    One Sample Chi-Square test on variance

data:  satisfacaoU$nota
X-squared = 50.577, df = 44, p-value = 0.2299
alternative hypothesis: true variance is greater than 60
95 percent confidence interval:
 50.17466      Inf
sample estimates:
variance of x 
     68.96836 

Sempre deixem claro as hipóteses de cada teste realizado!

Conclusão para cada etapa da análise??

Atividade: Verifique se a variância da nota de satisfação com o táxi é inferior a 20 pontos ao quadrado. Faça a análise mais completa possível.