GET00130 - Métodos Computacionais para Estatística II
Conteúdo da aula
- Revisando poder do teste;
- Revisando teste de hipóteses para a proporção.
1 - Revisitando função poder
Suponha que desejamos testar as seguintes hipóteses sobre a proporção populacional \(p\), \[H_0: p = 0,4 \qquad \times \qquad H_1: p < 0,4.\]
O teste acima possui uma região crítica definida por\[ RC = \{\hat{p}: \hat{p} < k\}.\]
Se desejamos calcular o poder do teste (chamado de \(\pi\)) associado ao teste acima, devemos calcular
\[ \def\Xbar{\overline{X}} %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% \begin{align} \pi &= P(\mbox{Poder do teste}) \\ &= P(\mbox{Rejeitar } H_0 \mbox{ | } H_0 \mbox{ é falsa}) \\ &= P(\hat{p} < k \mbox{ | } H_0 \mbox{ é falsa}) \end{align} \] Para resolver a probabilidade acima é necessário conhecer \(k\), mas este só será conhecido se fixarmos um valor para \(\alpha\) = P(Erro Tipo I), por exemplo, vamos definí-lo como 0,05:
\[ \def\Xbar{\overline{X}} %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% \begin{align} \alpha &= P(\mbox{Erro Tipo I}) \\ &= P(\mbox{Rejeitar } H_0 \mbox{ | } H_0 \mbox{ é verdadeira}) \\ &= P(\hat{p} \in \mbox{ RC | } H_0 \mbox{ é verdadeira}) \\ &= P\left(\hat{p} < k \mbox{ | } \hat{p} \sim N \left(0,4;\frac{0,4\times 0,6}{n} \right)\right) = 0,05 \end{align} \]
Deste modo é possível definir o valor de \(k\), basta encontrarmos o quantil da distribuição de \(\hat{p}\) que deixa uma área abaixo dele de \(0,05\) (\(k(0,05)\)).
De forma genérica, Definido o valor de \(k(\alpha)\), podemos calcular \(\pi\)?
Note que só é possível calcularmos \(\pi\) se conhecermos a distribuição de probabilidade de \(\hat{p}\). A mesma só será conhecida se definirmos um valor para \(p\), então \(\pi\) é uma função de \(p\), logo, podemos escrever
\[ \def\Xbar{\overline{X}} %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% \begin{align} \pi(p) &= P(\mbox{Poder do teste}) \\ &= P(\mbox{Rejeitar } H_0 \mbox{ | } p) \\ &= P(\hat{p} \in \mbox{ RC | } p) \\ &= P\left(\hat{p} < k(\alpha) \mbox{ | } \hat{p} \sim N \left(p;\frac{p\times (1-p)}{n} \right)\right) \end{align} \] Com base nas equações desenvolvidas acima, podemos criar uma função que receberá como argumentos: tamanho da amostra, nível de significância, valor da proporção a ser testado (em \(H_0\)) e \(p\) - o valor da proporção na qual será calculado o poder do teste.
#Criando uma função que calcula o poder do teste para um teste de hipóteses
#unilateral a esquerda da proporção
func_poder = function(n,alfa,p,p0){
k = qnorm(alfa,p0,sqrt((p0*(1-p0))/n))
pi = pnorm(k, p, sqrt((p*(1-p))/n))
return(pi)
}Suponha que foi observada uma amostra de 30 indivíduos, qual será o poder do teste se \(p =\) 0,2?
#Calculando o poder para p = 0,2
func_poder(n = 30,
alfa = 0.05,
p = 0.2,
p0 = 0.4)[1] 0.7654938
Notamos que a probabilidade de afirmarmos que a proporção é menor do que 0,4 quando na verdade ela é 0,2 é de aproximadamente 76%.
Como podemos obter esta probabilidade para diversos valores de \(p\), vamos plotar a função poder criada para valores de \(p\) de 0 a 0,5?
#Carregando pacote
library(tidyverse)
#Plotando a função do erro tipo II
ggplot(data = tibble(val = c(0,0.5)), aes(x = val)) +
stat_function(fun = func_poder,
args = list(n = 30,
alfa = 0.05,
p0 = 0.4)) +
xlab("p") +
ylab(expression(pi(p)))Percebemos que quanto menor for o valor de \(p\), maior é a probabilidade do teste dizer que a proporção é menor do que 0,4. Isso faz todo o sentido, uma vez que representam situações mais fáceis para o teste acertar.
2 - Situação problema 1
Suponha que possuímos dados referentes a nota da satisfação de clientes (pontos) com serviços prestados por taxis e uber na cidade do Rio de Janeiro.
Na base Satisfacao.csv encontramos disponíveis a informação se os usuários utilizam (em sua maioria) táxi ou uber, a nota da satisfação com o serviço (0 - 100), o valor gasto em média (em reais), o sexo do condutor da última viagem e o sexo do entrevistado. Foram selecionados um grupo de 30 pessoas que usam Táxi e 45 pessoas que usam Uber no ano de 2020.
Suponha que desejamos verificar algumas questões levantadas sobre o assunto.
Atividade: Importe o arquivo Satisfacao.csv. Armazene em um objeto chamado satisfacao.
#Visualizando o objeto satisfacao
satisfacao# A tibble: 75 × 5
servico nota sexo valor condutor
<chr> <dbl> <chr> <dbl> <chr>
1 Taxi 67.4 Mulher 22.2 Homem
2 Taxi 65.6 Homem 20.9 Homem
3 Taxi 70.6 Mulher 16.7 Homem
4 Taxi 64.8 Mulher 14.7 Homem
5 Taxi 61.2 Homem 22.4 Homem
6 Taxi 70.2 Mulher 21.5 Homem
7 Taxi 70.7 Homem 22.8 Homem
8 Taxi 64 Mulher 19.1 Homem
9 Taxi 67.4 Mulher 22.3 Homem
10 Taxi 74.6 Mulher 19.3 Homem
# … with 65 more rows
Suponha que nosso objetivo inicial, seja verificar a afirmação de que a variância da satisfação dos passageiros do Uber é maior do que 60 pontos ao quadrado. Vamos realizar a análise mais completa possível.
#Avaliando o comportamento dos valores da satisfação para usuários do UBER
satisfacao |>
filter(servico == "Uber") |>
ggplot(mapping = aes(y = nota)) +
geom_boxplot() +
theme_minimal() +
labs(y = "Nota")#Obtendo descritivas interessantes
satisfacao |>
summarise(variancia = var(nota, na.rm = TRUE))# A tibble: 1 × 1
variancia
<dbl>
1 72.9
#Carregando pacote
library(ggpubr)
#Selecionando somente os usuários do Uber
satisfacaoU = satisfacao |>
filter(servico == "Uber")
#Verificando normalidade dos dados
qq = ggqqplot(satisfacaoU$nota)
#Plotando o qq-plot
qq#Testando normalidade
shapiro.test(satisfacaoU$nota)
Shapiro-Wilk normality test
data: satisfacaoU$nota
W = 0.98741, p-value = 0.9008
#Carregando o pacote
library(DescTools)
#Realizando o teste de variância
VarTest(satisfacaoU$nota,
alternative = "greater",
sigma.squared = 60)
One Sample Chi-Square test on variance
data: satisfacaoU$nota
X-squared = 50.577, df = 44, p-value = 0.2299
alternative hypothesis: true variance is greater than 60
95 percent confidence interval:
50.17466 Inf
sample estimates:
variance of x
68.96836
Sempre deixem claro as hipóteses de cada teste realizado!
Conclusão para cada etapa da análise??
Atividade: Verifique se a variância da nota de satisfação com o táxi é inferior a 20 pontos ao quadrado. Faça a análise mais completa possível.