Teste z para duas proporções

O teste z para duas proporções é usado para comparar duas proporções observadas. Este artigo descreve o básico do teste z de duas proporções e fornece exemplos práticos usando o software R.

Por exemplo, temos dois grupos de indivíduos:

 Grupo A, que é de esquerda: n = 500
 Grupo B, que é de direita: n = 500

O número de pessoas a favor do Bolsa Família é o seguinte:

 Grupo A de esquerda: n = 500, 490 a favor do Bolsa Família, pA = 490/500 = 98
 Grupo B, de direita: n = 500, 400 a favor do Bolsa Família, pB = 400/500 = 80

Nesta configuração:

 A proporção total de pessoas a favor do Bolsa Família é 
 

\[ p = \frac{(490 + 400)}{500 + 500} = 0,89\]

A proporção geral de pessoas contra ao bolsa familia é q = 1 − p = 11

Queremos saber se as proporções de pessoas a favor do Bolsa Família são iguais nos dois grupos de indivíduos.

Questões de pesquisa e hipóteses estatísticas

A pergunta típica de pesquisa são:

se a proporção observada de pessoas a favor do Bolsa Família no grupo A (pA) é igual à proporção observada de pessoas a favor do Bolsa Família no grupo (pB)?

Na estatística, podemos definir as hipóteses nula e alternativas como se segue:

\[H0: pA = pB\] \[H1: pA \neq pB\]

Fórmula da estatística de teste

Caso de grandes amostras

A estatística do teste (também conhecida como teste z) pode ser calculada da seguinte forma:

\[ z = \frac{p_a - p_b}{\sqrt{pq/n_a+pq/n_b}}\]

Onde, pA é a proporção observada no grupo A com tamanho nA pB é a proporção observada no grupo B com tamanho nB p são as proporções gerais

se | z | <1,96, então a diferença não é significativa em 5%

se | z | =1,96, então a diferença é significativa em 5%

O nível de significância (p-valor) correspondente à estatística-z pode ser lida na tabela da normal padronizada. Lembrando que:

se o p-valor > 0,05, então a diferença não é significativa em 5%

se o p-valor <= 0,05, então a diferença é significativa em 5%

Warning Observe que a fórmula da estatística z é válida apenas quando o

tamanho da amostra (n) é grande o suficiente. nAp, nAq, nBp e nBq devem ser

maiores que 5.

Caso de pequenas amostras

O teste de probabilidade exata de Fisher é uma excelente técnica não paramétrica para comparar proporções, quando as duas amostras independentes são pequenas.

Calcular o teste z de duas proporções no R

Função no R: prop.test()

A função do R prop.test() podem ser usadas da seguinte maneira:

prop.test(x, n, p = NULL, alternative = "two.sided",
          correct = TRUE)

Onde: x: um vetor de contagens de sucessos n: um vetor de ensaios de contagem alternativa: um caracter que especifica a hipótese alternativa correto: um lógico indicando se a correção de continuidade de Yates deve ser aplicada sempre que possível

Warning Observe que, por padrão, a função prop.test() usou a correção

de continuidade de Yates. Se você não deseja a correção, use o argumento

adicional correct = FALSE na função prop.test().(Esta opção deve ser

definida como FALSE para tornar o teste matematicamente equivalente ao

teste z não corrigido de uma proporção.)

Sugiro ler esses dois artigos para decidir se deve utilizar a correção: 1. W. J. Conover (1974) Some Reasons for Not Using the Yates Continuity Correction on 2×2 Contingency Tables, Journal of the American Statistical Association, 69:346, 374-376, DOI: 10.1080/01621459.1974.10482957 2.Newcombe, R. G. (1998), Two‐sided confidence intervals for the single proportion: comparison of seven methods. Statist. Med., 17: 857-872. doi:10.1002/(SICI)1097-0258(19980430)17:8<857::AID-SIM777>3.0.CO;2-E

Calcular o teste z de duas proporções

Queremos saber se as proporções de pessoas a favor do Bolsa Família são iguais nos dois grupos de indivíduos.

resultado <- prop.test(x = c(490, 400), n = c(500, 500))
# Mostrando o resultado
resultado
## 
##  2-sample test for equality of proportions with continuity
##  correction
## 
## data:  c(490, 400) out of c(500, 500)
## X-squared = 80.909, df = 1, p-value < 0.00000000000000022
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0.1408536 0.2191464
## sample estimates:
## prop 1 prop 2 
##   0.98   0.80

Interpretação do resultado

O p-valor do teste é 0,00000000000000022, que é menor que o nível de significância alfa = 0,05. Podemos concluir que a proporção de pessoas a favor do Bolsa Família é significativamente diferente nos dois grupos.

Um exemplo com base de dados

Queremos saber se as proporções de pessoas que usam o programa de alimentação popular (p.a.p) são iguais nas três localidades.

# Leitura de dados
#Fam<- read.csv2('https://raw.githubusercontent.com/DATAUNIRIO/Base_de_dados/master/Fam%C3%ADlias.csv',header = TRUE)
#resultado<-prop.test(table(Fam$local, Fam$p.a.p))
# Mostrando o resultado
#resultado