O teste z para duas proporções é usado para comparar duas proporções observadas. Este artigo descreve o básico do teste z de duas proporções e fornece exemplos práticos usando o software R.
Por exemplo, temos dois grupos de indivíduos:
Grupo A, que é de esquerda: n = 500
Grupo B, que é de direita: n = 500
O número de pessoas a favor do Bolsa Família é o seguinte:
Grupo A de esquerda: n = 500, 490 a favor do Bolsa Família, pA = 490/500 = 98
Grupo B, de direita: n = 500, 400 a favor do Bolsa Família, pB = 400/500 = 80
Nesta configuração:
A proporção total de pessoas a favor do Bolsa Família é
\[ p = \frac{(490 + 400)}{500 + 500} = 0,89\]
A proporção geral de pessoas contra ao bolsa familia é q = 1 − p = 11
Queremos saber se as proporções de pessoas a favor do Bolsa Família são iguais nos dois grupos de indivíduos.
A pergunta típica de pesquisa são:
se a proporção observada de pessoas a favor do Bolsa Família no grupo A (pA) é igual à proporção observada de pessoas a favor do Bolsa Família no grupo (pB)?
Na estatística, podemos definir as hipóteses nula e alternativas como se segue:
\[H0: pA = pB\] \[H1: pA \neq pB\]
A estatística do teste (também conhecida como teste z) pode ser calculada da seguinte forma:
\[ z = \frac{p_a - p_b}{\sqrt{pq/n_a+pq/n_b}}\]
Onde, pA é a proporção observada no grupo A com tamanho nA pB é a proporção observada no grupo B com tamanho nB p são as proporções gerais
se | z | <1,96, então a diferença não é significativa em 5%
se | z | =1,96, então a diferença é significativa em 5%
O nível de significância (p-valor) correspondente à estatística-z pode ser lida na tabela da normal padronizada. Lembrando que:
se o p-valor > 0,05, então a diferença não é significativa em 5%
se o p-valor <= 0,05, então a diferença é significativa em 5%
Warning Observe que a fórmula da estatística z é válida apenas quando o
tamanho da amostra (n) é grande o suficiente. nAp, nAq, nBp e nBq devem ser
maiores que 5.
O teste de probabilidade exata de Fisher é uma excelente técnica não paramétrica para comparar proporções, quando as duas amostras independentes são pequenas.
A função do R prop.test() podem ser usadas da seguinte maneira:
prop.test(x, n, p = NULL, alternative = "two.sided",
correct = TRUE)
Onde: x: um vetor de contagens de sucessos n: um vetor de ensaios de contagem alternativa: um caracter que especifica a hipótese alternativa correto: um lógico indicando se a correção de continuidade de Yates deve ser aplicada sempre que possível
Warning Observe que, por padrão, a função prop.test() usou a correção
de continuidade de Yates. Se você não deseja a correção, use o argumento
adicional correct = FALSE na função prop.test().(Esta opção deve ser
definida como FALSE para tornar o teste matematicamente equivalente ao
teste z não corrigido de uma proporção.)
Sugiro ler esses dois artigos para decidir se deve utilizar a correção: 1. W. J. Conover (1974) Some Reasons for Not Using the Yates Continuity Correction on 2×2 Contingency Tables, Journal of the American Statistical Association, 69:346, 374-376, DOI: 10.1080/01621459.1974.10482957 2.Newcombe, R. G. (1998), Two‐sided confidence intervals for the single proportion: comparison of seven methods. Statist. Med., 17: 857-872. doi:10.1002/(SICI)1097-0258(19980430)17:8<857::AID-SIM777>3.0.CO;2-E
Queremos saber se as proporções de pessoas a favor do Bolsa Família são iguais nos dois grupos de indivíduos.
resultado <- prop.test(x = c(490, 400), n = c(500, 500))
# Mostrando o resultado
resultado
##
## 2-sample test for equality of proportions with continuity
## correction
##
## data: c(490, 400) out of c(500, 500)
## X-squared = 80.909, df = 1, p-value < 0.00000000000000022
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0.1408536 0.2191464
## sample estimates:
## prop 1 prop 2
## 0.98 0.80
O p-valor do teste é 0,00000000000000022, que é menor que o nível de significância alfa = 0,05. Podemos concluir que a proporção de pessoas a favor do Bolsa Família é significativamente diferente nos dois grupos.
Queremos saber se as proporções de pessoas que usam o programa de alimentação popular (p.a.p) são iguais nas três localidades.
# Leitura de dados
#Fam<- read.csv2('https://raw.githubusercontent.com/DATAUNIRIO/Base_de_dados/master/Fam%C3%ADlias.csv',header = TRUE)
#resultado<-prop.test(table(Fam$local, Fam$p.a.p))
# Mostrando o resultado
#resultado