Teste qui-quadrado de independência

EST212 - Bioestatística

Helgem de Souza

Introdução

Antes de iniciar nossa aula:

Abra o RStudio.
Crie um novo script.
Crie uma pasta na área de trabalho com seu nome.
Defina a pasta como diretório de trabalho
Salve o script criado na pasta com o nome "aula19_est212.R".
Baixe do Moodle os arquivos peso_gestacao.csv e penguins.csv.
Leia os arquivos listados acima para os objetos peso e penguins.

Revisão - Probabilidade condicional

Para uma melhor compreensão dos conceitos sobre a associação entre variáveis nominais, vamos precisar revisar os conceitos de probabilidade condicional e independência.

Definição: Probabilidade condicional é a probabilidade de ocorrência de um evento, dado que outro evento adjacente ocorreu. Definimos a probabilidade condicional de A, dado que ocorreu B como \(P(A|B)\). Seu cálculo é realizado da seguinte forma:

\[ P(A|B) = \dfrac{P(A \cap B)}{P(B)} \]

Probabilidade condicional

Exemplo: dada nossa amostra de penguins, qual a probabilidade de eu sortear um penguim da espécie Adelie, dado que ele vive na ilha Biscoe?

	Biscoe	Dream	Torgersen	Total
Adelie	44	56	52	152
Chinstrap	0	68	0	68
Gentoo	124	0	0	124
Total	168	124	52	344

Considere os eventos:

A - O penguim sorteado é da espécie Adelie.
B - O penguim vive na ilha Biscoe

Revisão - Probabilidade condicional

Pela definição de probabilidade condicional, temos:

\[ P(A|B) = \dfrac{P(A \cap B)}{P(B)} \]

De nossa tabela, obtemos os seguintes valores:

\[P(A \cap B) = \dfrac{44}{344} \text{ e } P(B) = \dfrac{168}{344}.\]

Logo

\[P(A|B) = \dfrac{\frac{44}{344}}{\frac{168}{344}} = \dfrac{44}{168} = 0,262\]

Assim, a probabilidade de selecionar ao acaso um penguim Adelie na ilha de Biscoe é 0,262.

Revisão - Independência entre duas variáveis

Definição - Eventos independentes: Dois eventos são ditos independentes se a ocorrência de um, não afeta a probabilidade de ocorrência do outro. Em termos probabilísticos, dois eventos serão independentes se:

\[ P(A|B) = P(A) \]Se substituirmos a probabilidade acima na fórmula de probabilidade condicional, temos

\[ P(A|B) = \dfrac{P(A\cap B)}{P(B)} \iff P(A) = \dfrac{P(A\cap B)}{P(B)} \iff \]

\[ \iff P(A)P(B) = P(A\cap B) \]

Ou seja, dois eventos são independentes se a probabilidade de sua interseção é igual ao produto de suas probabilidades.

Revisão - Independência entre duas variáveis

Por exemplo, não podemos afirmar que, nessa amostra, os eventos penguim ser da espécie Adelie (A) e viver na ilha Biscoe (B) são independentes, pois:

\[P(A\cap B) = 0,127 \neq P(A)P(B) = \dfrac{152}{344}\dfrac{168}{344} = 0,215\]

Para afirmar que duas variáveis qualitativas nominais são independentes, todos as combinações de eventos devem ser independentes entre si.

Revisão - Independência entre duas variáveis

Assim, podemos verificar se duas variáveis aleatórias qualitativas são independentes se todas as probabilidades das interseções for igual ao produto das probabilidades marginais, indicando que todos os eventos gerados pelos níveis de cada variávei são independentes entre si.

Abaixo temos duas tabelas. Em uma delas as variáveis aleatórias são independentes, na outra não são independentes, ambas com as mesmas probabilidades marginais.

	Nível 1	Nível 2	Total
Nível 1	0.08	0.32	0.4
Nível 2	0.12	0.48	0.6
Total	0.2	0.8	1

	Nível 1	Nível 2	Total
Nível 1	0.08	0.32	0.4
Nível 2	0.12	0.48	0.6
Total	0.2	0.8	1

Associação entre variáveis qualitativas nominais

Para compreender como se dá a associação entre duas variáveis quantitativas, vamos usar um exemplo de nosso conjunto de dados sobre peso de recém-nascidos.

A tabela de contingência a seguir repesenta a relação entre as variáveis mãe fumante (fumo) e baixo peso ao nascer (baixo):

	Não fumante	Fumante	Sum
Peso normal	86	44	130
Baixo peso	29	30	59
Sum	115	74	189

Associação entre variáveis qualitativas nominais

Vamos observar as proporções de cada combinação de níveis:

	Não fumante	Fumante	Sum
Peso normal	0.455	0.2328	0.6878
Baixo peso	0.1534	0.1587	0.3122
Sum	0.6085	0.3915	1

Se a tabela acima representasse uma variável aleatória, poderíamos afirmar que as variáveis não são independentes, pois, por exemplo,

\[ P(\text{Peso normal} \cap \text{Não fumante}) = 0,455 \neq 0,6085 \times 0,6878 = 0,4185 \]

Porém, como se trata de uma amostra, não podemos fazer essa afirmação. É necessário considerar a variação amostral. Essa amostra pode ser proveniente de uma população cujas variáveis são independentes.

Associação entre variáveis qualitativas nominais

Supondo que as variáveis fossem independentes, fixados os totais de bebês por peso e por mãe fumante ou não fumante, esperaríamos ter as seguintes proporções:

	Não fumante	Fumante	Sum
Peso normal	0.4185	0.2693	0.6878
Baixo peso	0.1899	0.1222	0.3122
Sum	0.6085	0.3915	1

Observe que cada interseção é igual ao produto das marginais. Por exemplo,

\[ P(\text{Peso normal} \cap \text{Não fumante}) = 0,4185 = 0,6085 \times 0,6878 \]

Associação entre variáveis qualitativas nominais

Agora vamos comparar as tabelas com as proporções observadas e aquelas que esperaríamos observar se os dados são indepententes

	Não fumante	Fumante	Sum
Peso normal	0.455	0.2328	0.6878
Baixo peso	0.1534	0.1587	0.3122
Sum	0.6085	0.3915	1

	Não fumante	Fumante	Sum
Peso normal	0.4185	0.2693	0.6878
Baixo peso	0.1899	0.1222	0.3122
Sum	0.6085	0.3915	1

Apesar de não serem idênticas, existe alguma semelhança entre as proporções das tabelas.

Associação entre variáveis qualitativas nominais

Se multiplicarmos essas proporções pelo tamanho da amostra, teremos tabelas com as quantidades de bebês em cada classificação:

	Não fumante	Fumante	Sum
Peso normal	86	44	130
Baixo peso	29	30	59
Sum	115	74	189

	Não fumante	Fumante	Sum
Peso normal	79.1	50.9	130
Baixo peso	35.9	23.1	59
Sum	115	74	189

Frequências observadas e esperadas

Na primeira tabela, temos as frequências que de fato ocorreram na amostra. Essa frequência “real”, é dita frequência observada.

Já a segunda tabela exibe uma frequência que deveria ser observada, caso não houvesse uma relação tangível entre as variáveis, ou seja, caso elas fossem independentes.

A segunda tabela é dita frequência esperada. É o que esperamos que ocorra caso as relações sejam distribuídas ao mero acaso, sem dependência entre as variáveis.

Utilizaremos essas duas tabelas para construir nosso teste para verificar a independência entre duas variáveis qualitativas nominais

Teste Qui-quadrado de independência

Suponha que queiramos testar se duas variáveis qualitativas nominais X e Y são independentes, ou seja, testar as seguintes hipóteses:

\(H_0:\) As variáveis X e Y são independentes
\(H_1:\) As variáveis X e Y não são independentes

Suponha que a variável X tenha os níveis X1 e X2, e a variável Y tenha os níveis Y1 e Y2. A partir da amostra, de tamanho \(n\), podemos construir uma tabela de contingência., que será uma tabela 2x2.

Teste Qui-quadrado de independência

Esses seriam os valores observados na amostra:

	Y1	Y2	Total
X1	\(o_1\)	\(o_2\)	\(o_1 + o_2\)
X2	\(o_3\)	\(o_4\)	\(o_3 + o_4\)
Total	\(o_1 + o_3\)	\(o_2 + o_4\)	\(n\)

em que \(n = o_1 + o_. 2 + o_3 + o_4\).

Ou seja, temos:

\(o_1\) elementos na amostra nos quais se observou os níveis X1 e Y1,
\(o_2\) elementos na amostra nos quais se observou os níveis X1 e Y2,
\(o_3\) elementos na amostra nos quais se observou os níveis X2 e Y1,
\(o_4\) elementos na amostra nos quais se observou os níveis X2 e Y2,

Teste Qui-quadrado de independência

Se considerarmos a hipótese nula (\(H_0\)) verdadeira, ou seja, X e Y são independentes, os valores esperados seriam dados conforme a tabela a seguir:

	Y1	Y2	Total
X1	\(e_1 = \dfrac{(o_1 + o_2)(o_1 + o_3)}{n}\)	\(e_2 = \dfrac{(o_1 + o_2)(o_2 + o_4)}{n}\)	\(o_1 + o_2\)
X2	\(e_3 = \dfrac{(o_1 + o_3)(o_3 + o_4)}{n}\)	\(e_4 = \dfrac{(o_2 + o_4)(o_3 + o_4)}{n}\)	\(o_3 + o_4\)
Total	\(o_1 + o_3\)	\(o_2 + o_4\)	\(n\)

Teste Qui-quadrado de independência

Ou seja, teríamos as seguintes tabelas de valores observados e esperados:

Frequências observadas
	Y1	Y2	Total
X1	\(o_1\)	\(o_2\)	\(o_1 + o_2\)
X2	\(o_3\)	\(o_4\)	\(o_3 + o_4\)
Total	\(o_1 + o_3\)	\(o_2 + o_4\)	\(n\)

Frequências esperadas
	Y1	Y2	Total
X1	\(e_1\)	\(e_2\)	\(o_1 + o_2\)
X2	\(e_3\)	\(e_4\)	\(o_3 + o_4\)
Total	\(o_1 + o_3\)	\(o_2 + o_4\)	\(n\)

Caso as variáveis sejam independentes, espera-se que a distância entre os valores observados e os respectivos valores esperados sejam pequenas.

Caso contrário, as distâncias seriam grandes, pois os valores esperados seriam muito diferentes dos valores observados.

A distância entre os valores observados e esperados é dada por:

\[ (o_i - e_i)^2 \]

Teste Qui-quadrado de independência

Uma boa forma de quantificar essa distância para toda a tabela, seria somar as distâncias para cada valor.

Caso os valores sejam significativamente distantes, tal soma apresentaria um valor grande e as evidências apontariam para a existência de uma dependência entre as variáveis.

A soma das distâncias fica dada por:

\[ \sum\limits_{i = 1}^{r \times c}(o_i - e_i)^2 \]

em que

\(r\) é o número de níveis da variável 1 e
\(c\) é o número de níveis da variável 2.

Teste Qui-quadrado de independência

Para testar se soma das distâncias entre os valores observados e esperados é grande, utiliza-se a distribuição Qui-quadrado (\(\chi^2\) ), e daí surge o nome do teste.

A distribuição qui-quadrado é uma distribuição positiva e assimétrica à direita. Ela pode ser obtida diretamente da distribuição normal.

É possível demonstrar que a seguinte quantidade segue uma distribuição qui-quadrado com \((r-1)(c-1)\) graus de liberdade,

\[ \chi^2_{calc} = \sum\limits_{i = 1}^{r \times c}\dfrac{(o_i - e_i)^2}{e_i^2} \]

A demonstração foge do escopo de nosso curso e não será apresentada.

Utilizaremos essa estatística e a distribuição qui-quadrado para calcular se a distância total entre os valores observados e esperados é significativa, ou seja, o p-valor de nosso teste.

Distâncias grandes levarão à p-valores significativos (menores que \(\alpha\)), nos levando a não aceitar a hipótese de independência.

Teste Qui-quadrado de independência

Para concluir, vamos relembrar as hipóteses do teste:

\(H_0:\) As variáveis X e Y são independentes
\(H_1:\) As variáveis X e Y não são independentes

Caso o p-valor não seja significativo (maior que \(\alpha\)), não rejeitaremos a hipótese nula. Ou seja, as variáveis são independentes, o que significa que não existe relação entre as variáveis. A ocorrência de uma variável não afeta a ocorrência da outra.

Caso o p-valor seja significativo, não aceitaremos a hipótese nula. Ou seja, existe uma relação entre as variáveis. A ocorrência de uma variável afeta a ocorrência da outra.

Teste qui-quadrado no R

O teste qui-quadrado é realizado no R por meio da função chisq.test. Para o teste de independência ela tem como único parâmetro uma tabela de contingência, gerada com a função table(x, y), em que:

x - variável qualitativa nominal
y - variável qualitativa nominal

Para exemplificar, vamos concluir nossa análise sobre a associação entre bebês com baixo peso e mães fumantes.

Exemplo 1 - Associação entre fumo durante a gestação e baixo peso

Vamos analisar se existe, na população em estudo, uma relação entre o fumo na gestação (fumo) e o nascimento do recém nascido com baixo peso (baixo).

A tabela de contingência pode ser obtida da seguinte forma:

#Tabela de contingência - Fumo x peso do recém nascido
tabela_peso_fumo <- table(peso$peso, peso$fumo)

#Adicionando os totais
addmargins(tabela_peso_fumo)

             
              Fumante Não fumante Sum
  Baixo peso       30          29  59
  Peso normal      44          86 130
  Sum              74         115 189

Vamos analisar o gráfico de barras agrupadas

Exemplo 1 - Associação entre fumo durante a gestação e baixo peso

#Gráfico de barras - Peso no nascimento x fumo durante a gestação
barplot(tabela_peso_fumo, legend.text = T, beside = T, col = c("orange", "brown"))

Aparentemente, há uma maior proporção de bebês de peso normal entre as mães não fumantes, ou seja, aparentemente o hábito de fumar está relacionado com uma maior proporção de bebês com baixo peso. Vamos executar o teste para verificar se a associação é significativa.

Exemplo 1 - Associação entre fumo durante a gestação e baixo peso

Queremos testar as seguintes hipóteses:

\(H_0\): As ocorrências de baixo peso em recém nascidos não está relacionada ao hábito de fumar durante a gestação da mãe (são independentes).
\(H_1\): As ocorrências de baixo peso em recém nascidos está relacionada ao hábito de fumar durante a gestação da mãe (não são independentes).

Para efetuar o teste, utilizaremos a função chisq.test na nossa tabela tabela_peso_fumo.

Exemplo 1 - Associação entre fumo durante a gestação e baixo peso

Vamos realizar o teste com 5% de significância.

#Teste qui-quadrado de associação entre as variáveis fumo e baixo peso
chisq.test(tabela_peso_fumo)


    Pearson's Chi-squared test with Yates' continuity correction

data:  tabela_peso_fumo
X-squared = 4.2359, df = 1, p-value = 0.03958

Como o p-valor é menor que o nível de significância (p-valor < 0,05), temos evidências que nos levam a não aceitar a hipótese nula.

Portanto, podemos concluir ao nível de 5% de significância que, na população em estudo, existe uma relação entre a ocorrência de baixo peso em recém nascidos e o hábito de fumar durante a gestação das mães.

Exemplo 2 - Penguins por ilha

Em nossa última aula, começamos a analisar se existe uma associação entre a espécie de penguins que reside em cada ilha. Obtivemos a seguinte tabela de contingência:

	Biscoe	Dream	Torgersen	Total
Adelie	44	56	52	152
Chinstrap	0	68	0	68
Gentoo	124	0	0	124
Total	168	124	52	344

Aparentemente, há uma preferência de espécies por determinadas ilhas.

Agora podemos usar o teste qui-quadrado para testar se a associação é significativa.

Exemplo 2 - Penguins por ilha

Vamos usar o teste qui-quadrado para testar, ao nível de 5% de significãncia, as seguintes hipóteses:

\(H_0:\) Não há nenhuma associação entre a espécie de penguins e a ilha na qual ele vive (são independentes)
\(H_1:\) Existe associação entre a espécie de penguins e a ilha na qual ele vive (não são independentes)

Vejamos o resultado do teste

#Teste qui-quadrado de associação - Espécies por ilha
chisq.test(tab_especie_ilha)


    Pearson's Chi-squared test

data:  tab_especie_ilha
X-squared = 299.55, df = 9, p-value < 2.2e-16

Ao nível de 5% de significância, podemos afirmar que existe na população estudada uma associação entre a espécie e a ilha de residência. Ou seja, algum fator é preponderante na escolha da ilha de residência entre as espécies.

Exemplo 2 - Penguins por ilha

Podemos utilizar a tabela e os gráficos para compreender a associação existente.

#Gráfico de barras empilhadas - Penguins por espécie e ilha
barplot(tab_especie_ilha[-4,-4], legend.text = T, beside = T, 
        col = c("lightblue1", "lightblue3", "lightblue4"))

Os penguins Adelie não apresentam nenhuma preferência. Já os penguins Chinstrap e Gentoo não são observados em uma mesma ilha. Possivelmente eles competem entre si por algum recurso.

Exercício prático

Com os dados do banco de dados de peso de recém-nascidos, erifique se existe alguma relação entre a ocorrência de baixo peso e hipertensão da mãe. Realize os seguintes procedimentos:

Análise da tabela de contingência
Análise gráfica
Teste de hipóteses ao nível de 5% de significância.

Exercício prático - Resolução

Primeiramente, vamos analisar a tabela de contingência

#Tabela de contingências - Peso de recém nascido x hipertensão
tab_peso_hiper <- table(peso$peso, peso$hipert)
addmargins(tab_peso_hiper)

             
              Mãe hipertensa Mãe saudável Sum
  Baixo peso               7           52  59
  Peso normal              5          125 130
  Sum                     12          177 189

Em termos proporcionais, aparentemente há uma maior prevalência de bebês de baixo peso em mãe hipertensas.

Vamos analisar essa tendência graficamente.

Exercício prático - Resolução

#Gráfico de barras - Peso de recém nascido x hipertensão
barplot(tab_peso_hiper, legend.text = T, beside = T, 
        col = c("darkred", "lightblue"), args.legend = list(x = "topleft"))

Entre as mães hipertensas, a ocorrência de baixo peso supera as ocorrências de peso normal. Tal tendência é invertida entre as mães saudáveis.

Exercício prático - Resolução

Vamos testar se a tendência é significativa com o teste qui-quadrado. Queremos testar as seguintes hipóteses:

\(H_0:\) Não há nenhuma associação entre baixo peso do recém nascido e a ocorrência de hipertensão na mãe (são independentes).
\(H_1:\) Existe associação entre baixo peso do recém nascido e a ocorrência de hipertensão na mãe (não são independentes).

#Teste qui-quadrado de associação - Peso de recém-nascidos e mãe hipertensa
chisq.test(tab_peso_hiper)


    Pearson's Chi-squared test with Yates' continuity correction

data:  tab_peso_hiper
X-squared = 3.1431, df = 1, p-value = 0.07625

Como o p-valor é maior que o nível de significância, não rejeitamos a hipótese nula. Logo, ao nível de 5% de significância, podemos afirmar que, na população em estudo, não existe associação entre a incidência de hipertensão da mãe e a ocorrência de baixo peso no recém-nascido.

Exercícios

Verifique a existência de relação entre as variáveis a seguir, do conjuntos de dados peso. Siga os seguintes passos:

Análise da tabela de contingência
Análise gráfica
Teste de hipóteses ao nível de 5% de significância.

Peso do recém nascido e raça da mãe.
Hábito de fumo e raça da mãe.
Hábito de fumo e presença de hipertensão na mãe.