Biscoe | Dream | Torgersen | Total | |
---|---|---|---|---|
Adelie | 44 | 56 | 52 | 152 |
Chinstrap | 0 | 68 | 0 | 68 |
Gentoo | 124 | 0 | 0 | 124 |
Total | 168 | 124 | 52 | 344 |
EST212 - Bioestatística
Antes de iniciar nossa aula:
Abra o RStudio.
Crie um novo script.
Crie uma pasta na área de trabalho com seu nome.
Defina a pasta como diretório de trabalho
Salve o script criado na pasta com o nome "aula19_est212.R"
.
Baixe do Moodle os arquivos peso_gestacao.csv
e penguins.csv
.
Leia os arquivos listados acima para os objetos peso
e penguins
.
Para uma melhor compreensão dos conceitos sobre a associação entre variáveis nominais, vamos precisar revisar os conceitos de probabilidade condicional e independência.
Definição: Probabilidade condicional é a probabilidade de ocorrência de um evento, dado que outro evento adjacente ocorreu. Definimos a probabilidade condicional de A, dado que ocorreu B como \(P(A|B)\). Seu cálculo é realizado da seguinte forma:
\[ P(A|B) = \dfrac{P(A \cap B)}{P(B)} \]
Exemplo: dada nossa amostra de penguins, qual a probabilidade de eu sortear um penguim da espécie Adelie, dado que ele vive na ilha Biscoe?
Biscoe | Dream | Torgersen | Total | |
---|---|---|---|---|
Adelie | 44 | 56 | 52 | 152 |
Chinstrap | 0 | 68 | 0 | 68 |
Gentoo | 124 | 0 | 0 | 124 |
Total | 168 | 124 | 52 | 344 |
Considere os eventos:
A - O penguim sorteado é da espécie Adelie.
B - O penguim vive na ilha Biscoe
Pela definição de probabilidade condicional, temos:
\[ P(A|B) = \dfrac{P(A \cap B)}{P(B)} \]
De nossa tabela, obtemos os seguintes valores:
\[P(A \cap B) = \dfrac{44}{344} \text{ e } P(B) = \dfrac{168}{344}.\]
Logo
\[P(A|B) = \dfrac{\frac{44}{344}}{\frac{168}{344}} = \dfrac{44}{168} = 0,262\]
Assim, a probabilidade de selecionar ao acaso um penguim Adelie na ilha de Biscoe é 0,262.
Definição - Eventos independentes: Dois eventos são ditos independentes se a ocorrência de um, não afeta a probabilidade de ocorrência do outro. Em termos probabilísticos, dois eventos serão independentes se:
\[ P(A|B) = P(A) \]Se substituirmos a probabilidade acima na fórmula de probabilidade condicional, temos
\[ P(A|B) = \dfrac{P(A\cap B)}{P(B)} \iff P(A) = \dfrac{P(A\cap B)}{P(B)} \iff \]
\[ \iff P(A)P(B) = P(A\cap B) \]
Ou seja, dois eventos são independentes se a probabilidade de sua interseção é igual ao produto de suas probabilidades.
Por exemplo, não podemos afirmar que, nessa amostra, os eventos penguim ser da espécie Adelie (A) e viver na ilha Biscoe (B) são independentes, pois:
\[P(A\cap B) = 0,127 \neq P(A)P(B) = \dfrac{152}{344}\dfrac{168}{344} = 0,215\]
Para afirmar que duas variáveis qualitativas nominais são independentes, todos as combinações de eventos devem ser independentes entre si.
Assim, podemos verificar se duas variáveis aleatórias qualitativas são independentes se todas as probabilidades das interseções for igual ao produto das probabilidades marginais, indicando que todos os eventos gerados pelos níveis de cada variávei são independentes entre si.
Abaixo temos duas tabelas. Em uma delas as variáveis aleatórias são independentes, na outra não são independentes, ambas com as mesmas probabilidades marginais.
Nível 1 | Nível 2 | Total | |
---|---|---|---|
Nível 1 | 0.08 | 0.32 | 0.4 |
Nível 2 | 0.12 | 0.48 | 0.6 |
Total | 0.2 | 0.8 | 1 |
Nível 1 | Nível 2 | Total | |
---|---|---|---|
Nível 1 | 0.08 | 0.32 | 0.4 |
Nível 2 | 0.12 | 0.48 | 0.6 |
Total | 0.2 | 0.8 | 1 |
Para compreender como se dá a associação entre duas variáveis quantitativas, vamos usar um exemplo de nosso conjunto de dados sobre peso de recém-nascidos.
A tabela de contingência a seguir repesenta a relação entre as variáveis mãe fumante (fumo
) e baixo peso ao nascer (baixo
):
Não fumante | Fumante | Sum | |
---|---|---|---|
Peso normal | 86 | 44 | 130 |
Baixo peso | 29 | 30 | 59 |
Sum | 115 | 74 | 189 |
Vamos observar as proporções de cada combinação de níveis:
Não fumante | Fumante | Sum | |
---|---|---|---|
Peso normal | 0.455 | 0.2328 | 0.6878 |
Baixo peso | 0.1534 | 0.1587 | 0.3122 |
Sum | 0.6085 | 0.3915 | 1 |
Se a tabela acima representasse uma variável aleatória, poderíamos afirmar que as variáveis não são independentes, pois, por exemplo,
\[ P(\text{Peso normal} \cap \text{Não fumante}) = 0,455 \neq 0,6085 \times 0,6878 = 0,4185 \]
Porém, como se trata de uma amostra, não podemos fazer essa afirmação. É necessário considerar a variação amostral. Essa amostra pode ser proveniente de uma população cujas variáveis são independentes.
Supondo que as variáveis fossem independentes, fixados os totais de bebês por peso e por mãe fumante ou não fumante, esperaríamos ter as seguintes proporções:
Não fumante | Fumante | Sum | |
---|---|---|---|
Peso normal | 0.4185 | 0.2693 | 0.6878 |
Baixo peso | 0.1899 | 0.1222 | 0.3122 |
Sum | 0.6085 | 0.3915 | 1 |
Observe que cada interseção é igual ao produto das marginais. Por exemplo,
\[ P(\text{Peso normal} \cap \text{Não fumante}) = 0,4185 = 0,6085 \times 0,6878 \]
Agora vamos comparar as tabelas com as proporções observadas e aquelas que esperaríamos observar se os dados são indepententes
Não fumante | Fumante | Sum | |
---|---|---|---|
Peso normal | 0.455 | 0.2328 | 0.6878 |
Baixo peso | 0.1534 | 0.1587 | 0.3122 |
Sum | 0.6085 | 0.3915 | 1 |
Não fumante | Fumante | Sum | |
---|---|---|---|
Peso normal | 0.4185 | 0.2693 | 0.6878 |
Baixo peso | 0.1899 | 0.1222 | 0.3122 |
Sum | 0.6085 | 0.3915 | 1 |
Apesar de não serem idênticas, existe alguma semelhança entre as proporções das tabelas.
Se multiplicarmos essas proporções pelo tamanho da amostra, teremos tabelas com as quantidades de bebês em cada classificação:
Não fumante | Fumante | Sum | |
---|---|---|---|
Peso normal | 86 | 44 | 130 |
Baixo peso | 29 | 30 | 59 |
Sum | 115 | 74 | 189 |
Não fumante | Fumante | Sum | |
---|---|---|---|
Peso normal | 79.1 | 50.9 | 130 |
Baixo peso | 35.9 | 23.1 | 59 |
Sum | 115 | 74 | 189 |
Na primeira tabela, temos as frequências que de fato ocorreram na amostra. Essa frequência “real”, é dita frequência observada.
Já a segunda tabela exibe uma frequência que deveria ser observada, caso não houvesse uma relação tangível entre as variáveis, ou seja, caso elas fossem independentes.
A segunda tabela é dita frequência esperada. É o que esperamos que ocorra caso as relações sejam distribuídas ao mero acaso, sem dependência entre as variáveis.
Utilizaremos essas duas tabelas para construir nosso teste para verificar a independência entre duas variáveis qualitativas nominais
Suponha que queiramos testar se duas variáveis qualitativas nominais X e Y são independentes, ou seja, testar as seguintes hipóteses:
\(H_0:\) As variáveis X e Y são independentes
\(H_1:\) As variáveis X e Y não são independentes
Suponha que a variável X tenha os níveis X1 e X2, e a variável Y tenha os níveis Y1 e Y2. A partir da amostra, de tamanho \(n\), podemos construir uma tabela de contingência., que será uma tabela 2x2.
Esses seriam os valores observados na amostra:
Y1 | Y2 | Total | |
---|---|---|---|
X1 | \(o_1\) | \(o_2\) | \(o_1 + o_2\) |
X2 | \(o_3\) | \(o_4\) | \(o_3 + o_4\) |
Total | \(o_1 + o_3\) | \(o_2 + o_4\) | \(n\) |
em que \(n = o_1 + o_. 2 + o_3 + o_4\).
Ou seja, temos:
\(o_1\) elementos na amostra nos quais se observou os níveis X1 e Y1,
\(o_2\) elementos na amostra nos quais se observou os níveis X1 e Y2,
\(o_3\) elementos na amostra nos quais se observou os níveis X2 e Y1,
\(o_4\) elementos na amostra nos quais se observou os níveis X2 e Y2,
Se considerarmos a hipótese nula (\(H_0\)) verdadeira, ou seja, X e Y são independentes, os valores esperados seriam dados conforme a tabela a seguir:
Y1 | Y2 | Total | |
---|---|---|---|
X1 | \(e_1 = \dfrac{(o_1 + o_2)(o_1 + o_3)}{n}\) | \(e_2 = \dfrac{(o_1 + o_2)(o_2 + o_4)}{n}\) | \(o_1 + o_2\) |
X2 | \(e_3 = \dfrac{(o_1 + o_3)(o_3 + o_4)}{n}\) | \(e_4 = \dfrac{(o_2 + o_4)(o_3 + o_4)}{n}\) | \(o_3 + o_4\) |
Total | \(o_1 + o_3\) | \(o_2 + o_4\) | \(n\) |
Ou seja, teríamos as seguintes tabelas de valores observados e esperados:
Y1 | Y2 | Total | |
---|---|---|---|
X1 | \(o_1\) | \(o_2\) | \(o_1 + o_2\) |
X2 | \(o_3\) | \(o_4\) | \(o_3 + o_4\) |
Total | \(o_1 + o_3\) | \(o_2 + o_4\) | \(n\) |
Y1 | Y2 | Total | |
---|---|---|---|
X1 | \(e_1\) | \(e_2\) | \(o_1 + o_2\) |
X2 | \(e_3\) | \(e_4\) | \(o_3 + o_4\) |
Total | \(o_1 + o_3\) | \(o_2 + o_4\) | \(n\) |
Caso as variáveis sejam independentes, espera-se que a distância entre os valores observados e os respectivos valores esperados sejam pequenas.
Caso contrário, as distâncias seriam grandes, pois os valores esperados seriam muito diferentes dos valores observados.
A distância entre os valores observados e esperados é dada por:
\[ (o_i - e_i)^2 \]
Uma boa forma de quantificar essa distância para toda a tabela, seria somar as distâncias para cada valor.
Caso os valores sejam significativamente distantes, tal soma apresentaria um valor grande e as evidências apontariam para a existência de uma dependência entre as variáveis.
A soma das distâncias fica dada por:
\[ \sum\limits_{i = 1}^{r \times c}(o_i - e_i)^2 \]
em que
\(r\) é o número de níveis da variável 1 e
\(c\) é o número de níveis da variável 2.
Para testar se soma das distâncias entre os valores observados e esperados é grande, utiliza-se a distribuição Qui-quadrado (\(\chi^2\) ), e daí surge o nome do teste.
A distribuição qui-quadrado é uma distribuição positiva e assimétrica à direita. Ela pode ser obtida diretamente da distribuição normal.
É possível demonstrar que a seguinte quantidade segue uma distribuição qui-quadrado com \((r-1)(c-1)\) graus de liberdade,
\[ \chi^2_{calc} = \sum\limits_{i = 1}^{r \times c}\dfrac{(o_i - e_i)^2}{e_i^2} \]
A demonstração foge do escopo de nosso curso e não será apresentada.
Utilizaremos essa estatística e a distribuição qui-quadrado para calcular se a distância total entre os valores observados e esperados é significativa, ou seja, o p-valor de nosso teste.
Distâncias grandes levarão à p-valores significativos (menores que \(\alpha\)), nos levando a não aceitar a hipótese de independência.
Para concluir, vamos relembrar as hipóteses do teste:
\(H_0:\) As variáveis X e Y são independentes
\(H_1:\) As variáveis X e Y não são independentes
Caso o p-valor não seja significativo (maior que \(\alpha\)), não rejeitaremos a hipótese nula. Ou seja, as variáveis são independentes, o que significa que não existe relação entre as variáveis. A ocorrência de uma variável não afeta a ocorrência da outra.
Caso o p-valor seja significativo, não aceitaremos a hipótese nula. Ou seja, existe uma relação entre as variáveis. A ocorrência de uma variável afeta a ocorrência da outra.
O teste qui-quadrado é realizado no R por meio da função chisq.test
. Para o teste de independência ela tem como único parâmetro uma tabela de contingência, gerada com a função table(x, y)
, em que:
x
- variável qualitativa nominal
y
- variável qualitativa nominal
Para exemplificar, vamos concluir nossa análise sobre a associação entre bebês com baixo peso e mães fumantes.
Vamos analisar se existe, na população em estudo, uma relação entre o fumo na gestação (fumo
) e o nascimento do recém nascido com baixo peso (baixo
).
A tabela de contingência pode ser obtida da seguinte forma:
#Tabela de contingência - Fumo x peso do recém nascido
tabela_peso_fumo <- table(peso$peso, peso$fumo)
#Adicionando os totais
addmargins(tabela_peso_fumo)
Fumante Não fumante Sum
Baixo peso 30 29 59
Peso normal 44 86 130
Sum 74 115 189
Vamos analisar o gráfico de barras agrupadas
Aparentemente, há uma maior proporção de bebês de peso normal entre as mães não fumantes, ou seja, aparentemente o hábito de fumar está relacionado com uma maior proporção de bebês com baixo peso. Vamos executar o teste para verificar se a associação é significativa.
Queremos testar as seguintes hipóteses:
\(H_0\): As ocorrências de baixo peso em recém nascidos não está relacionada ao hábito de fumar durante a gestação da mãe (são independentes).
\(H_1\): As ocorrências de baixo peso em recém nascidos está relacionada ao hábito de fumar durante a gestação da mãe (não são independentes).
Para efetuar o teste, utilizaremos a função chisq.test
na nossa tabela tabela_peso_fumo
.
Vamos realizar o teste com 5% de significância.
Pearson's Chi-squared test with Yates' continuity correction
data: tabela_peso_fumo
X-squared = 4.2359, df = 1, p-value = 0.03958
Como o p-valor é menor que o nível de significância (p-valor < 0,05), temos evidências que nos levam a não aceitar a hipótese nula.
Portanto, podemos concluir ao nível de 5% de significância que, na população em estudo, existe uma relação entre a ocorrência de baixo peso em recém nascidos e o hábito de fumar durante a gestação das mães.
Em nossa última aula, começamos a analisar se existe uma associação entre a espécie de penguins que reside em cada ilha. Obtivemos a seguinte tabela de contingência:
Biscoe | Dream | Torgersen | Total | |
---|---|---|---|---|
Adelie | 44 | 56 | 52 | 152 |
Chinstrap | 0 | 68 | 0 | 68 |
Gentoo | 124 | 0 | 0 | 124 |
Total | 168 | 124 | 52 | 344 |
Aparentemente, há uma preferência de espécies por determinadas ilhas.
Agora podemos usar o teste qui-quadrado para testar se a associação é significativa.
Vamos usar o teste qui-quadrado para testar, ao nível de 5% de significãncia, as seguintes hipóteses:
\(H_0:\) Não há nenhuma associação entre a espécie de penguins e a ilha na qual ele vive (são independentes)
\(H_1:\) Existe associação entre a espécie de penguins e a ilha na qual ele vive (não são independentes)
Vejamos o resultado do teste
Pearson's Chi-squared test
data: tab_especie_ilha
X-squared = 299.55, df = 9, p-value < 2.2e-16
Ao nível de 5% de significância, podemos afirmar que existe na população estudada uma associação entre a espécie e a ilha de residência. Ou seja, algum fator é preponderante na escolha da ilha de residência entre as espécies.
Podemos utilizar a tabela e os gráficos para compreender a associação existente.
Os penguins Adelie não apresentam nenhuma preferência. Já os penguins Chinstrap e Gentoo não são observados em uma mesma ilha. Possivelmente eles competem entre si por algum recurso.
Com os dados do banco de dados de peso de recém-nascidos, erifique se existe alguma relação entre a ocorrência de baixo peso e hipertensão da mãe. Realize os seguintes procedimentos:
Análise da tabela de contingência
Análise gráfica
Teste de hipóteses ao nível de 5% de significância.
Primeiramente, vamos analisar a tabela de contingência
#Tabela de contingências - Peso de recém nascido x hipertensão
tab_peso_hiper <- table(peso$peso, peso$hipert)
addmargins(tab_peso_hiper)
Mãe hipertensa Mãe saudável Sum
Baixo peso 7 52 59
Peso normal 5 125 130
Sum 12 177 189
Em termos proporcionais, aparentemente há uma maior prevalência de bebês de baixo peso em mãe hipertensas.
Vamos analisar essa tendência graficamente.
Entre as mães hipertensas, a ocorrência de baixo peso supera as ocorrências de peso normal. Tal tendência é invertida entre as mães saudáveis.
Vamos testar se a tendência é significativa com o teste qui-quadrado. Queremos testar as seguintes hipóteses:
\(H_0:\) Não há nenhuma associação entre baixo peso do recém nascido e a ocorrência de hipertensão na mãe (são independentes).
\(H_1:\) Existe associação entre baixo peso do recém nascido e a ocorrência de hipertensão na mãe (não são independentes).
#Teste qui-quadrado de associação - Peso de recém-nascidos e mãe hipertensa
chisq.test(tab_peso_hiper)
Pearson's Chi-squared test with Yates' continuity correction
data: tab_peso_hiper
X-squared = 3.1431, df = 1, p-value = 0.07625
Como o p-valor é maior que o nível de significância, não rejeitamos a hipótese nula. Logo, ao nível de 5% de significância, podemos afirmar que, na população em estudo, não existe associação entre a incidência de hipertensão da mãe e a ocorrência de baixo peso no recém-nascido.
Verifique a existência de relação entre as variáveis a seguir, do conjuntos de dados peso
. Siga os seguintes passos:
Análise da tabela de contingência
Análise gráfica
Teste de hipóteses ao nível de 5% de significância.
Peso do recém nascido e raça da mãe.
Hábito de fumo e raça da mãe.
Hábito de fumo e presença de hipertensão na mãe.