Testes estatísticos de associação e correlação

Prof. Letícia Raposo

UNIRIO

Associação entre variáveis qualitativas

🙇🏻 Vamos imaginar a seguinte situação…


Queremos saber se homens ou mulheres gostam mais de chocolate. Para isso, coletamos uma amostra de 100 homens e mulheres e perguntamos a cada um deles se gostam não de chocolate.

Gosta Não gosta Total
Mulher 51 5 56
Homem 29 15 44
Total 80 20 100


Será que o gênero está associado a gostar de chocolate?

Introdução

  • Os testes que veremos agora são usados para determinar se duas variáveis qualitativas estão associadas.
  • A análise se dá por meio da tabela de frequências (isto é, a tabela de contingência) formada por duas variáveis qualitativas.
  • Testes qui-quadrado de Pearson e exato de Fisher.

Teste qui-quadrado de Pearson

Karl Pearson (1857 - 1936)

Teste qui-quadrado de Pearson

  • O termo “independente” pode ser usado para indicar que não há associação entre as variáveis.
  • Em geral, não há suposições sobre a distribuição dos dados para esses testes.
  • Para esses testes de associação, não deve haver valores pareados.
    • P. ex., se as unidades experimentais são “indivíduos antes” e “indivíduos depois” ou “pés esquerdos” e “pés direitos”, os testes que veremos aqui não são apropriados.

Pressupostos

  • Os níveis (ou categorias) das variáveis são mutuamente exclusivos;
  • Duas variáveis qualitativas com dois ou mais níveis cada;
  • As unidades de observação não são pareadas.

Pressupostos do teste qui-quadrado

O valor esperado das células deve ser 5 ou mais em pelo menos 80% das células, e nenhuma célula deve ter um valor esperado menor que um.

Quando os dados não apresentam essas condições, podemos utilizar como alternativa o teste exato de Fisher.

Hipóteses

  • H0: não há associação entre as duas variáveis, ou seja, as variáveis de linha e coluna da tabela de contingência são independentes.
  • HA: existe uma associação entre as duas variáveis, ou seja, as variáveis de linha e coluna são dependentes.

Como o teste qui-quadrado funciona?

Para cada célula da tabela, temos que calcular o valor esperado sob H0. Para uma determinada célula, o valor esperado é calculado da seguinte forma:


\(e=\frac{soma.linha \times soma.coluna}{total.tabela}\)

Como o teste qui-quadrado funciona?

Célula Mulher x Gosta:

\(e=\frac{56 \times 80}{100}=44,8\)
Gosta Não gosta Total
Mulher 51 (44,8) 5 (11,2) 56
Homem 29 (35,2) 15 (8,8) 44
Total 80 20 100

Como o teste qui-quadrado funciona?

Após ter calculado todos os valores esperados, calculamos a estatística do teste por meio da fórmula:

\(\chi^{2}=\sum\frac{(o-e)^{2}}{e}\)

em que \(o\) representa os valores observados, ou seja, os valores da tabela, e \(e\) são os valores esperados calculados.

Como o teste qui-quadrado funciona?

Gosta Não gosta Total
Mulher \(\frac{(51-44,8)^2}{44,8}=0,86\) \(\frac{(5-11,2)^2}{11,2}=3,43\) 56
Homem \(\frac{(29-35,2)^2}{35,2}=1,09\) \(\frac{(15-8,8)^2}{8,8}=4,37\) 44
Total 80 20 100


\(\chi^2=0,86+3,43+1,09+4,37=9,75\)

Como o teste qui-quadrado funciona?

Essa estatística qui-quadrado calculada é comparada ao valor crítico (obtido pelas tabelas estatísticas) com graus de liberdade \(gl = (l-1)\times(c-1)\), em que \(l\) é o número de linhas na tabela de contingência e \(c\) é o número de colunas na tabela de contingência.

Como interpretar os resultados?

  • Se a estatística qui-quadrado calculada for maior que o valor crítico (ou o valor-p está abaixo do nível de significância), devemos concluir que as variáveis de linha e coluna não são independentes uma da outra.
  • Isso implica que eles estão significativamente associados.
  • Resultados significativos podem ser reportados como “houve uma associação significativa entre a variável A e a variável B.”

Exemplo da literatura

Correlação entre variáveis numéricas

Introdução

A correlação explora a relação entre duas variáveis quantitativas.

  • A correlação determina se uma variável varia sistematicamente à medida que outra variável é alterada.
  • As duas formas de correlação apresentadas aqui são as de Pearson e Spearman.

Charles Spearman (1863 - 1945)

Introdução

  • O teste que determina o valor-p para a correlação de Pearson é um teste paramétrico que assume que os dados são normais.
  • A correlação de Spearman usa testes não paramétricos.

Introdução

Ao realizarmos um teste de correlação, dois resultados principais serão fornecidos:

  • o valor-p, para nos informar se aquela correlação é estatisticamente significativa, e
  • a correlação, ou seja, qual a intensidade do relacionamento entre as duas variáveis.

Teste de correlação de Pearson (r)

Pressupostos

  • As duas variáveis são intervalar ou razão;
  • Os dados são normais;
  • A relação entre as duas variáveis é linear. Os valores discrepantes podem afetar negativamente os resultados.

Hipóteses

  • H0: o coeficiente de correlação para a população amostrada é zero (ou seja, não há correlação linear entre as duas variáveis).
  • HA: o coeficiente de correlação para a população amostrada é diferente de zero (ou seja, há correlação linear entre as duas variáveis).

Como o teste funciona?

Para o teste de correlação de Pearson, iremos utilizar a fórmula abaixo:

\(r = \frac{\sum(x-m_{x})(y-m_{y})}{\sqrt{\sum(x-m_{x})^2\sum(y-m_{y})^2}}\)

Nesta fórmula, \(x\) e \(y\) são dois vetores de tamanho \(n\), e \(m_{x}\) e \(m_{y}\) corresponde às médias de \(x\) e \(y\), respectivamente.

Como o teste funciona?

O valor-p da correlação pode ser determinado usando a tabela de coeficientes de correlação para os graus de liberdade (\(gl = n-2\)), em que \(n\) é o número de observação nas variáveis \(x\) e \(y\).

Como interpretar os resultados?

  • Se observarmos nos resultados um valor-p abaixo do nível de significância, podemos relatar os resultados como “a variável A foi significativamente correlacionada à variável B”.
  • Alternativamente, “foi encontrada uma correlação significativa entre a variável A e a variável B”.

Teste de Correlação de Spearman (rho)

Pressupostos

  • As duas variáveis são intervalar ou razão ou ordinal.
  • Os valores em uma variável devem estar relacionadas monotonicamente* à outra variável.

Hipóteses

  • H0: o coeficiente de correlação para a população amostrada é zero (ou seja, não há correlação entre as duas variáveis).
  • HA: o coeficiente de correlação para a população amostrada é diferente de zero (ou seja, há correlação entre as duas variáveis).

Como o teste funciona?

Para o teste de correlação de Spearman, iremos utilizar a fórmula abaixo:

\(rho = \frac{\sum(x'-m_{x'})(y'-m_{y'})}{\sqrt{\sum(x'-m_{x'})^2\sum(y'-m_{y'})^2}}\)

Nesta fórmula, \(x'\) e \(y'\) são os ranqueamentos de \(x\) e \(y\), e \(m_{x'}\) e \(m_{y'}\) corresponde às médias dos ranqueamentos.

Como o teste funciona?

O valor-p da correlação pode ser determinado usando a tabela de coeficientes de correlação para os graus de liberdade (\(gl = n-2\)), em que \(n\) é o número de observação nas variáveis \(x\) e \(y\).

Como interpretar os resultados?

  • Assim como no teste de correlação de Pearson, se observarmos nos resultados um valor-p abaixo do nível de significância, podemos relatar os resultados como “a variável A foi significativamente correlacionada à variável B”.
  • Alternativamente, “foi encontrada uma correlação significativa entre a variável A e a variável B”.

Exemplo da literatura

📚 Referências bibliográficas

  • BARBETTA, Pedro Alberto. Estatística aplicada às ciências sociais. Ed. UFSC, 2008.

  • DANCEY, Christine P.; REIDY, John G.; ROWE, Richard. Estatística Sem Matemática para as Ciências da Saúde. Penso Editora, 2017.

  • HAIR, J. F. et al. Multivariate data analysis. Cengage. Hampshire, United Kingdom, 2019.