Correlação Linear

EST212 - Bioestatística

Helgem de Souza

Introdução

Antes de iniciar nossa aula:

  1. Abra o RStudio.

  2. Crie um novo script.

  3. Crie uma pasta na área de trabalho com seu nome.

  4. Salve o script criado na pasta com o nome "aula5_est212.R"

  5. Baixe do Moodle o arquivo gordura_corporal.csv e salve na pasta criada.

  6. Defina a pasta como diretório de trabalho

  7. Leia o arquivo gordura_corporal.csv para o objeto gordura.

Relações entre variáveis numéricas

Vamos responder algumas perguntas, pensando apenas no senso comum

  1. Quem tende a pesar mais, uma pessoa de 1,70 ou uma pessoa de 1,90?

  2. Em que momento os alugueis ficam mais altos, quando há muitas casas disponíveis ou quando há poucas casas disponíveis?

  3. Quem tende a ter uma taxa de colesterol maior, uma pessoa de 1,75 de altura com 60kg ou uma pessoa de 1,75 de altura com 120kg?

  4. Com o aumento do número de predadores de insetos em uma região, o número de insetos aumentará ou diminuirá?

  5. Quem tende a consumir mais, uma pessoa solteira que recebe 1 salário mínimo ou uma pessoa solteira que recebe 10 salários mínimos?

Relações entre variáveis numéricas

  • Nos exemplos anteriores, exploramos algumas relações conhecidas ou esperadas.

  • Entretanto, não sabemos exatamente a intensidade dessas relações.

  • Em estatística, é interessante verificar o nível de relação entre as variáveis.

  • Existem algumas formas de verificá-lo, a primeira delas é uma análise gráfica.

  • O gráfico utilizado para essa análise é o diagrama de dispersão.

Diagrama de Dispersão

  • Um diagrama de dispersão é um gráfico que apresenta associa duas variáveis numéricas.

  • Ele nos fornece uma ideia geral do tipo de relação existente entre duas variáveis.

Diagrama de Dispersão

Para entender o que é um diagrama de dispersão, vamos analisar o gráfico a seguir, que relaciona as variáveis peso e altura, do nosso banco de dados gordura, utilizado para o estudo do percentual de gordura com base em medidas antropométricas.

Observe que maiores pesos estão associados a maiores alturas.

Diagrama de Dispersão no R

  • No R, fazemos um diagrama de dispersão com a função plot. Ela possui os seguintes parâmetros principais:

    • x - primeira variável - Obrigatório.

    • y - segunda variável - Obrigatório.

    • main - título do gráfico - Opcional (Deve ser informado entre aspas).

    • xlab - Rótulo do eixo X - Opcional (Deve ser informado entre aspas).

    • ylab - Rótulo do eixo Y - Opcional (Deve ser informado entre aspas).

  • Vamos recriar o diagrama de dispersão apresentado no slide anterior

Diagrama de Dispersão

#Diagrama de dispersão entre peso e altura
plot(x = gordura$peso, y = gordura$altura, 
     main = "Relação entre peso e altura", 
     xlab = "Peso", ylab = "Altura")

Utilizaremos muito o diagrama de dispersão para estudar as relações entre variáveis.

Correlação

  • A relação entre duas variáveis é usualmente conhecida como Correlação.

  • Definição: Correlação é o grau de associação entre duas ou mais variáveis.

  • A correlação pode se apresentar de várias maneiras, entretanto, destacamos duas, a Correlação Linear e a Correlação Não-linear

Correlação Linear

Correlação Não-linear
  • Em nossos estudos, trabalharemos com as Correlações Lineares.

Correlação Linear

  • A correlação linear ocorre quando a relação entre as variáveis é linear.

  • Dizemos que uma relação é linear quando seu comportamento se aproxima de uma reta.

  • Lembrando que uma reta tem formula matemática do tipo \(Y = aX + b\), em que \(a\) é o coeficiente angular (define a inclinação da reta) e \(b\) é o coeficiente linear (define o intercepto da reta).

  • Em termos de seu comportamento, uma correlação linear pode ser positiva, nula ou negativa:

    • Correlação linear positiva: A relação representada apresenta inclinação positiva (coeficiente angular positivo).

    • Correlação linear nula: A relação representada apresenta inclinação nula (coeficiente angular zero).

    • Correlação linear negativa: A relação representada apresenta inclinação positiva (coeficiente angular positivo)

Correlação Linear

Interpretação dos Tipos de Correlação Linear

  • Em termos de seu comportamento, podemos interpretar as correlações lineares da seguinte maneira:

    • Correlação linear positiva: Quando os valores variável \(X\) crescem, os valores da variável \(Y\) também crescem.

    • Correlação linear nula: Não há dependência entre os comportamentos das variáveis \(X\) e \(Y\).

    • Correlação linear negativa: Quando os valores variável \(X\) crescem, os valores da variável \(Y\) decrescem.

Coeficiente de Correlação de Pearson

  • A análise gráfica é bastante útil na visualização das correlações.

  • Entretanto, seria interessante a definição de uma medida numérica para tais correlações.

  • Essa medida é dada pelo Coeficiente de Correlação de Pearson, definido por:

    \[ r ={\dfrac {\sum \limits_{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{{\sqrt {\sum \limits_{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\cdot {\sqrt {\sum\limits _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}}} = \dfrac{Cov(x,y)}{\sqrt{Var(x)}\sqrt{Var(y)}} \]

em que \(\bar{x}\) e \(\bar{y}\) são as médias das variáveis \(x\) e \(y\), respectivamente.

Intensidade da Correlação Linear

  • O coeficiente de correlação varia entre - 1 e 1, ou seja: \(-1 \leq r \leq 1\).

  • Valores de \(r\) positivos indicam correlação linear positiva entre as variáveis.

  • Valores de \(r\) negativos indicam correlação linear negativa entre as variáveis.

  • Quanto mais próximo de 1 o valor de \(r\), mais positiva a correlação linear.

  • Quanto mais próximo de -1 o valor de \(r\), mais negativa a correlação linear.

  • Quando o valor de \(r\) tende a zero, dizemos que a correlação linear não existe. Importante ressaltar que outras correlações que não a linear podem existir.

Intensidade da Correlação Linear

  • Existem algumas regras empíricas para definição da intensidade da correlação linear:

    • \(-0,25 < r <0,25\) - Correlação linear pequena ou inexistente.

    • \(-0,50 < r <-0,25\) ou \(0,25 < r <0,50\) - Correlação linear fraca.

    • \(-0,75 < r <-0,50\) ou \(0,50 < r <0,75\) - Correlação linear moderada.

    • \(-1 < r <-0,75\) ou \(0,75 < r <1\) - Correlação linear forte.

  • Cabe ressaltar que esse critério é empírico e pode variar entre áreas. Para verificar se a correlação é significativa, existem testes de hipóteses, que discutiremos adiante.

Intensidade da Correlação Linear

Vejamos a representação de diferentes intensidades no diagrama de dispersão.

Cálculo do Coeficiente de Pearson

  • Para calcular o coeficiente de correlação de Pearson, basta realizar o cálculo da fórmula apresentada.

  • Entretanto, para um volume grande de dados, a fórmula se torna pouco prática, por este motivo, o calcularemos com o uso do R.

  • Para o cálculo do coeficiente de correlação, usamos a função cor(x, y), em que:

    • x - Primeira variável

    • y - segunda variável

Exemplo - Cálculo do Coeficiente de Pearson

Vamos calcular o coeficiente de correlação entre as variáveis peso e altura do nosso banco de dados de gordura corporal:

#Cálculo do coeficiente de correlação entre peso e altura
cor(x = gordura$peso, y = gordura$altura)
[1] 0.512913

A relação entre peso e altura é positiva, ou seja, quanto maior o peso, maior a altura.

Vamos calcular também a circunferência do pescoço e a correlação entre a densidade corporal:

#Cálculo do coeficiente de correlação entre circunferência do pescoço e densidade corporal
cor(x = gordura$pescoco, y = gordura$dens_corporal)
[1] -0.470465

A relação entre a circunferência do pescoço e a densidade corporal é negativa, ou seja, quanto maior a circunferência do pescoço, menor a densidade corporal.

Exemplo - Cálculo do Coeficiente de Pearson

Vamos observar graficamente as correlações entre as variáveis

Essas retas vermelhas têm uma importância fundamental na análise deste tipo de dados, mas aprenderemos sobre elas em breve.

Prática 1

Para as variáveis a seguir, do banco de dados gordura,calcule as correlações, gere os respectivos diagramas de dispersão e interprete a relação existente

  1. Idade e peso

  2. Altura e circunferência do joelho

  3. Densidade corporal e circunferência abdominal

Prática 1 - Idade e Peso

#Correlação entre idade e peso
cor(x = gordura$idade, y = gordura$peso)
[1] -0.01605487
#Diagrama de Dispersão
plot(x = gordura$idade, y = gordura$peso)

Pode se observar que a relação linear entre idade e peso é nula

Prática 1 - Altura e Circunferência do pescoço

#Correlação entre Altura e Circunferência do pescoço 
cor(x = gordura$altura, y = gordura$pescoco)  
[1] 0.3246639
#Diagrama de Dispersão 
plot(x = gordura$altura, y = gordura$pescoco)  

Existe uma correlação linear positiva fraca entre a altura e a circunferência do pescoço.

Prática 1 - Densidade corporal e circunferência abdominal

#Correlação entre densidade corporal e Circunferência abdominal 
cor(x = gordura$dens_corporal, y = gordura$abdomen)    
[1] -0.8090421
#Diagrama de Dispersão  
plot(x = gordura$dens_corporal, y = gordura$abdomen) 

Observa-se uma correlação linear negativa forte entre a densidade corporal e circunferência abdominal. Valores maiores de densidade corporal estão associados a valores menores de circunferência abdominal.

Teste de hipóteses pra Correlação Populacional

  • Até aqui, o coeficiente de correlação é uma medida descritiva.

  • Entretanto, ao se considerar uma amostra, é possível testar se a correlação populacional (parâmetrizada por \(\rho\)) é significativa.

  • Para isso, utiliza-se o teste de hipóteses para a correlação populacional.

Hipóteses:

  • \(H_0: \rho = 0\) - A correlação linear populacional é nula

  • \(H_0: \rho \neq 0\) - A correlação linear populacional não é nula

Ou seja, o teste verifica se existe correlação linear significativa entre duas variáveis, a nível populacional.

Teste de hipóteses pra Correlação Populacional

A estatística de teste do teste de correlação é dada por:

\[\displaystyle\dfrac{r}{\sqrt{\frac{1-r^2}{n-2}}}\]

que segue uma distribuição t de Student com n-2 graus de liberdade.

No R, o teste de hipóteses é realizado por meio da função cor.test(x, y), com os seguintes parâmetros:

  • x - primeira variável

  • y - segunda variável

Assim como nos demais testes, avaliaremos o p-valor com base em um nível de significância desejado.

Teste de hipóteses pra Correlação Populacional

Vamos testar se existe correlação significativa entre as variáveis altura e circunferência do pescoço, ao nível de 5% de significância, com o uso da função cor.test.

#Teste de hipóteses para a correlação
cor.test(x = gordura$altura, y = gordura$pescoco)

    Pearson's product-moment correlation

data:  gordura$altura and gordura$pescoco
t = 5.4056, df = 248, p-value = 1.516e-07
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.2090160 0.4313558
sample estimates:
      cor 
0.3246639 

Como o p-valor é menor que o nível de significância (0,05), temos evidências suficientes para afirmar que de fato existe uma correlação linear significativa entre a altura e a circunferência do pescoço.

Note que além do p-valor, o teste oferece um intervalo com 95% de confiança de que a verdadeira correlação está entre 0,209 e 0,431.

Correlação não implica Causalidade

  • Agora que compreendemos melhor a correlação linear, é tentador fazer afirmações como a seguinte: “Maiores alturas implicam em maiores circunferências de pescoço”.

  • Entretanto, a correlação nos indica uma tendência de variação conjunta, mas não indica uma relação de causa e efeito.

  • Observe o gráfico a seguir. Existe correlação entre os dados?

Correlação não implica Causalidade

Os dados são correlacionados?

Correlação não implica Causalidade

Sim! r = 0,791. Mas o que esses dados representam?

Correlação não implica Causalidade

Então quer dizer que comer chocolate aumenta as chances de ganhar um prêmio Nobel?

Correlação não implica Causalidade

  • O estudo de MESSERLI (2012) indica que há uma correlação positiva forte entre o consumo de chocolate de um país e o número de prêmios Nobel conquistados por esse país (r = 0,791).

  • Porém o mesmo estudo não aponta quais seriam as possíveis relações entre as variáveis.

  • Já o estudo de PRINZ (2020), demonstra que o consumo de chocolate está correlacionado à variáveis econométricas importantes, como gastos com Ciência e Tecnologia (r = 0,4626) e PIB per capita (r = 0,6008).

  • Ambas as variáveis poderiam resultar em maior qualidade educacional, de ciência e tecnologia.

  • Outros estudos mencionam um ganho cognitivo a nível individual causado pelo consumo de chocolate.

  • Entretanto, o estudo conclui que não há evidencias populacionais da relação. Ou seja, até onde se sabe, comer mais chocolate não aumenta a chance de ganhar um prêmio Nobel.

Correlação não implica Causalidade

  • O exemplo anterior é bastante útil para demonstrar que correlação não implica, necessariamente, causalidade.

  • Para se atribuir uma relação de causa e efeito, é necessário identificar o mecanismo relacional entre as variáveis.

  • Existem métodos estatísticos para detecção desses mecanismos, como técnicas de inferência causal, mas não os abordaremos nesse curso.

  • Mais exemplos de correlações espúrias, acidentais ou por coincidência podem ser vistas no site https://tylervigen.com/spurious-correlations

Conclusão

  • Nessa aula aprendemos a verificar a existência ou não de relação entre duas variáveis;

  • Além de verificar, quando a relação é linear, aprendemos a quantificar essa relação por meio do coeficiente de correlação de Pearson.

  • Para finalizar, aprendemos que correlação não implica necessariamente em causalidade e que precisamos compreender o mecanismo relacional para afirmar a existência de uma relação de causa e efeito.

Referências

MESSERLI, F. H. Chocolate consumption, cognitive function, and nobel laureates. N Engl J Med, v. 367, n. 16, p. 1562–1564, 2012.
PRINZ, A. L. Chocolate consumption and noble laureates. Social Sciences & Humanities Open, v. 2, n. 1, p. 100082, 2020.