EST212 - Bioestatística
Antes de iniciar nossa aula:
Abra o RStudio.
Crie um novo script.
Crie uma pasta na área de trabalho com seu nome.
Salve o script criado na pasta com o nome "aula5_est212.R"
Baixe do Moodle o arquivo gordura_corporal.csv
e salve na pasta criada.
Defina a pasta como diretório de trabalho
Leia o arquivo gordura_corporal.csv
para o objeto gordura
.
Vamos responder algumas perguntas, pensando apenas no senso comum
Quem tende a pesar mais, uma pessoa de 1,70 ou uma pessoa de 1,90?
Em que momento os alugueis ficam mais altos, quando há muitas casas disponíveis ou quando há poucas casas disponíveis?
Quem tende a ter uma taxa de colesterol maior, uma pessoa de 1,75 de altura com 60kg ou uma pessoa de 1,75 de altura com 120kg?
Com o aumento do número de predadores de insetos em uma região, o número de insetos aumentará ou diminuirá?
Quem tende a consumir mais, uma pessoa solteira que recebe 1 salário mínimo ou uma pessoa solteira que recebe 10 salários mínimos?
Nos exemplos anteriores, exploramos algumas relações conhecidas ou esperadas.
Entretanto, não sabemos exatamente a intensidade dessas relações.
Em estatística, é interessante verificar o nível de relação entre as variáveis.
Existem algumas formas de verificá-lo, a primeira delas é uma análise gráfica.
O gráfico utilizado para essa análise é o diagrama de dispersão.
Um diagrama de dispersão é um gráfico que apresenta associa duas variáveis numéricas.
Ele nos fornece uma ideia geral do tipo de relação existente entre duas variáveis.
Para entender o que é um diagrama de dispersão, vamos analisar o gráfico a seguir, que relaciona as variáveis peso
e altura
, do nosso banco de dados gordura
, utilizado para o estudo do percentual de gordura com base em medidas antropométricas.
Observe que maiores pesos estão associados a maiores alturas.
No R, fazemos um diagrama de dispersão com a função plot
. Ela possui os seguintes parâmetros principais:
x
- primeira variável - Obrigatório.
y
- segunda variável - Obrigatório.
main
- título do gráfico - Opcional (Deve ser informado entre aspas).
xlab
- Rótulo do eixo X - Opcional (Deve ser informado entre aspas).
ylab
- Rótulo do eixo Y - Opcional (Deve ser informado entre aspas).
Vamos recriar o diagrama de dispersão apresentado no slide anterior
Utilizaremos muito o diagrama de dispersão para estudar as relações entre variáveis.
A relação entre duas variáveis é usualmente conhecida como Correlação.
Definição: Correlação é o grau de associação entre duas ou mais variáveis.
A correlação pode se apresentar de várias maneiras, entretanto, destacamos duas, a Correlação Linear e a Correlação Não-linear
A correlação linear ocorre quando a relação entre as variáveis é linear.
Dizemos que uma relação é linear quando seu comportamento se aproxima de uma reta.
Lembrando que uma reta tem formula matemática do tipo \(Y = aX + b\), em que \(a\) é o coeficiente angular (define a inclinação da reta) e \(b\) é o coeficiente linear (define o intercepto da reta).
Em termos de seu comportamento, uma correlação linear pode ser positiva, nula ou negativa:
Correlação linear positiva: A relação representada apresenta inclinação positiva (coeficiente angular positivo).
Correlação linear nula: A relação representada apresenta inclinação nula (coeficiente angular zero).
Correlação linear negativa: A relação representada apresenta inclinação positiva (coeficiente angular positivo)
Em termos de seu comportamento, podemos interpretar as correlações lineares da seguinte maneira:
Correlação linear positiva: Quando os valores variável \(X\) crescem, os valores da variável \(Y\) também crescem.
Correlação linear nula: Não há dependência entre os comportamentos das variáveis \(X\) e \(Y\).
Correlação linear negativa: Quando os valores variável \(X\) crescem, os valores da variável \(Y\) decrescem.
A análise gráfica é bastante útil na visualização das correlações.
Entretanto, seria interessante a definição de uma medida numérica para tais correlações.
Essa medida é dada pelo Coeficiente de Correlação de Pearson, definido por:
\[ r ={\dfrac {\sum \limits_{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{{\sqrt {\sum \limits_{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\cdot {\sqrt {\sum\limits _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}}} = \dfrac{Cov(x,y)}{\sqrt{Var(x)}\sqrt{Var(y)}} \]
em que \(\bar{x}\) e \(\bar{y}\) são as médias das variáveis \(x\) e \(y\), respectivamente.
O coeficiente de correlação varia entre - 1 e 1, ou seja: \(-1 \leq r \leq 1\).
Valores de \(r\) positivos indicam correlação linear positiva entre as variáveis.
Valores de \(r\) negativos indicam correlação linear negativa entre as variáveis.
Quanto mais próximo de 1 o valor de \(r\), mais positiva a correlação linear.
Quanto mais próximo de -1 o valor de \(r\), mais negativa a correlação linear.
Quando o valor de \(r\) tende a zero, dizemos que a correlação linear não existe. Importante ressaltar que outras correlações que não a linear podem existir.
Existem algumas regras empíricas para definição da intensidade da correlação linear:
\(-0,25 < r <0,25\) - Correlação linear pequena ou inexistente.
\(-0,50 < r <-0,25\) ou \(0,25 < r <0,50\) - Correlação linear fraca.
\(-0,75 < r <-0,50\) ou \(0,50 < r <0,75\) - Correlação linear moderada.
\(-1 < r <-0,75\) ou \(0,75 < r <1\) - Correlação linear forte.
Cabe ressaltar que esse critério é empírico e pode variar entre áreas. Para verificar se a correlação é significativa, existem testes de hipóteses, que discutiremos adiante.
Vejamos a representação de diferentes intensidades no diagrama de dispersão.
Para calcular o coeficiente de correlação de Pearson, basta realizar o cálculo da fórmula apresentada.
Entretanto, para um volume grande de dados, a fórmula se torna pouco prática, por este motivo, o calcularemos com o uso do R.
Para o cálculo do coeficiente de correlação, usamos a função cor(x, y)
, em que:
x
- Primeira variável
y
- segunda variável
Vamos calcular o coeficiente de correlação entre as variáveis peso e altura do nosso banco de dados de gordura corporal:
[1] 0.512913
A relação entre peso e altura é positiva, ou seja, quanto maior o peso, maior a altura.
Vamos calcular também a circunferência do pescoço e a correlação entre a densidade corporal:
#Cálculo do coeficiente de correlação entre circunferência do pescoço e densidade corporal
cor(x = gordura$pescoco, y = gordura$dens_corporal)
[1] -0.470465
A relação entre a circunferência do pescoço e a densidade corporal é negativa, ou seja, quanto maior a circunferência do pescoço, menor a densidade corporal.
Vamos observar graficamente as correlações entre as variáveis
Essas retas vermelhas têm uma importância fundamental na análise deste tipo de dados, mas aprenderemos sobre elas em breve.
Para as variáveis a seguir, do banco de dados gordura,
calcule as correlações, gere os respectivos diagramas de dispersão e interprete a relação existente
Idade e peso
Altura e circunferência do joelho
Densidade corporal e circunferência abdominal
[1] -0.01605487
Pode se observar que a relação linear entre idade e peso é nula
[1] 0.3246639
Existe uma correlação linear positiva fraca entre a altura e a circunferência do pescoço.
#Correlação entre densidade corporal e Circunferência abdominal
cor(x = gordura$dens_corporal, y = gordura$abdomen)
[1] -0.8090421
Observa-se uma correlação linear negativa forte entre a densidade corporal e circunferência abdominal. Valores maiores de densidade corporal estão associados a valores menores de circunferência abdominal.
Até aqui, o coeficiente de correlação é uma medida descritiva.
Entretanto, ao se considerar uma amostra, é possível testar se a correlação populacional (parâmetrizada por \(\rho\)) é significativa.
Para isso, utiliza-se o teste de hipóteses para a correlação populacional.
Hipóteses:
\(H_0: \rho = 0\) - A correlação linear populacional é nula
\(H_0: \rho \neq 0\) - A correlação linear populacional não é nula
Ou seja, o teste verifica se existe correlação linear significativa entre duas variáveis, a nível populacional.
A estatística de teste do teste de correlação é dada por:
\[\displaystyle\dfrac{r}{\sqrt{\frac{1-r^2}{n-2}}}\]
que segue uma distribuição t de Student com n-2 graus de liberdade.
No R, o teste de hipóteses é realizado por meio da função cor.test(x, y)
, com os seguintes parâmetros:
x
- primeira variável
y
- segunda variável
Assim como nos demais testes, avaliaremos o p-valor com base em um nível de significância desejado.
Vamos testar se existe correlação significativa entre as variáveis altura e circunferência do pescoço, ao nível de 5% de significância, com o uso da função cor.test
.
Pearson's product-moment correlation
data: gordura$altura and gordura$pescoco
t = 5.4056, df = 248, p-value = 1.516e-07
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.2090160 0.4313558
sample estimates:
cor
0.3246639
Como o p-valor é menor que o nível de significância (0,05), temos evidências suficientes para afirmar que de fato existe uma correlação linear significativa entre a altura e a circunferência do pescoço.
Note que além do p-valor, o teste oferece um intervalo com 95% de confiança de que a verdadeira correlação está entre 0,209 e 0,431.
Agora que compreendemos melhor a correlação linear, é tentador fazer afirmações como a seguinte: “Maiores alturas implicam em maiores circunferências de pescoço”.
Entretanto, a correlação nos indica uma tendência de variação conjunta, mas não indica uma relação de causa e efeito.
Observe o gráfico a seguir. Existe correlação entre os dados?
Os dados são correlacionados?
Sim! r = 0,791. Mas o que esses dados representam?
Então quer dizer que comer chocolate aumenta as chances de ganhar um prêmio Nobel?
O estudo de MESSERLI (2012) indica que há uma correlação positiva forte entre o consumo de chocolate de um país e o número de prêmios Nobel conquistados por esse país (r = 0,791).
Porém o mesmo estudo não aponta quais seriam as possíveis relações entre as variáveis.
Já o estudo de PRINZ (2020), demonstra que o consumo de chocolate está correlacionado à variáveis econométricas importantes, como gastos com Ciência e Tecnologia (r = 0,4626) e PIB per capita (r = 0,6008).
Ambas as variáveis poderiam resultar em maior qualidade educacional, de ciência e tecnologia.
Outros estudos mencionam um ganho cognitivo a nível individual causado pelo consumo de chocolate.
Entretanto, o estudo conclui que não há evidencias populacionais da relação. Ou seja, até onde se sabe, comer mais chocolate não aumenta a chance de ganhar um prêmio Nobel.
O exemplo anterior é bastante útil para demonstrar que correlação não implica, necessariamente, causalidade.
Para se atribuir uma relação de causa e efeito, é necessário identificar o mecanismo relacional entre as variáveis.
Existem métodos estatísticos para detecção desses mecanismos, como técnicas de inferência causal, mas não os abordaremos nesse curso.
Mais exemplos de correlações espúrias, acidentais ou por coincidência podem ser vistas no site https://tylervigen.com/spurious-correlations
Nessa aula aprendemos a verificar a existência ou não de relação entre duas variáveis;
Além de verificar, quando a relação é linear, aprendemos a quantificar essa relação por meio do coeficiente de correlação de Pearson.
Para finalizar, aprendemos que correlação não implica necessariamente em causalidade e que precisamos compreender o mecanismo relacional para afirmar a existência de uma relação de causa e efeito.