EST212 - Bioestatística
Existe relação entre o número de faltas e as notas em uma disciplina? Qual seria?
Se existir, provavelmente seria negativa.
Se essa relação existisse, seria excelente para todos:
O professor não precisaria avaliar os alunos, pois o conhecimento seria mera função da exposição.
Os alunos ficariam tranquilos, pois saberiam que quanto mais aulas assistissem, mais conhecimento seria agregado (o que é verdade).
Entretanto, esse modelo não considera uma obviedade: pessoas aprendem de formas e em ritmos diferentes.
O gráfico a seguir representa notas e faltas de uma turma real de Bioestatística:
Perceba que a realidade não é tão simples.
Em ambos os gráficos, há uma correlação linear negativa
No primeiro, a relação é perfeita.
Já no segundo, a relação existe, mas não é perfeita.
A natureza é estocástica. Existem relações, mas elas apresentam componentes aleatórios.
Tentar modelar essas relações ao considerar sua aleatoriedade é a grande diferença entre a Estatística e a Matemática.
Na aula anterior, definimos correlação e apresentamos o coeficiente de correlação linear de Pearson.
Conforme visto, o coeficiente descreve o tipo (positivo, negativo) e a intensidade de correlação linear entre as variáveis.
Entretanto, ele não define analiticamente qual a relação entre elas.
Em vários momentos da aula anterior, retas em vermelho foram apresentadas.
As retas tentavam descrever visualmente, de modo geral qual seria a relação entre as variáveis.
Chamamos aquela reta de reta de regressão. Seu objetivo é definir estatísticamente como se dá a relação entre as variáveis.
No gráfico acima, a relação entre X e Y é dada por \(Y = 10,09X + 4,36\). Mas como ela é calculada?
\[ Y = aX + b \]
Em que
a é o coeficiente angular;
b é o coeficiente linear.
Podemos reescrevê-la, da seguinte forma:
\[ Y = \beta_0 + \beta_1X \]
Alteramos \(a\) para \(\beta_1\), \(b\) para \(\beta_0\) e mudamos sua ordem, mas os elementos permanecem os mesmos. \(\beta_0\) é o coeficiente linear e \(\beta_1\) o coeficiente angular.
Vamos voltar ao exemplo anterior. A reta em vermelho é dada por \(Y = 4,36 + 10,09X\), em que:
\(\beta_0 = 4,36\)
\(\beta_1 = 10,09\)
Porém, se a relação entre as variáveis é linear, inclusive pode ser descrita pela reta, por que ela não é perfeita?
O comportamento apresentado pela reta é uma espécie de comportamento esperado.
Entretanto, devido à aleatoriedade natural dos eventos, eles “desviam” daquilo que é esperado.
A relação dada pela reta \(Y = 4,36 + 10,39\) descreve um comportamento médio.
Dado que \(X\) não varia, esse desvio seria a distância vertical entre a reta e cada ponto.
Perceba que se não houvesse essa variação, os pontos estariam exatamente sobre a reta.
Note que cada ponto possui uma distância diferente da reta.
Essas distâncias aparentemente são aleatórias.
Como essa distância representa a diferença entre o comportamento esperado e o que foi observado, chamamos essas distâncias de erro.
Como cada um dos \(i\) pontos possui um erro distinto, definimos cada erro como \(\varepsilon_i\).
O conjunto de todos os erros forma uma variável aleatória, definida como \(\varepsilon\)
Ou seja, se quisermos descrever o comportamento de cada ponto, podemos escrever a seguinte equação:
\[ Y_i = \beta_0 + {\beta_1X}_i + \varepsilon_i \]
\[ Y = \beta_0 + \beta_1X + \varepsilon \]
Em que
Y é a variável que queremos modelar o comportamento, chamada variável dependente, variável resposta, ou variável desfecho.
X é a variável que servirá de base para a modelagem, dita variável independente ou variável explicativa.
\(\varepsilon\) é uma variável aleatória, definida como erro aleatório.
Idealmente, utilizamos esse modelo quando a relação de causa e efeito de X para Y é conhecida.
Os objetivos da regressão linear são:
Predizer os valores da variável resposta com base nos valores da variável explicativa.
Descrever analiticamente o impacto das variações de X em Y.
X | Y |
---|---|
\(X_1\) | \(Y_1\) |
\(X_2\) | \(Y_2\) |
\(\vdots\) | \(\vdots\) |
\(X_n\) | \(Y_n\) |
Até o momento discutimos o modelo teórico da reta de regressão.
Entretanto, para utilização do modelo, precisamos estimar os valores dos coeficientes da reta, \(\beta_0\) e \(\beta_1\).
Essa estimativa se baseia nas distâncias entre os valores esperados (aqueles que formam a reta) e os valores observados das coordenadas X e Y, que definimos como erros.
A ideia para obtenção dos valores de \(\beta_0\) e \(\beta_1\) reside na busca de uma reta que minimize conjuntamente a soma dos erros.
A ideia intuitiva seria vasculhar o espaço por uma reta que minimizasse os erros.
Entretanto, para esse problema, existe uma solução analítica, chamada Método dos Mínimos Quadrados.
O Método dos Mínimos Quadrados é baseado na minimização da soma quadrática dos erros.
O cálculo dos coeficientes é baseada em derivadas parciais e excede o objetivo desse curso. Um material com o cálculo será anexado na página do curso.
Após os cálculos, o método dos mínimos quadrados nos oferece os seguintes estimadores para \(\beta_0\) e \(\beta_1\):
\[ \hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x} \]
\[ \hat{\beta_1} = \frac{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2} \]
\[ \hat{Y} = \hat{\beta_0} + \hat{\beta_1}X \]
cujos valores de \(\hat{\beta_0}\) e \(\hat{\beta_1}\) são dados pelas expressões do slide anterior.
Aos valores de \(\hat{Y_i}\) damos os nomes de valores ajustados.
Desse modo, podemos definir os erros como:
\[ \varepsilon_i = y_i - \hat{y_i} \]
Ou seja, para obter as estimativas minimizamos a soma
\[ SQR = \sum\limits_{i = 1}^n(y_i - \hat{y_i})^2 \]
Essa soma é denominada Soma dos quadrados dos erros, ou Soma dos quadrados dos resíduos. Veremos ela em outros momentos do curso.
Como o objetivo desse curso é prático, mais uma vez realizaremos a estimação dos parâmetros no R.
No R, o ajuste do modelo de regressão é realizado por meio da função lm(formula)
, em que a fórmula é um objeto do tipo y~x
, em que:
x
- variável explicativa
y
- variável resposta
Para finalizar, vamos fazer um exemplo simples no R.
Vamos novamente verificar o comportamento dos dados:
Queremos explicar as notas com base nas faltas, ou seja
Variável resposta (Y): Notas
Variável explicativa (X): Faltas
O ajuste é feito pela função lm()
e pela fórmula notas ~ faltas
Na fórmula, utilizamos o modelo y ~ x
. A variável resposta precede a variável explicativa. Vejamos o resultado
O intercepto \(\beta_0\) é representado na saída pelo valor em (Intercept)
O coeficiente angular \(\beta_1\) é representado pelo valor em faltas
, variável explicativa.
Logo, a reta de regressão é dada por
\[ \hat{Y} = 7.5612 - 0,2852 \cdot faltas \]
Ou seja:
alunos com zero faltas tem uma nota média de 7.56
A cada falta, o aluno tem uma redução média de 0,28 em sua nota
Essa é a interpretação básica, trabalharemos mais detalhes sobre ela em nossa aula prática.