Regressão Linear Simples

EST212 - Bioestatística

Helgem de Souza

Exemplo - Notas vs Faltas

  • Existe relação entre o número de faltas e as notas em uma disciplina? Qual seria?

Exemplo - Notas vs Faltas

  • Existe relação entre o número de faltas e as notas em uma disciplina? Qual seria?

  • Se existir, provavelmente seria negativa.

Exemplo - Notas vs Faltas

  • Se essa relação existisse, seria excelente para todos:

    • O professor não precisaria avaliar os alunos, pois o conhecimento seria mera função da exposição.

    • Os alunos ficariam tranquilos, pois saberiam que quanto mais aulas assistissem, mais conhecimento seria agregado (o que é verdade).

  • Entretanto, esse modelo não considera uma obviedade: pessoas aprendem de formas e em ritmos diferentes.

Exemplo - Notas vs Faltas

O gráfico a seguir representa notas e faltas de uma turma real de Bioestatística:

Perceba que a realidade não é tão simples.

Relação linear entre variáveis

  • Em ambos os gráficos, há uma correlação linear negativa

  • No primeiro, a relação é perfeita.

  • Já no segundo, a relação existe, mas não é perfeita.

  • A natureza é estocástica. Existem relações, mas elas apresentam componentes aleatórios.

  • Tentar modelar essas relações ao considerar sua aleatoriedade é a grande diferença entre a Estatística e a Matemática.

Relação linear entre variáveis

  • Na aula anterior, definimos correlação e apresentamos o coeficiente de correlação linear de Pearson.

  • Conforme visto, o coeficiente descreve o tipo (positivo, negativo) e a intensidade de correlação linear entre as variáveis.

  • Entretanto, ele não define analiticamente qual a relação entre elas.

  • Em vários momentos da aula anterior, retas em vermelho foram apresentadas.

  • As retas tentavam descrever visualmente, de modo geral qual seria a relação entre as variáveis.

  • Chamamos aquela reta de reta de regressão. Seu objetivo é definir estatísticamente como se dá a relação entre as variáveis.

Regressão Linear simples

No gráfico acima, a relação entre X e Y é dada por \(Y = 10,09X + 4,36\). Mas como ela é calculada?

Regressão Linear Simples

  • Como vimos, uma reta pode ser descrita pela seguinte equação:

\[ Y = aX + b \]

  • Em que

    • a é o coeficiente angular;

    • b é o coeficiente linear.

  • Podemos reescrevê-la, da seguinte forma:

\[ Y = \beta_0 + \beta_1X \]

Alteramos \(a\) para \(\beta_1\), \(b\) para \(\beta_0\) e mudamos sua ordem, mas os elementos permanecem os mesmos. \(\beta_0\) é o coeficiente linear e \(\beta_1\) o coeficiente angular.

Regressão Linear Simples

  • Vamos voltar ao exemplo anterior. A reta em vermelho é dada por \(Y = 4,36 + 10,09X\), em que:

    • \(\beta_0 = 4,36\)

    • \(\beta_1 = 10,09\)

Regressão Linear Simples

  • Porém, se a relação entre as variáveis é linear, inclusive pode ser descrita pela reta, por que ela não é perfeita?

  • O comportamento apresentado pela reta é uma espécie de comportamento esperado.

  • Entretanto, devido à aleatoriedade natural dos eventos, eles “desviam” daquilo que é esperado.

  • A relação dada pela reta \(Y = 4,36 + 10,39\) descreve um comportamento médio.

  • Dado que \(X\) não varia, esse desvio seria a distância vertical entre a reta e cada ponto.

  • Perceba que se não houvesse essa variação, os pontos estariam exatamente sobre a reta.

Regressão Linear Simples

Regressão Linear Simples

  • Note que cada ponto possui uma distância diferente da reta.

  • Essas distâncias aparentemente são aleatórias.

  • Como essa distância representa a diferença entre o comportamento esperado e o que foi observado, chamamos essas distâncias de erro.

  • Como cada um dos \(i\) pontos possui um erro distinto, definimos cada erro como \(\varepsilon_i\).

  • O conjunto de todos os erros forma uma variável aleatória, definida como \(\varepsilon\)

  • Ou seja, se quisermos descrever o comportamento de cada ponto, podemos escrever a seguinte equação:

\[ Y_i = \beta_0 + {\beta_1X}_i + \varepsilon_i \]

Regressão Linear Simples

  • Desse modo, um modelo geral para a reta pode ser dado por

\[ Y = \beta_0 + \beta_1X + \varepsilon \]

  • Em que

    • Y é a variável que queremos modelar o comportamento, chamada variável dependente, variável resposta, ou variável desfecho.

    • X é a variável que servirá de base para a modelagem, dita variável independente ou variável explicativa.

    • \(\varepsilon\) é uma variável aleatória, definida como erro aleatório.

Regressão Linear Simples

  • Idealmente, utilizamos esse modelo quando a relação de causa e efeito de X para Y é conhecida.

  • Os objetivos da regressão linear são:

    • Predizer os valores da variável resposta com base nos valores da variável explicativa.

    • Descrever analiticamente o impacto das variações de X em Y.

Regressão Linear Simples

  • O ajuste de regressão linear é feito com base em conjuntos de dados em que se observa valores de Y e X conjuntamente.
X Y
\(X_1\) \(Y_1\)
\(X_2\) \(Y_2\)
\(\vdots\) \(\vdots\)
\(X_n\) \(Y_n\)

Estimação dos parâmetros \(\beta_0\) e \(\beta_1\)

  • Até o momento discutimos o modelo teórico da reta de regressão.

  • Entretanto, para utilização do modelo, precisamos estimar os valores dos coeficientes da reta, \(\beta_0\) e \(\beta_1\).

  • Essa estimativa se baseia nas distâncias entre os valores esperados (aqueles que formam a reta) e os valores observados das coordenadas X e Y, que definimos como erros.

  • A ideia para obtenção dos valores de \(\beta_0\) e \(\beta_1\) reside na busca de uma reta que minimize conjuntamente a soma dos erros.

Estimação dos parâmetros \(\beta_0\) e \(\beta_1\)

A ideia intuitiva seria vasculhar o espaço por uma reta que minimizasse os erros.

Entretanto, para esse problema, existe uma solução analítica, chamada Método dos Mínimos Quadrados.

Estimação dos parâmetros \(\beta_0\) e \(\beta_1\)

  • O Método dos Mínimos Quadrados é baseado na minimização da soma quadrática dos erros.

  • O cálculo dos coeficientes é baseada em derivadas parciais e excede o objetivo desse curso. Um material com o cálculo será anexado na página do curso.

  • Após os cálculos, o método dos mínimos quadrados nos oferece os seguintes estimadores para \(\beta_0\) e \(\beta_1\):

\[ \hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x} \]

\[ \hat{\beta_1} = \frac{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2} \]

Estimação dos parâmetros \(\beta_0\) e \(\beta_1\)

  • Logo, nossa reta de regressão fica dada por:

\[ \hat{Y} = \hat{\beta_0} + \hat{\beta_1}X \]

cujos valores de \(\hat{\beta_0}\) e \(\hat{\beta_1}\) são dados pelas expressões do slide anterior.

  • Aos valores de \(\hat{Y_i}\) damos os nomes de valores ajustados.

  • Desse modo, podemos definir os erros como:

\[ \varepsilon_i = y_i - \hat{y_i} \]

Estimação dos parâmetros \(\beta_0\) e \(\beta_1\)

Ou seja, para obter as estimativas minimizamos a soma

\[ SQR = \sum\limits_{i = 1}^n(y_i - \hat{y_i})^2 \]

Essa soma é denominada Soma dos quadrados dos erros, ou Soma dos quadrados dos resíduos. Veremos ela em outros momentos do curso.

Estimação dos parâmetros no R

  • Como o objetivo desse curso é prático, mais uma vez realizaremos a estimação dos parâmetros no R.

  • No R, o ajuste do modelo de regressão é realizado por meio da função lm(formula), em que a fórmula é um objeto do tipo y~x, em que:

    • x - variável explicativa

    • y - variável resposta

  • Para finalizar, vamos fazer um exemplo simples no R.

Exemplo - Estimação dos parâmetros no R

  • Vamos utilizar os dados das notas e faltas:
#Notas e faltas de alunos de bioestatística
notas <- c(3.55, 2.533, 5.999, 9.549, 9.999, 6.103, 6, 6.556, 0.666, 8.506, 7.439, 7.979, 8.449, 4.979, 6.906, 6.839, 5.999, 0, 6.749, 6.739, 4.536, 4.5, 4.336, 6.449, 6.316)

faltas <- c(12,14,13,8,7,9,6,5,9,2, 4, 3, 4, 4, 3, 2, 6, 7, 4, 2, 2, 6, 5, 3, 5)

Vamos novamente verificar o comportamento dos dados:

plot(faltas, notas)

Queremos explicar as notas com base nas faltas, ou seja

  • Variável resposta (Y): Notas

  • Variável explicativa (X): Faltas

Exemplo - Estimação dos parâmetros no R

  • O ajuste é feito pela função lm() e pela fórmula notas ~ faltas

  • Na fórmula, utilizamos o modelo y ~ x. A variável resposta precede a variável explicativa. Vejamos o resultado

    #Ajuste do modelo de regressão
    lm(notas~faltas)
    
    Call:
    lm(formula = notas ~ faltas)
    
    Coefficients:
    (Intercept)       faltas  
         7.5612      -0.2852  
  • O intercepto \(\beta_0\) é representado na saída pelo valor em (Intercept)

  • O coeficiente angular \(\beta_1\) é representado pelo valor em faltas, variável explicativa.

Exemplo - Estimação dos parâmetros no R

  • Logo, a reta de regressão é dada por

    \[ \hat{Y} = 7.5612 - 0,2852 \cdot faltas \]

  • Ou seja:

    • alunos com zero faltas tem uma nota média de 7.56

    • A cada falta, o aluno tem uma redução média de 0,28 em sua nota

  • Essa é a interpretação básica, trabalharemos mais detalhes sobre ela em nossa aula prática.