REGRESSÃO LINEAR MÚLTIPLA

Equação de regressão linear simples:

\[ Y=\beta _{0} +\beta _{1}x_1+\epsilon \]

Onde:

  • \(Y\) é a grandeza que se quer predizer
  • \(x_{i}\) é a grandeza conhecida, medida em \(i = 1, 2, 3, ..., k)\)
  • \(\beta _j\) são os coeficientes de regressão medidos em \(j = 0, 1, 2, 3, ..., k)\)
  • \(\epsilon\) é a incerteza \((y_{observado} - y_{predito})\)

Exemplo

dados = aula4dados <- read.delim2("aula4dados.txt")
print(dados)
##       x     y
## 1  0.99 90.01
## 2  1.02 89.05
## 3  1.15 91.43
## 4  1.29 93.74
## 5  1.46 96.73
## 6  1.36 94.45
## 7  0.87 87.59
## 8  1.23 91.77
## 9  1.55 99.42
## 10 1.40 93.65
## 11 1.19 93.54
## 12 1.15 92.52
## 13 0.98 90.56
## 14 1.01 89.54
## 15 1.11 89.85
## 16 1.20 90.39
## 17 1.26 93.25
## 18 1.32 93.41
## 19 1.43 94.98
## 20 0.95 87.33
plot(dados,main = "Pureza de oxigênio produzido X porcentagem de hidrocarbonetos"  
,xlab= "Nivel de hidrocarbonetos", ylab="Pureza" )

plot(dados,main = "Pureza de oxigênio produzido X porcentagem de hidrocarbonetos"  
,xlab= "Nivel de hidrocarbonetos", ylab="Pureza" )
abline(lm(dados$y~dados$x))

ajuste=lm(dados$y~dados$x)
ajuste
## 
## Call:
## lm(formula = dados$y ~ dados$x)
## 
## Coefficients:
## (Intercept)      dados$x  
##       74.28        14.95

\[\beta _{0}=74.20\] \[\beta _{1}=14.97\]

Equação:

\[Y=74,20 +14.97x_1\]

Regressão Linear Múltipla ou Multivariada (MLR)

É uma extensão da regressão linear simples em que duas ou mais variáveis independentes \(x_{1}, x_{2}, ..., x_{i}\) são usadas para predizer uma única variável \(Y\).

Equação de regressão linear múltipla

\[Y=\beta _{0} +\beta _{1}x_1+\beta _{2}x_2+...\beta _{k}x_k+\epsilon \]

Onde:

  • \(Y\) é a grandeza que se quer predizer
  • \(x_{i}\) é a grandeza conhecida, medida em \(i = 1, 2, 3, ..., k)\)
  • \(\beta _j\) são os coeficientes de regressão medidos em \(j = 0, 1, 2, 3, ..., k)\)
  • \(\epsilon\) é a incerteza \((y_{observado} - y_{predito})\)

Estimativa dos coeficientes de regressão por mínimos quadrados

Construção de um gráfico de correlação

Gráficos de dispersão dos dados são usados para examinar a correlação, onde os pares (\(x_{i}\), \(y\)) são desenhados no gráfico.

No gráfico pode-se observar:

  • Relações não-lineares:
  • Outliers
  • Correlações dentro e entre subgrupos
  • Domínio restrito de \(x\)
  • Comparativo de gráficos

Os três gráficos representam o mesmo conjunto de dados, entretanto os dados são apresentados em diretens escalas

Avaliação da significância do modelo de regressão

Coeficiente de determinação \((R^{2})\)

Fornece a proporção de variabilidade em \(y\) que é obtida por se conhecer o valor de \(x\).

\[\sum_{i=1}^{n} ( y_i-\tilde{y} )^2=\sum_{i=1}^{n}\left ( \hat{y}-y_i \right )^2 \ + \ \sum_{i=1}^{n}\left ( y_i-\hat{y} \right )^2 \\\] \[\\ \\ \\ \\\] \[\sum_{i=1}^{n} ( y_i-\tilde{y} )^2=SQ_T \ \ \ \ \ \ \sum_{i=1}^{n}\left ( y_i-\hat{y} \right )^2 =SQ_E\] \[\\ \\ \\ \\\] \[R^2=\frac{SQ_R}{SQ_T}=1 -\frac{SQ_E}{SQ_T} \ \rightarrow \ R^{2}_{ajustado}=1-\frac{SQ_E/(n-p)}{SQ_T/(n-1)} \]

Limitações do parâmetro \(R\) (ou \(R^{2}\))

  • A sua significância depende do número de amostras.

  • Eles são influenciados por valores extremos (outliers).

  • Uma associação não implica em uma relaçã causal

Correlação no R

cor(dados)
##           x         y
## x 1.0000000 0.9367154
## y 0.9367154 1.0000000

O p-valor (ou significância do teste F)

Indica a probabilidade de obter-se uma associação (R) por chance, ou melhor, é a probabilidade de que um valor verdadeiro de R seja zero (0).

P-valor maior que 0,05 (intervalo de confiança de 95%) indica a aceitação da hipótese nula, ou seja, que a regressão não é significativa.

Assim como no teste de significância da regressão, a análise de significância dos coeficientes de regressão pode ser realizada utilizando o p-valor. Sendo que p-valor maior que 0,05 (intervalo de confiança de 95%) indica que o coeficiente de regressão não é significativo para o modelo.

Teste P

cor.test(dados$x,dados$y,,
         alternative = c("two.sided", "less", "greater"),
         method = c("pearson", "kendall", "spearman"),
         exact = NULL, conf.level = 0.95, continuity = FALSE)
## 
##  Pearson's product-moment correlation
## 
## data:  dados$x and dados$y
## t = 11.352, df = 18, p-value = 1.227e-09
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.8440788 0.9750587
## sample estimates:
##       cor 
## 0.9367154

Processo de Seleção de Variáveis

Neste processo é realizado o procedimento de inclusão ou exclusão de variáveis uma a uma até que, por algum critério estabelecido, o processo termine.

Existem vários algoritmos na seleção de variáveis, e eles não conduzem necessariamente à mesma solução, os principais são:

  • Seleção stepwise;

  • Seleção passo-a-frente (forward);

  • Eliminação passo-a-trás (backward).

Modelagem do Sistema de Lagoas Aeradas da “Papel e Celulose S/A”

A P & C tem supervisionado e controlado seu sistema biológico de tratamento através da DBO, DQO, pH, sólidos suspensos e vazão do efluente.

A DBO de 5 dias é um dos parâmetros utilizados na monitorização da qualidade do efluente. Medidas de controle da qualidade do efluente tratado é dificultado tendo em vista este tempo, assim se faz necessária a modelagem para predição imediata deste parâmetro.

REALIZE A MODELAGEM DESTE PROCESSO

  1. Qual o problema?

  2. Quais os objetivos da modelagem?

  3. Que informações estáo disponíveis (variáveis)?

  4. Que tipo de modelagem deve ser usada? (Empírica ou Determinística)

  5. Que dificuldades existem na construção do modelo?

Sugestões de Bibliografia

[1] Draper, N. R.; Smith, H. (1981). Applied regression analysis, Wiley Press, New York.

[2] Jackson, J. E. (1991). A user guide to principal components, Wiley Press, New York.

[3] Johnson, R. A.; Wichern, D. W. (1998). Applied multivariate statistical analysis, Prentice Hall, New Jersey.

[4] Montgomery, D. C; Peck, E. A. (1992). Introduction to linear regression analysis, Wiley Press, New York.

[5] Oliveira-Esquerre, K., et al. (2004). Application of steady-state and dynamic modeling for the prediction of the BOD of an aerated lagoon at a pulp and paper mill. Part I: Linear approaches, Journal of Chemical Engineering, v. 104, n. 1-3, pp. 73-81.