Equação de regressão linear simples:
\[ Y=\beta _{0} +\beta _{1}x_1+\epsilon \]
Onde:
Exemplo
dados = aula4dados <- read.delim2("aula4dados.txt")
print(dados)
## x y
## 1 0.99 90.01
## 2 1.02 89.05
## 3 1.15 91.43
## 4 1.29 93.74
## 5 1.46 96.73
## 6 1.36 94.45
## 7 0.87 87.59
## 8 1.23 91.77
## 9 1.55 99.42
## 10 1.40 93.65
## 11 1.19 93.54
## 12 1.15 92.52
## 13 0.98 90.56
## 14 1.01 89.54
## 15 1.11 89.85
## 16 1.20 90.39
## 17 1.26 93.25
## 18 1.32 93.41
## 19 1.43 94.98
## 20 0.95 87.33
plot(dados,main = "Pureza de oxigênio produzido X porcentagem de hidrocarbonetos"
,xlab= "Nivel de hidrocarbonetos", ylab="Pureza" )
plot(dados,main = "Pureza de oxigênio produzido X porcentagem de hidrocarbonetos"
,xlab= "Nivel de hidrocarbonetos", ylab="Pureza" )
abline(lm(dados$y~dados$x))
ajuste=lm(dados$y~dados$x)
ajuste
##
## Call:
## lm(formula = dados$y ~ dados$x)
##
## Coefficients:
## (Intercept) dados$x
## 74.28 14.95
\[\beta _{0}=74.20\] \[\beta _{1}=14.97\]
Equação:
\[Y=74,20 +14.97x_1\]
É uma extensão da regressão linear simples em que duas ou mais variáveis independentes \(x_{1}, x_{2}, ..., x_{i}\) são usadas para predizer uma única variável \(Y\).
Equação de regressão linear múltipla
\[Y=\beta _{0} +\beta _{1}x_1+\beta _{2}x_2+...\beta _{k}x_k+\epsilon \]
Onde:
Gráficos de dispersão dos dados são usados para examinar a correlação, onde os pares (\(x_{i}\), \(y\)) são desenhados no gráfico.
Os três gráficos representam o mesmo conjunto de dados, entretanto os dados são apresentados em diretens escalas
Fornece a proporção de variabilidade em \(y\) que é obtida por se conhecer o valor de \(x\).
\[\sum_{i=1}^{n} ( y_i-\tilde{y} )^2=\sum_{i=1}^{n}\left ( \hat{y}-y_i \right )^2 \ + \ \sum_{i=1}^{n}\left ( y_i-\hat{y} \right )^2 \\\] \[\\ \\ \\ \\\] \[\sum_{i=1}^{n} ( y_i-\tilde{y} )^2=SQ_T \ \ \ \ \ \ \sum_{i=1}^{n}\left ( y_i-\hat{y} \right )^2 =SQ_E\] \[\\ \\ \\ \\\] \[R^2=\frac{SQ_R}{SQ_T}=1 -\frac{SQ_E}{SQ_T} \ \rightarrow \ R^{2}_{ajustado}=1-\frac{SQ_E/(n-p)}{SQ_T/(n-1)} \]
A sua significância depende do número de amostras.
Eles são influenciados por valores extremos (outliers).
Uma associação não implica em uma relaçã causal
cor(dados)
## x y
## x 1.0000000 0.9367154
## y 0.9367154 1.0000000
Indica a probabilidade de obter-se uma associação (R) por chance, ou melhor, é a probabilidade de que um valor verdadeiro de R seja zero (0).
P-valor maior que 0,05 (intervalo de confiança de 95%) indica a aceitação da hipótese nula, ou seja, que a regressão não é significativa.
Assim como no teste de significância da regressão, a análise de significância dos coeficientes de regressão pode ser realizada utilizando o p-valor. Sendo que p-valor maior que 0,05 (intervalo de confiança de 95%) indica que o coeficiente de regressão não é significativo para o modelo.
cor.test(dados$x,dados$y,,
alternative = c("two.sided", "less", "greater"),
method = c("pearson", "kendall", "spearman"),
exact = NULL, conf.level = 0.95, continuity = FALSE)
##
## Pearson's product-moment correlation
##
## data: dados$x and dados$y
## t = 11.352, df = 18, p-value = 1.227e-09
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.8440788 0.9750587
## sample estimates:
## cor
## 0.9367154
Neste processo é realizado o procedimento de inclusão ou exclusão de variáveis uma a uma até que, por algum critério estabelecido, o processo termine.
Existem vários algoritmos na seleção de variáveis, e eles não conduzem necessariamente à mesma solução, os principais são:
Seleção stepwise;
Seleção passo-a-frente (forward);
Eliminação passo-a-trás (backward).
A P & C tem supervisionado e controlado seu sistema biológico de tratamento através da DBO, DQO, pH, sólidos suspensos e vazão do efluente.
A DBO de 5 dias é um dos parâmetros utilizados na monitorização da qualidade do efluente. Medidas de controle da qualidade do efluente tratado é dificultado tendo em vista este tempo, assim se faz necessária a modelagem para predição imediata deste parâmetro.
Qual o problema?
Quais os objetivos da modelagem?
Que informações estáo disponíveis (variáveis)?
Que tipo de modelagem deve ser usada? (Empírica ou Determinística)
Que dificuldades existem na construção do modelo?
[1] Draper, N. R.; Smith, H. (1981). Applied regression analysis, Wiley Press, New York.
[2] Jackson, J. E. (1991). A user guide to principal components, Wiley Press, New York.
[3] Johnson, R. A.; Wichern, D. W. (1998). Applied multivariate statistical analysis, Prentice Hall, New Jersey.
[4] Montgomery, D. C; Peck, E. A. (1992). Introduction to linear regression analysis, Wiley Press, New York.
[5] Oliveira-Esquerre, K., et al. (2004). Application of steady-state and dynamic modeling for the prediction of the BOD of an aerated lagoon at a pulp and paper mill. Part I: Linear approaches, Journal of Chemical Engineering, v. 104, n. 1-3, pp. 73-81.