Em problemas de tratamento térmico deseja-se estabelecer uma relação entre a temperatura da estufa e uma característica da qualidade (dureza, por exemplo) de uma peça.
Desta forma, pretende-se determinar os valores de temperatura em °C que “otimizam” a performance do processo de tratamento térmico em relação a estrutura metalográfica do material, avaliada em relação de dureza em HB.
Considere que em um experimento, a dureza de pistões foi medida em diferentes níveis de temperatura escolhidos conforme interesse (T1=220ºC, T2=225ºC, T3=230ºC e T4=235ºC ).
Para cada ponto de temperatura foram submetidos ao tratamento térmico 5 pistões.
Os dados observados são apresentados na Tabela a seguir e o objetivo é estabelecer uma relação entre a variável de entrada (temperatura) e a variável de saída (dureza).
Obs | Dureza | Temperatura |
---|---|---|
1 | 137 | 220 |
2 | 137 | 220 |
3 | 137 | 220 |
4 | 136 | 220 |
5 | 135 | 220 |
6 | 135 | 225 |
7 | 133 | 225 |
8 | 132 | 225 |
9 | 133 | 225 |
10 | 133 | 225 |
11 | 128 | 230 |
12 | 124 | 230 |
13 | 126 | 230 |
14 | 129 | 230 |
15 | 126 | 230 |
16 | 122 | 235 |
17 | 122 | 235 |
18 | 122 | 235 |
19 | 119 | 235 |
20 | 122 | 235 |
Na maioria das vezes não se conhece a princípio a real relação existente entre as variáveis de interesse.
Assim, uma análise gráfica preliminar é realizada construindo-se o gráfico de dispersão entre as variáveis em questão.
Este gráfico é importante em qualquer análise de regressão já que por meio dele é possível ter uma noção do tipo de relação existente entre as variáveis (relação linear, quadrática).
Esta relação na maioria das vezes não é perfeita, ou seja, os pontos não estão dispostos perfeitamente sobre a função que relaciona as duas variáveis mas deseja-se que estes pontos estejam próximos.
Além disto, o gráfico de dispersão dá indícios sobre a variabilidade associada as variáveis em questão e sobre pontos atípicos ou discrepantes.
Para o conjunto de dados anterior, o gráfico de dispersão é dado por:
require(ggplot2)
## Loading required package: ggplot2
ggplot(Reglin) +
geom_point(aes(x = Temperatura, y = Dureza),
size = 3, color = "blue") +
labs(title = 'Relação entre Dureza e Temperatura',
y = 'Dureza',
x = 'Temperatura') +
theme_classic()
É razoável supor que a relação existente entre as variáveis dureza de pistões, denotada por Y e níveis de temperatura, denotada por X, é linear.
Desta forma, definimos o seguinte modelo de regressão linear simples entre Y (variável resposta) e X (variável regressora).
Consideremos duas variáveis X e Y. Dados n pares \((X_1,Y_1),(X_2,Y_2),\ldots,(X_n,Y_n)\), se Y é função linear de X, pode-se estabelecer uma regressão linear simples cujo modelo estatístico é
\[Y_i=\beta_0+\beta_1 x_i+\varepsilon_i,~~~\mbox{para }~i=1,\ldots,n, \]
em que substituímos Xi por xi uma vez que Xi é uma variável determinística (constante conhecida).
Neste modelo,
\(Y_i\) é uma variável aleatória e representa o valor da variável resposta (variável dependente) na i-ésima observação;
\(x_i\) representa o valor da variável explicativa (variável independente, variável regressora) na i-ésima observação;
\(\epsilon_i\) é uma variável aleatória que representa o erro experimental;
\(\beta_0\) e \(\beta_1\) são os parâmetros do modelo, que serão estimados, e que definem a reta de regressão e n é o tamanho da amostra.
O parâmetro \(\beta_0\) é chamado intercepto ou coeficiente linear e representa o ponto em que a reta regressora corta o eixo dos y’s, quando x=0.
Já o parâmetro \(\beta_1\) representa a inclinação da reta regressora e é dito coeficiente de regressão ou coeficiente angular.
Além disso, temos que para um aumento de uma unidade na variável x, o valor E(Y|x) aumenta \(\beta_1\) unidades.
A interpretação geométrica dos parâmetros \(\beta_0\) e \(\beta_1\) pode ser vista por meio da seguinte figura:
\[E(Y_{i}) = E(\beta_{0}+\beta_{1}x_{i}+\epsilon_{i})=\beta_{0}+\beta_{1}x_{i}+E(\epsilon_{i})=\beta_{0}+\beta_{1}x_{i}\]
e portanto, a função de regressão para o modelo 1.1.1 é dada por:
\[E[Y\mid x]=\beta_{0}+\beta_{1}x\]
Note que o valor observado de \(Y_i\) está em torno do valor da função de regressão com erro experimental $ _i $.
\[Var(\varepsilon_i)= E(\varepsilon_i^2) - [E(\varepsilon_i)]^2 = E(\varepsilon_i^2) = \sigma^2, \] isto implica em:
\[Var(Y_i)= E[Y_i - E(Y_i|x_i)]^2 = E(\varepsilon_i^2) = \sigma^2.\]
- Neste caso, dizemos que o erro é homocedástico (tem variância constante);
\[Cov(\varepsilon_i,\varepsilon_j)= E(\varepsilon_i,\varepsilon_j) - E(\varepsilon_i)E(\varepsilon_j) = E(\varepsilon_i,\varepsilon_j) = 0, \quad \text{para} \quad i \neq j;\]
Esta hipótese não implica que os erros sejam independentes. Se a distribuição dos erros for normal, esta hipótese é equivalente a independência dos erros.
Desta forma, combinando (a), (b) e (d) temos que \(\varepsilon_i \sim N(0;\,\sigma^2)\).
A suposição de normalidade é necessária para a elaboração dos testes de hipóteses e obtenção de intervalos de confiança.
O primeiro passo na análise de regressão é obter as estimativas \(\widehat{\beta}_0\) e \(\widehat{\beta}_1\) dos parâmetros do modelo.
Os valores dessas estimativas serão obtidos a partir de uma amostra de n pares de valores \((X_i,Y_i)\), \(i=1,\ldots,n\) que correspondem a n pontos em um gráfico.
No método de Mínimos Quadrados, não é necessário conhecer a forma da distribuição dos erros.
O objetivo é estimar os parâmetros \(\beta_0\) e \(\beta_1\) de modo que os desvios (\(\varepsilon_i\)) entre os valores observados e estimados sejam mínimos.
Isso equivale a minimizar o comprimento do vetor de erros, \(\varepsilon=(\varepsilon_1, \varepsilon_2,\ldots,\varepsilon_n)^{\prime}\).
Uma forma de obter essas estimativas é o Método de Mínimos Quadrados.
Este método consiste em minimizar a soma dos quadrados dos desvios L, como na expressão abaixo
\[L=\displaystyle\sum^n_{i=1}\varepsilon_i^2=\sum^n_{i=1}[Y_i-\beta_0-\beta_1 x_i]^2.\]
\[\widehat{\beta}_0=\bar{Y}-\widehat{\beta}_1\bar{x}\]
\[\widehat{\beta}_{1}=\dfrac{\displaystyle\sum\limits_{i=1}^n(x_i - \bar{x})(Y_i - \bar{Y})}{\displaystyle\sum\limits_{i=1}^n (x_i -\bar{x})^2}=\dfrac{\displaystyle\sum\limits_{i=1}^n(x_i - \bar{x})Y_i}{\displaystyle\sum\limits_{i=1}^n (x_i - \bar{x})x_i}=\dfrac{\displaystyle\sum\limits_{i=1}^n x_i Y_i-n\bar{x}\bar{Y}}{\displaystyle\sum\limits_{i=1}^n x_i^2-n\bar{x}^2}.\]
Os valores de \(\widehat{\beta}_0\) e \(\widehat{\beta}_1\) assim determinados são chamados Estimadores de Mínimos Quadrados (EMQ).
O modelo de regressão linear simples ajustado é então
\[\widehat{Y}=\widehat{\beta}_{0}+\widehat{\beta}_{1}x\]
\[e_{i}=Y_{i}-\widehat{Y}_{i}=Y_{i}-(\widehat\beta_{0}+\widehat\beta_{1}x_{i}),\]
Essa medida é importante já que por meio dela verificamos o ajuste do modelo.
mod = lm(Dureza ~ Temperatura,
data=Reglin)
mod
##
## Call:
## lm(formula = Dureza ~ Temperatura, data = Reglin)
##
## Coefficients:
## (Intercept) Temperatura
## 364.180 -1.032
Logo, temos os resultados:
O intercepto, \(\beta_0 =\) 364.18
O coeficiente de inclinação, \(\beta_1 =\) -1.032
Na regressão linear é importante avaliarmos se existe uma boa “correlação” entre a resposta e a variável explicativa.
Por exemplo, se o aumento em cinco graus na temperatura de uma peça na estufa acarretará em uma mudança significativa no valor de dureza da peça.
Para respondermos a esta questão, utilizamos testes de hipóteses e intervalos de confiança para os parâmetros.
Em todos estes casos, é feita a suposição de que os erros são independentes e identicamente distribuídos \(N(0,\sigma^2)\).
Dessa forma, as observações \(Y_i\) têm distribuição \(N(\beta_0+\beta_1x_i,\sigma^2)\).
\[\widehat{\beta}_0 \sim N \left(\beta_{0},~ \sigma^2\left[\dfrac{1}{n}+\dfrac{\bar{x}^2}{\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2}\right]\right).\]
Assim, sob \(\mbox{H}_0\) temos que:
\[N_0=\dfrac{\widehat{\beta}_0-\beta_{00}}{\sqrt{Var(\widehat{\beta}_0)}}~~\sim N(0,1).\]
\[T=\dfrac{N_0}{\sqrt{\dfrac{\chi}{n-2}}}=\dfrac{\widehat{\beta}_0-\beta_{00}}{\sqrt{QME\left(\dfrac{1}{n}+\dfrac{\bar{x}^2}{\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2}\right)}}~~~\sim t_{(n-2)},\]
Inferência sobre \(\beta_1\) é mais frequente já que por meio deste parâmetro temos um indicativo da existência ou não de associação linear entre as variáveis envolvidas.
Similarmente ao parâmetro \(\beta_0\), consideremos as hipóteses
\[H_0: \beta_1 = \beta_{10} \\ H_1: \beta_1 \neq \beta_{10}\]
Assim, sob \(\mbox{H}_0\) segue que:
\[N_1=\dfrac{\widehat{\beta}_1-\beta_{10}}{\sqrt{Var(\widehat{\beta}_1)}}~~\sim N(0;1).\]
Logo,
\[T=\dfrac{N_1}{\sqrt{\dfrac{\chi}{n-2}}}=\dfrac{\widehat{\beta}_1 -\beta_{10}}{\sqrt{\dfrac{QME}{\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})^2}}}~~~ \sim ~~t_{(n-2)},\]
ou seja, T tem distribuição t de Student com n-2 graus de liberdade.
Logo, intervalos de confiança e testes a respeito de \(\beta_1\) podem ser realizados utilizando a distribuição t.
Obtendo o intervalo de confiança para os parâmetros:
confint.lm(mod)
## 2.5 % 97.5 %
## (Intercept) 335.260963 393.0990373
## Temperatura -1.159078 -0.9049217
out = summary(mod)
out$coefficients
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 364.180 13.76492644 26.45710 7.339794e-16
## Temperatura -1.032 0.06048691 -17.06154 1.467504e-12
Para \(\beta_0\) o valor p foi de 7.339794310^{-16}.
Para \(\beta_1\) o valor p foi de 1.467504410^{-12}.
Em ambos, o valor p foi inferior ao nível de \(5\%\) de significância, indicando que estes parâmetros são estatísticamente significativos ao modelo ajustado.
No caso de um modelo linear simples, no qual temos apenas uma variável explicativa, testar a significância do modelo corresponde ao seguinte teste de hipóteses
\[ H_0: \beta_1 = 0 \\ H_1: \beta_1 \neq 0 \]
Considerando o Modelo de Regressão Linear Simples, a siginificância do modelo linear pode ser avaliada através do do teste de hipóteses anterior.
Se não rejeitamos \(\mbox{H}_0\), concluímos que não existe relação linear significativa entre as variáveis explicativa (x) e dependente (Y).
A estratégia para testarmos a hipótese \(\mbox{H}_0\) consiste em compararmos o quadrado médio da regressão com o quadrado médio dos erros, pois sob \(\mbox{H}_0\), ambos quadrados médios são estimadores de momentos para o parâmetro \(\sigma^2\).
Na tabela a seguir apresentamos a tabela ANOVA com a Estatística do Teste F.
anova(mod)
## Analysis of Variance Table
##
## Response: Dureza
## Df Sum Sq Mean Sq F value Pr(>F)
## Temperatura 1 665.64 665.64 291.1 1.468e-12 ***
## Residuals 18 41.16 2.29
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Pela ANOVA o valor p foi de \(1,467504\cdot 10^{-12}\), indicando que ao nível de \(5\%\) de significância concluímos que a variável explicativa tem correlação com a variável resposta.
Uma das formas de avaliar a qualidade do ajuste do modelo é por meio do coeficiente de determinação (\(R^2\)).
Basicamente, este coeficiente indica quanto o modelo foi capaz de explicar os dados coletados.
O coeficiente de determinação é dado pela expressão
\[R^2=\dfrac{SQR}{SQT}=1-\dfrac{SQE}{SQT}=\dfrac{\widehat\beta_1\displaystyle\sum\limits_{i=1}^n(x_i-\bar{x})Y_i}{\displaystyle\sum\limits_{i=1}^n(Y_i-\bar{Y})^2},\] - Note que \(0 \leq R^2 \leq 1\).
O \(R^2\) é, portanto, uma medida descritiva da qualidade do ajuste obtido.
Em geral referimo-nos ao \(R^2\) como a quantidade de variabilidade nos dados que é explicada pelo modelo de regressão ajustado.
Entretanto, o valor do coeficiente de determinação depende do número de observações \((n)\), tendendo a crescer quando \(n\) diminui.
O \(R^2\) deve ser usado com precaução, pois é sempre possível torná-lo maior pela adição de um número suficiente de termos ao modelo.
No nosso exemplo, temos que:
\[R^2=\dfrac{665,64}{665,64+41,16}=0,9418\] No R
out$r.squared
## [1] 0.9417657
Logo, \(94,18\%\) de toda a variabilidade da variável Y (Dureza) é explica pelo modelo ajustado.
Para evitar dificuldades na interpretação de \(R^2\), alguns estatísticos preferem usar o \(R_a^2\) (\(R^2\) ajustado), definido para uma equação com 2 coeficientes como:
\[R^2_a=1-\left(\frac{n-1}{n-2}\right)(1-R^2).\]
Assim como o Coeficiente de Determinação \(R^2\), quanto maior \(R_a^2\), mais a variável resposta é explicada pela regressora X.
\[R^2_a=1-\left(\frac{20-1}{20-2}\right)(1-0,9417657) = 0,9385\]
require(ggplot2)
ggplot(Reglin, aes(x = Temperatura, y = Dureza)) +
geom_point() +
labs(title = 'Relação entre Dureza e Temperatura',
y = 'Dureza',
x = 'Temperatura') +
geom_smooth(method="lm") +
theme_classic()
Como uma ilustração da análise de regressão múltipla, vamos considerar um problema enfrentado pela Empresa de Transporte TRAVEL, uma empresa de transporte independente no sul da Califórnia.
Uma grande parte dos negócios da TRAVEL envolve entregas em toda a sua área local. Para desenvolver melhores horários de trabalho, os gerentes querem estimar o tempo total de viagem diário de seus motoristas.
Os gerentes acreditavam que o tempo total de viagem diário (Y) estaria intimamente relacionado ao número de milhas percorridas nas entregas diárias (\(x_1\)) e o número de entregas (\(x_2\)).
Uma amostra aleatória simples de 10 entregadores forneceu os dados mostrados na Tabela a seguir.
Entregador | Distancia | Entregas | Tempo |
---|---|---|---|
1 | 100 | 4 | 9.3 |
2 | 50 | 3 | 4.8 |
3 | 100 | 4 | 8.9 |
4 | 100 | 2 | 6.5 |
5 | 50 | 2 | 4.2 |
6 | 80 | 2 | 6.2 |
7 | 75 | 3 | 7.4 |
8 | 65 | 4 | 6.0 |
9 | 90 | 3 | 7.6 |
10 | 90 | 2 | 6.1 |
Antes de ajustar um modelos, devemos realizar algumas análises exploratória. Uma importante medida é a de correlação linear entre as variáveis.
require(corrgram)
## Loading required package: corrgram
x <- RegMult[,-1] #Excluindo a coluna "Entregador"
corrgram(x,
#upper.panel=panel.cor,
upper.panel=panel.conf,
cex.labels=1.5, cex=1.2)
Assim, definimos o modelo de regressão linear múltipla dado por:
\[Y=\beta_0+\beta_1x_1+\beta_2x_2+\varepsilon,\]
em que
\(Y\) representa a variável resposta (o ganho em íons),
\(x_1\) e \(x_2\) representam as variáveis explicativas (a distância percorrida e a quantidade de entregas, respectivamente) e
\(\varepsilon\) representa o erro experimental.
Esse é um modelo de regressão linear múltipla com duas variáveis independentes ou explicativas (\(x_1\) e \(x_2\))
O parâmetro \(\beta_0\) corresponde ao intercepto do plano com o eixo z.
Se $ x=(x_1, x_2)=(0,0)$ o parâmetro \(\beta_0\) fornece a resposta média nesse ponto. Caso contrário, não é possível interpretar o parâmetro \(\beta_0\).
O parâmetro \(\beta_1\) indica uma mudança na resposta média (Esperança) a cada unidade de mudança em \(x_1\), quando as demais variáveis são mantidas fixas.
De forma semelhante é a interpretação para o parâmetro \(\beta_2\), que indica uma mudança na resposta média a cada unidade de mudança em \(x_2\), quando \(x_1\) é mantido constante.
As suposição na regressão múltipla são as mesmas feitas na regressão linear simples.
O teste para significância da regressão é um teste para determinar se há uma relação linear entre a variável resposta \(Y\) e algumas das variáveis regressora \(x_1,x_2,\dots,x_p\).
\[ H_0: \beta_1 = \beta_2 = \cdots = \beta_p = 0 \\ H_1: \beta_j \neq 0, \mbox{ para qualquer } j = 1, 2, \ldots, p. \]
Se rejeitamos \(H_0\), temos que ao menos uma variável explicativa \(x_1,x_2,\dots,x_p\) contribui significativamente para o modelo.
Sob \(H_0,\) temos:
\[\dfrac{SQR}{\sigma^2} \sim \chi^2_{(p)}~~~~\mbox{e que}~~~~\dfrac{SQE}{\sigma^2} \sim \chi^2_{(n-p-1)}.\]
Além disso, temos que \(SQR\) e \(SQE\) são independentes.
Logo, concluímos sob \(H_0\) que
\[F_0=\dfrac{\dfrac{SQR}{p}}{\dfrac{SQE}{n-p-1}}= \dfrac{QMR}{QME}~\sim ~F_{(p ; \, n-p-1)}.\]
Portanto, rejeitamos \(H_0\) se \(F_0 > F_{(1-\alpha ; \, p ; \, n-p-1)}\) e se \(\mbox{valor p} =P[F_{p;n-p-1} > F_0] < \alpha,\) em que \(\alpha\) é o nível de significância considerado. Geralmente adotamos \(\alpha=5\%\).
mod1 = lm(Tempo ~ Distancia + Entregas,
data = RegMult)
anova(mod1)
## Analysis of Variance Table
##
## Response: Tempo
## Df Sum Sq Mean Sq F value Pr(>F)
## Distancia 1 15.8713 15.8713 48.316 0.000221 ***
## Entregas 1 5.7293 5.7293 17.441 0.004157 **
## Residuals 7 2.2994 0.3285
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
O valor p, é p para “Entregas” foi obitido por:
pf(17.441, 1, 7, lower.tail = FALSE)
## [1] 0.004156668
O cálculo da estatística F: \[ F_0 = (15.8713+5.7293)/0.3285 = 65.75525 \]
pf(65.75525, 2, 7, lower.tail = FALSE)
## [1] 2.901708e-05
Como o valor p 8.359770710^{-5} foi menor do que \(5\%\) de significãncia, tem-se que há pelo menos, uma variável explicativa estatisticamente significativa no modelo ajustado.
summary(mod1)
##
## Call:
## lm(formula = Tempo ~ Distancia + Entregas, data = RegMult)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.79875 -0.32477 0.06333 0.29739 0.91333
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.868701 0.951548 -0.913 0.391634
## Distancia 0.061135 0.009888 6.182 0.000453 ***
## Entregas 0.923425 0.221113 4.176 0.004157 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5731 on 7 degrees of freedom
## Multiple R-squared: 0.9038, Adjusted R-squared: 0.8763
## F-statistic: 32.88 on 2 and 7 DF, p-value: 0.0002762
No exemplo da TRAVEL envolvendo duas variáveis independentes, \(\hat{\beta}_1 = 0,0611\). Assim, 0,0611 horas é uma estimativa do aumento esperado no tempo de viagem correspondente a um aumento de uma milha na distância percorrida quando o número de entregas é mantido constante.
Da mesma forma, \(\hat{\beta}_2 = 0,9234\), uma estimativa do aumento esperado no tempo de viagem correspondente a um aumento de uma entrega quando o número de milhas percorridas é mantido constante é de 0,923 horas.
Em regressão linear múltipla, os estatísticos sugerem que deva-se utilizar o coeficiente de determinação ajustado, uma vez que este leva em consideração a quantidade de variáveis no modelo: O coeficiente de determinação ajustado é definido como
\[R^2_a=1-\left(\frac{n-1}{n-p}\right)(1-R^2).\]
summary(mod1)
##
## Call:
## lm(formula = Tempo ~ Distancia + Entregas, data = RegMult)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.79875 -0.32477 0.06333 0.29739 0.91333
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.868701 0.951548 -0.913 0.391634
## Distancia 0.061135 0.009888 6.182 0.000453 ***
## Entregas 0.923425 0.221113 4.176 0.004157 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5731 on 7 degrees of freedom
## Multiple R-squared: 0.9038, Adjusted R-squared: 0.8763
## F-statistic: 32.88 on 2 and 7 DF, p-value: 0.0002762
No exemplo da Empresa Travel, o coeficiente de determinação ajustado foi de 0,8763, indicando que \(87,63\%\) da variabilidade do tempo de entrega é aplicada pelo modelo ajustado.
A análise de resíduo (análise de diagnóstico) para regressão linear simples é a mesma na regressão linear múltipla.
Chamamos de Análise dos Resíduos um conjunto de técnicas utilizadas para investigar a adequabilidade de um modelo de regressão com base nos resíduos.
Como visto anteriormente, o resíduo \((e_i)\) é dado pela diferença entre a variável resposta observada \((Y_i)\) e a variável resposta estimada \((\widehat{Y}_i)\), isto é
\[ e_i=Y_i-\widehat{Y}_i=Y_i-\widehat{\beta}_0-\widehat{\beta}_1x_{1i}-\dots-\widehat{\beta}_p x_{pi}\quad i=1,\dots,n.\]
\[Y = X \beta + \varepsilon,\]
\(\varepsilon_i\) e \(\varepsilon_j\) são independentes \((i\neq j)\);
\(Var(\varepsilon_i) = \sigma^2\) (constante);
\(\varepsilon_i \sim N(0,\sigma^2)\) (normalidade);
plot(mod1,1)
O ideal é que os pontos estejam distribuídos em torno de uma média 0.
plot(mod1$residuals)
Espera-se que os pontos estejam distribuídos de forma aleatória.
plot(mod1, 2)
O ideal é que os pontos estejam próximo da linha tracejada.
require(car)
## Loading required package: car
## Loading required package: carData
qqPlot(mod1)
## [1] 7 8
Espera-se que “boa parte” dos pontos pertençam a região (bandas) de confiança.
shapiro.test(mod1$residuals)
##
## Shapiro-Wilk normality test
##
## data: mod1$residuals
## W = 0.97848, p-value = 0.9565
Como o valor p 0.9564955 foi maior do que \(5\%\) de significãncia, temos a não rejeição de \(H_0\). Assim, a suposição de normalidade foi atendida.
durbinWatsonTest(mod1)
## lag Autocorrelation D-W Statistic p-value
## 1 -0.317467 2.515204 0.404
## Alternative hypothesis: rho != 0
Como o valor p 0.378 foi maior do que \(5\%\) de significãncia, temos a não rejeição de \(H_0\). Assim, a suposição de independência foi atendida.
\[ H_0: \mbox{Os resíduos são homoscedásticos} \\ H_1: \mbox{Os resíduos não são homoscedásticos} \]
require(lmtest)
## Loading required package: lmtest
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
bptest(mod1)
##
## studentized Breusch-Pagan test
##
## data: mod1
## BP = 0.36899, df = 2, p-value = 0.8315
Como o valor p 0.8315252 foi maior do que \(5\%\) de significãncia, temos a não rejeição de \(H_0\). Assim, a suposição de homocedasticidade foi atendida.