Estudo sobre Variância e Regressão

Análise Estatística com ANOVA

A análise de variância unidirecional (ANOVA), também conhecida como ANOVA de um fator, é uma extensão do teste t independente de duas amostras para comparar médias em uma situação em que há mais de dois grupos.

A análise de variância é um método comumente usado para determinar diferenças entre várias amostras. R fornece uma função para conduzir a ANOVA assim: aov (model, data).Na ANOVA unidirecional, os dados são organizados em vários grupos com base em uma única variável de agrupamento (também chamada de variável de fator).

A análise de variância e regressão tem muito em comum.Ambos examinam uma variável dependente e determinam a variabilidade dessa variável em resposta a vários fatores.

Hipóteses de teste da ANOVA:

Hipótese nula: as médias dos diferentes grupos são as mesmas (hipótese nula geralmente afirma que não existe relação entre dois fenômenos medidos)

Hipótese alternativa: pelo menos uma média amostral não é igual às outras.

Exemplo utilizando o método de avaliação ANOVA

Uma amostragem de tempo de tarefa executados por quatro grupos diferentes apresentou os resultados descritos a seguir. Com base em um teste ANOVA, pode-se afirmar que:

a.( ) A média do grupo t6 é significativamente maior que a média do grupo t4

b.( ) A média do grupo gr3 é significativamente maior que a média do grupo gr2

c.(x) A média do grupo t5 não é significativamente maior que a média do grupo t1

d.( ) A média do grupo t5 é significativamente maior que a média do grupo t4

e.( ) A média do grupo gr4 não é significativamente maior que a média do grupo gr2

#      t1 t2 t3 t4 t5 t6
# gr1  16 12 14 15 19 20
# gr2  12 11 13 18 17 21
# gr3  16 19 18 19 17 19
# gr4  20 21 18 20 21 23

dados = c(16, 12, 14, 15, 19, 20,
          12, 11, 13, 18, 17, 21,
          16, 19, 18, 19, 17, 19,
          20, 21, 18, 20, 21, 23)

g1 = as.factor(rep(1:4, each = 6))
g2 = as.factor(rep(1:6, times = 4))
a = aov(dados~g1+g2)
summary(a)

##             Df Sum Sq Mean Sq F value  Pr(>F)   
## g1           3  97.13   32.38   7.573 0.00259 **
## g2           5  80.71   16.14   3.776 0.02057 * 
## Residuals   15  64.13    4.28                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Análise estatística utilizando o ANOVA com a fórmula $aov(dados~g1+g2)$

Quanto menor o valor “Pr(>F)” mais confiança se pode ter que a $H_0$ não é verdadeira, ou seja, pode-se descartar $H_0$.

Quanto mais "*" se tem, pode-se afirmar que a amostra é improcedente.

É o valor “F value” que vai dizer se haverá pelo menos uma diferença entre os grupos de média.

Se dentro da coluna “Mean Sq” a variação entre grupos (32.38 e 16.14), estatisticamente o “F value” vai ser um número muito grande a ponto de cair na rejeição da $H_0$ - de tal modo que g1 e g2 sejam muito maior que “Residuals” (na referida coluna).

Portanto, quando a variação entre grupos não é muito superior do que a variação dentro do grupo, o resultado do teste “F” vai ser um número muito próximo de 1.

Vejamos os resultados agora. O p-value do teste ANOVA é o valor na última coluna $Pr(>F)$. O valor de g1 esta acima de 0.05, entretanto g2 tem um valor menor do que 0.05 - ou seja, há uma suspeita considerável de que pelo menos um tratamento esteja desconforme.

Comparações múltiplas com o Teste de Tukey

TukeyHSD(aov(dados~g1+g2))

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = dados ~ g1 + g2)
## 
## $g1
##           diff        lwr      upr     p adj
## 2-1 -0.6666667 -4.1071845 2.773851 0.9427715
## 3-1  2.0000000 -1.4405178 5.440518 0.3696429
## 4-1  4.5000000  1.0594822 7.940518 0.0089545
## 3-2  2.6666667 -0.7738511 6.107184 0.1589008
## 4-2  5.1666667  1.7261489 8.607184 0.0029866
## 4-3  2.5000000 -0.9405178 5.940518 0.1995226
## 
## $g2
##              diff           lwr      upr     p adj
## 2-1 -2.500000e-01 -5.000054e+00 4.500054 0.9999748
## 3-1 -2.500000e-01 -5.000054e+00 4.500054 0.9999748
## 4-1  2.000000e+00 -2.750054e+00 6.750054 0.7443654
## 5-1  2.500000e+00 -2.250054e+00 7.250054 0.5459628
## 6-1  4.750000e+00 -5.366828e-05 9.500054 0.0500034
## 3-2  1.776357e-15 -4.750054e+00 4.750054 1.0000000
## 4-2  2.250000e+00 -2.500054e+00 7.000054 0.6466577
## 5-2  2.750000e+00 -2.000054e+00 7.500054 0.4489559
## 6-2  5.000000e+00  2.499463e-01 9.750054 0.0363675
## 4-3  2.250000e+00 -2.500054e+00 7.000054 0.6466577
## 5-3  2.750000e+00 -2.000054e+00 7.500054 0.4489559
## 6-3  5.000000e+00  2.499463e-01 9.750054 0.0363675
## 5-4  5.000000e-01 -4.250054e+00 5.250054 0.9992431
## 6-4  2.750000e+00 -2.000054e+00 7.500054 0.4489559
## 6-5  2.250000e+00 -2.500054e+00 7.000054 0.6466577

Comentário da aplicação do Teste de Tukey:

Em estudos que buscam comparar a distribuição de três ou mais grupos de amostras independentes, frequentemente se utiliza a Análise de Variância ou ANOVA. Nesse caso, o resultado evidencia que a distribuição de pelo menos um dos grupos se difere das demais, mas não indica entre quais grupos a diferença é significativa. Assim, se faz necessário utilizar testes de comparações múltiplas

O Tukey HSD (honest significant diffence) é o teste mais usado para identificar os grupos responsáveis pela rejeição da $H_0$ na ANOVA.

A função $aov$ é necessária porque o comando TukeyHSD atua sobre objetos dessa classe. O R devolve-nos uma série de comparações entre os grupos.

plot(TukeyHSD(a))

A visualização gráfica ao objeto que armazenou o resultado do teste de Tukey apresenta as diferenças observadas no teste.

A conclusão deste estudo não é completamente perentória. No entanto, uma coisa parece clara: se houver um tratamento diferente dos outros, será o tratamento 4-2, 6-2 e 6-3 - pois o que ocorre é que o $padj$ destes componentes são menores de 0.05 - isso pode ser observado também nas duas figuras. Neste caso o que há a fazer é recolher mais dados e repetir a análise.

boxplot(TukeyHSD(a))

Resposta do Exercício

t5=c(19,17,17,21)
t1=c(16,12,16,20)
mean(t5)

## [1] 18.5

mean(t1)

## [1] 16

Análise de Regressão

Análise de regressão é uma técnica estatística utilizada para investigar a relação existente entre variáveis através da construção de uma equação (um modelo). De maneira geral, essa técnica pode ser utilizada com vários objetivos, dentre os quais se pode destacar: descrever a relação entre variáveis para entender um processo ou fenômeno; prever o valor de uma variável a partir do conhecimento dos valores das outras variáveis; substituir a medição de uma variável pela observação dos valores de outras variáveis; controlar os valores de uma variável em uma faixa de interesse.

Segue um roadmap para realização da regressão linear no R

Primeiramente, cria-se dois conjuntos de dados
A função para regressão é: m = lm(y~x)
Sumário dos resultados do modelo: summary(m)
Teste para Normalidade do modelo (valores de p>0.05 indicam dados normais) através do teste de Shapiro com a fórmula: shapiro.test(m$res)
Análise visual para homogeneidade dos resíduos (visualmente eles devem se distribuir igualmente abaixo e acima da linha)
Visualização gráfica lty é o tipo da linha 1: linha contínua; 2: linha descontínua

Exemplo utilizando a Análise de Regressão

Uma regressão da forma y = a + bx foi conduzida com base nos dados a seguir. Assinale a alternativa Falsa.

a.( ) A hipótese de que os resíduos sao normais é aceita

b.( ) A hipótese de que o modelo é homoscedástico é aceita

c.( ) A hipótese de que o modelo $y = a + bx$ é correto é aceita

d.( ) A hipótese de que existe regressão é aceita

e.(x) A hipótese $H_0: a = 0$ é aceita

#     x    y
# 1  6.1  23.7
# 2  3.7  17.8
# 3  6.5  22.4
# 4  5.8  18.9
# 5  5.1  17.4
# 6  4.6  19.2
# 7  9.1  29.2
# 8  6.5  18.2
# 9  7.5  24.7
# 10 5.5  21.3

x = c(6.1, 3.7, 6.5, 5.8, 5.1, 4.6, 9.1, 6.5, 7.5, 5.5)
y = c(23.7, 17.8, 22.4, 18.9, 17.4, 19.2, 29.2, 18.2, 24.7, 21.3)
cbind(x,y)

##         x    y
##  [1,] 6.1 23.7
##  [2,] 3.7 17.8
##  [3,] 6.5 22.4
##  [4,] 5.8 18.9
##  [5,] 5.1 17.4
##  [6,] 4.6 19.2
##  [7,] 9.1 29.2
##  [8,] 6.5 18.2
##  [9,] 7.5 24.7
## [10,] 5.5 21.3

Comentário 01

Sejam X e Y, respectivamente, as variáveis x e y. Propõe-se um modelo de regressão linear de primeira ordem, dado pela equação: $Y = β_0 + β_1X + ꞓ$, onde $β_0$ e $β_1$ são parâmetros desconhecidos e ꞓ é o erro aleatório. Para ajustar um modelo de regressão linear no R utiliza-se a função ajuste=lm(x~y).

O R retorna o valor dos coeficientes de $β_0$ e $β_1$ estimados via Método de Mínimos Quadrados. Logo, a equação da reta ajustada é dada por $Y = -1,23 + 0,034X_i$.

ajuste=lm(x~y)
ajuste

## 
## Call:
## lm(formula = x ~ y)
## 
## Coefficients:
## (Intercept)            y  
##     -1.2347       0.3419

m = lm(y~x)
s = summary(lm(y~x))
s

## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.0535 -1.3674  0.6488  1.3736  2.2930 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)   8.4969     2.8721   2.958  0.01819 * 
## x             2.1164     0.4626   4.575  0.00181 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.105 on 8 degrees of freedom
## Multiple R-squared:  0.7235, Adjusted R-squared:  0.6889 
## F-statistic: 20.93 on 1 and 8 DF,  p-value: 0.001813

Comentário 02

O relatório gerado pela fórmula lm(x~y) é composto por:

Call: Este é um recurso R que mostra quais funções e parâmetros foram usados para criar o modelo
Residuals: Diferença entre o que o modelo previu e o valor real de y.
Coeficients: Estes são os pesos que minimizam a soma do quadrado dos erros.
Std.Error: é o erro padrão residual dividido pela raiz quadrada da soma do quadrado dessa variável x em particular
t value: É a estimativa dividida por Std.Error
Pr(>|t|):Procure o valor t em uma tabela de distribuição T com os graus de liberdades fornecidos
Residual Standard Error: Em R, o resumo “lm”" produz o desvio padrão do erro com uma ligeira distorção. O desvio padrão é a raiz quadrada da variação. Erro padrão é muito semelhante. A única diferença é que, em vez de dividir por n-1, você subtrai n menos 1 mais # de variáveis envolvidas.
Multiple R-Squared: Também chamado de coeficiente de determinação, essa é uma medida freqüentemente citada de quão bem seu modelo se ajusta aos dados. R-Squared subtrai o erro residual da variação em Y. Quanto maior o erro, pior será a variação restante.Se você perceber, o numerador não precisa ser positivo. Se o modelo é tão ruim, você pode acabar com um R-Squared negativo.
F-Statistic:Incluindo os “t-test”, este é o segundo “teste” que a função “summary” produz para os modelos de “lm”. O F-Statistic é um teste “global” que verifica se pelo menos um dos seus coeficientes é diferente de zero.

Note que função lm() é chamada com o formato lm(y ~ x), ou seja, a variável resposta é y e a preditora é x, sempre nessa ordem.Da execução desse comando, pode-se obter, por exemplo, os erros-padrão (Std. Error) das estimativas dos coeficientes de regressão: $EP(β_0) = 0,0761$ e $EP(β_1) = 0,0047$. Além disso, obtém-se o valor.

Portanto, mesmo que o valor de “F-statistic” (20.93) não seja significativamente maior que 1 o valor “p-value” (0.001813) é menor do que 0.05, significa que podemos rejeitar a $H_0$.

anova(m)

## Analysis of Variance Table
## 
## Response: y
##           Df Sum Sq Mean Sq F value   Pr(>F)   
## x          1 92.737  92.737  20.934 0.001813 **
## Residuals  8 35.439   4.430                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Comentário 03

O relatório gerado pela fórmula anova(m) mostrou também que o Pr(>F) é muito menor do que 0.05, indicando que a amostra deve ser rejeitada.

Para esboçar a reta ajustada no diagrama de dispersão, utilizeremos a função abline. Ao ser executada a função plot(), na janela Plots do RStudio aparecerá um gráfico do tipo dispersão com o eixo horizontal representando x, o eixo vertical representando y.Já a execução da função abline() faz o desenho da função linear resultante do modelo estatístico no mesmo gráfico.

plot(x, y)
abline(m)

shapiro.test(m$res)

## 
##  Shapiro-Wilk normality test
## 
## data:  m$res
## W = 0.88759, p-value = 0.1593

Comentário 04

Portanto, utilizando o teste de normalidade dos dados por meio do teste de Shapiro observa-se que o Valor P do teste é maior do que 0.05. Desta forma, aceita-se a hipótese de normalidade dos resíduos e, por consequência, conclui-se que os erros são normalmente distribuídos.

Em seguida aplicaremos o teste de Breusch-Pagan. Este teste é bastante utilizado para testar a hipótese nula de que as variâncias dos erros são iguais (homoscedasticidade) versus a hipótese alternativa de que as variâncias dos erros são uma função multiplicativa de uma ou mais variáveis, sendo que esta(s) variável(eis) pode(m) pertencer ou não ao modelo em questão. É indicado para grandes amostras e quando a suposição de normalidade nos erros é assumida.

Para melhor compreender a aplicação deste teste, precisamos entender os conceitos de homocedasticidade e heterocedasticidade. No estudo de um modelo econométrico, deseja-se que a variância dos resíduos gerados pela estimação do modelo seja constante. Se isso acontece, o pressuposto de homocedasticidade é satisfeito. Quando esse pressuposto é violado, a variância dos resíduos não é constante e ocorre a heterocedasticidade.

library(lmtest)

## Loading required package: zoo

## 
## Attaching package: 'zoo'

## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

library(zoo)
resettest(m)

## 
##  RESET test
## 
## data:  m
## RESET = 0.68732, df1 = 2, df2 = 6, p-value = 0.5386

lmtest::bptest(m)

## 
##  studentized Breusch-Pagan test
## 
## data:  m
## BP = 0.021785, df = 1, p-value = 0.8827

Comentário 05

Nos dois casos Reset.test e bptest os valores de p são maiores que 0.05 - neste caso as amostras não são rejeitadas e se conclui que os residuos são homocedásticos.

Exemplo Comentado - Regressão Linear

A regressão linear é usada para prever o valor de uma variável de resultado Y com base em uma ou mais variáveis preditoras de entrada X. O objetivo é estabelecer uma relação linear (uma fórmula matemática) entre a variável preditora (s) e a variável resposta. , podemos usar essa fórmula para estimar o valor da resposta Y, quando apenas os valores dos preditores (Xs) são conhecidos.

O objetivo da regressão linear é modelar uma variável contínua Y como uma função matemática de uma ou mais variáveis X, de modo que possamos usar este modelo de regressão para prever o Y quando somente o X é conhecido. Esta equação matemática pode ser generalizada da seguinte forma:$Y=β_1+β_2X+ϵ$. Onde, β1 é o ponto de intercessão e β2 é o declive. Coletivamente, eles são chamados de coeficientes de regressão. ϵ é o termo de erro, a parte de Y que o modelo de regressão é incapaz de explicar.

Exemplo de problema

Para esta análise, usaremos o conjunto de dados de carros que vem com R por padrão. cars é um conjunto de dados interno padrão, que torna conveniente demonstrar a regressão linear de maneira simples e fácil de entender. Você pode acessar este conjunto de dados simplesmente digitando carros no seu console R. Você descobrirá que consiste em 50 observações (linhas) e 2 variáveis (colunas) - dist e velocidade.

#>   speed dist
#> 1     4    2
#> 2     4   10
#> 3     7    4
#> 4     7   22
#> 5     8   16
#> 6     9   10

x=c(4,4,7,7,8,9)
y=c(2,10,4,22,16,10)
cbind(x,y)

##      x  y
## [1,] 4  2
## [2,] 4 10
## [3,] 7  4
## [4,] 7 22
## [5,] 8 16
## [6,] 9 10

Antes de começarmos a construir o modelo de regressão, é uma boa prática analisar e entender as variáveis. A análise gráfica e o estudo de correlação abaixo ajudarão com isso.

Análise Gráfica

O objetivo deste exercício é construir um modelo de regressão simples que podemos usar para prever a distância (dist), estabelecendo uma relação linear estatisticamente significativa com a velocidade (speed). Mas antes de entrar na sintaxe, vamos tentar entender essas variáveis graficamente. Normalmente, para cada uma das variáveis independentes (predictors), os gráficos a seguir são desenhados para visualizar o seguinte comportamento:

Scatter plot: visualize a relação linear entre o preditor e a resposta

Box plot: Para detectar quaisquer observações atípicas na variável. Ter outliers em seu preditor pode afetar drasticamente as previsões, pois elas podem afetar facilmente a direção / inclinação da linha de melhor ajuste.O Box Plot ou Desenho Esquemático é um gráfico que se costuma utilizar para sintetizar em uma mesma figura várias informações relativas à distribuição de uma determinada variável quantitativa. Nele também são representadas as observações discrepantes.Observações discrepantes ou outliers são observações cujos valores estão muito afastados dos demais (para mais ou para menos). Essas observações podem afetar de forma substancial o resultado das análises estatísticas.

Density plot: para ver a distribuição da variável de previsão. Idealmente, é preferível uma distribuição próxima da normal (uma curva em forma de sino), sem ser inclinada para a esquerda ou para a direita. Vamos ver como fazer cada um deles.

Scatter Plot

Gráficos de dispersão podem ajudar a visualizar qualquer relação linear entre a variável dependente (resposta) e as variáveis independentes (preditoras). Normalmente, se você está tendo várias variáveis preditoras, um gráfico de dispersão é desenhado para cada uma delas contra a resposta, juntamente com a linha de melhor, como visto abaixo.

scatter.smooth(x=cars$speed, y=cars$dist, main="Relationship between Speed and Stopping Distance for 50 Cars",col='blue',pch=20, cex=2,xlab="Speed in mph", ylab="Stopping Distance in feet")

O gráfico de dispersão junto com a linha de suavização acima sugere uma relação linearmente crescente entre as variáveis ‘dist’ e ‘speed’. Isso é uma coisa boa, porque, uma das suposições subjacentes na regressão linear é que a relação entre as variáveis de resposta e preditor é linear e aditiva. A partir do gráfico podemos visualizar que há uma relação forte entre a velocidade de um carro e a distância necessária para que ele pare (por exemplo, quanto mais rápido o carro fica, maior a distância necessária para parar).

summary(cars)

##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

O conjunto de dados de carros fornece Velocidade e Intervalo de Distância de Carros. Este conjunto de dados é um quadro de dados com 50 linhas e 2 variáveis. As linhas referem-se a carros e as variáveis referem-se a velocidade (a velocidade numérica em mph) e dist (a distância numérica de parada em pés). Como mostra a saída de resumo acima, a variável de velocidade do conjunto de dados de carros varia de carros com velocidade de 4 mph a 25 mph (a fonte de dados menciona estes são baseados em carros dos anos 20! - para descobrir mais sobre o dataset, você pode digitar carros). Quando se trata de distância para parar, há carros que podem parar em 2 pés e carros que precisam de 120 pés para parar.

BoxPlot

Geralmente, qualquer ponto de dados que se encontre fora do intervalo interquartílico 1,5 * (1,5 * IQR) é considerado um valor atípico, em que o IQR é calculado como a distância entre os valores do percentil 25 e 75 para essa variável.

par(mfrow=c(1, 2))  # divide graph area in 2 columns
boxplot(cars$speed, main="Speed", sub=paste("Outlier rows: ", boxplot.stats(cars$speed)$out))  # box plot for 'speed'
boxplot(cars$dist, main="Distance", sub=paste("Outlier rows: ", boxplot.stats(cars$dist)$out))  # box plot for 'distance'

OBS.:Observe no gráfico acima que há indicativos de que a variância dos erros é constante, e não há evidências de que os erros não sigam a distribuição Normal e percebe-se de que os erros não são correlacionados entre sí.

Density Plot

par(mfrow=c(1, 2))  # divide graph area in 2 columns
plot(density(cars$speed), main="Density Plot: Speed", ylab="Frequency", sub=paste("Skewness:", round(e1071::skewness(cars$speed), 2)))  # density plot for 'speed'
polygon(density(cars$speed), col="red")
plot(density(cars$dist), main="Density Plot: Distance", ylab="Frequency", sub=paste("Skewness:", round(e1071::skewness(cars$dist), 2)))  # density plot for 'dist'
polygon(density(cars$dist), col="red")

Correlação

Correlação é uma medida estatística que sugere o nível de dependência linear entre duas variáveis, que ocorrem em par - assim como o que temos aqui em speed e dist. Correlação pode levar valores entre -1 a +1. Se observarmos para cada instância onde a velocidade aumenta, a distância também aumenta junto com ela, então há uma alta correlação positiva entre eles e, portanto, a correlação entre eles estará mais próxima de 1. O oposto é verdadeiro para uma relação inversa, na qual caso, a correlação entre as variáveis será próxima de -1.

Um valor mais próximo de 0 sugere uma relação fraca entre as variáveis. Uma baixa correlação (-0,2 <x <0,2) provavelmente sugere que grande parte da variação da variável resposta (Y) é inexplicada pelo preditor (X), caso em que, provavelmente, deveríamos buscar melhores variáveis explicativas.

cor(cars$speed, cars$dist)  # calculate correlation between speed and distance

## [1] 0.8068949

Construção do Modelo Linear

Agora que vimos o relacionamento linear factualmente no gráfico de dispersão e calculando a correlação - vamos ver a sintaxe para construir o modelo linear. A função usada para construir modelos lineares é lm().

linearMod <- lm(dist ~ speed, data=cars)  # build linear regression model on full data
print(linearMod)

## 
## Call:
## lm(formula = dist ~ speed, data = cars)
## 
## Coefficients:
## (Intercept)        speed  
##     -17.579        3.932

Agora que construímos o modelo linear, também estabelecemos a relação entre o preditor e a resposta na forma de uma fórmula matemática para Distância (dist) como uma função da velocidade. Para a saída acima, você pode notar a parte dos ‘Coefficients’ tendo dois componentes: Intercept: -17.579, speed: 3.932 Estes também são chamados de coeficientes beta. Em outras palavras: $dist=Intercept+(β*speed) => dist=-17.579+3.932*speed$

Diagnóstico da Regressão Linear

Agora o modelo linear é construído e temos uma fórmula que podemos usar para prever o valor de dist se uma velocidade correspondente for conhecida. Isso é suficiente para realmente usar esse modelo? NÃO! Antes de usar um modelo de regressão, você precisa garantir que seja estatisticamente significativo. Como você garante isso? Vamos começar imprimindo as estatísticas de resumo para linearMod.

options(scipen = 999)
summary(linearMod)  # model summary

## 
## Call:
## lm(formula = dist ~ speed, data = cars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -29.069  -9.525  -2.272   9.215  43.201 
## 
## Coefficients:
##             Estimate Std. Error t value         Pr(>|t|)    
## (Intercept) -17.5791     6.7584  -2.601           0.0123 *  
## speed         3.9324     0.4155   9.464 0.00000000000149 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 15.38 on 48 degrees of freedom
## Multiple R-squared:  0.6511, Adjusted R-squared:  0.6438 
## F-statistic: 89.57 on 1 and 48 DF,  p-value: 0.00000000000149

O comando Summary informam várias coisas. Uma delas é o p-Value (última linha inferior) e o p-Value de variáveis preditoras individuais (coluna extrema direita sob “Coeficientes”). Na estatística clássica, o p-value (também chamado de nível descritivo ou probabilidade de significância), é a probabilidade de se obter uma estatística de teste igual ou mais extrema que aquela observada em uma amostra, sob a hipótese nula. Por exemplo, em testes de hipótese, pode-se rejeitar a hipótese nula a 5% caso o p-value seja menor que 5%. Assim, uma outra interpretação para o p-value, é que este é o menor nível de significância com que se rejeitaria a hipótese nula. Em termos gerais, um p-value pequeno significa que a probabilidade de obter um valor da estatística de teste como o observado é muito improvável, levando assim à rejeição da hipótese nula.

Resumo

t Value: 9.46399

p Value: 0.00000000000149

Model F Statistic: 89.57 1 48

Model p-Value: 0.00000000000149

Comentários sobre o relatório gerado pelo R:

Residuals

Resíduos são essencialmente a diferença entre os valores reais de resposta observados (distância para parar dist no nosso caso) e os valores de resposta que o modelo previu. A seção Residuals da saída do modelo divide-a em 5 pontos de resumo. Ao avaliar como o modelo se ajusta aos dados, você deve procurar uma distribuição simétrica entre esses pontos no valor médio zero (0). Em nosso exemplo, podemos ver que a distribuição dos resíduos não parece ser fortemente simétrica. Isso significa que o modelo prevê certos pontos que estão longe dos pontos reais observados.

Coefficients

Coefficient - Estimate

O Coefficient - Estimate contém duas linhas; o primeiro é o Intercept. A interceptação, em nosso exemplo, é essencialmente o valor esperado da distância necessária para um carro parar quando consideramos a velocidade média de todos os carros no conjunto de dados. Em outras palavras, é necessário um em média 42,98 pés em nosso conjunto de dados para um carro parar. A segunda linha nos Coefficients é a inclinação, ou no nosso exemplo, o seu efeito na velocidade sobre a distância necessária para um carro parar. O termo de declive em nosso modelo está dizendo que para cada aumento de 1 mph na velocidade de um carro, a distância necessária para parar sobe por 3.9324088 pés.

Coefficient - Standard Error

O erro padrão do coeficiente mede a quantidade média que as estimativas dos coeficientes variam em relação ao valor médio real de nossa variável de resposta. De maneira ideal, queremos um número menor em relação a seus coeficientes. Em nosso exemplo, determinamos anteriormente que, para cada aumento de 1 mph na velocidade de um carro, a distância necessária para parar aumenta em 3,9324088 pés. O erro padrão pode ser usado para calcular uma estimativa da diferença esperada no caso de executarmos o modelo novamente e novamente. Em outras palavras, podemos dizer que a distância necessária para um carro parar pode variar de 0,4155128 pés. Os erros padrão também podem ser usados para calcular intervalos de confiança e para testar estatisticamente a hipótese da existência de uma relação entre velocidade e distância necessária para parar.

t-value

Podemos interpretar ot-value, no qual um valor t maior indica que é menos provável que o coeficiente não seja igual a zero puramente por acaso. Então, quanto maior o valor de t, melhor. Queremos que ele esteja longe de zero, pois isso indicaria que poderíamos rejeitar a hipótese nula - isto é, poderíamos declarar um relacionamento entre velocidade e distância existem.

Pr (> | t |)

É a probabilidade de se obter um valor t tão alto ou mais alto que o valor observado quando a hipótese nula (o coeficiente β é igual a zero ou que não há relacionamento) é verdadeira.Portanto, se o Pr (> | t |) é baixo, os coeficientes são significativos (significativamente diferentes de zero). Se o Pr (> | t |) é alto, os coeficientes não são significativos. O que isso significa para nós? Quando p-value é menor que o nível de significância (<0,05), podemos rejeitar com segurança a hipótese nula de que o coeficiente β do preditor é zero. No nosso caso, linearMod, ambos os p-valores estão bem abaixo do limiar de 0,05, portanto, podemos concluir que nosso modelo é de fato estatisticamente significativo.É absolutamente importante que o modelo seja estatisticamente significativo antes que possamos prosseguir e usá-lo para prever (ou estimar) a variável dependente, caso contrário, a confiança nos valores previstos desse modelo será reduzida e poderá ser interpretada como um evento do acaso. Normalmente, um valor p de 5% ou menos é um bom ponto de corte. No nosso exemplo de modelo, os valores p são muito próximos de zero. Observe o significado Códigos associados a cada estimativa. Três estrelas (ou asteriscos) representam um valor p altamente significativo. Consequentemente, um pequeno valor de p para o intercepto e a inclinação indica que podemos rejeitar a hipótese nula que nos permite concluir que existe uma relação entre velocidade e distância.

Residual standard error

O erro padrão residual é a medida da qualidade de um ajuste de regressão linear. Teoricamente, todo modelo linear é considerado como contendo um termo de erro E. Devido à presença desse termo de erro, não somos capazes de prever perfeitamente nossa variável de resposta (dist) do preditor (speed) um. O erro padrão residual é a quantidade média que a resposta (dist) irá desviar da linha de regressão verdadeira. Em nosso exemplo, a distância real necessária para parar pode desviar da linha de regressão real em aproximadamente 15,3795867 pés, em média. Em outras palavras, dado que a distância média para todos os carros para parar é 42,98 e que o erro padrão residual é 15,3795867, podemos dizer que o erro percentual é (qualquer previsão ainda estaria fora por) 35,78%. É importante notar também que o erro padrão residual foi calculado com 48 graus de liberdade. Simplisticamente, os graus de liberdade são o número de pontos de dados que foram usados na estimativa dos parâmetros usados depois de levar em consideração esses parâmetros (restrição). No nosso caso, tivemos 50 pontos de dados e dois parâmetros (interceptação e inclinação).

Multiple R-squared

A estatística $R^2$ fornece uma medida de quão bem o modelo está se ajustando aos dados reais. Toma a forma de uma proporção de variância. $R^2$ é uma medida da relação linear entre nossa variável preditora (speed) e nossa variável resposta / meta (dist). Está sempre entre 0 e 1 (isto é, um número próximo de 0 representa uma regressão que não explica bem a variância na variável de resposta e um número próximo de 1 explica a variância observada na variável de resposta). Em nosso exemplo, o R2 que obtemos é 0,6510794. Ou cerca de 65% da variância encontrada na variável resposta (dist) pode ser explicada pela variável preditor (velocidade). Reflita sobre isso: se você fosse capaz de escolher qualquer métrica para prever a distância necessária para um carro parar, a velocidade seria uma e seria importante que pudesse ajudar a explicar como a distância variaria com base na velocidade? Eu acho que é fácil ver que a resposta seria quase certamente um sim. É por isso que temos um $R^2$ relativamente forte. No entanto, é difícil definir qual nível de $R^2$ é apropriado para reivindicar que o modelo se encaixa bem. Essencialmente, variará com a aplicação e o domínio estudado.OBS.:Em várias configurações de regressão, o R2 sempre aumentará à medida que mais variáveis forem incluídas no modelo. É por isso que o R2 ajustado é a medida preferida, pois se ajusta ao número de variáveis consideradas.

F-statistic

O F-statistic é um bom indicador de se existe uma relação entre o nosso preditor e as variáveis de resposta. Quanto mais F-statistic for de 1, melhor será. No entanto, quanto maior a F-statistic precisa ser, isso irá depender tanto do número de pontos de dados quanto do número de preditores. Geralmente, quando o número de pontos de dados é grande, o valor do F-statistic que é apenas um pouco maior que 1 já é suficiente para rejeitar a hipótese nula ($H_0$: Não há relação entre velocidade e distância). O inverso é verdadeiro, como se o número de pontos de dados fosse pequeno, uma F-statistic é necessária para determinar se pode haver uma relação entre variáveis preditoras e de resposta. Em nosso exemplo, a estatística F é 89.5671065, que é relativamente maior que 1, dado o tamanho de nossos dados.

Estudo sobre Variância e Regressão

Estatística Aplicada - UFPR - Maury Melo

Junho / 2019

Análise Estatística com ANOVA

Análise de Regressão