Advanced(*) R and Data Mining Seminar

Multiple regression - 2

Парная регрессия

library(ISLR)
data(Auto)

model.simple <- lm(mpg ~ displacement, data = Auto)
summary(model.simple)
## 
## Call:
## lm(formula = mpg ~ displacement, data = Auto)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -12.917  -3.024  -0.502   2.351  18.613 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  35.12064    0.49443    71.0   <2e-16 ***
## displacement -0.06005    0.00224   -26.8   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.64 on 390 degrees of freedom
## Multiple R-squared:  0.648,  Adjusted R-squared:  0.647 
## F-statistic:  719 on 1 and 390 DF,  p-value: <2e-16
  1. Используя справку по дейтасету, проинтерпретируйте содержательно полученную модель.
  2. Посчитайте \( TSS \) (total sum of squares), используя функцию predict посчитайте \( RSS \) (residuals sum of squares). Как найти \( R^2 \)?
  3. Найдите из \( R^2 \) коэффициент корреляции Пирсона межу displacement и mpg. Что он обозначает? Какое значение имеет его знак? Что обозначает содержательно \( R^2 \)?
  4. Что показывает и какова нулевая гипотеза \( t \)-value при коэффициентах и \( F \)-statistics для модели?

Множественная регрессия

model.multi <- lm(mpg ~ . - name, data = Auto)
summary(model.multi)
## 
## Call:
## lm(formula = mpg ~ . - name, data = Auto)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -9.590 -2.157 -0.117  1.869 13.060 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -1.72e+01   4.64e+00   -3.71  0.00024 ***
## cylinders    -4.93e-01   3.23e-01   -1.53  0.12780    
## displacement  1.99e-02   7.51e-03    2.65  0.00844 ** 
## horsepower   -1.70e-02   1.38e-02   -1.23  0.21963    
## weight       -6.47e-03   6.52e-04   -9.93  < 2e-16 ***
## acceleration  8.06e-02   9.88e-02    0.82  0.41548    
## year          7.51e-01   5.10e-02   14.73  < 2e-16 ***
## origin        1.43e+00   2.78e-01    5.13  4.7e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.33 on 384 degrees of freedom
## Multiple R-squared:  0.821,  Adjusted R-squared:  0.818 
## F-statistic:  252 on 7 and 384 DF,  p-value: <2e-16
  1. Проинтерпретируйте результаты содержательно, учитывая значимость коэффициентов.
  2. Почему при близких абс. значениях коэффициентов displacement и horsepower имеют разную значимость?
# install.packages('corrgram') при необходимости
library(corrgram)
## Loading required package: seriation
## Loading required package: cluster
## Loading required package: TSP
## Loading required package: gclus
## Loading required package: grid
## Loading required package: colorspace
corrgram(Auto)

plot of chunk unnamed-chunk-3

Проинтерпретируйте табличку. Почему при достаточно сильной отрицательной корреляции между cylinders и mpg коэффициент регрессии при cylinders в нашей модели не значим? Сравните с

cor.test(Auto$mpg, Auto$cylinders)
## 
##  Pearson's product-moment correlation
## 
## data:  Auto$mpg and Auto$cylinders
## t = -24.42, df = 390, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.8140 -0.7352
## sample estimates:
##     cor 
## -0.7776

и прокомментируйте