Консультация

Задание 1.

Итак, у нас есть два вектора \(y\) и \(x\), также дана регрессионная модель \(\hat{y}_{i} = 2 + 1.15x_{i}\). Считаем RSS, ESS, TSS, R^2.

x <- c(0.50, -1.50, 5.50, 3.00, 3.50, 3.50, 1.00, 3.00, 5.00, 7.00)
y <- c(3.00, 1.00, 9.00, 6.00, 7.00, 5.00, 2.00, 4.00, 8.00, 10.00)

TSS <- sum((y - mean(y))^2)
y_hat <- 2 + 1.15*x
RSS <- sum((y - y_hat)^2)
ESS <- TSS - RSS
R_sq <- ESS/TSS
# Выведем получившися значения
c('TSS' = TSS,
  'ESS' = ESS,
  'RSS' = RSS,
  'R^2' = R_sq)
       TSS        ESS        RSS        R^2 
82.5000000 75.5443750  6.9556250  0.9156894 

Задание 2.

Дана ковариационная матрица по некоторым показателям. Необъодимо найти коэффициент корреляции Пирсона между показателями acpay и compop.

\[\begin{pmatrix}{} & acpay & poststudents & compop & agresrk \\ acpay & 79129156 & 5689798 & 101047 & 16310783 \\ poststudents & 5689798 & 556334 & 10700 & 1325063 \\ compop & 101047 & 10700 & 637 & 29786 \\ agresrk & 16310783 & 1325063 & 29786 & 4026630 \\ \end{pmatrix}\]

Итак, мы узнали, что представляет собой ковариационная матрица. Теперь нам осталось просто подставить значения в формулу для рассчета коэффициента корреляции Пирсона.

\[ r_{x,y} = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}} \]

В итоге получаем

r <- 101047/(sqrt(79129156 * 637))
r
[1] 0.4500756

Задание 3.

Для начала мы должны заполнить табличку. Это легко сделать, если знать следующую формулу

\[ t = \frac{\hat\beta}{se(\hat\beta)} \]

В итоге получаем

beta_0 <- 9.44*8.72
se_Examination <- -1.94/-5.08
t_Catholic <- 0.006/0.07
c(beta_0, se_Examination, t_Catholic)
[1] 82.31680000  0.38188976  0.08571429

Чтобы ответить на вопрос о том, какие коэффициенты значимы на 5%-ном уровне значимости, достаточно сравнить полученные значения t-статистики с критическими (в нашем случае это 1.96). В итоге получим, что значимы константа и коэффициент при переменной Examination.

Построить 95%-ный доверительный интервал можно следующим образом

CI <- c('lower' = 0.01 - 1.96*0.07, 
        'upper' = 0.01 + 1.96*0.07)
CI
  lower   upper 
-0.1272  0.1472 

R^2 по данным из таблички мы рассчитали вот так

TSS <-  11183.38 + 2.19 + 12541.20
RSS <- 12541.20
r_sq <- 1 - (RSS/TSS)
r_sq
[1] 0.4714325

Мини-исследование.

Мы с вами не успели построить регрессии и протестировать наши гипотезы. Напомню, мы работали со встроенным датасетом mtcars. Зависимая переменная - мили на галлон топлива. Мы предположили, что на расход топлива влияет количество лошадиных сил и тип коробки передач. Что ж давайте проведем небольшой експлараторный анализ.

Для начала посмотрим на гистограмму зависимой переменной.

library(ggplot2)
df <- mtcars
df$am <- factor(df$am, levels = c(0, 1), labels = c('Автомат', 'Механика')) # сразу перекодируем переменную в фактор
ggplot(df, aes(x=mpg))+
  #  10 столбцов, цвет MidnightBlue, границы черные
  geom_histogram(bins=10, fill='Navy', color='black')+ 
  
  theme_bw() # белый фон

Конечно по распределению понять что-нибудь сложно, поэтому давайте посмотрим на объясняющие переменные. Давайте посмотрим, как распределена зависимая переменная по типу коробки передач.

ggplot(df, aes(x = am, y = mpg))+
  geom_boxplot(fill = c('Navy', 'darkred'), color = 'black')+
  theme_bw()

А теперь попробуем рассмотреть всё это на одном графике.

ggplot(df, aes(x=hp, y=mpg, color = am))+
  geom_point()+
  geom_smooth(method = 'lm', se=FALSE)+ # se=FALSE убирает дов. интервалы
  scale_color_manual(values = c('Navy', 'darkred'))+
  theme_bw()

Мы видим, что отличия автоматики и механики только в точке пересечения регрессионной прямой с началом координат.

Теперь попробуем построить регрессию.

model <- lm(mpg ~ hp + am, data=df)
summary(model)

Call:
lm(formula = mpg ~ hp + am, data = df)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.3843 -2.2642  0.1366  1.6968  5.8657 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 26.584914   1.425094  18.655  < 2e-16 ***
hp          -0.058888   0.007857  -7.495 2.92e-08 ***
amМеханика   5.277085   1.079541   4.888 3.46e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.909 on 29 degrees of freedom
Multiple R-squared:  0.782, Adjusted R-squared:  0.767 
F-statistic: 52.02 on 2 and 29 DF,  p-value: 2.55e-10

В итоге мы видим, что все регрессоры оказались значимы. Вопрос может вызвать переменная am. Попробуйте самостоятельно вспомнить, что означает коэффициент 5.277085.

09/02/2019