Консультация
Задание 1.
Итак, у нас есть два вектора \(y\) и \(x\), также дана регрессионная модель \(\hat{y}_{i} = 2 + 1.15x_{i}\). Считаем RSS, ESS, TSS, R^2.
x <- c(0.50, -1.50, 5.50, 3.00, 3.50, 3.50, 1.00, 3.00, 5.00, 7.00)
y <- c(3.00, 1.00, 9.00, 6.00, 7.00, 5.00, 2.00, 4.00, 8.00, 10.00)
TSS <- sum((y - mean(y))^2)
y_hat <- 2 + 1.15*x
RSS <- sum((y - y_hat)^2)
ESS <- TSS - RSS
R_sq <- ESS/TSS
# Выведем получившися значения
c('TSS' = TSS,
'ESS' = ESS,
'RSS' = RSS,
'R^2' = R_sq) TSS ESS RSS R^2
82.5000000 75.5443750 6.9556250 0.9156894
Задание 2.
Дана ковариационная матрица по некоторым показателям. Необъодимо найти коэффициент корреляции Пирсона между показателями acpay и compop.
\[\begin{pmatrix}{} & acpay & poststudents & compop & agresrk \\ acpay & 79129156 & 5689798 & 101047 & 16310783 \\ poststudents & 5689798 & 556334 & 10700 & 1325063 \\ compop & 101047 & 10700 & 637 & 29786 \\ agresrk & 16310783 & 1325063 & 29786 & 4026630 \\ \end{pmatrix}\]Итак, мы узнали, что представляет собой ковариационная матрица. Теперь нам осталось просто подставить значения в формулу для рассчета коэффициента корреляции Пирсона.
\[ r_{x,y} = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}} \]
В итоге получаем
r <- 101047/(sqrt(79129156 * 637))
r[1] 0.4500756
Задание 3.
Для начала мы должны заполнить табличку. Это легко сделать, если знать следующую формулу
\[ t = \frac{\hat\beta}{se(\hat\beta)} \]
В итоге получаем
beta_0 <- 9.44*8.72
se_Examination <- -1.94/-5.08
t_Catholic <- 0.006/0.07
c(beta_0, se_Examination, t_Catholic)[1] 82.31680000 0.38188976 0.08571429
Чтобы ответить на вопрос о том, какие коэффициенты значимы на 5%-ном уровне значимости, достаточно сравнить полученные значения t-статистики с критическими (в нашем случае это 1.96). В итоге получим, что значимы константа и коэффициент при переменной Examination.
Построить 95%-ный доверительный интервал можно следующим образом
CI <- c('lower' = 0.01 - 1.96*0.07,
'upper' = 0.01 + 1.96*0.07)
CI lower upper
-0.1272 0.1472
R^2 по данным из таблички мы рассчитали вот так
TSS <- 11183.38 + 2.19 + 12541.20
RSS <- 12541.20
r_sq <- 1 - (RSS/TSS)
r_sq[1] 0.4714325
Мини-исследование.
Мы с вами не успели построить регрессии и протестировать наши гипотезы. Напомню, мы работали со встроенным датасетом mtcars. Зависимая переменная - мили на галлон топлива. Мы предположили, что на расход топлива влияет количество лошадиных сил и тип коробки передач. Что ж давайте проведем небольшой експлараторный анализ.
Для начала посмотрим на гистограмму зависимой переменной.
library(ggplot2)
df <- mtcars
df$am <- factor(df$am, levels = c(0, 1), labels = c('Автомат', 'Механика')) # сразу перекодируем переменную в фактор
ggplot(df, aes(x=mpg))+
# 10 столбцов, цвет MidnightBlue, границы черные
geom_histogram(bins=10, fill='Navy', color='black')+
theme_bw() # белый фонКонечно по распределению понять что-нибудь сложно, поэтому давайте посмотрим на объясняющие переменные. Давайте посмотрим, как распределена зависимая переменная по типу коробки передач.
ggplot(df, aes(x = am, y = mpg))+
geom_boxplot(fill = c('Navy', 'darkred'), color = 'black')+
theme_bw()А теперь попробуем рассмотреть всё это на одном графике.
ggplot(df, aes(x=hp, y=mpg, color = am))+
geom_point()+
geom_smooth(method = 'lm', se=FALSE)+ # se=FALSE убирает дов. интервалы
scale_color_manual(values = c('Navy', 'darkred'))+
theme_bw()Мы видим, что отличия автоматики и механики только в точке пересечения регрессионной прямой с началом координат.
Теперь попробуем построить регрессию.
model <- lm(mpg ~ hp + am, data=df)
summary(model)
Call:
lm(formula = mpg ~ hp + am, data = df)
Residuals:
Min 1Q Median 3Q Max
-4.3843 -2.2642 0.1366 1.6968 5.8657
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 26.584914 1.425094 18.655 < 2e-16 ***
hp -0.058888 0.007857 -7.495 2.92e-08 ***
amМеханика 5.277085 1.079541 4.888 3.46e-05 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.909 on 29 degrees of freedom
Multiple R-squared: 0.782, Adjusted R-squared: 0.767
F-statistic: 52.02 on 2 and 29 DF, p-value: 2.55e-10
В итоге мы видим, что все регрессоры оказались значимы. Вопрос может вызвать переменная am. Попробуйте самостоятельно вспомнить, что означает коэффициент 5.277085.