Задача 1
Нултите хипотези се: - Intercept е нула, се отфрла - парите потрошени на TV не се значајно поврзани со продажбата, се отфрла - парите потрошени на radio не се значајно поврзани со продажбата, се отфрла - парите потрошени на newspaper не се значајно поврзани со продажбата, се прифаќа
Задача 2
KNN класификаторот ги зема најблиските K соседи и ја препишуваа онаа класа која што се појавува најчесто помеѓу нив. KNN регресорот ги зема најблиските К соседи и го пресметува просекот на нивните y-и.
Задача 3
(a)
Не мора да значи. Поради тоа што бета 5 е -10, следи дека жените губат -10 * ГПА, а добиваат +35 за тоа што се жени, па ако фикснатото ГПА е поголемо од 3.5, ова ќе биде точно.
Повторно, не мора да значи. Потребно ни е да знаеме како е дистрибуцијата на GPA кај мажите и жените.
Да, ако ГПА е поголемо од 3.5.
Не.
(b)
print(50 + 20 * 4 + 0.07 * 110 + 35 + 0.01 * 110 * 4 - 10 * 4)
[1] 137.1
(c)
Не. Потребно е да ја видиме и п вредноста за да заклучиме нешто вакво.
Задача 4
(a)
Треба да се приближно исти на тренирачкото множество. Кубната регресија ќе се прилагоди и ќе најде начин да преклопи линеарно множество. Можно е дури и да е во некои случаи подобра кубната регресија.
(b)
Речиси е сигурно дека линеарната регресија ќе биде подобра на тестирачкото множество.
(c)
Не можеме да знаеме. Многу зависи од големината на податочното множество (мало податочно множество може да е многу повеќе overfit-нато), од тоа колку е нелинеарна врската и сл.
(d)
Веројатно е дека на тренирачкото множество, кубната регресија ќе биде делумно подобра. Може да се случи и да е многу подобра, зависно од тоа колку е висок степенот на нелинеарноста.
Задача 5
\[
\hat{y_i}=
x_i\hat{\beta}=
x_i[(\sum_{j=1}^{n} x_{j}y_{j})/(\sum_{j=1}^{n} x_{j}^2)]=
\sum_{j=1}^{n} \frac{x_ix_j}{\sum_{k=1}^{n} x_{k}^2}y_j=
\sum_{j=1}^{n} a_jy_j
\] \[
a_j=\frac{x_ix_j}{\sum_{k=1}^{n} x_{k}^2}
\]
Задача 6
\[
f(\bar{x}) = \beta_0+\beta_1\bar{x}=\bar{y}-\beta_1\bar{x}+\beta_1\bar{x}=\bar{y}
\]
Задача 7
Не сум најсигурен како да се изгуби вториот член во броителот.
\[
R^2=1-\frac{RSS}{TSS}=1-\frac{\sum_{i=1}^n(y_i-\hat{y_i})^2}{\sum_{i=1}^n(y_i-\bar{y_i})^2}=\frac{\sum_{i=1}^n(y_i-\bar{y_i})^2 +\sum_{i=1}^n(y_i-\hat{y_i})^2}{\sum_{i=1}^n(y_i-\bar{y_i})^2}=\\
\frac{\sum_{i=1}^n(x_i-\bar{x_i})^2\sum_{i=1}^n(y_i-\bar{y_i})^2 +\sum_{i=1}^n(x_i-\bar{x_i})^2\sum_{i=1}^n(y_i-\hat{y_i})^2}{\sum_{i=1}^n(x_i-\bar{x_i})^2\sum_{i=1}^n(y_i-\bar{y_i})^2}
\]
Задача 10
(а)
lm.fit = lm(Sales ~ Price + Urban + US, data=Carseats)
summary(lm.fit)
(b)
Price влијае обратно-пропорционално на продажбите. Очекувано е за секоја единица покачување на цената, продажбите да паднат за \(0.05\). Или, ако цената се качи за 20 единици, ќе се продаде едно седиште помалце.
Коефициентот на UrbanYes има преголема стандардна грешка за да се утврди влијанието на Urban со сигурност. Дополнително, ако се погледне p-вредноста, станува јасно дека Urban не треба ни да биде вклучен во моделот. Можеме и да го видиме 95% интервал на доверба на овој параметар, кој 0-та ја содржи речиси во средината.
confint(lm.fit)
Настрана важноста на UrbanYes, двете категориски променливи можеме да ги интерпретираме на следниов начин: \(13.04 - 0.05 * Price\) e просечната продажба на седиштата кои чинат \(Price\), кои не се урбани и не се од САД. Во просек се продаат \(0.02\) седишта помалку доколку се урбани, а \(1.2\) седишта повеќе доколку се од САД.
Интерпретацијата на Intercept-от звучи малку понелогично. Од него можеме да заклучиме дека просечната продажба на бесплатни седишта кои не се урбани и не се од САД изнесѕва \(13.04\).
(c)
\[
Sales =
13.04 - 0.05 * Price - 0.02 * UrbanYes + 1.2 * USYes
\] \[
Sales =
13.04 - 0.05 * Price +
\begin{cases}
1.2 - 0.02 &\mbox{ако седиштето е од САД и е урбано}\\
1.2 &\mbox{ако седиштето е од САД и не е урбано}\\
-0.02 &\mbox{ако седиштето не е од САД и е урбано}\\
0 &\mbox{ако седиштето не е од САД и не е урбано}
\end{cases}
\]
(d)
UrbanYes може да се отстрани.
(e)
lm.fit = lm(Sales ~ Price + US, data=Carseats)
summary(lm.fit)
(f)
Со оглед на тоа што R-squared вредноста во двата случаи е ниска, има значителен простор за подобрување.
(h)
plot(predict(lm.fit), residuals(lm.fit))
plot(predict(lm.fit), rstudent(lm.fit))
Од графиците моежеме да зебележиме дека нема некои очигледни outliers.
plot(hatvalues(lm.fit))
Од графикот можеме да забележиме дека еден од примероците има значителен leverage.
Carseats[which.max(hatvalues(lm.fit)),]
Задача 15
(a)
columns = names(Boston)[2:length(names(Boston))]
p_values = c()
r_squared = c()
uni_coefficients = c()
for (i in 1:length(columns)) {
lm.fit = lm(as.formula(paste("crim ~", columns[i])), data=Boston)
p_values[i] = summary(lm.fit)$coefficients[1, 4]
r_squared[i] = summary(lm.fit)$r.squared
uni_coefficients[i] = lm.fit$coefficients[2]
}
plot(p_values)

plot(r_squared)

Ако се земат предвид графиците, променливата rad има значителна поврзаност со таргет променливата. Тоа може да се заклучи од ниската p-вредност и високиот r2.
(b)
lm.fit = lm(crim ~ ., data=Boston)
summary(lm.fit)
Call:
lm(formula = crim ~ ., data = Boston)
Residuals:
Min 1Q Median 3Q Max
-9.924 -2.120 -0.353 1.019 75.051
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 17.033228 7.234903 2.354 0.018949 *
zn 0.044855 0.018734 2.394 0.017025 *
indus -0.063855 0.083407 -0.766 0.444294
chas -0.749134 1.180147 -0.635 0.525867
nox -10.313535 5.275536 -1.955 0.051152 .
rm 0.430131 0.612830 0.702 0.483089
age 0.001452 0.017925 0.081 0.935488
dis -0.987176 0.281817 -3.503 0.000502 ***
rad 0.588209 0.088049 6.680 6.46e-11 ***
tax -0.003780 0.005156 -0.733 0.463793
ptratio -0.271081 0.186450 -1.454 0.146611
black -0.007538 0.003673 -2.052 0.040702 *
lstat 0.126211 0.075725 1.667 0.096208 .
medv -0.198887 0.060516 -3.287 0.001087 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 6.439 on 492 degrees of freedom
Multiple R-squared: 0.454, Adjusted R-squared: 0.4396
F-statistic: 31.47 on 13 and 492 DF, p-value: < 2.2e-16
Нултата хипотеза може да се отфрли за предихторите dis, rad и medv, а можеби и за black, indus и chas.
(c)
multi_coefficients = c()
for (i in 1:length(columns)) {
multi_coefficients[i] = lm.fit$coefficients[columns[i]]
}
plot(uni_coefficients, multi_coefficients)

(d)
poly_r_squared = c()
for (i in 1:length(columns)) {
if (columns[i] != "chas") {
lm.fit = lm(as.formula(paste("crim ~ poly(", columns[i], ", 3)", sep="")), data=Boston)
} else {
lm.fit = lm(as.formula(paste("crim ~", columns[i])), data=Boston)
}
poly_r_squared[i] = summary(lm.fit)$r.squared
}
summary(r_squared)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.003124 0.084068 0.148274 0.155697 0.177217 0.391257
summary(poly_r_squared)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.003124 0.113782 0.217932 0.216040 0.296978 0.420200
Од двете summaries можеме да забележиме дека резултатите се подобруваат кога користиме кубна регресија. Сите квартили имаат зголемени резултати, како и просекот.
