Zadanie raport 5.
Opis zadania
Przetestowanie metod (regresja grzbietowa i lasso) oraz metod oceny
(zestaw walidacyjny, walidacja krzyżowa) na zbiorze danych Wage z
ISLR.
Skonfigurujmy nasze dane:
Wczytujemy dane:
library(ISLR)
data("Wage")
place<-Wage
Tworzymy wektor zmiennej wynikowej.
x = model.matrix(wage~., place)[,-1]
y = Wage %>%
select(wage) %>%
unlist() %>%
as.numeric()
Regresja grzbietowa
Model regresji grzbietowej dla pełnych danych wygląda
następująco:
grid = 10^seq(10, -2, length = 100)
ridge_mod = glmnet(x, y, alpha = 0, lambda = grid)
plot(ridge_mod) # wykres współczynników

dim(coef(ridge_mod))
## [1] 26 100
#Wymiar macierzy predyktorów
Uzyskana macierz jest macierzą wymiaru 26 na 100.
Dzielenie próbek
Podzielimy teraz próbki na zbiór treningowy i testowy w celu
oszacowania błędu testu regresji grzbietowej i lasso.
set.seed(1)
train = Wage %>%
sample_frac(0.5)
test = Wage %>%
setdiff(train)
x_train = model.matrix(wage~., train)[,-1]
x_test = model.matrix(wage~., test)[,-1]
y_train = train %>%
select(wage) %>%
unlist() %>%
as.numeric()
y_test = test %>%
select(wage) %>%
unlist() %>%
as.numeric()
Wybierz lamdę, która minimalizuje treningowy MSE
set.seed(1)
cv.out = cv.glmnet(x_train, y_train, alpha = 0)
# Dopasuj model regresji grzbietowej na danych treningowych
bestlam = cv.out$lambda.min # Wybierz lamdę, która minimalizuje treningowy MSE
bestlam
## [1] 3.939486
Wykres na podstawie najlepszej lambdy dla MSE
plot(cv.out)

Oszacowanie MSE
Następnie dopasowujemy model regresji grzbietowej na zbiorze
treningowym i oceniamy jego MSE na zbiorze testowym, używając \(\lambda = bestlam\) . Czyli oszacowanie dla
regresji z lambdą optymalną wyznaczoną wcześniej.
ridge_pred = predict(ridge_mod, s = bestlam, newx = x_test)
mean((ridge_pred - y_test)^2)
## [1] 169.468
Oszacowania współczynników
Ponownie wyznaczamy nasz model regresji grzbietowej na pełnym
zestawie danych i sprawdzamy oszacowania współczynników.
out = glmnet(x, y, alpha = 0) # Dopasuj model regresji grzbietowej do pełnego zbioru danych
predict(out, type = "coefficients", s = bestlam)[1:10,] # Wyświetlanie współczynników przy użyciu lambda wybranego przez CV
## (Intercept) year age maritl2. Married
## -3.529273e+02 3.706173e-04 1.909890e-02 8.771868e-01
## maritl3. Widowed maritl4. Divorced maritl5. Separated race2. Black
## -2.610242e+00 -6.036440e-01 -9.351872e-01 -1.106809e+00
## race3. Asian race4. Other
## -4.492573e-01 -4.079098e-01
Regresja OLS
Model kmnk dla s=0 (lambda równa 0) i oszacowanie MSE.
ridge_pred = predict(ridge_mod, s = 0, newx = x_test)
mean((ridge_pred - y_test)^2) # Oblicz testowe MSE
## [1] 151.514
lm(wage ~ year + age + maritl + race, data = train)
##
## Call:
## lm(formula = wage ~ year + age + maritl + race, data = train)
##
## Coefficients:
## (Intercept) year age maritl2. Married
## -3038.2309 1.5526 0.5551 17.7962
## maritl3. Widowed maritl4. Divorced maritl5. Separated race2. Black
## 5.6667 1.8302 2.6743 -6.1402
## race3. Asian race4. Other
## 3.8241 -20.1080
Procedura Lasso
lasso_mod = glmnet(x_train,
y_train,
alpha = 1,
lambda = grid) # Dopasuj model lasso do danych treningowych
plot(lasso_mod) # Wykreśl współczynniki

Teraz przeprowadzimy walidację krzyżową i obliczymy związany z nią
błąd testu i przedstawimy oszacowane MSE:
set.seed(1)
cv.out = cv.glmnet(x_train, y_train, alpha = 1) # Dopasuj model lasso do danych treningowych
plot(cv.out) # Narysuj wykres MSE dla próby uczącej jako funkcję lambda

MSE dla lambdy optymalnej i współczynniki regresji Lasso
Oszacowanie MSE testowego dla optymlanej lambdy przedstawia się
następująco:
bestlam = cv.out$lambda.min # Wybierz lamdę, która minimalizuje MSE w próbie uczącej
lasso_pred = predict(lasso_mod, s = bestlam, newx = x_test) # Użyj najlepszej lambdy do przewidywania danych testowych
mean((lasso_pred - y_test)^2) # Oblicz MSE w próbie testowej
## [1] 154.8086
Teraz wyświetlone zostaną współczynniki regresji Lasso z lambdą
optymalną.
out = glmnet(x, y, alpha = 1, lambda = grid)
# Dopasuj model lasso do pełnego zbioru danych
lasso_coef = predict(out, type = "coefficients", s = bestlam)[1:10,]
# Wyświetlanie współczynników przy użyciu lambda wybranego przez CV
lasso_coef
## (Intercept) year age maritl2. Married
## -4.075268e+02 -8.908553e-05 -3.182844e-05 -3.296052e-04
## maritl3. Widowed maritl4. Divorced maritl5. Separated race2. Black
## 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## race3. Asian race4. Other
## 0.000000e+00 0.000000e+00
Tylko cztery zmienne spośród badanych zmiennych nie przyjęły wartości
zerowych, dlatego nie wszystkie zmienne są statystycznie istotne.
Zmienne istotne
Tylko niezerowe zmienne to:
lasso_coef[lasso_coef != 0] # Wyświetlanie tylko niezerowych współczynników
## (Intercept) year age maritl2. Married
## -4.075268e+02 -8.908553e-05 -3.182844e-05 -3.296052e-04
Odpowiedzi na pytania:
- Który zbiór danych wybrałeś?
Wybrany został zbiór danych “Wage” z biblioteki ISLR, czyli
zależności płac.
- Jaka była Twoja zmienna zależna (tzn. co próbowałeś modelować)?
Wage, czyli płaca.
- Czy oczekiwałeś, że regresja grzbietowa będzie lepsza od lasso czy
odwrotnie? Pokaż odpowiednie raporty, miary dopasowania i krótko je omów
(porównaj).
Oczekiwaliśmy, że wyniki obu regresji będą podobne, jako iż regresja
lasso oraz grzbietowa same w sobie podobne. Metoda lasso sama w swoich
założeniach ma zwiększać dokładność przewidywań, w porównaniu do metody
grzbietowej, dlatego wydaje się, że to właśnie ta pierwsza metoda jest
lepsza. Wartość MSE w przypadku metody Lasso wychodzi niższa niż w
przypadku metody grzbietowej.(175 - grzbietowa, do 155 - Lasso)
- Jak wypada w stosunku do OLS?
W stosunku do OLS kilka zmiennych zostało wyzerowanych, zatem według
Lasso selekcjonuje istotne zmienne.
- Które predyktory okazały się ważne w ostatecznym modelu
(modelach)?
W ostatecznym modelu istotne okazały się następujące predyktory :
year, age, maritl2. Married, education2. HS Grad, education3. Some
College education5., Advanced Degree
