To laboratorium na temat Regresji grzbietowej (Ridge Regression - RR)
i Lasso w R pochodzi ze stron 251-255 książki “Introduction to
Statistical Learning with Applications in R” autorstwa Garetha Jamesa,
Danieli Witten, Trevora Hastie i Roberta Tibshirani. Zostało ono
ponownie zaimplementowane jesienią 2016 roku w formacie
tidyverse przez Amelię McNamarę i R. Jordana Crousera w
Smith College.
W tym tygodniu omówimy dwie alternatywne formy regresji liniowej zwane regresją grzbietową i regresją LASSO. Te dwie metody są przykładami metod regularyzacji lub zmniejszania, w których zachęca się do tego, aby parametry modelu były małe.
Wykorzystamy pakiet glmnet w celu przeprowadzenia
regresji ridge i lasso. Główną funkcją w tym pakiecie jest
glmnet(), która może być użyta do dopasowania modeli
regresji grzbietowej, modeli lasso i innych.
Funkcja ta ma nieco inną składnię niż inne funkcje dopasowujące modele, z którymi zetknęliśmy się do tej pory. W szczególności, musimy przekazać macierz \(x\) jak również wektor \(y\) i nie używamy składni \(y \sim x\).
Zanim przejdziemy dalej, upewnijmy się najpierw, że brakujące wartości zostały zostały usunięte z danych, jak opisano w poprzednim laboratorium.
Hitters = na.omit(Hitters)
W raporcie tym przeprowadzimy regresję grzbietową i lasso, aby
przewidzieć Salary na danych Hitters.
Skonfigurujmy nasze dane:
x = model.matrix(Salary~., Hitters)[,-1] # przycinam pierwszą kolumnę
# zostawiam predyktory
y = Hitters %>%
select(Salary) %>%
unlist() %>%
as.numeric()
Funkcja model.matrix() jest szczególnie przydatna do
tworzenia \(x\); nie tylko nie tylko
tworzy macierz odpowiadającą 19 predyktorom, ale również automatycznie
przekształca wszelkie zmienne jakościowe w zmienne dummy.
Ta ostatnia właściwość jest ważna, ponieważ glmnet()
może przyjmować tylko numeryczne, ilościowe dane wejściowe.
Wybór modelu w problemach uczenia nadzorowanego wiąże się z realizacją dwóch sprzecznych celów:
1.) Model powienien być dobrze dopasowany do danych uczących, aby uchwycić zależność pomiędzy danymi.
2.) Model powinien dobrze przybliżać nieznane dane (zapewniać mały błąd generalizacji).
Modele złożone dobdrze dopasowują się do danych wyjściowych, ale charakteryzują się dużą zmiennością wartości wyjściowych. Ryzykiem jest nadmierne dopasowanie = overfitting!
Modele prostsze są obciążone dużym błędem systematyczny (bias) i ich zastosowanie niesie ryzyko niewystarczającego dopasowania (underfitting)!
Składnikiem błędów generalizacji jest nieredukowalny błąd związany ze zmiennością danych.
Duża liczna zmiennych objaśniających (predyktorów): Metoda OLS nie daje jednoznacznego rozwiązania, gdy macierz XTX nie jest odwracalna (tzn. gdy zmienne objaśniające są liniowo zależne).
Taka sytuacja może mieć miejsce gdy zmiennych objaśniających jest tyle samo lub więcej niż obserwacji.
Duża wartość θi oznacza dużą wrażliwość funkcji regresji na drobne fluktuacje cechy!
Lepszym rozwiązaniem jest gorsze dopasowanie do danych uczących przy równoczesnym ograniczeniu parametrów świadczących o potencjalnie dużym błędzie generalizacji.
Regresja grzbietowa (ang. Ridge regression) to technika regresji liniowej, która wprowadza regularyzację \(L_2\) do estymacji współczynników modelu. Regularyzacja \(L_2\) polega na dodaniu do funkcji celu kary proporcjonalnej do kwadratu wartości współczynników regresji.
Podstawową ideą regresji grzbietowej jest minimalizacja funkcji celu, która składa się z dwóch składników: błędu dopasowania (sumy kwadratów różnic pomiędzy rzeczywistymi wartościami odpowiedzi a przewidywanymi wartościami modelu) i kary regularyzacyjnej \(L_2\).
Wzór funkcji celu dla regresji grzbietowej można przedstawić jako: Minimize: RSS + \(\lambda \|\beta\|_2^2\), gdzie:
RSS to suma kwadratów różnic pomiędzy rzeczywistymi wartościami odpowiedzi a przewidywanymi wartościami modelu (błąd dopasowania),
\(\lambda\) (lambda) to parametr regularyzacji, który kontroluje siłę regularyzacji,
\(\|\beta\|_2^2\) to norma \(L_2\) współczynników regresji podniesiona do kwadratu.
Dodanie kary regularyzacyjnej \(L_2\) powoduje, że współczynniki regresji są skupione wokół zera, ale nie dokładnie równe zeru (chyba że \(\lambda\)=0).
Regresja grzbietowa zmniejsza wartości współczynników, ale nie powoduje, że stają się one równe zero. Im większa wartość \(\lambda\), tym bardziej są “sciskane” współczynniki regresji.
Regresja grzbietowa jest szczególnie przydatna, gdy mamy do czynienia z modelem, w którym występuje nadmierna wielowymiarowość lub wysokie korelacje między zmiennymi niezależnymi.
Poprzez zmniejszanie wartości współczynników, regresja grzbietowa może pomóc w redukcji wpływu mało istotnych cech, poprawić stabilność modelu i zmniejszyć ryzyko przeuczenia (overfitting).
Jednym ze sposobów kontroli złożoności modelu jest penalizacja jego wielkości. Na przykład, w problemie regresji liniowej:
\[ \min_{\beta \in \mathbb{R}^p} \sum_{i=1}^n (y_i - x_i^\top \beta)^2, \]
możemy kontrolować wielkość współczynników \(\beta\). Oczywiście wielkość \(\beta\) można zdefiniować na różne sposoby, np. norma-2: \(\|\beta\|_2\), norma-1: \(\|\beta\|_1\) czy norma-nieskończoność: \(\|\beta\|_{\infty}\). Regresja grzbietowa wiąże się z karą dwóch norm:
\[ \min_{\beta \in \mathbb{R}^p} \sum_{i=1}^n (y_i - x_i^\top \beta)^2 + \lambda \|\beta\|_2^2 \]
gdzie \(\lambda\) jest parametrem kontrolującym poziom regularyzacji. Zauważ, że \(X\) to macierz \(n\) na \(p\) wymiarów z wierszami: \(x_i^\top\), oraz \(Y\) to \(n\) na 1 wektor \(y_i\). Załóżmy, że \(X^\top X + \lambda I\) jest odwracalna, mamy dokładne rozwiązanie problemu regresji grzbietowej:
\[ \hat \beta_{ridge} = (X^\top X + \lambda I)^{-1}X^\top Y. \]
Przypomnijmy, że rozwiązaniem zwykłej regresji najmniejszych kwadratów jest (zakładając odwracalność macierzy \(X^\top X\)):
\[ \hat \beta_{ols} = (X^\top X)^{-1}X^\top Y. \]
Dwa fakty: kiedy \(\lambda \to 0\), \(\hat \beta_{ridge} \to \hat \beta_{ols}\); kiedy \(\lambda \to \infty\), \(\hat \beta_{ridge} \to 0\).
W szczególnych przypadkach \(X\) jest ortogonalna (tzn. kolumny \(X\) są ortogonalne), mamy:
\[ \hat \beta_{ridge} = \frac{\hat \beta_{ols}}{1 + \lambda}. \]
Widzimy więc, że estymator grzbietowy ma dodatkowo \(1/(1 + \lambda)\) tzw. “shrinkage factor”. W związku z tym na estymatorze grzbietowym występuje obciążliwość (bias).
Funkcja glmnet() posiada argument alfa, który określa,
jaki typ modelu jest dopasowywany.
Jeśli alfa = 0 to dopasowywany jest model regresji
grzbietowej, a jeśli alfa = 1 to dopasowywany jest model
lasso.
Najpierw dopasowujemy model regresji grzbietowej:
grid = 10^seq(10, -2, length = 100)
ridge_mod = glmnet(x, y, alpha = 0, lambda = grid)
Domyślnie funkcja glmnet() wykonuje regresję grzbietową
dla automatycznie wybranego wybranego zakresu wartości \(\lambda\). Jednakże, tutaj wybraliśmy
implementację funkcję w zakresie wartości od \(\lambda = 10^{10}\) do \(\lambda = 10^{-2}\), zasadniczo pokrywając
pełen zakres scenariuszy od modelu zerowego zawierającego tylko
przechwyt, do dopasowania najmniejszego kwadratu.
Jak widać, możemy również obliczyć dopasowanie modelu dla konkretnej wartości \(\lambda\), która nie jest jedną z oryginalnych wartości siatki.
Zauważ, że domyślnie funkcja glmnet() standaryzuje
zmienne tak, by były w tej samej skali. Aby wyłączyć to domyślne
ustawienie, użyj argumentu standardize = FALSE.
Z każdą wartością \(\lambda\)
związany jest wektor współczynników regresji grzbietowej, przechowywany
w macierzy, do której można uzyskać dostęp przez coef(). W
tym przypadku jest to macierz \(20 \times
100\), z 20 wierszami (po jednym dla każdego predyktora, plus
intercept) i 100 kolumnami (po jednej dla każdej wartości \(\lambda\)).
dim(coef(ridge_mod))
## [1] 20 100
plot(ridge_mod) # wykres współczynników
Spodziewamy się, że oszacowania współczynników będą znacznie mniejsze, w sensie normy \(l_2\), gdy używana jest duża wartość \(\lambda\), w porównaniu z małą wartością \(\lambda\).
Oto współczynniki, gdy \(\lambda = 11498\), wraz z ich normą \(l_2\):
ridge_mod$lambda[50] # Wyświetl 50-tą wartość lambdy
## [1] 11497.57
coef(ridge_mod)[,50] # Wyświetl współczynniki związane z 50-tą wartością lambdy
## (Intercept) AtBat Hits HmRun Runs
## 407.356050200 0.036957182 0.138180344 0.524629976 0.230701523
## RBI Walks Years CAtBat CHits
## 0.239841459 0.289618741 1.107702929 0.003131815 0.011653637
## CHmRun CRuns CRBI CWalks LeagueN
## 0.087545670 0.023379882 0.024138320 0.025015421 0.085028114
## DivisionW PutOuts Assists Errors NewLeagueN
## -6.215440973 0.016482577 0.002612988 -0.020502690 0.301433531
sqrt(sum(coef(ridge_mod)[-1,50]^2)) # Oblicz normę l2
## [1] 6.360612
Dla kontrastu, oto współczynniki, gdy \(\lambda = 705\), wraz z ich \(l_2\) normą. Zwróć uwagę na znacznie większą normę \(l_2\) współczynników związanych z tą mniejszą wartością \(\lambda\).
ridge_mod$lambda[60] # Wyświetl 60-tą wartość lambdy
## [1] 705.4802
coef(ridge_mod)[,60] # Wyświetl współczynniki powiązane z 60-tą wartość lambdy
## (Intercept) AtBat Hits HmRun Runs RBI
## 54.32519950 0.11211115 0.65622409 1.17980910 0.93769713 0.84718546
## Walks Years CAtBat CHits CHmRun CRuns
## 1.31987948 2.59640425 0.01083413 0.04674557 0.33777318 0.09355528
## CRBI CWalks LeagueN DivisionW PutOuts Assists
## 0.09780402 0.07189612 13.68370191 -54.65877750 0.11852289 0.01606037
## Errors NewLeagueN
## -0.70358655 8.61181213
sqrt(sum(coef(ridge_mod)[-1,60]^2)) # Oblicz normę l2
## [1] 57.11001
Funkcję predict() możemy wykorzystać do wielu celów. Na
przykład, możemy uzyskać współczynniki regresji grzbietowej dla nowej
wartości \(\lambda\), powiedzmy 50:
predict(ridge_mod, s = 50, type = "coefficients")[1:20,]
## (Intercept) AtBat Hits HmRun Runs
## 4.876610e+01 -3.580999e-01 1.969359e+00 -1.278248e+00 1.145892e+00
## RBI Walks Years CAtBat CHits
## 8.038292e-01 2.716186e+00 -6.218319e+00 5.447837e-03 1.064895e-01
## CHmRun CRuns CRBI CWalks LeagueN
## 6.244860e-01 2.214985e-01 2.186914e-01 -1.500245e-01 4.592589e+01
## DivisionW PutOuts Assists Errors NewLeagueN
## -1.182011e+02 2.502322e-01 1.215665e-01 -3.278600e+00 -9.496680e+00
Podzielimy teraz próbki na zbiór treningowy i testowy w celu oszacować błąd testu regresji grzbietowej i lasso.
set.seed(1)
train = Hitters %>%
sample_frac(0.5)
test = Hitters %>%
setdiff(train)
x_train = model.matrix(Salary~., train)[,-1]
x_test = model.matrix(Salary~., test)[,-1]
y_train = train %>%
select(Salary) %>%
unlist() %>%
as.numeric()
y_test = test %>%
select(Salary) %>%
unlist() %>%
as.numeric()
Następnie dopasowujemy model regresji grzbietowej na zbiorze
treningowym i oceniamy jego MSE na zbiorze testowym, używając \(\lambda = 4\). Zwróć uwagę na użycie
funkcji predict(). Ponownie: tym razem otrzymujemy
przewidywania dla zbioru testowego, zastępując
type="coefficients" argumentem newx.
ridge_mod = glmnet(x_train, y_train, alpha=0, lambda = grid, thresh = 1e-12)
ridge_pred = predict(ridge_mod, s = 4, newx = x_test)
mean((ridge_pred - y_test)^2)
## [1] 139858.6
Testowe MSE wynosi 139858. Zauważ, że gdybyśmy zamiast tego dopasowali po prostu model tylko z wyrazem wolnym, przewidywalibyśmy każdą obserwację testową używając średniej z obserwacji zbioru treningowego. W takim przypadku moglibyśmy obliczyć MSE zestawu testowego w ten sposób:
mean((mean(y_train) - y_test)^2)
## [1] 224692.1
Moglibyśmy również uzyskać ten sam wynik, dopasowując model regresji
grzbietowej z bardzo dużą wartością \(\lambda\). Zauważ, że 1e10
oznacza \(10^{10}\).
ridge_pred = predict(ridge_mod, s = 1e10, newx = x_test)
mean((ridge_pred - y_test)^2)
## [1] 224692.1
Tak więc dopasowanie modelu regresji grzbietowej z \(\lambda = 4\) prowadzi do znacznie niższego testu MSE niż dopasowanie modelu z samym przechwytem.
Sprawdzimy teraz, czy jest jakaś korzyść z wykonania regresji grzbietowej z \(\lambda = 4\) zamiast po prostu wykonać regresję najmniejszych kwadratów.
Przypomnijmy, że najmniejsza kwadratura to po prostu regresja grzbietowa z \(\lambda = 0\).
* Uwaga: Aby glmnet() dawał dokładne
(exact) współczynniki najmniejszego kwadratu, gdy \(\lambda = 0\), używamy argumentu
exact=T przy wywołaniu funkcji predict(). W
przeciwnym razie, funkcja predict() będzie interpolować nad
siatką wartości \(\lambda\) użytą w
dopasowaniu modelu glmnet(), dając przybliżone wyniki.
Nawet gdy użyjemy exact = T, pozostaje niewielka
rozbieżność na trzecim miejscu po przecinku między wynikami
glmnet(), gdy \(\lambda =
0\) i wyjściem z lm(); jest to spowodowane
numerycznym przybliżeniem ze strony glmnet().
ridge_pred = predict(ridge_mod, s = 0, newx = x_test)
mean((ridge_pred - y_test)^2)
## [1] 174060
lm(Salary~., data = train)
##
## Call:
## lm(formula = Salary ~ ., data = train)
##
## Coefficients:
## (Intercept) AtBat Hits HmRun Runs RBI
## 2.398e+02 -1.639e-03 -2.179e+00 6.337e+00 7.139e-01 8.735e-01
## Walks Years CAtBat CHits CHmRun CRuns
## 3.594e+00 -1.309e+01 -7.136e-01 3.316e+00 3.407e+00 -5.671e-01
## CRBI CWalks LeagueN DivisionW PutOuts Assists
## -7.525e-01 2.347e-01 1.322e+02 -1.346e+02 2.099e-01 6.229e-01
## Errors NewLeagueN
## -4.616e+00 -8.330e+01
predict(ridge_mod, s = 0, type="coefficients")[1:20,]
## (Intercept) AtBat Hits HmRun Runs
## 239.89368111 -0.01946204 -2.07305757 6.44254692 0.64610179
## RBI Walks Years CAtBat CHits
## 0.82179888 3.62448842 -13.28142313 -0.70314292 3.26064805
## CHmRun CRuns CRBI CWalks LeagueN
## 3.33170237 -0.54000590 -0.72015101 0.22582579 131.41324242
## DivisionW PutOuts Assists Errors NewLeagueN
## -134.76073238 0.20949301 0.61942855 -4.58545824 -82.35090554
Wygląda na to, że rzeczywiście poprawiamy się w stosunku do zwykłego najmniejszego kwadratu!
Uwaga: ogólnie, jeśli chcemy dopasować (niespenalizowany) model
najmniejszych kwadratów, to powinniśmy użyć funkcji lm(),
ponieważ ta funkcja dostarcza bardziej użytecznych wyjścia, takie jak
błędy standardowe i wartości \(p\) dla
współczynników.
Zamiast arbitralnie wybierać \(\lambda =
4\), lepiej byłoby użyć walidacji krzyżowej do wyboru parametru
dostrojenia \(\lambda\). Możemy to
zrobić używając wbudowanej funkcji walidacji krzyżowej,
cv.glmnet(). Domyślnie funkcja ta wykonuje 10-krotną
walidację krzyżową, choć można to zmienić używając argumentu argumentu
folds. Zauważ, że najpierw ustawiamy losowe ziarno, aby
nasze wyniki były powtarzalne, ponieważ wybór krotności walidacji
krzyżowej jest losowy.
set.seed(1)
cv.out = cv.glmnet(x_train, y_train, alpha = 0) # Dopasuj model regresji grzbietowej na danych treningowych
bestlam = cv.out$lambda.min # Wybierz lamdę, która minimalizuje treningowy MSE
bestlam
## [1] 326.1406
Widzimy zatem, że wartość \(\lambda\), która powoduje najmniejszy błąd walidacji krzyżowej to 326. Możemy również wykreślić MSE jako funkcję \(\lambda\):
plot(cv.out) # Narysuj wykres treningowego MSE jako funkcję lambda
Jaki jest testowy MSE związany z tą wartością \(\lambda\)?
ridge_pred = predict(ridge_mod, s = bestlam, newx = x_test) # Użyj najlepszej lambdy do przewidywania danych testowych
mean((ridge_pred - y_test)^2) # Oblicz testowe MSE
## [1] 140056.2
Stanowi to dalszą poprawę w stosunku do testowego MSE, które uzyskaliśmy używając \(\lambda = 4\). Ostatecznie, ponownie wyznaczamy nasz model regresji grzbietowej na pełnym zestawie danych, używając wartości \(\lambda\) wybranej w walidacji krzyżowej, i sprawdzamy oszacowania współczynników.
out = glmnet(x, y, alpha = 0) # Dopasuj model regresji grzbietowej do pełnego zbioru danych
predict(out, type = "coefficients", s = bestlam)[1:20,] # Wyświetlanie współczynników przy użyciu lambda wybranego przez CV
## (Intercept) AtBat Hits HmRun Runs RBI
## 15.44834992 0.07716945 0.85906253 0.60120338 1.06366687 0.87936073
## Walks Years CAtBat CHits CHmRun CRuns
## 1.62437580 1.35296285 0.01134998 0.05746377 0.40678422 0.11455696
## CRBI CWalks LeagueN DivisionW PutOuts Assists
## 0.12115916 0.05299953 22.08942756 -79.03490992 0.16618830 0.02941513
## Errors NewLeagueN
## -1.36075645 9.12528397
Zgodnie z oczekiwaniami, żaden ze współczynników nie jest dokładnie zerowy - regresja grzbietowa nie dokonuje selekcji zmiennych!
Zamiast regularyzacji \(L_2\), LASSO używa penalizacji \(L_1\), to znaczy:
\[ \min_{\beta \in \mathbb{R}^p} \sum_{i=1}^n (y_i - x_i^\top \beta)^2 + \lambda \|\beta\|_1. \]
Ze względu na charakter normy \(L_1\), LASSO ma tendencję do dawania bardziej rzadkich rozwiązań niż regresja grzbietowa. Jest to typowo użyteczne w ustawieniach wielowymiarowych, gdy prawdziwy model jest w rzeczywistości niskowymiarowym osadzeniem.
Model regresji lasso został pierwotnie opracowany w 1989 roku. Jest to alternatywa dla klasycznego oszacowania metodą najmniejszych kwadratów, która unika wielu problemów z nadmiernym dopasowaniem (overfittingiem), gdy mamy dużą liczbę niezależnych zmiennych.
Regresja Lasso (Least Absolute Shrinkage and Selection Operator) to technika regresji liniowej stosowana do oszacowania współczynników modelu, która wprowadza regularyzację \(L_1\). Regularyzacja L1 polega na dodaniu do funkcji celu kary proporcjonalnej do wartości bezwzględnej współczynników regresji.
Regresja Lasso ma zdolność do jednoczesnego wykonania selekcji cech i regularyzacji, co oznacza, że może pomóc w identyfikacji najbardziej istotnych cech modelu, a także zmniejszyć wpływ mniej istotnych cech.
Podstawowym celem regresji Lasso jest minimalizacja funkcji celu, która składa się z dwóch składników: błędu dopasowania (sumy kwadratów różnic pomiędzy rzeczywistymi wartościami odpowiedzi a przewidywanymi wartościami modelu) i kary regularyzacyjnej \(L_1\).
Wzór funkcji celu dla regresji Lasso może być przedstawiony jako: Minimize: RSS + \(\lambda \|\beta\|_1\), gdzie:
RSS to suma kwadratów różnic pomiędzy rzeczywistymi wartościami odpowiedzi a przewidywanymi wartościami modelu (błąd dopasowania),
\(\lambda\) (lambda) to parametr regularyzacji, który kontroluje siłę regularyzacji, a \(\|\beta\|_1\) to norma \(L_1\) współczynników regresji.
Dodanie kary regularyzacyjnej \(L_1\) powoduje, że niektóre współczynniki regresji stają się równe zero, co prowadzi do selekcji cech. Im większa wartość \(\lambda\), tym większa jest tendencja do redukcji współczynników do zera, prowadząc do bardziej rzadkiego modelu z mniejszą liczbą cech.
Regresja Lasso jest przydatna w przypadkach, gdy mamy do czynienia z wieloma cechami, z których niektóre mogą być nieistotne. Może pomóc w identyfikacji istotnych cech, redukcji nadmiaru danych i zwiększeniu interpretowalności modelu.
Zobaczyliśmy, że regresja grzbietowa z mądrym wyborem \(\lambda\) może przewyższać metodę najmniejszych kwadratów, jak również model zerowy na zbiorze danych Hitters.
Teraz zobaczmy, czy lasso może dać albo dokładniejszy, albo bardziej interpretowalny model niż regresja grzbietowa.
W celu dopasowania modelu lasso, po raz kolejny używamy funkcji
glmnet(), jednak tym razem używamy argumentu
alpha=1. Poza tą zmianą postępujemy tak samo jak w
przypadku dopasowywania modelu regresji grzbietowej:
lasso_mod = glmnet(x_train,
y_train,
alpha = 1,
lambda = grid) # Dopasuj model lasso do danych treningowych
plot(lasso_mod) # Wykreśl współczynniki
Zauważmy, że na wykresie współczynników, w zależności od wyboru dostrojenia parametru, niektóre ze współczynników są dokładnie równe zeru. Teraz przeprowadzimy walidację krzyżową i obliczymy związany z nią błąd testu:
set.seed(1)
cv.out = cv.glmnet(x_train, y_train, alpha = 1) # Dopasuj model lasso do danych treningowych
plot(cv.out) # Narysuj wykres MSE dla próby uczącej jako funkcję lambda
bestlam = cv.out$lambda.min # Wybierz lamdę, która minimalizuje MSE w próbie uczącej
lasso_pred = predict(lasso_mod, s = bestlam, newx = x_test) # Użyj najlepszej lambdy do przewidywania danych testowych
mean((lasso_pred - y_test)^2) # Oblicz MSE w próbie testowej
## [1] 143273
Jest to znacznie niższe MSE zbioru testowego niż modelu zerowego i modelu najmniejszych kwadratów, i bardzo podobny do MSE testu regresji grzbietowej z \(\lambda\) wybranej przez walidację krzyżową.
Jednakże lasso ma istotną przewagę nad regresją grzbietową w tym, że wynikowe oszacowania współczynników są rzadkie. Tutaj widzimy, że 12 z 19 oszacowań współczynników jest dokładnie zerowych:
out = glmnet(x, y, alpha = 1, lambda = grid) # Dopasuj model lasso do pełnego zbioru danych
lasso_coef = predict(out, type = "coefficients", s = bestlam)[1:20,] # Wyświetlanie współczynników przy użyciu lambda wybranego przez CV
lasso_coef
## (Intercept) AtBat Hits HmRun Runs
## 1.27429897 -0.05490834 2.18012455 0.00000000 0.00000000
## RBI Walks Years CAtBat CHits
## 0.00000000 2.29189433 -0.33767315 0.00000000 0.00000000
## CHmRun CRuns CRBI CWalks LeagueN
## 0.02822467 0.21627609 0.41713051 0.00000000 20.28190194
## DivisionW PutOuts Assists Errors NewLeagueN
## -116.16524424 0.23751978 0.00000000 -0.85604181 0.00000000
Wybierając tylko predyktory o niezerowych współczynnikach widzimy, że model lasso z \(\lambda\) wybranym przez walidację krzyżową zawiera tylko siedem zmiennych:
lasso_coef[lasso_coef != 0] # Wyświetlanie tylko niezerowych współczynników
## (Intercept) AtBat Hits Walks Years
## 1.27429897 -0.05490834 2.18012455 2.29189433 -0.33767315
## CHmRun CRuns CRBI LeagueN DivisionW
## 0.02822467 0.21627609 0.41713051 20.28190194 -116.16524424
## PutOuts Errors
## 0.23751978 -0.85604181
Teraz nadszedł czas na przetestowanie tych metod (regresja grzbietowa i lasso) oraz metod oceny (zestaw walidacyjny, walidacja krzyżowa) na innych zbiorach danych. Możesz pracować z zespołem nad tą częścią laboratorium.
Możesz użyć dowolnego zbioru danych zawartego w ISLR lub wybrać jeden z pakietów danych na Kaggle/Data World itp. (zmienna zależna musi być ciągła).
Pobierz zbiór danych i spróbuj określić optymalny zestaw parametrów, które należy użyć do jego modelowania!
data(Hitters)
Hitters <- na.omit(Hitters)
y <- Hitters$Salary
X <- model.matrix(Salary ~ ., data = Hitters)[, -1]
set.seed(123)
train_index <- sample(1:nrow(X), size = 0.7 * nrow(X))
X_train <- X[train_index, ]
X_test <- X[-train_index, ]
y_train <- y[train_index]
y_test <- y[-train_index]
ridge_cv <- cv.glmnet(X_train, y_train, alpha = 0, lambda = 10^seq(10, -2, length = 100))
best_lambda <- ridge_cv$lambda.min
cat("Optymalne lambda dla Ridge Regression:", best_lambda, "\n")
## Optymalne lambda dla Ridge Regression: 4.641589
ridge_model <- glmnet(X_train, y_train, alpha = 0, lambda = best_lambda)
ridge_preds <- predict(ridge_model, s = best_lambda, newx = X_test)
ridge_rmse <- sqrt(mean((ridge_preds - y_test)^2))
cat("RMSE dla Ridge Regression:", ridge_rmse, "\n")
## RMSE dla Ridge Regression: 354.5274
ols_model <- lm(Salary ~ ., data = Hitters[train_index, ])
ols_preds <- predict(ols_model, newdata = Hitters[-train_index, ])
ols_rmse <- sqrt(mean((ols_preds - y_test)^2))
cat("RMSE dla OLS:", ols_rmse, "\n")
## RMSE dla OLS: 368.1855
ridge_coefficients <- coef(ridge_model, s = best_lambda)
ridge_important <- as.data.frame(as.matrix(ridge_coefficients))
colnames(ridge_important) <- "Coefficient"
ridge_important <- ridge_important[order(abs(ridge_important$Coefficient), decreasing = TRUE), ]
print("Ważność predyktorów w Ridge Regression:")
## [1] "Ważność predyktorów w Ridge Regression:"
print(head(ridge_important, 10))
## [1] 233.607471 -132.500741 74.570206 -25.956537 13.748045 -8.973567
## [7] 6.243899 -5.537571 4.571662 2.023461
Aby zaliczyć to laboratorium, zamieść odpowiedzi na następujące pytania:
wage<-Wage
head(wage)
## year age maritl race education region
## 231655 2006 18 1. Never Married 1. White 1. < HS Grad 2. Middle Atlantic
## 86582 2004 24 1. Never Married 1. White 4. College Grad 2. Middle Atlantic
## 161300 2003 45 2. Married 1. White 3. Some College 2. Middle Atlantic
## 155159 2003 43 2. Married 3. Asian 4. College Grad 2. Middle Atlantic
## 11443 2005 50 4. Divorced 1. White 2. HS Grad 2. Middle Atlantic
## 376662 2008 54 2. Married 1. White 4. College Grad 2. Middle Atlantic
## jobclass health health_ins logwage wage
## 231655 1. Industrial 1. <=Good 2. No 4.318063 75.04315
## 86582 2. Information 2. >=Very Good 2. No 4.255273 70.47602
## 161300 1. Industrial 1. <=Good 1. Yes 4.875061 130.98218
## 155159 2. Information 2. >=Very Good 1. Yes 5.041393 154.68529
## 11443 2. Information 1. <=Good 1. Yes 4.318063 75.04315
## 376662 2. Information 2. >=Very Good 1. Yes 4.845098 127.11574
lapply(wage, function(x) if (is.factor(x)) levels(x))
## $year
## NULL
##
## $age
## NULL
##
## $maritl
## [1] "1. Never Married" "2. Married" "3. Widowed" "4. Divorced"
## [5] "5. Separated"
##
## $race
## [1] "1. White" "2. Black" "3. Asian" "4. Other"
##
## $education
## [1] "1. < HS Grad" "2. HS Grad" "3. Some College"
## [4] "4. College Grad" "5. Advanced Degree"
##
## $region
## [1] "1. New England" "2. Middle Atlantic" "3. East North Central"
## [4] "4. West North Central" "5. South Atlantic" "6. East South Central"
## [7] "7. West South Central" "8. Mountain" "9. Pacific"
##
## $jobclass
## [1] "1. Industrial" "2. Information"
##
## $health
## [1] "1. <=Good" "2. >=Very Good"
##
## $health_ins
## [1] "1. Yes" "2. No"
##
## $logwage
## NULL
##
## $wage
## NULL
wage <- wage[, sapply(wage, function(x) !(is.factor(x) && length(levels(x)) <= 1))]
#Myslimy ze regresja grzbietowa > lasso - czas to sprawdzic :)
modelOLS = lm(data = wage,wage ~ age + maritl + race + jobclass)
summary(modelOLS)
##
## Call:
## lm(formula = wage ~ age + maritl + race + jobclass, data = wage)
##
## Residuals:
## Min 1Q Median 3Q Max
## -109.039 -23.722 -5.074 15.728 216.661
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 74.4550 2.7889 26.697 < 2e-16 ***
## age 0.3855 0.0698 5.522 3.63e-08 ***
## maritl2. Married 19.6579 1.9682 9.988 < 2e-16 ***
## maritl3. Widowed 2.1359 9.1896 0.232 0.81622
## maritl4. Divorced 3.6820 3.3134 1.111 0.26654
## maritl5. Separated 3.5607 5.5450 0.642 0.52083
## race2. Black -10.9686 2.4463 -4.484 7.61e-06 ***
## race3. Asian 5.4073 2.9511 1.832 0.06701 .
## race4. Other -17.1440 6.4827 -2.645 0.00822 **
## jobclass2. Information 16.3179 1.4405 11.328 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 39.07 on 2990 degrees of freedom
## Multiple R-squared: 0.126, Adjusted R-squared: 0.1234
## F-statistic: 47.9 on 9 and 2990 DF, p-value: < 2.2e-16
# Pobranie reszt modelu
residuals <- modelOLS$residuals
# Obliczenie MSE
mse <- mean(residuals^2)
# Wyświetlenie wyniku
print(paste("Mean Squared Error (MSE) =", mse))
## [1] "Mean Squared Error (MSE) = 1521.35765782327"
Ogólna ocena modelu:
R2=0.126R^2 = 0.126R2=0.126: Model wyjaśnia 12.6% zmienności zmiennej zależnej (wagewagewage), co wskazuje na słabe dopasowanie.
F-statystyka (p<2.2e−16p < 2.2e-16p<2.2e−16): Model jako całość jest statystycznie istotny.
Wpływ poszczególnych zmiennych: - Wiek (ageageage): Każdy dodatkowy rok życia zwiększa wynagrodzenie średnio o 0.3855 jednostki. Istotny predyktor (p<0.001p < 0.001p<0.001). - Stan cywilny (maritlmaritlmaritl): - Osoby zamężne/żonate zarabiają średnio o 19.66 jednostek więcej niż osoby nigdy nieżonaci (grupa referencyjna, p<0.001p < 0.001p<0.001). - Inne grupy (wdowcy, rozwiedzeni, osoby w separacji) nie są istotne statystycznie. Rasa (raceracerace): - Osoby czarnoskóre (BlackBlackBlack) zarabiają średnio o 10.97 jednostek mniej niż osoby białe (p<0.001p < 0.001p<0.001). - Osoby z grupy „Other” zarabiają o 17.14 jednostek mniej (p<0.01p < 0.01p<0.01). - Osoby azjatyckie: różnica na granicy istotności (p=0.067p = 0.067p=0.067). Klasa zawodowa (jobclassjobclassjobclass): - Praca w sektorze informacyjnym wiąże się z wyższym wynagrodzeniem o 16.32 jednostki w porównaniu do przemysłu (p<0.001p < 0.001p<0.001).
-Podsumowanie: - Model identyfikuje istotne efekty wieku, małżeństwa, rasy (czarnej i „Other”) oraz pracy w sektorze informacyjnym na wynagrodzenie. -Niskie R2R^2R2 sugeruje, że w modelu brakuje innych kluczowych zmiennych wyjaśniających wynagrodzenie. Model ma ograniczoną wartość predykcyjną i może wymagać dalszej poprawy.
# Ładowanie niezbędnych bibliotek
library(glmnet)
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.2
# Skalowanie zmiennych age i wage
wage$age <- scale(wage$age)
wage$wage <- scale(wage$wage)
# Konwersja danych
x <- model.matrix(wage ~ age + maritl + race + jobclass, data = wage)[, -1] # Macierz predyktorów
y <- wage$wage # Wektor odpowiedzi
# Lista wartości alfa do przetestowania
alphas <- seq(0, 1, by = 0.1)
# Inicjalizacja ramki danych na wyniki
results <- data.frame(
alpha = numeric(),
lambda = numeric(),
mse = numeric()
)
# Inicjalizacja zmiennych do przechowywania najlepszego modelu
min_mse <- Inf
best_alpha <- NULL
best_model <- NULL
# Pętla dla testowania różnych wartości alfa
for (alpha in alphas) {
# Przeprowadzenie walidacji krzyżowej z aktualnym alfa
cv_model <- cv.glmnet(
x, y,
alpha = alpha,
nfolds = 10,
standardize = TRUE # Standaryzacja danych
)
# Minimalne MSE dla bieżącego alfa
current_mse <- min(cv_model$cvm)
# Aktualizacja najlepszego modelu, jeśli bieżące MSE jest niższe
if (current_mse < min_mse) {
min_mse <- current_mse
best_alpha <- alpha
best_model <- cv_model
}
# Zapisanie wyników do ramki danych
results <- rbind(
results,
data.frame(
alpha = alpha,
lambda = cv_model$lambda.min,
mse = current_mse
)
)
}
# Wyświetlenie najlepszych wyników
cat("Najlepsza wartość alpha:", best_alpha, "\n")
## Najlepsza wartość alpha: 0.5
## Najlepsza wartość alpha: 0.9
cat("Najniższy MSE:", min_mse, "\n")
## Najniższy MSE: 0.8772875
## Najniższy MSE: 0.8776677
cat("Najlepsza lambda:", best_model$lambda.min, "\n\n")
## Najlepsza lambda: 0.003706729
## Najlepsza lambda: 0.007574866
# Wyciągnięcie i wyświetlenie współczynników dla najlepszego modelu
best_coefficients <- coef(best_model, s = "lambda.min")
print(best_coefficients)
## 10 x 1 sparse Matrix of class "dgCMatrix"
## s1
## (Intercept) -0.49042959
## age 0.10701220
## maritl2. Married 0.46107123
## maritl3. Widowed 0.01733798
## maritl4. Divorced 0.07192579
## maritl5. Separated 0.06223022
## race2. Black -0.25641865
## race3. Asian 0.12262056
## race4. Other -0.39408571
## jobclass2. Information 0.38668682
ggplot(results, aes(x = alpha, y = mse)) +
geom_line(color = "blue") +
geom_point(size = 3, color = "red") +
labs(
title = "Minimalne MSE dla różnych wartości α",
x = expression(alpha),
y = "Minimalne MSE"
) +
theme_minimal()
# Ładowanie niezbędnych bibliotek
library(glmnet)
library(ggplot2)
# Konwersja danych
x <- model.matrix(wage ~ age + maritl + race + jobclass, data = wage)[, -1] # Macierz predyktorów
y <- wage$wage # Wektor odpowiedzi
# Ustawienie alpha na 1 dla Lasso
alpha <- 1
# Przeprowadzenie walidacji krzyżowej dla Lasso
cv_model <- cv.glmnet(
x, y,
alpha = alpha,
nfolds = 10,
standardize = TRUE # Standaryzacja danych
)
# Minimalne MSE
min_mse <- min(cv_model$cvm)
# Najlepsze lambda
best_lambda <- cv_model$lambda.min
# Wyświetlenie najlepszych wyników
cat("Dla Lasso (alpha = 1):\n")
## Dla Lasso (alpha = 1):
## Dla Lasso (alpha = 1):
cat("Najniższy MSE:", min_mse, "\n")
## Najniższy MSE: 0.8783652
## Najniższy MSE: 0.8770823
cat("Najlepsza lambda:", best_lambda, "\n\n")
## Najlepsza lambda: 0.001538696
## Najlepsza lambda: 0.003238808
# Wyciągnięcie i wyświetlenie współczynników dla najlepszego modelu
best_coefficients <- coef(cv_model, s = "lambda.min")
print(best_coefficients)
## 10 x 1 sparse Matrix of class "dgCMatrix"
## s1
## (Intercept) -0.49316863
## age 0.10691658
## maritl2. Married 0.46370793
## maritl3. Widowed 0.02398558
## maritl4. Divorced 0.07554172
## maritl5. Separated 0.06699274
## race2. Black -0.25787664
## race3. Asian 0.12388274
## race4. Other -0.39743085
## jobclass2. Information 0.38801502
plot(cv_model)
Kluczowe wnioski z wykresu pierwszego: - Najniższe MSE występuje przy
log(λ) ≈ -2, co oznacza optymalne λ. - λ.min minimalizuje MSE i zapewnia
najlepsze dopasowanie modelu. - λ.1se (prawa przerywana linia) sugeruje
prostszy model z minimalnym wzrostem MSE. - Wzrost λ poza log(λ) ≈ 0
znacząco zwiększa MSE, wskazując na nadmierną regularizację.
# Ładowanie niezbędnych bibliotek
library(glmnet)
library(ggplot2)
# Konwersja danych
x <- model.matrix(wage ~ age + maritl + race + jobclass, data = wage)[, -1] # Macierz predyktorów
y <- wage$wage # Wektor odpowiedzi
# Ustawienie alpha na 1 dla Lasso
alpha <- 0
# Przeprowadzenie walidacji krzyżowej dla Lasso
cv_model <- cv.glmnet(
x, y,
alpha = alpha,
nfolds = 10,
standardize = TRUE # Standaryzacja danych
)
# Minimalne MSE
min_mse <- min(cv_model$cvm)
# Najlepsze lambda
best_lambda <- cv_model$lambda.min
# Wyświetlenie najlepszych wyników
cat("Dla Lasso (alpha = 1):\n")
## Dla Lasso (alpha = 1):
## Dla Lasso (alpha = 1):
cat("Najniższy MSE:", min_mse, "\n")
## Najniższy MSE: 0.8772791
## Najniższy MSE: 0.8780673
cat("Najlepsza lambda:", best_lambda, "\n\n")
## Najlepsza lambda: 0.025667
## Najlepsza lambda: 0.025667
# Wyciągnięcie i wyświetlenie współczynników dla najlepszego modelu
best_coefficients <- coef(cv_model, s = "lambda.min")
print(best_coefficients)
## 10 x 1 sparse Matrix of class "dgCMatrix"
## s1
## (Intercept) -0.48468760
## age 0.10712938
## maritl2. Married 0.45556570
## maritl3. Widowed 0.03574619
## maritl4. Divorced 0.07411100
## maritl5. Separated 0.07113678
## race2. Black -0.25675793
## race3. Asian 0.12808716
## race4. Other -0.40228471
## jobclass2. Information 0.38137859
plot(cv_model)
# Kluczowe wnioski z wykresu drugiego: # - Najniższe MSE występuje przy
log(λ) ≈ 4, co oznacza optymalne λ. # - Po przekroczeniu log(λ) ≈ 4, MSE
rośnie, co wskazuje na nadmierną regularizację. # - Optymalny model
osiągany przy λ.min, który zapewnia najlepszą równowagę między
dopasowaniem a prostotą.
Model 1: OLS (Regresja liniowa bez regularizacji) MSE: 0.8737 Kluczowe współczynniki: Intercept: -0.50082 age: 0.10663 maritl2. Married: 0.47109 race4. Other: -0.41085 jobclass2. Information: 0.39105 Interpretacja: Model OLS osiąga najniższe MSE, uwzględnia wszystkie predyktory, ale brak regularizacji może prowadzić do przeuczenia.
Model 2: Lasso (alpha = 0.1, lambda = 0.02688915) MSE: 0.8775 Kluczowe współczynniki: Intercept: -0.47350 age: 0.10720 maritl2. Married: 0.44496 race4. Other: -0.38007 jobclass2. Information: 0.37680 Interpretacja: Model eliminuje współczynnik dla ‘maritl3. Widowed’ i uzyskuje minimalnie wyższe MSE w stosunku do OLS, oferując prostszy model.
Model 3: Lasso (alpha = 1, lambda = 0.003238808) MSE: 0.8789 Kluczowe współczynniki: Intercept: -0.48521 age: 0.10702 maritl2. Married: 0.45612 race4. Other: -0.38275 jobclass2. Information: 0.38470 Interpretacja: Model minimalizuje współczynniki dla niektórych predyktorów, np. ‘maritl3. Widowed’, osiągając minimalnie wyższe MSE od Modelu 2.
Model 4: Lasso (alpha = 1, lambda = 0.025667) MSE: 0.8783 Kluczowe współczynniki: Intercept: -0.48469 age: 0.10713 maritl2. Married: 0.45557 race4. Other: -0.40228 jobclass2. Information: 0.38138 Interpretacja: Model znajduje kompromis między prostotą a dokładnością, zbliżając się do wyników OLS z nieco bardziej zrównoważonymi współczynnikami.
Podsumowanie różnic między modelami: - Model OLS osiąga najniższe MSE (0.8737), ale brak regularizacji może prowadzić do przeuczenia. - Model 2 (Lasso, alpha = 0.1) oferuje prostszy model, eliminując niektóre predyktory, z MSE 0.8775. - Modele 3 i 4 (Lasso, alpha = 1) uzyskują podobne MSE (0.8783-0.8789), ale różnią się wartością lambda i eliminacją predyktorów. - Wszystkie modele Lasso są bardziej odporne na przeuczenie w porównaniu do OLS.