To laboratorium na temat Regresji grzbietowej (Ridge Regression - RR) i Lasso w R pochodzi ze stron 251-255 książki “Introduction to Statistical Learning with Applications in R” autorstwa Garetha Jamesa, Danieli Witten, Trevora Hastie i Roberta Tibshirani. Zostało ono ponownie zaimplementowane jesienią 2016 roku w formacie tidyverse przez Amelię McNamarę i R. Jordana Crousera w Smith College.

W tym tygodniu omówimy dwie alternatywne formy regresji liniowej zwane regresją grzbietową i regresją LASSO. Te dwie metody są przykładami metod regularyzacji lub zmniejszania, w których zachęca się do tego, aby parametry modelu były małe.

Regresja Grzbietowa i Lasso

Wykorzystamy pakiet glmnet w celu przeprowadzenia regresji ridge i lasso. Główną funkcją w tym pakiecie jest glmnet(), która może być użyta do dopasowania modeli regresji grzbietowej, modeli lasso i innych.

Funkcja ta ma nieco inną składnię niż inne funkcje dopasowujące modele, z którymi zetknęliśmy się do tej pory. W szczególności, musimy przekazać macierz \(x\) jak również wektor \(y\) i nie używamy składni \(y \sim x\).

Zanim przejdziemy dalej, upewnijmy się najpierw, że brakujące wartości zostały zostały usunięte z danych, jak opisano w poprzednim laboratorium.

Hitters = na.omit(Hitters)

W raporcie tym przeprowadzimy regresję grzbietową i lasso, aby przewidzieć Salary na danych Hitters.

Skonfigurujmy nasze dane:

x = model.matrix(Salary~., Hitters)[,-1] # przycinam pierwszą kolumnę
                                         # zostawiam predyktory
y = Hitters %>%
  select(Salary) %>%
  unlist() %>%
  as.numeric()

Funkcja model.matrix() jest szczególnie przydatna do tworzenia \(x\); nie tylko nie tylko tworzy macierz odpowiadającą 19 predyktorom, ale również automatycznie przekształca wszelkie zmienne jakościowe w zmienne dummy.

Ta ostatnia właściwość jest ważna, ponieważ glmnet() może przyjmować tylko numeryczne, ilościowe dane wejściowe.

Bias vs Variance

Wybór modelu w problemach uczenia nadzorowanego wiąże się z realizacją dwóch sprzecznych celów:

1.) Model powienien być dobrze dopasowany do danych uczących, aby uchwycić zależność pomiędzy danymi.

2.) Model powinien dobrze przybliżać nieznane dane (zapewniać mały błąd generalizacji).

Modele złożone dobdrze dopasowują się do danych wyjściowych, ale charakteryzują się dużą zmiennością wartości wyjściowych. Ryzykiem jest nadmierne dopasowanie = overfitting!

Modele prostsze są obciążone dużym błędem systematyczny (bias) i ich zastosowanie niesie ryzyko niewystarczającego dopasowania (underfitting)!

Składnikiem błędów generalizacji jest nieredukowalny błąd związany ze zmiennością danych.

Regularyzacja

Duża liczna zmiennych objaśniających (predyktorów): Metoda OLS nie daje jednoznacznego rozwiązania, gdy macierz XTX nie jest odwracalna (tzn. gdy zmienne objaśniające są liniowo zależne).

Taka sytuacja może mieć miejsce gdy zmiennych objaśniających jest tyle samo lub więcej niż obserwacji.

Duża wartość θi oznacza dużą wrażliwość funkcji regresji na drobne fluktuacje cechy!

Lepszym rozwiązaniem jest gorsze dopasowanie do danych uczących przy równoczesnym ograniczeniu parametrów świadczących o potencjalnie dużym błędzie generalizacji.

Regresja Grzbietowa

Wprowadzenie

Regresja grzbietowa (ang. Ridge regression) to technika regresji liniowej, która wprowadza regularyzację \(L_2\) do estymacji współczynników modelu. Regularyzacja \(L_2\) polega na dodaniu do funkcji celu kary proporcjonalnej do kwadratu wartości współczynników regresji.

Podstawową ideą regresji grzbietowej jest minimalizacja funkcji celu, która składa się z dwóch składników: błędu dopasowania (sumy kwadratów różnic pomiędzy rzeczywistymi wartościami odpowiedzi a przewidywanymi wartościami modelu) i kary regularyzacyjnej \(L_2\).

Wzór funkcji celu dla regresji grzbietowej można przedstawić jako: Minimize: RSS + \(\lambda \|\beta\|_2^2\), gdzie:

  • RSS to suma kwadratów różnic pomiędzy rzeczywistymi wartościami odpowiedzi a przewidywanymi wartościami modelu (błąd dopasowania),

  • \(\lambda\) (lambda) to parametr regularyzacji, który kontroluje siłę regularyzacji,

  • \(\|\beta\|_2^2\) to norma \(L_2\) współczynników regresji podniesiona do kwadratu.

Dodanie kary regularyzacyjnej \(L_2\) powoduje, że współczynniki regresji są skupione wokół zera, ale nie dokładnie równe zeru (chyba że \(\lambda\)=0).

Regresja grzbietowa zmniejsza wartości współczynników, ale nie powoduje, że stają się one równe zero. Im większa wartość \(\lambda\), tym bardziej są “sciskane” współczynniki regresji.

Regresja grzbietowa jest szczególnie przydatna, gdy mamy do czynienia z modelem, w którym występuje nadmierna wielowymiarowość lub wysokie korelacje między zmiennymi niezależnymi.

Poprzez zmniejszanie wartości współczynników, regresja grzbietowa może pomóc w redukcji wpływu mało istotnych cech, poprawić stabilność modelu i zmniejszyć ryzyko przeuczenia (overfitting).

Jednym ze sposobów kontroli złożoności modelu jest penalizacja jego wielkości. Na przykład, w problemie regresji liniowej:

\[ \min_{\beta \in \mathbb{R}^p} \sum_{i=1}^n (y_i - x_i^\top \beta)^2, \]

możemy kontrolować wielkość współczynników \(\beta\). Oczywiście wielkość \(\beta\) można zdefiniować na różne sposoby, np. norma-2: \(\|\beta\|_2\), norma-1: \(\|\beta\|_1\) czy norma-nieskończoność: \(\|\beta\|_{\infty}\). Regresja grzbietowa wiąże się z karą dwóch norm:

\[ \min_{\beta \in \mathbb{R}^p} \sum_{i=1}^n (y_i - x_i^\top \beta)^2 + \lambda \|\beta\|_2^2 \]

gdzie \(\lambda\) jest parametrem kontrolującym poziom regularyzacji. Zauważ, że \(X\) to macierz \(n\) na \(p\) wymiarów z wierszami: \(x_i^\top\), oraz \(Y\) to \(n\) na 1 wektor \(y_i\). Załóżmy, że \(X^\top X + \lambda I\) jest odwracalna, mamy dokładne rozwiązanie problemu regresji grzbietowej:

\[ \hat \beta_{ridge} = (X^\top X + \lambda I)^{-1}X^\top Y. \]

Przypomnijmy, że rozwiązaniem zwykłej regresji najmniejszych kwadratów jest (zakładając odwracalność macierzy \(X^\top X\)):

\[ \hat \beta_{ols} = (X^\top X)^{-1}X^\top Y. \]

Dwa fakty: kiedy \(\lambda \to 0\), \(\hat \beta_{ridge} \to \hat \beta_{ols}\); kiedy \(\lambda \to \infty\), \(\hat \beta_{ridge} \to 0\).

W szczególnych przypadkach \(X\) jest ortogonalna (tzn. kolumny \(X\) są ortogonalne), mamy:

\[ \hat \beta_{ridge} = \frac{\hat \beta_{ols}}{1 + \lambda}. \]

Widzimy więc, że estymator grzbietowy ma dodatkowo \(1/(1 + \lambda)\) tzw. “shrinkage factor”. W związku z tym na estymatorze grzbietowym występuje obciążliwość (bias).

Przykład

Funkcja glmnet() posiada argument alfa, który określa, jaki typ modelu jest dopasowywany.

Jeśli alfa = 0 to dopasowywany jest model regresji grzbietowej, a jeśli alfa = 1 to dopasowywany jest model lasso.

Najpierw dopasowujemy model regresji grzbietowej:

grid = 10^seq(10, -2, length = 100)
ridge_mod = glmnet(x, y, alpha = 0, lambda = grid)

Domyślnie funkcja glmnet() wykonuje regresję grzbietową dla automatycznie wybranego wybranego zakresu wartości \(\lambda\). Jednakże, tutaj wybraliśmy implementację funkcję w zakresie wartości od \(\lambda = 10^{10}\) do \(\lambda = 10^{-2}\), zasadniczo pokrywając pełen zakres scenariuszy od modelu zerowego zawierającego tylko przechwyt, do dopasowania najmniejszego kwadratu.

Jak widać, możemy również obliczyć dopasowanie modelu dla konkretnej wartości \(\lambda\), która nie jest jedną z oryginalnych wartości siatki.

Zauważ, że domyślnie funkcja glmnet() standaryzuje zmienne tak, by były w tej samej skali. Aby wyłączyć to domyślne ustawienie, użyj argumentu standardize = FALSE.

Z każdą wartością \(\lambda\) związany jest wektor współczynników regresji grzbietowej, przechowywany w macierzy, do której można uzyskać dostęp przez coef(). W tym przypadku jest to macierz \(20 \times 100\), z 20 wierszami (po jednym dla każdego predyktora, plus intercept) i 100 kolumnami (po jednej dla każdej wartości \(\lambda\)).

## [1]  20 100

Spodziewamy się, że oszacowania współczynników będą znacznie mniejsze, w sensie normy \(l_2\), gdy używana jest duża wartość \(\lambda\), w porównaniu z małą wartością \(\lambda\).

Oto współczynniki, gdy \(\lambda = 11498\), wraz z ich normą \(l_2\):

## [1] 11497.57
##   (Intercept)         AtBat          Hits         HmRun          Runs 
## 407.356050200   0.036957182   0.138180344   0.524629976   0.230701523 
##           RBI         Walks         Years        CAtBat         CHits 
##   0.239841459   0.289618741   1.107702929   0.003131815   0.011653637 
##        CHmRun         CRuns          CRBI        CWalks       LeagueN 
##   0.087545670   0.023379882   0.024138320   0.025015421   0.085028114 
##     DivisionW       PutOuts       Assists        Errors    NewLeagueN 
##  -6.215440973   0.016482577   0.002612988  -0.020502690   0.301433531
## [1] 6.360612

Dla kontrastu, oto współczynniki, gdy \(\lambda = 705\), wraz z ich \(l_2\) normą. Zwróć uwagę na znacznie większą normę \(l_2\) współczynników związanych z tą mniejszą wartością \(\lambda\).

ridge_mod$lambda[60] # Wyświetl 60-tą wartość lambdy
## [1] 705.4802
coef(ridge_mod)[,60] # Wyświetl współczynniki powiązane z 60-tą wartość lambdy
##  (Intercept)        AtBat         Hits        HmRun         Runs          RBI 
##  54.32519950   0.11211115   0.65622409   1.17980910   0.93769713   0.84718546 
##        Walks        Years       CAtBat        CHits       CHmRun        CRuns 
##   1.31987948   2.59640425   0.01083413   0.04674557   0.33777318   0.09355528 
##         CRBI       CWalks      LeagueN    DivisionW      PutOuts      Assists 
##   0.09780402   0.07189612  13.68370191 -54.65877750   0.11852289   0.01606037 
##       Errors   NewLeagueN 
##  -0.70358655   8.61181213
sqrt(sum(coef(ridge_mod)[-1,60]^2)) # Oblicz normę l2
## [1] 57.11001

Funkcję predict() możemy wykorzystać do wielu celów. Na przykład, możemy uzyskać współczynniki regresji grzbietowej dla nowej wartości \(\lambda\), powiedzmy 50:

##   (Intercept)         AtBat          Hits         HmRun          Runs 
##  4.876610e+01 -3.580999e-01  1.969359e+00 -1.278248e+00  1.145892e+00 
##           RBI         Walks         Years        CAtBat         CHits 
##  8.038292e-01  2.716186e+00 -6.218319e+00  5.447837e-03  1.064895e-01 
##        CHmRun         CRuns          CRBI        CWalks       LeagueN 
##  6.244860e-01  2.214985e-01  2.186914e-01 -1.500245e-01  4.592589e+01 
##     DivisionW       PutOuts       Assists        Errors    NewLeagueN 
## -1.182011e+02  2.502322e-01  1.215665e-01 -3.278600e+00 -9.496680e+00

Podzielimy teraz próbki na zbiór treningowy i testowy w celu oszacować błąd testu regresji grzbietowej i lasso.

Następnie dopasowujemy model regresji grzbietowej na zbiorze treningowym i oceniamy jego MSE na zbiorze testowym, używając \(\lambda = 4\). Zwróć uwagę na użycie funkcji predict(). Ponownie: tym razem otrzymujemy przewidywania dla zbioru testowego, zastępując type="coefficients" argumentem newx.

## [1] 139858.6

Testowe MSE wynosi 139858. Zauważ, że gdybyśmy zamiast tego dopasowali po prostu model tylko z wyrazem wolnym, przewidywalibyśmy każdą obserwację testową używając średniej z obserwacji zbioru treningowego. W takim przypadku moglibyśmy obliczyć MSE zestawu testowego w ten sposób:

## [1] 224692.1

Moglibyśmy również uzyskać ten sam wynik, dopasowując model regresji grzbietowej z bardzo dużą wartością \(\lambda\). Zauważ, że 1e10 oznacza \(10^{10}\).

## [1] 224692.1

Tak więc dopasowanie modelu regresji grzbietowej z \(\lambda = 4\) prowadzi do znacznie niższego testu MSE niż dopasowanie modelu z samym przechwytem.

Sprawdzimy teraz, czy jest jakaś korzyść z wykonania regresji grzbietowej z \(\lambda = 4\) zamiast po prostu wykonać regresję najmniejszych kwadratów.

Przypomnijmy, że najmniejsza kwadratura to po prostu regresja grzbietowa z \(\lambda = 0\).

* Uwaga: Aby glmnet() dawał dokładne (exact) współczynniki najmniejszego kwadratu, gdy \(\lambda = 0\), używamy argumentu exact=T przy wywołaniu funkcji predict(). W przeciwnym razie, funkcja predict() będzie interpolować nad siatką wartości \(\lambda\) użytą w dopasowaniu modelu glmnet(), dając przybliżone wyniki. Nawet gdy użyjemy exact = T, pozostaje niewielka rozbieżność na trzecim miejscu po przecinku między wynikami glmnet(), gdy \(\lambda = 0\) i wyjściem z lm(); jest to spowodowane numerycznym przybliżeniem ze strony glmnet().

## [1] 174060
## 
## Call:
## lm(formula = Salary ~ ., data = train)
## 
## Coefficients:
## (Intercept)        AtBat         Hits        HmRun         Runs          RBI  
##   2.398e+02   -1.639e-03   -2.179e+00    6.337e+00    7.139e-01    8.735e-01  
##       Walks        Years       CAtBat        CHits       CHmRun        CRuns  
##   3.594e+00   -1.309e+01   -7.136e-01    3.316e+00    3.407e+00   -5.671e-01  
##        CRBI       CWalks      LeagueN    DivisionW      PutOuts      Assists  
##  -7.525e-01    2.347e-01    1.322e+02   -1.346e+02    2.099e-01    6.229e-01  
##      Errors   NewLeagueN  
##  -4.616e+00   -8.330e+01
##   (Intercept)         AtBat          Hits         HmRun          Runs 
##  239.89368111   -0.01946204   -2.07305757    6.44254692    0.64610179 
##           RBI         Walks         Years        CAtBat         CHits 
##    0.82179888    3.62448842  -13.28142313   -0.70314292    3.26064805 
##        CHmRun         CRuns          CRBI        CWalks       LeagueN 
##    3.33170237   -0.54000590   -0.72015101    0.22582579  131.41324242 
##     DivisionW       PutOuts       Assists        Errors    NewLeagueN 
## -134.76073238    0.20949301    0.61942855   -4.58545824  -82.35090554

Wygląda na to, że rzeczywiście poprawiamy się w stosunku do zwykłego najmniejszego kwadratu!

Uwaga: ogólnie, jeśli chcemy dopasować (niespenalizowany) model najmniejszych kwadratów, to powinniśmy użyć funkcji lm(), ponieważ ta funkcja dostarcza bardziej użytecznych wyjścia, takie jak błędy standardowe i wartości \(p\) dla współczynników.

Zamiast arbitralnie wybierać \(\lambda = 4\), lepiej byłoby użyć walidacji krzyżowej do wyboru parametru dostrojenia \(\lambda\). Możemy to zrobić używając wbudowanej funkcji walidacji krzyżowej, cv.glmnet(). Domyślnie funkcja ta wykonuje 10-krotną walidację krzyżową, choć można to zmienić używając argumentu argumentu folds. Zauważ, że najpierw ustawiamy losowe ziarno, aby nasze wyniki były powtarzalne, ponieważ wybór krotności walidacji krzyżowej jest losowy.

## [1] 326.1406

Widzimy zatem, że wartość \(\lambda\), która powoduje najmniejszy błąd walidacji krzyżowej to 326. Możemy również wykreślić MSE jako funkcję \(\lambda\):

Jaki jest testowy MSE związany z tą wartością \(\lambda\)?

ridge_pred = predict(ridge_mod, s = bestlam, newx = x_test) # Użyj najlepszej lambdy do przewidywania danych testowych
mean((ridge_pred - y_test)^2) # Oblicz testowe MSE
## [1] 140056.2

Stanowi to dalszą poprawę w stosunku do testowego MSE, które uzyskaliśmy używając \(\lambda = 4\). Ostatecznie, ponownie wyznaczamy nasz model regresji grzbietowej na pełnym zestawie danych, używając wartości \(\lambda\) wybranej w walidacji krzyżowej, i sprawdzamy oszacowania współczynników.

##  (Intercept)        AtBat         Hits        HmRun         Runs          RBI 
##  15.44834992   0.07716945   0.85906253   0.60120338   1.06366687   0.87936073 
##        Walks        Years       CAtBat        CHits       CHmRun        CRuns 
##   1.62437580   1.35296285   0.01134998   0.05746377   0.40678422   0.11455696 
##         CRBI       CWalks      LeagueN    DivisionW      PutOuts      Assists 
##   0.12115916   0.05299953  22.08942756 -79.03490992   0.16618830   0.02941513 
##       Errors   NewLeagueN 
##  -1.36075645   9.12528397

Zgodnie z oczekiwaniami, żaden ze współczynników nie jest dokładnie zerowy - regresja grzbietowa nie dokonuje selekcji zmiennych!

Regresja Lasso

Wprowadzenie

Zamiast regularyzacji \(L_2\), LASSO używa penalizacji \(L_1\), to znaczy:

\[ \min_{\beta \in \mathbb{R}^p} \sum_{i=1}^n (y_i - x_i^\top \beta)^2 + \lambda \|\beta\|_1. \]

Ze względu na charakter normy \(L_1\), LASSO ma tendencję do dawania bardziej rzadkich rozwiązań niż regresja grzbietowa. Jest to typowo użyteczne w ustawieniach wielowymiarowych, gdy prawdziwy model jest w rzeczywistości niskowymiarowym osadzeniem.

Model regresji lasso został pierwotnie opracowany w 1989 roku. Jest to alternatywa dla klasycznego oszacowania metodą najmniejszych kwadratów, która unika wielu problemów z nadmiernym dopasowaniem (overfittingiem), gdy mamy dużą liczbę niezależnych zmiennych.

Regresja Lasso (Least Absolute Shrinkage and Selection Operator) to technika regresji liniowej stosowana do oszacowania współczynników modelu, która wprowadza regularyzację \(L_1\). Regularyzacja L1 polega na dodaniu do funkcji celu kary proporcjonalnej do wartości bezwzględnej współczynników regresji.

Regresja Lasso ma zdolność do jednoczesnego wykonania selekcji cech i regularyzacji, co oznacza, że może pomóc w identyfikacji najbardziej istotnych cech modelu, a także zmniejszyć wpływ mniej istotnych cech.

Podstawowym celem regresji Lasso jest minimalizacja funkcji celu, która składa się z dwóch składników: błędu dopasowania (sumy kwadratów różnic pomiędzy rzeczywistymi wartościami odpowiedzi a przewidywanymi wartościami modelu) i kary regularyzacyjnej \(L_1\).

Wzór funkcji celu dla regresji Lasso może być przedstawiony jako: Minimize: RSS + \(\lambda \|\beta\|_1\), gdzie:

  • RSS to suma kwadratów różnic pomiędzy rzeczywistymi wartościami odpowiedzi a przewidywanymi wartościami modelu (błąd dopasowania),

  • \(\lambda\) (lambda) to parametr regularyzacji, który kontroluje siłę regularyzacji, a \(\|\beta\|_1\) to norma \(L_1\) współczynników regresji.

Dodanie kary regularyzacyjnej \(L_1\) powoduje, że niektóre współczynniki regresji stają się równe zero, co prowadzi do selekcji cech. Im większa wartość \(\lambda\), tym większa jest tendencja do redukcji współczynników do zera, prowadząc do bardziej rzadkiego modelu z mniejszą liczbą cech.

Regresja Lasso jest przydatna w przypadkach, gdy mamy do czynienia z wieloma cechami, z których niektóre mogą być nieistotne. Może pomóc w identyfikacji istotnych cech, redukcji nadmiaru danych i zwiększeniu interpretowalności modelu.

Przykład

Zobaczyliśmy, że regresja grzbietowa z mądrym wyborem \(\lambda\) może przewyższać metodę najmniejszych kwadratów, jak również model zerowy na zbiorze danych Hitters.

Teraz zobaczmy, czy lasso może dać albo dokładniejszy, albo bardziej interpretowalny model niż regresja grzbietowa.

W celu dopasowania modelu lasso, po raz kolejny używamy funkcji glmnet(), jednak tym razem używamy argumentu alpha=1. Poza tą zmianą postępujemy tak samo jak w przypadku dopasowywania modelu regresji grzbietowej:

Zauważmy, że na wykresie współczynników, w zależności od wyboru dostrojenia parametru, niektóre ze współczynników są dokładnie równe zeru. Teraz przeprowadzimy walidację krzyżową i obliczymy związany z nią błąd testu:

## [1] 143273

Jest to znacznie niższe MSE zbioru testowego niż modelu zerowego i modelu najmniejszych kwadratów, i bardzo podobny do MSE testu regresji grzbietowej z \(\lambda\) wybranej przez walidację krzyżową.

Jednakże lasso ma istotną przewagę nad regresją grzbietową w tym, że wynikowe oszacowania współczynników są rzadkie. Tutaj widzimy, że 12 z 19 oszacowań współczynników jest dokładnie zerowych:

Wybierając tylko predyktory o niezerowych współczynnikach widzimy, że model lasso z \(\lambda\) wybranym przez walidację krzyżową zawiera tylko siedem zmiennych:

Twoja kolej!

Który zbiór danych wybrałeś?

“auto.csv” z An Introduction to Statistical Learning

Jaka była Twoja zmienna zależna (tzn. co próbowałeś modelować)?

“mpg” - miles per galon of fuel (continuous variable)

Specyfikacja modeli

Zmienną zależną wybrano mpg (miles per gallon). Zmiennymi niezależnymi były: cylinders, displacement, horsepower, weight oraz acceleration. Modele regresji grzbietowej (Ridge) i LASSO zostały skonstruowane, aby zredukować potencjalne problemy z multikolinearnością i zbadać wpływ regularizacji na dopasowanie modelu.

Czy oczekiwałeś, że regresja grzbietowa będzie lepsza od lasso, czy odwrotnie? Jak wypada w stosunku do OLS? Pokaż odpowiednie raporty, miary dopasowania i krótko je omów (porównaj).

Na podstawie wyników regresji:

• OLS MSE wynosi 17.23, co jest zbliżone do wyników Ridge (MSE = 17.15) i LASSO (MSE = 17.04).

• Wyniki sugerują, że OLS jest porównywalny pod względem błędu do Ridge i LASSO, jednak regularizacja (Ridge i LASSO) ma potencjał do lepszej generalizacji w przypadku większej zmienności danych.

• Oczekiwałem, że LASSO będzie nieco lepsze od Ridge w uproszczeniu modelu i eliminacji mniej istotnych zmiennych, co potwierdzają wyniki.

Które predyktory okazały się ważne w ostatecznym modelu (modelach)?

1. OLS:

• weight (p-value < 0.001) i horsepower (p-value < 0.05) to najważniejsze predyktory. Współczynniki są ujemne, co oznacza, że większa waga i moc silnika zmniejszają wydajność paliwa (mpg). • Pozostałe zmienne (cylinders, displacement, acceleration) okazały się statystycznie nieistotne.

2. LASSO:

• weight i horsepower również okazały się kluczowe. LASSO wyeliminowało mniej istotne zmienne (cylinders, displacement, acceleration), przypisując im współczynniki równe zero.

3. Ridge:

• Uwzględnił wszystkie zmienne, ale największe znaczenie przypisano weight i horsepower.

##   mpg cylinders displacement horsepower weight acceleration year origin
## 1  18         8          307        130   3504         12.0   70      1
## 2  15         8          350        165   3693         11.5   70      1
## 3  18         8          318        150   3436         11.0   70      1
## 4  16         8          304        150   3433         12.0   70      1
## 5  17         8          302        140   3449         10.5   70      1
## 6  15         8          429        198   4341         10.0   70      1
##                        name
## 1 chevrolet chevelle malibu
## 2         buick skylark 320
## 3        plymouth satellite
## 4             amc rebel sst
## 5               ford torino
## 6          ford galaxie 500
##   mpg_Min cylinders_Min displacement_Min horsepower_Min weight_Min
## 1       9             3               68             46       1613
##   acceleration_Min year_Min origin_Min mpg_Q1 cylinders_Q1 displacement_Q1
## 1                8       70          1     17            4             105
##   horsepower_Q1 weight_Q1 acceleration_Q1 year_Q1 origin_Q1 mpg_Median
## 1            75   2225.25          13.775      73         1      22.75
##   cylinders_Median displacement_Median horsepower_Median weight_Median
## 1                4                 151              93.5        2803.5
##   acceleration_Median year_Median origin_Median mpg_Mean cylinders_Mean
## 1                15.5          76             1 23.44592       5.471939
##   displacement_Mean horsepower_Mean weight_Mean acceleration_Mean year_Mean
## 1           194.412        104.4694    2977.584          15.54133  75.97959
##   origin_Mean mpg_Q3 cylinders_Q3 displacement_Q3 horsepower_Q3 weight_Q3
## 1    1.576531     29            8          275.75           126   3614.75
##   acceleration_Q3 year_Q3 origin_Q3 mpg_Max cylinders_Max displacement_Max
## 1          17.025      79         2    46.6             8              455
##   horsepower_Max weight_Max acceleration_Max year_Max origin_Max   mpg_SD
## 1            230       5140             24.8       82          3 7.805007
##   cylinders_SD displacement_SD horsepower_SD weight_SD acceleration_SD  year_SD
## 1     1.705783         104.644      38.49116  849.4026        2.758864 3.683737
##   origin_SD
## 1 0.8055182
## Ridge Regression:
## Best Lambda: 0.6628973
## Mean Squared Error: 17.14577
## LASSO Regression:
## Best Lambda: 0.07621708
## Mean Squared Error: 17.03969
## 
## Call:
## lm(formula = mpg ~ cylinders + displacement + horsepower + weight + 
##     acceleration, data = train_data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -11.7969  -2.8373  -0.5557   2.3910  16.1053 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  46.1705125  2.9764623  15.512  < 2e-16 ***
## cylinders    -0.6109538  0.4511213  -1.354   0.1766    
## displacement  0.0036826  0.0099461   0.370   0.7114    
## horsepower   -0.0411272  0.0187688  -2.191   0.0292 *  
## weight       -0.0054348  0.0009086  -5.981 6.15e-09 ***
## acceleration  0.0330668  0.1397960   0.237   0.8132    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.279 on 307 degrees of freedom
## Multiple R-squared:  0.7144, Adjusted R-squared:  0.7097 
## F-statistic: 153.6 on 5 and 307 DF,  p-value: < 2.2e-16
## OLS Mean Squared Error: 17.23451

Wykresy poprawności dopasowania danych dla regresji OLS

---
title: 'Nieklasyczne metody statystyki'
subtitle: 'Regularyzacja'
date: "`r Sys.Date()`"
author: "Marcin Wilk"
output:
  html_document: 
    theme: cerulean
    highlight: textmate
    fontsize: 10pt
    toc: yes
    code_download: yes
    toc_float:
      collapsed: no
    df_print: default
    toc_depth: 5
editor_options: 
  markdown: 
    wrap: 72
---

```{r, message=FALSE, warning=FALSE, echo=FALSE}
library(ISLR)
library(glmnet)
library(dplyr)
library(tidyr)
```

To laboratorium na temat Regresji grzbietowej (Ridge Regression - RR) i
Lasso w R pochodzi ze stron 251-255 książki "Introduction to Statistical
Learning with Applications in R" autorstwa Garetha Jamesa, Danieli
Witten, Trevora Hastie i Roberta Tibshirani. Zostało ono ponownie
zaimplementowane jesienią 2016 roku w formacie `tidyverse` przez Amelię
McNamarę i R. Jordana Crousera w Smith College.

W tym tygodniu omówimy dwie alternatywne formy regresji liniowej zwane
**regresją grzbietową** i **regresją LASSO**. Te dwie metody są
przykładami metod **regularyzacji** lub **zmniejszania**, w których
zachęca się do tego, aby parametry modelu były małe.

# Regresja Grzbietowa i Lasso

Wykorzystamy pakiet `glmnet` w celu przeprowadzenia regresji ridge i
lasso. Główną funkcją w tym pakiecie jest `glmnet()`, która może być
użyta do dopasowania modeli regresji grzbietowej, modeli lasso i innych.

Funkcja ta ma nieco inną składnię niż inne funkcje dopasowujące modele,
z którymi zetknęliśmy się do tej pory. W szczególności, musimy przekazać
macierz $x$ jak również wektor $y$ i nie używamy składni $y \sim x$.

Zanim przejdziemy dalej, upewnijmy się najpierw, że brakujące wartości
zostały zostały usunięte z danych, jak opisano w poprzednim
laboratorium.

```{r}
Hitters = na.omit(Hitters)
```

W raporcie tym przeprowadzimy regresję grzbietową i lasso, aby
przewidzieć `Salary` na danych `Hitters`.

Skonfigurujmy nasze dane:

```{r}
x = model.matrix(Salary~., Hitters)[,-1] # przycinam pierwszą kolumnę
                                         # zostawiam predyktory
y = Hitters %>%
  select(Salary) %>%
  unlist() %>%
  as.numeric()
```

Funkcja `model.matrix()` jest szczególnie przydatna do tworzenia $x$;
nie tylko nie tylko tworzy macierz odpowiadającą 19 predyktorom, ale
również automatycznie przekształca wszelkie zmienne jakościowe w zmienne
dummy.

Ta ostatnia właściwość jest ważna, ponieważ `glmnet()` może przyjmować
tylko numeryczne, ilościowe dane wejściowe.

## Bias vs Variance

Wybór modelu w problemach uczenia nadzorowanego wiąże się z realizacją
dwóch sprzecznych celów:

1.) Model powienien być dobrze dopasowany do danych uczących, aby
uchwycić zależność pomiędzy danymi.

2.) Model powinien dobrze przybliżać nieznane dane (zapewniać mały błąd
generalizacji).

Modele złożone dobdrze dopasowują się do danych wyjściowych, ale
charakteryzują się dużą zmiennością wartości wyjściowych. Ryzykiem jest
nadmierne dopasowanie = overfitting!

Modele prostsze są obciążone dużym błędem systematyczny (bias) i ich
zastosowanie niesie ryzyko niewystarczającego dopasowania
(underfitting)!

Składnikiem błędów generalizacji jest nieredukowalny błąd związany ze
zmiennością danych.

## Regularyzacja

Duża liczna zmiennych objaśniających (predyktorów): Metoda OLS nie daje
jednoznacznego rozwiązania, gdy macierz XTX nie jest odwracalna (tzn.
gdy zmienne objaśniające są liniowo zależne).

Taka sytuacja może mieć miejsce gdy zmiennych objaśniających jest tyle
samo lub więcej niż obserwacji.

Duża wartość θi oznacza dużą wrażliwość funkcji regresji na drobne
fluktuacje cechy!

Lepszym rozwiązaniem jest gorsze dopasowanie do danych uczących przy
równoczesnym ograniczeniu parametrów świadczących o potencjalnie dużym
błędzie generalizacji.

## Regresja Grzbietowa

### Wprowadzenie

Regresja grzbietowa (ang. Ridge regression) to technika regresji
liniowej, która wprowadza regularyzację $L_2$ do estymacji
współczynników modelu. Regularyzacja $L_2$ polega na dodaniu do funkcji
celu kary proporcjonalnej do kwadratu wartości współczynników regresji.

Podstawową ideą regresji grzbietowej jest minimalizacja funkcji celu,
która składa się z dwóch składników: błędu dopasowania (sumy kwadratów
różnic pomiędzy rzeczywistymi wartościami odpowiedzi a przewidywanymi
wartościami modelu) i kary regularyzacyjnej $L_2$.

Wzór funkcji celu dla regresji grzbietowej można przedstawić jako:
Minimize: RSS + $\lambda \|\beta\|_2^2$, gdzie:

-   RSS to suma kwadratów różnic pomiędzy rzeczywistymi wartościami
    odpowiedzi a przewidywanymi wartościami modelu (błąd dopasowania),

-   $\lambda$ (lambda) to parametr regularyzacji, który kontroluje siłę
    regularyzacji,

-   $\|\beta\|_2^2$ to norma $L_2$ współczynników regresji podniesiona
    do kwadratu.

Dodanie kary regularyzacyjnej $L_2$ powoduje, że współczynniki regresji
są skupione wokół zera, ale nie dokładnie równe zeru (chyba że
$\lambda$=0).

Regresja grzbietowa zmniejsza wartości współczynników, ale nie powoduje,
że stają się one równe zero. Im większa wartość $\lambda$, tym bardziej
są "sciskane" współczynniki regresji.

Regresja grzbietowa jest szczególnie przydatna, gdy mamy do czynienia z
modelem, w którym występuje nadmierna wielowymiarowość lub wysokie
korelacje między zmiennymi niezależnymi.

Poprzez zmniejszanie wartości współczynników, regresja grzbietowa może
pomóc w redukcji wpływu mało istotnych cech, poprawić stabilność modelu
i zmniejszyć ryzyko przeuczenia (**overfitting**).

Jednym ze sposobów kontroli złożoności modelu jest penalizacja jego
wielkości. Na przykład, w problemie regresji liniowej:

$$
\min_{\beta \in \mathbb{R}^p} \sum_{i=1}^n (y_i - x_i^\top \beta)^2,
$$

możemy kontrolować wielkość współczynników $\beta$. Oczywiście wielkość
$\beta$ można zdefiniować na różne sposoby, np. norma-2: $\|\beta\|_2$,
norma-1: $\|\beta\|_1$ czy norma-nieskończoność: $\|\beta\|_{\infty}$.
Regresja grzbietowa wiąże się z karą dwóch norm:

$$
\min_{\beta \in \mathbb{R}^p} \sum_{i=1}^n (y_i - x_i^\top \beta)^2 + \lambda \|\beta\|_2^2
$$

gdzie $\lambda$ jest parametrem kontrolującym poziom regularyzacji.
Zauważ, że $X$ to macierz $n$ na $p$ wymiarów z wierszami: $x_i^\top$,
oraz $Y$ to $n$ na 1 wektor $y_i$. Załóżmy, że $X^\top X + \lambda I$
jest odwracalna, mamy dokładne rozwiązanie problemu regresji
grzbietowej:

$$
\hat \beta_{ridge} = (X^\top X + \lambda I)^{-1}X^\top Y.
$$

Przypomnijmy, że rozwiązaniem zwykłej regresji najmniejszych kwadratów
jest (zakładając odwracalność macierzy $X^\top X$):

$$
\hat \beta_{ols} = (X^\top X)^{-1}X^\top Y.
$$

Dwa fakty: kiedy $\lambda \to 0$,
$\hat \beta_{ridge} \to \hat \beta_{ols}$; kiedy $\lambda \to \infty$,
$\hat \beta_{ridge} \to 0$.

W szczególnych przypadkach $X$ jest ortogonalna (tzn. kolumny $X$ są
ortogonalne), mamy:

$$
\hat \beta_{ridge} = \frac{\hat \beta_{ols}}{1 + \lambda}.
$$

Widzimy więc, że estymator grzbietowy ma dodatkowo $1/(1 + \lambda)$
tzw. "shrinkage factor". W związku z tym na estymatorze grzbietowym
występuje obciążliwość (bias).

### Przykład

Funkcja `glmnet()` posiada argument alfa, który określa, jaki typ modelu
jest dopasowywany.

Jeśli `alfa = 0` to dopasowywany jest model regresji grzbietowej, a
jeśli `alfa = 1` to dopasowywany jest model lasso.

Najpierw dopasowujemy model regresji grzbietowej:

```{r}
grid = 10^seq(10, -2, length = 100)
ridge_mod = glmnet(x, y, alpha = 0, lambda = grid)
```

Domyślnie funkcja `glmnet()` wykonuje regresję grzbietową dla
automatycznie wybranego wybranego zakresu wartości $\lambda$. Jednakże,
tutaj wybraliśmy implementację funkcję w zakresie wartości od
$\lambda = 10^{10}$ do $\lambda = 10^{-2}$, zasadniczo pokrywając pełen
zakres scenariuszy od modelu zerowego zawierającego tylko przechwyt, do
dopasowania najmniejszego kwadratu.

Jak widać, możemy również obliczyć dopasowanie modelu dla konkretnej
wartości $\lambda$, która nie jest jedną z oryginalnych wartości siatki.

Zauważ, że domyślnie funkcja `glmnet()` standaryzuje zmienne tak, by
były w tej samej skali. Aby wyłączyć to domyślne ustawienie, użyj
argumentu `standardize = FALSE`.

Z każdą wartością $\lambda$ związany jest wektor współczynników regresji
grzbietowej, przechowywany w macierzy, do której można uzyskać dostęp
przez `coef()`. W tym przypadku jest to macierz $20 \times 100$, z 20
wierszami (po jednym dla każdego predyktora, plus intercept) i 100
kolumnami (po jednej dla każdej wartości $\lambda$).

```{r echo=FALSE}
dim(coef(ridge_mod))
plot(ridge_mod)    # wykres współczynników
```

Spodziewamy się, że oszacowania współczynników będą znacznie mniejsze, w
sensie normy $l_2$, gdy używana jest duża wartość $\lambda$, w
porównaniu z małą wartością $\lambda$.

Oto współczynniki, gdy $\lambda = 11498$, wraz z ich normą $l_2$:

```{r echo=FALSE}
ridge_mod$lambda[50] # Wyświetl 50-tą wartość lambdy
coef(ridge_mod)[,50] # Wyświetl współczynniki związane z 50-tą wartością lambdy
sqrt(sum(coef(ridge_mod)[-1,50]^2)) # Oblicz normę l2
```

Dla kontrastu, oto współczynniki, gdy $\lambda = 705$, wraz z ich $l_2$
normą. Zwróć uwagę na znacznie większą normę $l_2$ współczynników
związanych z tą mniejszą wartością $\lambda$.

```{r}
ridge_mod$lambda[60] # Wyświetl 60-tą wartość lambdy
coef(ridge_mod)[,60] # Wyświetl współczynniki powiązane z 60-tą wartość lambdy
sqrt(sum(coef(ridge_mod)[-1,60]^2)) # Oblicz normę l2
```

Funkcję `predict()` możemy wykorzystać do wielu celów. Na przykład,
możemy uzyskać współczynniki regresji grzbietowej dla nowej wartości
$\lambda$, powiedzmy 50:

```{r echo=FALSE}
predict(ridge_mod, s = 50, type = "coefficients")[1:20,]
```

Podzielimy teraz próbki na zbiór treningowy i testowy w celu oszacować
błąd testu regresji grzbietowej i lasso.

```{r echo=FALSE}
set.seed(1)

train = Hitters %>%
  sample_frac(0.5) #zwiększyc do 0.7/0.8

test = Hitters %>%
  setdiff(train)

x_train = model.matrix(Salary~., train)[,-1]
x_test = model.matrix(Salary~., test)[,-1]

y_train = train %>%
  select(Salary) %>%
  unlist() %>%
  as.numeric()

y_test = test %>%
  select(Salary) %>%
  unlist() %>%
  as.numeric()
```

Następnie dopasowujemy model regresji grzbietowej na zbiorze treningowym
i oceniamy jego MSE na zbiorze testowym, używając $\lambda = 4$. Zwróć
uwagę na użycie funkcji `predict()`. Ponownie: tym razem otrzymujemy
przewidywania dla zbioru testowego, zastępując `type="coefficients"`
argumentem `newx`.

```{r echo=FALSE}
ridge_mod = glmnet(x_train, y_train, alpha=0, lambda = grid, thresh = 1e-12)
ridge_pred = predict(ridge_mod, s = 4, newx = x_test)
mean((ridge_pred - y_test)^2)
```

Testowe MSE wynosi 139858. Zauważ, że gdybyśmy zamiast tego dopasowali
po prostu model tylko z wyrazem wolnym, przewidywalibyśmy każdą
obserwację testową używając średniej z obserwacji zbioru treningowego. W
takim przypadku moglibyśmy obliczyć MSE zestawu testowego w ten sposób:

```{r echo=FALSE}
mean((mean(y_train) - y_test)^2)
```

Moglibyśmy również uzyskać ten sam wynik, dopasowując model regresji
grzbietowej z bardzo dużą wartością $\lambda$. Zauważ, że `1e10` oznacza
$10^{10}$.

```{r echo=FALSE}
ridge_pred = predict(ridge_mod, s = 1e10, newx = x_test)
mean((ridge_pred - y_test)^2)
```

Tak więc dopasowanie modelu regresji grzbietowej z $\lambda = 4$
prowadzi do znacznie niższego testu MSE niż dopasowanie modelu z samym
przechwytem.

Sprawdzimy teraz, czy jest jakaś korzyść z wykonania regresji
grzbietowej z $\lambda = 4$ zamiast po prostu wykonać regresję
najmniejszych kwadratów.

Przypomnijmy, że najmniejsza kwadratura to po prostu regresja grzbietowa
z $\lambda = 0$.

\* Uwaga: Aby `glmnet()` dawał **dokładne (exact)** współczynniki
najmniejszego kwadratu, gdy $\lambda = 0$, używamy argumentu `exact=T`
przy wywołaniu funkcji `predict()`. W przeciwnym razie, funkcja
`predict()` będzie interpolować nad siatką wartości $\lambda$ użytą w
dopasowaniu modelu `glmnet()`, dając przybliżone wyniki. Nawet gdy
użyjemy `exact = T`, pozostaje niewielka rozbieżność na trzecim miejscu
po przecinku między wynikami `glmnet()`, gdy $\lambda = 0$ i wyjściem z
`lm()`; jest to spowodowane numerycznym przybliżeniem ze strony
`glmnet()`.

```{r echo=FALSE}
ridge_pred = predict(ridge_mod, s = 0, newx = x_test)
mean((ridge_pred - y_test)^2)

lm(Salary~., data = train)
predict(ridge_mod, s = 0, type="coefficients")[1:20,]
```

Wygląda na to, że rzeczywiście poprawiamy się w stosunku do zwykłego
najmniejszego kwadratu!

Uwaga: ogólnie, jeśli chcemy dopasować (niespenalizowany) model
najmniejszych kwadratów, to powinniśmy użyć funkcji `lm()`, ponieważ ta
funkcja dostarcza bardziej użytecznych wyjścia, takie jak błędy
standardowe i wartości $p$ dla współczynników.

Zamiast arbitralnie wybierać $\lambda = 4$, lepiej byłoby użyć walidacji
krzyżowej do wyboru parametru dostrojenia $\lambda$. Możemy to zrobić
używając wbudowanej funkcji walidacji krzyżowej, `cv.glmnet()`.
Domyślnie funkcja ta wykonuje 10-krotną walidację krzyżową, choć można
to zmienić używając argumentu argumentu `folds`. Zauważ, że najpierw
ustawiamy losowe ziarno, aby nasze wyniki były powtarzalne, ponieważ
wybór krotności walidacji krzyżowej jest losowy.

```{r echo=FALSE}
set.seed(1)
cv.out = cv.glmnet(x_train, y_train, alpha = 0) # Dopasuj model regresji grzbietowej na danych treningowych
bestlam = cv.out$lambda.min  # Wybierz lamdę, która minimalizuje treningowy MSE 
bestlam
```

Widzimy zatem, że wartość $\lambda$, która powoduje najmniejszy błąd
walidacji krzyżowej to 326. Możemy również wykreślić MSE jako funkcję
$\lambda$:

```{r echo=FALSE}
plot(cv.out) # Narysuj wykres treningowego MSE jako funkcję lambda
```

Jaki jest testowy MSE związany z tą wartością $\lambda$?

```{r}
ridge_pred = predict(ridge_mod, s = bestlam, newx = x_test) # Użyj najlepszej lambdy do przewidywania danych testowych
mean((ridge_pred - y_test)^2) # Oblicz testowe MSE
```

Stanowi to dalszą poprawę w stosunku do testowego MSE, które uzyskaliśmy
używając $\lambda = 4$. Ostatecznie, ponownie wyznaczamy nasz model
regresji grzbietowej na pełnym zestawie danych, używając wartości
$\lambda$ wybranej w walidacji krzyżowej, i sprawdzamy oszacowania
współczynników.

```{r echo=FALSE}
out = glmnet(x, y, alpha = 0) # Dopasuj model regresji grzbietowej do pełnego zbioru danych
predict(out, type = "coefficients", s = bestlam)[1:20,] # Wyświetlanie współczynników przy użyciu lambda wybranego przez CV
```

Zgodnie z oczekiwaniami, żaden ze współczynników nie jest dokładnie
zerowy - regresja grzbietowa nie dokonuje selekcji zmiennych!

## Regresja Lasso

### Wprowadzenie

Zamiast regularyzacji $L_2$, LASSO używa penalizacji $L_1$, to znaczy:

$$
\min_{\beta \in \mathbb{R}^p} \sum_{i=1}^n (y_i - x_i^\top \beta)^2 + \lambda \|\beta\|_1. 
$$

Ze względu na charakter normy $L_1$, LASSO ma tendencję do dawania
bardziej rzadkich rozwiązań niż regresja grzbietowa. Jest to typowo
użyteczne w ustawieniach wielowymiarowych, gdy prawdziwy model jest w
rzeczywistości niskowymiarowym osadzeniem.

Model regresji lasso został pierwotnie opracowany w 1989 roku. Jest to
alternatywa dla klasycznego oszacowania metodą najmniejszych kwadratów,
która unika wielu problemów z nadmiernym dopasowaniem
(**overfittingiem**), gdy mamy dużą liczbę niezależnych zmiennych.

Regresja Lasso (Least Absolute Shrinkage and Selection Operator) to
technika regresji liniowej stosowana do oszacowania współczynników
modelu, która wprowadza regularyzację $L_1$. Regularyzacja L1 polega na
dodaniu do funkcji celu kary proporcjonalnej do wartości bezwzględnej
współczynników regresji.

Regresja Lasso ma zdolność do jednoczesnego wykonania selekcji cech i
regularyzacji, co oznacza, że może pomóc w identyfikacji najbardziej
istotnych cech modelu, a także zmniejszyć wpływ mniej istotnych cech.

Podstawowym celem regresji Lasso jest minimalizacja funkcji celu, która
składa się z dwóch składników: błędu dopasowania (sumy kwadratów różnic
pomiędzy rzeczywistymi wartościami odpowiedzi a przewidywanymi
wartościami modelu) i kary regularyzacyjnej $L_1$.

Wzór funkcji celu dla regresji Lasso może być przedstawiony jako:
Minimize: RSS + $\lambda \|\beta\|_1$, gdzie:

-   RSS to suma kwadratów różnic pomiędzy rzeczywistymi wartościami
    odpowiedzi a przewidywanymi wartościami modelu (błąd dopasowania),

-   $\lambda$ (lambda) to parametr regularyzacji, który kontroluje siłę
    regularyzacji, a $\|\beta\|_1$ to norma $L_1$ współczynników
    regresji.

Dodanie kary regularyzacyjnej $L_1$ powoduje, że niektóre współczynniki
regresji stają się równe zero, co prowadzi do selekcji cech. Im większa
wartość $\lambda$, tym większa jest tendencja do redukcji współczynników
do zera, prowadząc do bardziej rzadkiego modelu z mniejszą liczbą cech.

Regresja Lasso jest przydatna w przypadkach, gdy mamy do czynienia z
wieloma cechami, z których niektóre mogą być nieistotne. Może pomóc w
identyfikacji istotnych cech, redukcji nadmiaru danych i zwiększeniu
interpretowalności modelu.

### Przykład

Zobaczyliśmy, że regresja grzbietowa z mądrym wyborem $\lambda$ może
przewyższać metodę najmniejszych kwadratów, jak również model zerowy na
zbiorze danych Hitters.

Teraz zobaczmy, czy lasso może dać albo dokładniejszy, albo bardziej
interpretowalny model niż regresja grzbietowa.

W celu dopasowania modelu lasso, po raz kolejny używamy funkcji
`glmnet()`, jednak tym razem używamy argumentu `alpha=1`. Poza tą zmianą
postępujemy tak samo jak w przypadku dopasowywania modelu regresji
grzbietowej:

```{r echo=FALSE, message=FALSE, warning=FALSE}
lasso_mod = glmnet(x_train, 
                   y_train, 
                   alpha = 1, 
                   lambda = grid) # Dopasuj model lasso do danych treningowych

plot(lasso_mod)    # Wykreśl współczynniki
```

Zauważmy, że na wykresie współczynników, w zależności od wyboru
dostrojenia parametru, niektóre ze współczynników są dokładnie równe
zeru. Teraz przeprowadzimy walidację krzyżową i obliczymy związany z nią
błąd testu:

```{r echo=FALSE}
set.seed(1)
cv.out = cv.glmnet(x_train, y_train, alpha = 1) # Dopasuj model lasso do danych treningowych
plot(cv.out) # Narysuj wykres MSE dla próby uczącej jako funkcję lambda
bestlam = cv.out$lambda.min # Wybierz lamdę, która minimalizuje MSE w próbie uczącej
lasso_pred = predict(lasso_mod, s = bestlam, newx = x_test) # Użyj najlepszej lambdy do przewidywania danych testowych
mean((lasso_pred - y_test)^2) # Oblicz MSE w próbie testowej
```

Jest to znacznie niższe MSE zbioru testowego niż modelu zerowego i
modelu najmniejszych kwadratów, i bardzo podobny do MSE testu regresji
grzbietowej z $\lambda$ wybranej przez walidację krzyżową.

Jednakże lasso ma istotną przewagę nad regresją grzbietową w tym, że
wynikowe oszacowania współczynników są rzadkie. Tutaj widzimy, że 12 z
19 oszacowań współczynników jest dokładnie zerowych:

```{r include=FALSE}
out = glmnet(x, y, alpha = 1, lambda = grid) # Dopasuj model lasso do pełnego zbioru danych
lasso_coef = predict(out, type = "coefficients", s = bestlam)[1:20,] # Wyświetlanie współczynników przy użyciu lambda wybranego przez CV
lasso_coef
```

Wybierając tylko predyktory o niezerowych współczynnikach widzimy, że
model lasso z $\lambda$ wybranym przez walidację krzyżową zawiera tylko
siedem zmiennych:

```{r include=FALSE}
lasso_coef[lasso_coef != 0] # Wyświetlanie tylko niezerowych współczynników
```

# Twoja kolej!

### Który zbiór danych wybrałeś?

"auto.csv" z *An Introduction to Statistical Learning*

### Jaka była Twoja zmienna zależna (tzn. co próbowałeś modelować)?

"mpg" - ***miles per galon of fuel** (continuous variable)*

#### Specyfikacja modeli

Zmienną zależną wybrano mpg (miles per gallon). Zmiennymi niezależnymi
były: cylinders, displacement, horsepower, weight oraz acceleration.
Modele regresji grzbietowej (Ridge) i LASSO zostały skonstruowane, aby
zredukować potencjalne problemy z multikolinearnością i zbadać wpływ
regularizacji na dopasowanie modelu.

### Czy oczekiwałeś, że regresja grzbietowa będzie lepsza od lasso, czy odwrotnie? Jak wypada w stosunku do OLS? Pokaż odpowiednie raporty, miary dopasowania i krótko je omów (porównaj).

Na podstawie wyników regresji:

• OLS MSE wynosi 17.23, co jest zbliżone do wyników Ridge (MSE = 17.15)
i LASSO (MSE = 17.04).

• Wyniki sugerują, że OLS jest porównywalny pod względem błędu do Ridge
i LASSO, jednak regularizacja (Ridge i LASSO) ma potencjał do lepszej
generalizacji w przypadku większej zmienności danych.

• Oczekiwałem, że LASSO będzie nieco lepsze od Ridge w uproszczeniu
modelu i eliminacji mniej istotnych zmiennych, co potwierdzają wyniki.

### Które predyktory okazały się ważne w ostatecznym modelu (modelach)?

1\. **OLS**:

• weight (p-value \< 0.001) i horsepower (p-value \< 0.05) to
najważniejsze predyktory. Współczynniki są ujemne, co oznacza, że
większa waga i moc silnika zmniejszają wydajność paliwa (mpg).
• Pozostałe zmienne (cylinders, displacement, acceleration) okazały się
statystycznie nieistotne.

2\. **LASSO**:

• weight i horsepower również okazały się kluczowe. LASSO wyeliminowało
mniej istotne zmienne (cylinders, displacement, acceleration),
przypisując im współczynniki równe zero.

3\. **Ridge**:

• Uwzględnił wszystkie zmienne, ale największe znaczenie przypisano
weight i horsepower.

```{r include=FALSE}
head(Auto)
```

```{r echo=FALSE}
# Wczytaj dane Auto
auto_data <- ISLR::Auto  # Zakładam, że masz dostęp do pakietu ISLR

# Wyświetl pierwsze kilka wierszy
head(auto_data)

# Oblicz statystyki opisowe dla danych liczbowych
summary_stats <- auto_data %>%
  select_if(is.numeric) %>%
  summarise_all(list(
    Min = min,
    Q1 = ~ quantile(., 0.25),
    Median = median,
    Mean = mean,
    Q3 = ~ quantile(., 0.75),
    Max = max,
    SD = sd
  ))

# Wyświetl statystyki
print(summary_stats)
```

```{r echo=FALSE}

# Wczytaj zbiór danych Auto
data(Auto)
auto_data <- na.omit(Auto)

# Wybierz zmienną zależną i 5 zmiennych niezależnych
y <- auto_data$mpg
X <- as.matrix(auto_data[, c("cylinders", "displacement", "horsepower", "weight", "acceleration")])

# Podziel dane na zbiór treningowy i testowy
set.seed(123)  # Ustal losowość dla powtarzalności
train_indices <- sample(1:nrow(X), size = 0.8 * nrow(X))
X_train <- X[train_indices, ]
y_train <- y[train_indices]
X_test <- X[-train_indices, ]
y_test <- y[-train_indices]

# Standardyzacja danych
X_train_scaled <- scale(X_train)
X_test_scaled <- scale(X_test, center = attr(X_train_scaled, "scaled:center"), scale = attr(X_train_scaled, "scaled:scale"))

# Regresja grzbietowa (ridge)
ridge_model <- glmnet(X_train_scaled, y_train, alpha = 0)  # alpha = 0 oznacza ridge
ridge_cv <- cv.glmnet(X_train_scaled, y_train, alpha = 0)
ridge_best_lambda <- ridge_cv$lambda.min

# Regresja LASSO
lasso_model <- glmnet(X_train_scaled, y_train, alpha = 1)  # alpha = 1 oznacza LASSO
lasso_cv <- cv.glmnet(X_train_scaled, y_train, alpha = 1)
lasso_best_lambda <- lasso_cv$lambda.min

# Predykcja na zbiorze testowym
ridge_pred <- predict(ridge_model, s = ridge_best_lambda, newx = X_test_scaled)
lasso_pred <- predict(lasso_model, s = lasso_best_lambda, newx = X_test_scaled)

# Ocena modeli
ridge_mse <- mean((y_test - ridge_pred)^2)
lasso_mse <- mean((y_test - lasso_pred)^2)

# Wyświetl wyniki
cat("Ridge Regression:\n")
cat("Best Lambda:", ridge_best_lambda, "\n")
cat("Mean Squared Error:", ridge_mse, "\n\n")

cat("LASSO Regression:\n")
cat("Best Lambda:", lasso_best_lambda, "\n")
cat("Mean Squared Error:", lasso_mse, "\n")
```

```{r echo=FALSE}
# Regresja OLS

# Podziel dane na zbiór treningowy i testowy
set.seed(123)  # Ustal losowość dla powtarzalności
train_indices <- sample(1:nrow(auto_data), size = 0.8 * nrow(auto_data))
train_data <- auto_data[train_indices, ]
test_data <- auto_data[-train_indices, ]


ols_model <- lm(mpg ~ cylinders + displacement + horsepower + weight + acceleration, data = train_data)

# Wyświetl podsumowanie modelu
summary(ols_model)

# Predykcja na danych testowych
ols_pred <- predict(ols_model, newdata = test_data)

# Obliczenie błędu średniokwadratowego (MSE) dla OLS
ols_mse <- mean((test_data$mpg - ols_pred)^2)
cat("OLS Mean Squared Error:", ols_mse, "\n")
```

```{r echo=FALSE}
# Wczytaj zbiór danych Auto
data(Auto)
auto_data <- na.omit(Auto)

# Wybierz zmienną zależną i 5 zmiennych niezależnych
y <- auto_data$mpg
X <- as.matrix(auto_data[, c("cylinders", "displacement", "horsepower", "weight", "acceleration")])

# Podziel dane na zbiór treningowy i testowy
set.seed(123)  # Ustal losowość dla powtarzalności
train_indices <- sample(1:nrow(X), size = 0.8 * nrow(X))
X_train <- X[train_indices, ]
y_train <- y[train_indices]
X_test <- X[-train_indices, ]
y_test <- y[-train_indices]

# Standardyzacja danych
X_train_scaled <- scale(X_train)
X_test_scaled <- scale(X_test, center = attr(X_train_scaled, "scaled:center"), scale = attr(X_train_scaled, "scaled:scale"))

# Regresja grzbietowa (Ridge)
ridge_model <- glmnet(X_train_scaled, y_train, alpha = 0)  # alpha = 0 oznacza Ridge
ridge_cv <- cv.glmnet(X_train_scaled, y_train, alpha = 0)
ridge_best_lambda <- ridge_cv$lambda.min

# Regresja LASSO
lasso_model <- glmnet(X_train_scaled, y_train, alpha = 1)  # alpha = 1 oznacza LASSO
lasso_cv <- cv.glmnet(X_train_scaled, y_train, alpha = 1)
lasso_best_lambda <- lasso_cv$lambda.min

# Poprawione wykresy

# Wykres dla regresji LASSO
plot(lasso_cv,
     main = "LASSO Regression: MSE vs Lambda",
     xlab = "log(Lambda)",
     ylab = "Mean Squared Error",
     cex.lab = 1.2,  # Powiększenie etykiet osi
     cex.axis = 1.1) # Powiększenie wartości osi

# Wykres dla regresji Ridge
plot(ridge_cv,
     main = "Ridge Regression: MSE vs Lambda",
     xlab = "log(Lambda)",
     ylab = "Mean Squared Error",
     cex.lab = 1.2,
     cex.axis = 1.1)
```

```{r echo=FALSE}
# Wykres diagnostyczny dla regresji OLS
par(mfrow = c(2, 2))  # Ustawienie siatki 2x2 na wykresy
plot(ols_model)
```

Wykresy poprawności dopasowania danych dla regresji OLS
