Zadanie raport 5.

Opis zadania

Przetestowanie metod (regresja grzbietowa i lasso) oraz metod oceny (zestaw walidacyjny, walidacja krzyżowa) na zbiorze danych Wage z ISLR.

Skonfigurujmy nasze dane:

Wczytujemy dane:

library(ISLR)

data("Wage")
place<-Wage

Tworzymy wektor zmiennej wynikowej.

x = model.matrix(wage~., place)[,-1]
                                        
y = Wage %>%
  select(wage) %>%
  unlist() %>%
  as.numeric()

Regresja grzbietowa

Model regresji grzbietowej dla pełnych danych wygląda następująco:

grid = 10^seq(10, -2, length = 100)
ridge_mod = glmnet(x, y, alpha = 0, lambda = grid)
plot(ridge_mod) # wykres współczynników

dim(coef(ridge_mod))
## [1]  26 100
#Wymiar macierzy predyktorów

Uzyskana macierz jest macierzą wymiaru 26 na 100.

Dzielenie próbek

Podzielimy teraz próbki na zbiór treningowy i testowy w celu oszacowania błędu testu regresji grzbietowej i lasso.

set.seed(1)

train = Wage %>%
  sample_frac(0.5)

test = Wage %>%
  setdiff(train)

x_train = model.matrix(wage~., train)[,-1]
x_test = model.matrix(wage~., test)[,-1]

y_train = train %>%
  select(wage) %>%
  unlist() %>%
  as.numeric()

y_test = test %>%
  select(wage) %>%
  unlist() %>%
  as.numeric()

Wybierz lamdę, która minimalizuje treningowy MSE

set.seed(1)
cv.out = cv.glmnet(x_train, y_train, alpha = 0) 
# Dopasuj model regresji grzbietowej na danych treningowych
bestlam = cv.out$lambda.min  # Wybierz lamdę, która minimalizuje treningowy MSE 
bestlam
## [1] 3.939486

Wykres na podstawie najlepszej lambdy dla MSE

plot(cv.out)

Oszacowanie MSE

Następnie dopasowujemy model regresji grzbietowej na zbiorze treningowym i oceniamy jego MSE na zbiorze testowym, używając \(\lambda = bestlam\) . Czyli oszacowanie dla regresji z lambdą optymalną wyznaczoną wcześniej.

ridge_pred = predict(ridge_mod, s = bestlam, newx = x_test)
mean((ridge_pred - y_test)^2)
## [1] 169.468

Oszacowania współczynników

Ponownie wyznaczamy nasz model regresji grzbietowej na pełnym zestawie danych i sprawdzamy oszacowania współczynników.

out = glmnet(x, y, alpha = 0) # Dopasuj model regresji grzbietowej do pełnego zbioru danych
predict(out, type = "coefficients", s = bestlam)[1:10,] # Wyświetlanie współczynników przy użyciu lambda wybranego przez CV
##        (Intercept)               year                age   maritl2. Married 
##      -3.529273e+02       3.706173e-04       1.909890e-02       8.771868e-01 
##   maritl3. Widowed  maritl4. Divorced maritl5. Separated       race2. Black 
##      -2.610242e+00      -6.036440e-01      -9.351872e-01      -1.106809e+00 
##       race3. Asian       race4. Other 
##      -4.492573e-01      -4.079098e-01

Regresja OLS

Model kmnk dla s=0 (lambda równa 0) i oszacowanie MSE.

ridge_pred = predict(ridge_mod, s = 0, newx = x_test)

mean((ridge_pred - y_test)^2) # Oblicz testowe MSE
## [1] 151.514
lm(wage ~ year + age + maritl + race, data = train)
## 
## Call:
## lm(formula = wage ~ year + age + maritl + race, data = train)
## 
## Coefficients:
##        (Intercept)                year                 age    maritl2. Married  
##         -3038.2309              1.5526              0.5551             17.7962  
##   maritl3. Widowed   maritl4. Divorced  maritl5. Separated        race2. Black  
##             5.6667              1.8302              2.6743             -6.1402  
##       race3. Asian        race4. Other  
##             3.8241            -20.1080

Procedura Lasso

lasso_mod = glmnet(x_train, 
                   y_train, 
                   alpha = 1, 
                   lambda = grid) # Dopasuj model lasso do danych treningowych

plot(lasso_mod)    # Wykreśl współczynniki

Teraz przeprowadzimy walidację krzyżową i obliczymy związany z nią błąd testu i przedstawimy oszacowane MSE:

set.seed(1)
cv.out = cv.glmnet(x_train, y_train, alpha = 1) # Dopasuj model lasso do danych treningowych
plot(cv.out) # Narysuj wykres MSE dla próby uczącej jako funkcję lambda

MSE dla lambdy optymalnej i współczynniki regresji Lasso

Oszacowanie MSE testowego dla optymlanej lambdy przedstawia się następująco:

bestlam = cv.out$lambda.min # Wybierz lamdę, która minimalizuje MSE w próbie uczącej
lasso_pred = predict(lasso_mod, s = bestlam, newx = x_test) # Użyj najlepszej lambdy do przewidywania danych testowych
mean((lasso_pred - y_test)^2) # Oblicz MSE w próbie testowej
## [1] 154.8086

Teraz wyświetlone zostaną współczynniki regresji Lasso z lambdą optymalną.

out = glmnet(x, y, alpha = 1, lambda = grid) 
# Dopasuj model lasso do pełnego zbioru danych
lasso_coef = predict(out, type = "coefficients", s = bestlam)[1:10,] 
# Wyświetlanie współczynników przy użyciu lambda wybranego przez CV
lasso_coef
##        (Intercept)               year                age   maritl2. Married 
##      -4.075268e+02      -8.908553e-05      -3.182844e-05      -3.296052e-04 
##   maritl3. Widowed  maritl4. Divorced maritl5. Separated       race2. Black 
##       0.000000e+00       0.000000e+00       0.000000e+00       0.000000e+00 
##       race3. Asian       race4. Other 
##       0.000000e+00       0.000000e+00

Tylko cztery zmienne spośród badanych zmiennych nie przyjęły wartości zerowych, dlatego nie wszystkie zmienne są statystycznie istotne.

Zmienne istotne

Tylko niezerowe zmienne to:

lasso_coef[lasso_coef != 0] # Wyświetlanie tylko niezerowych współczynników
##      (Intercept)             year              age maritl2. Married 
##    -4.075268e+02    -8.908553e-05    -3.182844e-05    -3.296052e-04

Odpowiedzi na pytania:

  • Który zbiór danych wybrałeś?

Wybrany został zbiór danych “Wage” z biblioteki ISLR, czyli zależności płac.

  • Jaka była Twoja zmienna zależna (tzn. co próbowałeś modelować)?

Wage, czyli płaca.

  • Czy oczekiwałeś, że regresja grzbietowa będzie lepsza od lasso czy odwrotnie? Pokaż odpowiednie raporty, miary dopasowania i krótko je omów (porównaj).

Oczekiwaliśmy, że wyniki obu regresji będą podobne, jako iż regresja lasso oraz grzbietowa same w sobie podobne. Metoda lasso sama w swoich założeniach ma zwiększać dokładność przewidywań, w porównaniu do metody grzbietowej, dlatego wydaje się, że to właśnie ta pierwsza metoda jest lepsza. Wartość MSE w przypadku metody Lasso wychodzi niższa niż w przypadku metody grzbietowej.(175 - grzbietowa, do 155 - Lasso)

  • Jak wypada w stosunku do OLS?

W stosunku do OLS kilka zmiennych zostało wyzerowanych, zatem według Lasso selekcjonuje istotne zmienne.

  • Które predyktory okazały się ważne w ostatecznym modelu (modelach)?

W ostatecznym modelu istotne okazały się następujące predyktory : year, age, maritl2. Married, education2. HS Grad, education3. Some College education5., Advanced Degree

---
title: "Raport 5."
author: "Katarzyna Lewczuk, Juliusz Alfuth, Piotr Wichowski"
date: "`r Sys.Date()`"
output:
  html_document:
    theme: cerulean
    highlight: textmate
    fontsize: 10pt
    toc: yes
    code_download: yes
    toc_float:
      collapsed: no
    df_print: default
    toc_depth: 5
  pdf_document:
    toc: yes
    toc_depth: '5'
subtitle: Regularyzacja
editor_options:
  markdown:
    wrap: 72
---


```{r, message=FALSE, warning=FALSE, echo=FALSE}
library(ISLR)
library(glmnet)
library(dplyr)
library(tidyr)
```

## Zadanie raport 5.

## Opis zadania
Przetestowanie metod (regresja grzbietowa i lasso) oraz metod oceny (zestaw walidacyjny, walidacja krzyżowa) na zbiorze danych Wage z ISLR.

Skonfigurujmy nasze dane:

Wczytujemy dane:
```{r}
library(ISLR)

data("Wage")
place<-Wage
```
Tworzymy wektor zmiennej wynikowej.
```{r}
x = model.matrix(wage~., place)[,-1]
                                        
y = Wage %>%
  select(wage) %>%
  unlist() %>%
  as.numeric()
```

## Regresja grzbietowa

Model regresji grzbietowej dla pełnych danych wygląda następująco:

```{r}
grid = 10^seq(10, -2, length = 100)
ridge_mod = glmnet(x, y, alpha = 0, lambda = grid)
plot(ridge_mod) # wykres współczynników
```
```{r}
dim(coef(ridge_mod))
#Wymiar macierzy predyktorów
```
Uzyskana macierz jest macierzą wymiaru 26 na 100.


## Dzielenie próbek

Podzielimy teraz próbki na zbiór treningowy i testowy w celu oszacowania błędu testu regresji grzbietowej i lasso.

```{r}
set.seed(1)

train = Wage %>%
  sample_frac(0.5)

test = Wage %>%
  setdiff(train)

x_train = model.matrix(wage~., train)[,-1]
x_test = model.matrix(wage~., test)[,-1]

y_train = train %>%
  select(wage) %>%
  unlist() %>%
  as.numeric()

y_test = test %>%
  select(wage) %>%
  unlist() %>%
  as.numeric()
```

## Wybierz lamdę, która minimalizuje treningowy MSE

```{r}
set.seed(1)
cv.out = cv.glmnet(x_train, y_train, alpha = 0) 
# Dopasuj model regresji grzbietowej na danych treningowych
bestlam = cv.out$lambda.min  # Wybierz lamdę, która minimalizuje treningowy MSE 
bestlam
```
Wykres na podstawie najlepszej lambdy dla MSE

```{r}
plot(cv.out)
```


## Oszacowanie MSE

Następnie dopasowujemy model regresji grzbietowej na zbiorze treningowym i oceniamy jego MSE na zbiorze testowym, używając $\lambda = bestlam$ . Czyli oszacowanie dla regresji z lambdą optymalną wyznaczoną wcześniej.

```{r}
ridge_pred = predict(ridge_mod, s = bestlam, newx = x_test)
mean((ridge_pred - y_test)^2)
```

## Oszacowania współczynników

Ponownie wyznaczamy nasz model regresji grzbietowej na pełnym zestawie danych i sprawdzamy oszacowania współczynników.


```{r}
out = glmnet(x, y, alpha = 0) # Dopasuj model regresji grzbietowej do pełnego zbioru danych
predict(out, type = "coefficients", s = bestlam)[1:10,] # Wyświetlanie współczynników przy użyciu lambda wybranego przez CV
```

## Regresja OLS

Model kmnk dla s=0 (lambda równa 0) i oszacowanie MSE.

```{r}
ridge_pred = predict(ridge_mod, s = 0, newx = x_test)

mean((ridge_pred - y_test)^2) # Oblicz testowe MSE
```

```{r}
lm(wage ~ year + age + maritl + race, data = train)
```
## Procedura Lasso

```{r message=FALSE, warning=FALSE}
lasso_mod = glmnet(x_train, 
                   y_train, 
                   alpha = 1, 
                   lambda = grid) # Dopasuj model lasso do danych treningowych

plot(lasso_mod)    # Wykreśl współczynniki
```

Teraz przeprowadzimy walidację krzyżową i obliczymy związany z nią błąd testu i przedstawimy oszacowane MSE:


```{r}
set.seed(1)
cv.out = cv.glmnet(x_train, y_train, alpha = 1) # Dopasuj model lasso do danych treningowych
plot(cv.out) # Narysuj wykres MSE dla próby uczącej jako funkcję lambda
```

## MSE dla lambdy optymalnej i współczynniki regresji Lasso

Oszacowanie MSE testowego dla optymlanej lambdy przedstawia się następująco:

```{r}
bestlam = cv.out$lambda.min # Wybierz lamdę, która minimalizuje MSE w próbie uczącej
lasso_pred = predict(lasso_mod, s = bestlam, newx = x_test) # Użyj najlepszej lambdy do przewidywania danych testowych
mean((lasso_pred - y_test)^2) # Oblicz MSE w próbie testowej
```


Teraz wyświetlone zostaną współczynniki regresji Lasso z lambdą optymalną.
```{r}
out = glmnet(x, y, alpha = 1, lambda = grid) 
# Dopasuj model lasso do pełnego zbioru danych
lasso_coef = predict(out, type = "coefficients", s = bestlam)[1:10,] 
# Wyświetlanie współczynników przy użyciu lambda wybranego przez CV
lasso_coef
```

Tylko cztery zmienne spośród badanych zmiennych nie przyjęły wartości zerowych, dlatego nie wszystkie zmienne są statystycznie istotne.

## Zmienne istotne

Tylko niezerowe zmienne to:
```{r}
lasso_coef[lasso_coef != 0] # Wyświetlanie tylko niezerowych współczynników
```




## Odpowiedzi na pytania:

 - Który zbiór danych wybrałeś?

 Wybrany został zbiór danych "Wage" z biblioteki ISLR, czyli zależności płac.
 
 - Jaka była Twoja zmienna zależna (tzn. co próbowałeś modelować)?

  Wage, czyli płaca.    
 
 - Czy oczekiwałeś, że regresja grzbietowa będzie lepsza od lasso czy odwrotnie? Pokaż odpowiednie raporty, miary dopasowania i krótko je omów (porównaj).
 
 Oczekiwaliśmy, że wyniki obu regresji będą podobne, jako iż regresja lasso oraz grzbietowa same w sobie podobne. Metoda lasso sama w swoich założeniach ma zwiększać dokładność przewidywań, w porównaniu do metody grzbietowej, dlatego wydaje się, że to właśnie ta pierwsza metoda jest lepsza.
 Wartość MSE w przypadku metody Lasso wychodzi niższa niż w przypadku metody grzbietowej.(175 - grzbietowa, do 155 - Lasso)
 
 - Jak wypada w stosunku do OLS?

W stosunku do OLS kilka zmiennych zostało wyzerowanych, zatem według Lasso selekcjonuje istotne zmienne.
 
 - Które predyktory okazały się ważne w ostatecznym modelu (modelach)?
 
 W ostatecznym modelu istotne okazały się następujące predyktory :  year, age, maritl2. Married, education2. HS Grad, education3. Some College education5., Advanced Degree  
 
 