Zadanie raport 5.
Opis zadania
Przetestowanie metod (regresja grzbietowa i lasso) oraz metod oceny
(zestaw walidacyjny, walidacja krzyżowa) na zbiorze danych Wage z
ISLR.
Skonfigurujmy nasze dane:
Wczytujemy dane:
library(ISLR)
data("Wage")
place<-Wage
Tworzymy wektor zmiennej wynikowej.
x = model.matrix(wage~., place)[,-1]
y = Wage %>%
select(wage) %>%
unlist() %>%
as.numeric()
Regresja grzbietowa
Model regresji grzbietowej dla pełnych danych wygląda
następująco:
grid = 10^seq(10, -2, length = 100)
ridge_mod = glmnet(x, y, alpha = 0, lambda = grid)
plot(ridge_mod) # wykres współczynników

dim(coef(ridge_mod))
## [1] 26 100
#Wymiar macierzy predyktorów
Uzyskana macierz jest macierzą wymiaru 26 na 100.
Dzielenie próbek
Podzielimy teraz próbki na zbiór treningowy i testowy w celu
oszacowania błędu testu regresji grzbietowej i lasso.
set.seed(1)
train = Wage %>%
sample_frac(0.5)
test = Wage %>%
setdiff(train)
x_train = model.matrix(wage~., train)[,-1]
x_test = model.matrix(wage~., test)[,-1]
y_train = train %>%
select(wage) %>%
unlist() %>%
as.numeric()
y_test = test %>%
select(wage) %>%
unlist() %>%
as.numeric()
Wybierz lamdę, która minimalizuje treningowy MSE
set.seed(1)
cv.out = cv.glmnet(x_train, y_train, alpha = 0)
# Dopasuj model regresji grzbietowej na danych treningowych
bestlam = cv.out$lambda.min # Wybierz lamdę, która minimalizuje treningowy MSE
bestlam
## [1] 3.939486
Wykres na podstawie najlepszej lambdy dla MSE
plot(cv.out)

Oszacowanie MSE
Następnie dopasowujemy model regresji grzbietowej na zbiorze
treningowym i oceniamy jego MSE na zbiorze testowym, używając \(\lambda = bestlam\) . Czyli oszacowanie dla
regresji z lambdą optymalną wyznaczoną wcześniej.
ridge_pred = predict(ridge_mod, s = bestlam, newx = x_test)
mean((ridge_pred - y_test)^2)
## [1] 169.468
Oszacowania współczynników
Ponownie wyznaczamy nasz model regresji grzbietowej na pełnym
zestawie danych i sprawdzamy oszacowania współczynników.
out = glmnet(x, y, alpha = 0) # Dopasuj model regresji grzbietowej do pełnego zbioru danych
predict(out, type = "coefficients", s = bestlam)[1:10,] # Wyświetlanie współczynników przy użyciu lambda wybranego przez CV
## (Intercept) year age maritl2. Married
## -3.529273e+02 3.706173e-04 1.909890e-02 8.771868e-01
## maritl3. Widowed maritl4. Divorced maritl5. Separated race2. Black
## -2.610242e+00 -6.036440e-01 -9.351872e-01 -1.106809e+00
## race3. Asian race4. Other
## -4.492573e-01 -4.079098e-01
Regresja OLS
Model kmnk dla s=0 (lambda równa 0) i oszacowanie MSE.
ridge_pred = predict(ridge_mod, s = 0, newx = x_test)
mean((ridge_pred - y_test)^2) # Oblicz testowe MSE
## [1] 151.514
lm(wage ~ year + age + maritl + race, data = train)
##
## Call:
## lm(formula = wage ~ year + age + maritl + race, data = train)
##
## Coefficients:
## (Intercept) year age maritl2. Married
## -3038.2309 1.5526 0.5551 17.7962
## maritl3. Widowed maritl4. Divorced maritl5. Separated race2. Black
## 5.6667 1.8302 2.6743 -6.1402
## race3. Asian race4. Other
## 3.8241 -20.1080
Procedura Lasso
lasso_mod = glmnet(x_train,
y_train,
alpha = 1,
lambda = grid) # Dopasuj model lasso do danych treningowych
plot(lasso_mod) # Wykreśl współczynniki

Teraz przeprowadzimy walidację krzyżową i obliczymy związany z nią
błąd testu i przedstawimy oszacowane MSE:
set.seed(1)
cv.out = cv.glmnet(x_train, y_train, alpha = 1) # Dopasuj model lasso do danych treningowych
plot(cv.out) # Narysuj wykres MSE dla próby uczącej jako funkcję lambda

MSE dla lambdy optymalnej i współczynniki regresji Lasso
Oszacowanie MSE testowego dla optymlanej lambdy przedstawia się
następująco:
bestlam = cv.out$lambda.min # Wybierz lamdę, która minimalizuje MSE w próbie uczącej
lasso_pred = predict(lasso_mod, s = bestlam, newx = x_test) # Użyj najlepszej lambdy do przewidywania danych testowych
mean((lasso_pred - y_test)^2) # Oblicz MSE w próbie testowej
## [1] 154.8086
Teraz wyświetlone zostaną współczynniki regresji Lasso z lambdą
optymalną.
out = glmnet(x, y, alpha = 1, lambda = grid)
# Dopasuj model lasso do pełnego zbioru danych
lasso_coef = predict(out, type = "coefficients", s = bestlam)[1:10,]
# Wyświetlanie współczynników przy użyciu lambda wybranego przez CV
lasso_coef
## (Intercept) year age maritl2. Married
## -4.075268e+02 -8.908553e-05 -3.182844e-05 -3.296052e-04
## maritl3. Widowed maritl4. Divorced maritl5. Separated race2. Black
## 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## race3. Asian race4. Other
## 0.000000e+00 0.000000e+00
Tylko cztery zmienne spośród badanych zmiennych nie przyjęły wartości
zerowych, dlatego nie wszystkie zmienne są statystycznie istotne.
Zmienne istotne
Tylko niezerowe zmienne to:
lasso_coef[lasso_coef != 0] # Wyświetlanie tylko niezerowych współczynników
## (Intercept) year age maritl2. Married
## -4.075268e+02 -8.908553e-05 -3.182844e-05 -3.296052e-04
Odpowiedzi na pytania:
- Który zbiór danych wybrałeś?
Wybrany został zbiór danych “Wage” z biblioteki ISLR, czyli
zależności płac.
- Jaka była Twoja zmienna zależna (tzn. co próbowałeś modelować)?
Wage, czyli płaca.
- Czy oczekiwałeś, że regresja grzbietowa będzie lepsza od lasso czy
odwrotnie? Pokaż odpowiednie raporty, miary dopasowania i krótko je omów
(porównaj).
Oczekiwaliśmy, że wyniki obu regresji będą podobne, jako iż regresja
lasso oraz grzbietowa same w sobie podobne. Metoda lasso sama w swoich
założeniach ma zwiększać dokładność przewidywań, w porównaniu do metody
grzbietowej, dlatego wydaje się, że to właśnie ta pierwsza metoda jest
lepsza. Wartość MSE w przypadku metody Lasso wychodzi niższa niż w
przypadku metody grzbietowej.(175 - grzbietowa, do 155 - Lasso)
- Jak wypada w stosunku do OLS?
W stosunku do OLS kilka zmiennych zostało wyzerowanych, zatem według
Lasso selekcjonuje istotne zmienne.
- Które predyktory okazały się ważne w ostatecznym modelu
(modelach)?
W ostatecznym modelu istotne okazały się następujące predyktory :
year, age, maritl2. Married, education2. HS Grad, education3. Some
College education5., Advanced Degree
---
title: "Raport 5."
author: "Katarzyna Lewczuk, Juliusz Alfuth, Piotr Wichowski"
date: "`r Sys.Date()`"
output:
  html_document:
    theme: cerulean
    highlight: textmate
    fontsize: 10pt
    toc: yes
    code_download: yes
    toc_float:
      collapsed: no
    df_print: default
    toc_depth: 5
  pdf_document:
    toc: yes
    toc_depth: '5'
subtitle: Regularyzacja
editor_options:
  markdown:
    wrap: 72
---


```{r, message=FALSE, warning=FALSE, echo=FALSE}
library(ISLR)
library(glmnet)
library(dplyr)
library(tidyr)
```

## Zadanie raport 5.

## Opis zadania
Przetestowanie metod (regresja grzbietowa i lasso) oraz metod oceny (zestaw walidacyjny, walidacja krzyżowa) na zbiorze danych Wage z ISLR.

Skonfigurujmy nasze dane:

Wczytujemy dane:
```{r}
library(ISLR)

data("Wage")
place<-Wage
```
Tworzymy wektor zmiennej wynikowej.
```{r}
x = model.matrix(wage~., place)[,-1]
                                        
y = Wage %>%
  select(wage) %>%
  unlist() %>%
  as.numeric()
```

## Regresja grzbietowa

Model regresji grzbietowej dla pełnych danych wygląda następująco:

```{r}
grid = 10^seq(10, -2, length = 100)
ridge_mod = glmnet(x, y, alpha = 0, lambda = grid)
plot(ridge_mod) # wykres współczynników
```
```{r}
dim(coef(ridge_mod))
#Wymiar macierzy predyktorów
```
Uzyskana macierz jest macierzą wymiaru 26 na 100.


## Dzielenie próbek

Podzielimy teraz próbki na zbiór treningowy i testowy w celu oszacowania błędu testu regresji grzbietowej i lasso.

```{r}
set.seed(1)

train = Wage %>%
  sample_frac(0.5)

test = Wage %>%
  setdiff(train)

x_train = model.matrix(wage~., train)[,-1]
x_test = model.matrix(wage~., test)[,-1]

y_train = train %>%
  select(wage) %>%
  unlist() %>%
  as.numeric()

y_test = test %>%
  select(wage) %>%
  unlist() %>%
  as.numeric()
```

## Wybierz lamdę, która minimalizuje treningowy MSE

```{r}
set.seed(1)
cv.out = cv.glmnet(x_train, y_train, alpha = 0) 
# Dopasuj model regresji grzbietowej na danych treningowych
bestlam = cv.out$lambda.min  # Wybierz lamdę, która minimalizuje treningowy MSE 
bestlam
```
Wykres na podstawie najlepszej lambdy dla MSE

```{r}
plot(cv.out)
```


## Oszacowanie MSE

Następnie dopasowujemy model regresji grzbietowej na zbiorze treningowym i oceniamy jego MSE na zbiorze testowym, używając $\lambda = bestlam$ . Czyli oszacowanie dla regresji z lambdą optymalną wyznaczoną wcześniej.

```{r}
ridge_pred = predict(ridge_mod, s = bestlam, newx = x_test)
mean((ridge_pred - y_test)^2)
```

## Oszacowania współczynników

Ponownie wyznaczamy nasz model regresji grzbietowej na pełnym zestawie danych i sprawdzamy oszacowania współczynników.


```{r}
out = glmnet(x, y, alpha = 0) # Dopasuj model regresji grzbietowej do pełnego zbioru danych
predict(out, type = "coefficients", s = bestlam)[1:10,] # Wyświetlanie współczynników przy użyciu lambda wybranego przez CV
```

## Regresja OLS

Model kmnk dla s=0 (lambda równa 0) i oszacowanie MSE.

```{r}
ridge_pred = predict(ridge_mod, s = 0, newx = x_test)

mean((ridge_pred - y_test)^2) # Oblicz testowe MSE
```

```{r}
lm(wage ~ year + age + maritl + race, data = train)
```
## Procedura Lasso

```{r message=FALSE, warning=FALSE}
lasso_mod = glmnet(x_train, 
                   y_train, 
                   alpha = 1, 
                   lambda = grid) # Dopasuj model lasso do danych treningowych

plot(lasso_mod)    # Wykreśl współczynniki
```

Teraz przeprowadzimy walidację krzyżową i obliczymy związany z nią błąd testu i przedstawimy oszacowane MSE:


```{r}
set.seed(1)
cv.out = cv.glmnet(x_train, y_train, alpha = 1) # Dopasuj model lasso do danych treningowych
plot(cv.out) # Narysuj wykres MSE dla próby uczącej jako funkcję lambda
```

## MSE dla lambdy optymalnej i współczynniki regresji Lasso

Oszacowanie MSE testowego dla optymlanej lambdy przedstawia się następująco:

```{r}
bestlam = cv.out$lambda.min # Wybierz lamdę, która minimalizuje MSE w próbie uczącej
lasso_pred = predict(lasso_mod, s = bestlam, newx = x_test) # Użyj najlepszej lambdy do przewidywania danych testowych
mean((lasso_pred - y_test)^2) # Oblicz MSE w próbie testowej
```


Teraz wyświetlone zostaną współczynniki regresji Lasso z lambdą optymalną.
```{r}
out = glmnet(x, y, alpha = 1, lambda = grid) 
# Dopasuj model lasso do pełnego zbioru danych
lasso_coef = predict(out, type = "coefficients", s = bestlam)[1:10,] 
# Wyświetlanie współczynników przy użyciu lambda wybranego przez CV
lasso_coef
```

Tylko cztery zmienne spośród badanych zmiennych nie przyjęły wartości zerowych, dlatego nie wszystkie zmienne są statystycznie istotne.

## Zmienne istotne

Tylko niezerowe zmienne to:
```{r}
lasso_coef[lasso_coef != 0] # Wyświetlanie tylko niezerowych współczynników
```




## Odpowiedzi na pytania:

 - Który zbiór danych wybrałeś?

 Wybrany został zbiór danych "Wage" z biblioteki ISLR, czyli zależności płac.
 
 - Jaka była Twoja zmienna zależna (tzn. co próbowałeś modelować)?

  Wage, czyli płaca.    
 
 - Czy oczekiwałeś, że regresja grzbietowa będzie lepsza od lasso czy odwrotnie? Pokaż odpowiednie raporty, miary dopasowania i krótko je omów (porównaj).
 
 Oczekiwaliśmy, że wyniki obu regresji będą podobne, jako iż regresja lasso oraz grzbietowa same w sobie podobne. Metoda lasso sama w swoich założeniach ma zwiększać dokładność przewidywań, w porównaniu do metody grzbietowej, dlatego wydaje się, że to właśnie ta pierwsza metoda jest lepsza.
 Wartość MSE w przypadku metody Lasso wychodzi niższa niż w przypadku metody grzbietowej.(175 - grzbietowa, do 155 - Lasso)
 
 - Jak wypada w stosunku do OLS?

W stosunku do OLS kilka zmiennych zostało wyzerowanych, zatem według Lasso selekcjonuje istotne zmienne.
 
 - Które predyktory okazały się ważne w ostatecznym modelu (modelach)?
 
 W ostatecznym modelu istotne okazały się następujące predyktory :  year, age, maritl2. Married, education2. HS Grad, education3. Some College education5., Advanced Degree  
 
 