5.3.1 The validation Set Approach
Se usa para estimar las tasas de error que resultan despues de fijar varios modelos lineales en el dataset. Se utilizará el dataset Auto
.
Antes de comenzar se usara la funcion set.seed()
para fijar el numero random del generador, esto es para que los resultados concuerden con los fijados en el laboratorio guiado del libro ISLR. Se utilizara la funcion sample()
para dividir el dataset en dos partes, tomando estas observaciones como el set de entrenamiento.
library(ISLR)
set.seed(1)
train <- sample(392, 196)
Se usa el parametro subset
en la funcion lm()
para usar solamente las observaciones correspondientes al training set.
lm.fit <- lm(mpg ~ horsepower, data = Auto, subset = train)
Ahora se usa la funcion predict()
para estimar la respuesta de todas las 392 observaciones y obtenemos el MSE de las 196 observaciones en el set de validacion.
attach(Auto)
mean((mpg - predict(lm.fit, Auto))[-train]^2)
[1] 26.14142
Por lo tanto el MSE del test estimado para la regresion lineal es \(26.14\). Ahora usamos la funcion poly()
para estimar el error del test para las regresiones polinomiales.
lm.fit2 <- lm(mpg ~ poly(horsepower,2), data = Auto, subset = train)
mean((mpg - predict(lm.fit2, Auto))[-train]^2)
[1] 19.82259
lm.fit3 <- lm(mpg ~ poly(horsepower,3), data = Auto, subset = train)
mean((mpg - predict(lm.fit3, Auto))[-train]^2)
[1] 19.78252
Las tasas de eroor son \(19.82\) y \(19.78\) respectivamente. Si se usa un training set distinto, entonces se van a obtener errores diferentes en el set de validacion.
set.seed(2)
train <- sample(392, 196)
lm.fit <- lm(mpg ~ horsepower, subset = train)
mean((mpg - predict(lm.fit, Auto))[-train]^2)
[1] 23.29559
lm.fit2 <- lm(mpg ~ poly(horsepower,2), data = Auto, subset = train)
mean((mpg - predict(lm.fit2, Auto))[-train]^2)
[1] 18.90124
lm.fit3 <- lm(mpg ~ poly(horsepower,3), data = Auto, subset = train)
mean((mpg - predict(lm.fit3, Auto))[-train]^2)
[1] 19.2574
Estos resultados son consistentes con los descubrimientos anteriores. Un modelo que predice mpg
usando una funcion cuadratica de los horsepower
se desempeña mejor que un modelo que involucra solo una funcion lineal de horsepower
, y hay una minima evidencia a favor del modelo que usa una funcion cubica en horsepower
.
Leave-One-Out Cross-Validation
El estimador LOOCV puede ser computado automaticamente para cualquier modelo lineal generalizado usando glm()
y cv.glm()
. La funcion glm()
se uso para desarrollar una regresion logistica enviandole como argumento family=binomial
, pero si se utiliza sin ese argumento, se desarrollara una regresion lineal como la lm()
:
glm.fit <- glm(mpg ~ horsepower, data = Auto)
coef(glm.fit)
(Intercept) horsepower
39.9358610 -0.1578447
lm.fit <- lm(mpg ~ horsepower, data = Auto)
coef(lm.fit)
(Intercept) horsepower
39.9358610 -0.1578447
Por lo que se puede ver que son modelos de regresion lineal identicos. Para el laboratorio se utilizara la funcion glm()
para obtener la regresion lineal, ya que la funcion cv.glm()
puede ser utilizada, esta funcion es parte de la libreria boot
.
library(boot)
glm.fit <- glm(mpg ~ horsepower, data = Auto)
cv.err <- cv.glm(Auto, glm.fit)
cv.err$delta
[1] 24.23151 24.23114
La funcion cv.glm()
produce una lista con distintos componentes. Los dos numeros en el vector delta contienen los resultados de la cross-validation. En este caso los numeros son identicos, y corresponen al estadistico LOOCV.
Ahora se va a repetir este procedimiento para nuevos modelos incrementando la complejidad polinomial. Se usara la funcion for()
para automatizar el proceso, los errores se iran guardando en el vector cv.error
.
cv.error <- rep(0,5)
for(i in 1:5){
glm.fit <- glm(mpg ~ poly(horsepower, i), data = Auto)
cv.error[i] <- cv.glm(Auto, glm.fit)$delta[1]
}
cv.error
[1] 24.23151 19.24821 19.33498 19.42443 19.03321
como vimos anteriormente el MSE estimado del test entre los modelos lineales y cuadraticos hay una disminucion considerable, pero no hay una mejora al usar polinomios mas altos.
k-Fold Cross-Validation
La funcion cv.glm()
tambien puede ser usanda para implementar el k-fold CV. Usaremos 10 folds en el dataset Auto.
set.seed(17)
cv.error.10 <- rep(0,10)
for(i in 1:10){
glm.fit <- glm(mpg ~ poly(horsepower,i), data = Auto)
cv.error.10[i] <- cv.glm(Auto,glm.fit, K = 10)$delta[1]
}
cv.error.10
[1] 24.20520 19.18924 19.30662 19.33799 18.87911 19.02103
[7] 18.89609 19.71201 18.95140 19.50196
The Bootstrap
Estimating the Accuracy of a Statistic of Interest
Una de las grandes ventajas del enfoque bootstrap es que puede ser aplicado en casi todas las situaciones. Los calculos matematicos complicados no son requeridos. Realizar un analisis bootstrap en R conlleva solo dos pasos.
- Primero se debe crear una funcion que compute el estadistico de interes.
- Segundo usamos la funcion
boot()
(de la libreria boot
) para realizar el bootstrap.
El dataset Portafolio
se utilizara en este ejemplo. Para ilustrar el uso de bootstrap en este dataset primero se debe crear una funcion alpha.fn()
que toma \((X,Y)\) como input como un vector indicando cuales observaciones deberian ser usadas para estimar \(\alpha\).
alpha.fn <- function(data,index){
X <- data$X[index]
Y <- data$Y[index]
return((var(Y) - cov(X,Y)) / (var(X) + var(Y) - 2*cov(X,Y)))
}
Esta funcion devuelve como output un estimado para \(\alpha\) basado en el argumento index
. Ahora se usara para estimar \(\alpha\) usando 100 observaciones:
alpha.fn(Portfolio, 1:100)
[1] 0.5758321
Ahora se hara un sample()
para seleccionar 100 observaciones del rango 1 a 100.
set.seed(1)
alpha.fn(Portfolio, sample(100,100,replace = TRUE))
[1] 0.5963833
Se puede implementar un analisis bootstrap realizando este comando muchas veces. Esto lo puede hacer la funcion boot()
, se produciran \(R=1000\) estimaciones bootstrap para \(\alpha\).
boot(Portfolio, alpha.fn, R = 1000)
ORDINARY NONPARAMETRIC BOOTSTRAP
Call:
boot(data = Portfolio, statistic = alpha.fn, R = 1000)
Bootstrap Statistics :
original bias std. error
t1* 0.5758321 -7.315422e-05 0.08861826
El output muestra que usando el dataset original \(\hat{\alpha} = 0.5758\) y que el bootstrap estimado es \(SE(\hat{\alpha}= 0.0886\).
Estimating the Accuracy of a Linear Regression Model
El enfoque bootstrap puede ser usado para evaluar la variablidad de las estimaciones de los coeficientes y las predicciones del metodo de aprendizaje estadistico. Se utilizara bootstrap para evaluar la variabilidad de los estimados para \(\beta_0\) y \(\beta_1\), el intercepto y la pendiente para el modelo de regresion lineal que usa horsepower
para predecir mpg
en el dataset Auto
.
Primero se va a crear una funcion simpre boot.fn()
, la cual toma el dataset Auto
y los indices de observacion y regresa el intercepto y la pendiente estimadas para el modelo de regresion lineal. Despues aplicamos esta funcion al dataset completo y computaremos los esmimados de \(\beta_0\) y de \(\beta_1\).
boot.fn <- function(data, index)
return(coef(lm(mpg ~ horsepower, data = data, subset = index)))
boot.fn(Auto, 1:392)
(Intercept) horsepower
39.9358610 -0.1578447
La funcion boot.fn()
puede ser usara para crear estimadores bootstrap para los interceptos y la pendiente haciendo un muestreo de las observaciones:
set.seed(1)
boot.fn(Auto, sample(392, 392, replace = TRUE))
(Intercept) horsepower
38.7387134 -0.1481952
boot.fn(Auto,sample(392, 392, replace = TRUE))
(Intercept) horsepower
40.0383086 -0.1596104
Ahora usaremos la funcion boot()
para obtener los errores estandar de \(1000\) estimaciones bootstrap para el intercepto y la pendiente.
boot(Auto, boot.fn, 1000)
ORDINARY NONPARAMETRIC BOOTSTRAP
Call:
boot(data = Auto, statistic = boot.fn, R = 1000)
Bootstrap Statistics :
original bias std. error
t1* 39.9358610 0.02972191 0.860007896
t2* -0.1578447 -0.00030823 0.007404467
Esto indica que el estimador bootstrap es \(SE(\hat{\beta_0}) = 0.86\) y \(SE(\hat{\beta_1}) = 0.0074\).
Las formulas estardar pueden ser usadas para obtener los erroes estandar de los coeficientes regresores en un modelo lineal:
summary(lm(mpg ~ horsepower, data = Auto))$coef
Estimate Std. Error t value Pr(>|t|)
(Intercept) 39.9358610 0.717498656 55.65984 1.220362e-187
horsepower -0.1578447 0.006445501 -24.48914 7.031989e-81
boot.fn <- function(data, index)
coefficients(lm(mpg ~ horsepower + I(horsepower^2), data = data, subset = index))
set.seed(1)
boot(Auto, boot.fn, 1000)
ORDINARY NONPARAMETRIC BOOTSTRAP
Call:
boot(data = Auto, statistic = boot.fn, R = 1000)
Bootstrap Statistics :
original bias std. error
t1* 56.900099702 6.098115e-03 2.0944855842
t2* -0.466189630 -1.777108e-04 0.0334123802
t3* 0.001230536 1.324315e-06 0.0001208339
summary(lm( mpg ~ horsepower + I(horsepower^2), data = Auto))$coef
Estimate Std. Error t value Pr(>|t|)
(Intercept) 56.900099702 1.8004268063 31.60367 1.740911e-109
horsepower -0.466189630 0.0311246171 -14.97816 2.289429e-40
I(horsepower^2) 0.001230536 0.0001220759 10.08009 2.196340e-21
---
title: "5.3 Lab: Cross-Validation and the Bootstrap"
output: html_notebook
---

## Paula Cazali
### Fiabilidad

## 5.3.1 The validation Set Approach

Se usa para estimar las tasas de error que resultan despues de fijar varios modelos lineales en el dataset. 
Se utilizará el dataset `Auto`.

Antes de comenzar se usara la funcion `set.seed()` para fijar el numero random del generador, esto es para que los resultados concuerden con los fijados en el laboratorio guiado del libro ISLR. 
Se utilizara la funcion `sample()` para dividir el dataset en dos partes, tomando estas observaciones como el set de entrenamiento.

```{r}
library(ISLR)
set.seed(1)
train <- sample(392, 196)
```

Se usa el parametro `subset` en la funcion `lm()` para usar solamente las observaciones correspondientes al training set.
```{r}
lm.fit <- lm(mpg ~ horsepower, data = Auto, subset = train)
```

Ahora se usa la funcion `predict()` para estimar la respuesta de todas las 392 observaciones y obtenemos el MSE de las 196 observaciones en el set de validacion. 
```{r}
attach(Auto)
```
```{r}
mean((mpg - predict(lm.fit, Auto))[-train]^2)
```

Por lo tanto el MSE del test estimado para la regresion lineal es $26.14$.
Ahora usamos la funcion `poly()` para estimar el error del test para las regresiones polinomiales.
```{r}
lm.fit2 <- lm(mpg ~ poly(horsepower,2), data = Auto, subset = train)
mean((mpg - predict(lm.fit2, Auto))[-train]^2)
lm.fit3 <- lm(mpg ~ poly(horsepower,3), data = Auto, subset = train)
mean((mpg - predict(lm.fit3, Auto))[-train]^2)
```

Las tasas de eroor son $19.82$ y $19.78$ respectivamente. Si se usa un training set distinto, entonces se van a obtener errores diferentes en el set de validacion.
```{r}
set.seed(2)
train <- sample(392, 196)
lm.fit <- lm(mpg ~ horsepower, subset = train)
mean((mpg - predict(lm.fit, Auto))[-train]^2)
lm.fit2 <- lm(mpg ~ poly(horsepower,2), data = Auto, subset = train)
mean((mpg - predict(lm.fit2, Auto))[-train]^2)
lm.fit3 <- lm(mpg ~ poly(horsepower,3), data = Auto, subset = train)
mean((mpg - predict(lm.fit3, Auto))[-train]^2)

```

Estos resultados son consistentes con los descubrimientos anteriores. Un modelo que predice `mpg` usando una funcion cuadratica de los `horsepower` se desempeña mejor que un modelo que involucra solo una funcion lineal de `horsepower`, y hay una minima evidencia a favor del modelo que usa una funcion cubica en `horsepower`.

## Leave-One-Out Cross-Validation

El estimador LOOCV  puede ser computado automaticamente para cualquier modelo lineal generalizado usando `glm()` y `cv.glm()`. La funcion `glm()` se uso para desarrollar una regresion logistica enviandole como argumento `family=binomial`, pero si se utiliza sin ese argumento, se desarrollara una regresion lineal como la `lm()`:
```{r}
glm.fit <- glm(mpg ~ horsepower, data = Auto)
coef(glm.fit)
```

```{r}
lm.fit <- lm(mpg ~ horsepower, data = Auto)
coef(lm.fit)
```

Por lo que se puede ver que son modelos de regresion lineal identicos. Para el laboratorio se utilizara la funcion `glm()` para obtener la regresion lineal, ya que la funcion `cv.glm()` puede ser utilizada, esta funcion es parte de la libreria `boot`.
```{r}
library(boot)
glm.fit <- glm(mpg ~ horsepower, data = Auto)
cv.err <- cv.glm(Auto, glm.fit)
cv.err$delta
```

La funcion `cv.glm()` produce una lista con distintos componentes. Los dos numeros en el vector *delta* contienen los resultados de la cross-validation. En este caso los numeros son identicos, y corresponen al estadistico LOOCV. 

Ahora se va a repetir este procedimiento para nuevos modelos incrementando la complejidad polinomial. Se usara la funcion `for()` para automatizar el proceso, los errores se iran guardando en el vector `cv.error`.
```{r}
cv.error <- rep(0,5)
for(i in 1:5){
  glm.fit <- glm(mpg ~ poly(horsepower, i), data = Auto)
  cv.error[i] <- cv.glm(Auto, glm.fit)$delta[1]
}
cv.error
```

como vimos anteriormente el MSE estimado del test entre los modelos lineales y cuadraticos hay una disminucion considerable, pero no hay una mejora al usar polinomios mas altos.

## k-Fold Cross-Validation

La funcion `cv.glm()` tambien puede ser usanda para implementar el k-fold CV. Usaremos 10 folds en el dataset Auto. 
```{r}
set.seed(17)
cv.error.10 <- rep(0,10)
for(i in 1:10){
  glm.fit <- glm(mpg ~ poly(horsepower,i), data = Auto)
  cv.error.10[i] <- cv.glm(Auto,glm.fit, K = 10)$delta[1]
}
cv.error.10
```

## The Bootstrap
### Estimating the Accuracy of a Statistic of Interest
Una de las grandes ventajas del enfoque bootstrap es que puede ser aplicado en casi todas las situaciones. Los calculos matematicos complicados no son requeridos. Realizar un analisis bootstrap en R conlleva solo dos pasos. 

  - Primero se debe crear una funcion que compute el estadistico de interes.
  - Segundo usamos la funcion `boot()` (de la libreria `boot`) para realizar el bootstrap.

El dataset `Portafolio`  se utilizara en este ejemplo. Para ilustrar el uso de bootstrap en este dataset primero se debe crear una funcion `alpha.fn()` que toma $(X,Y)$ como input como un vector indicando cuales observaciones deberian ser usadas para estimar $\alpha$.

```{r}
alpha.fn <- function(data,index){
  X <- data$X[index]
  Y <- data$Y[index]
  return((var(Y) - cov(X,Y)) / (var(X) + var(Y) - 2*cov(X,Y)))
}
```

Esta funcion devuelve como output un estimado para $\alpha$ basado en el argumento `index`. Ahora se usara para estimar $\alpha$ usando 100 observaciones:
```{r}
alpha.fn(Portfolio, 1:100)
```

Ahora se hara un `sample()` para seleccionar 100 observaciones del rango 1 a 100. 
```{r}
set.seed(1)
alpha.fn(Portfolio, sample(100,100,replace = TRUE))
```

Se puede implementar un analisis bootstrap realizando este comando muchas veces. Esto lo puede hacer la funcion `boot()`, se produciran $R=1000$ estimaciones bootstrap para $\alpha$.
```{r}
boot(Portfolio, alpha.fn, R = 1000)
```

El output muestra que usando el dataset original $\hat{\alpha} = 0.5758$ y que el bootstrap estimado es $SE(\hat{\alpha}= 0.0886$.

### Estimating the Accuracy of a Linear Regression Model

El enfoque bootstrap puede ser usado para evaluar la variablidad de las estimaciones de los coeficientes y las predicciones del metodo de aprendizaje estadistico. 
Se utilizara bootstrap para evaluar la variabilidad de los estimados para $\beta_0$ y $\beta_1$, el intercepto y la pendiente para el modelo de regresion lineal que usa `horsepower` para predecir `mpg` en el dataset `Auto`.

Primero se va a crear una funcion simpre `boot.fn()`, la cual toma el dataset `Auto` y los indices de observacion y regresa el intercepto y la pendiente estimadas para el modelo de regresion lineal. Despues aplicamos esta funcion al dataset completo y computaremos los esmimados de $\beta_0$ y de $\beta_1$.
```{r}
boot.fn <- function(data, index)
  return(coef(lm(mpg ~ horsepower, data = data, subset = index)))
boot.fn(Auto, 1:392)
```

La funcion `boot.fn()` puede ser usara para crear estimadores bootstrap para los interceptos y la pendiente haciendo un muestreo de las observaciones:
```{r}
set.seed(1)
boot.fn(Auto, sample(392, 392, replace = TRUE))
boot.fn(Auto,sample(392, 392, replace = TRUE))
```

Ahora usaremos la funcion `boot()` para obtener los errores estandar de $1000$ estimaciones bootstrap para el intercepto y la pendiente.
```{r}
boot(Auto, boot.fn, 1000)
```

Esto indica que el estimador bootstrap es $SE(\hat{\beta_0}) = 0.86$ y $SE(\hat{\beta_1}) = 0.0074$.

Las formulas estardar pueden ser usadas para obtener los erroes estandar de los coeficientes regresores en un modelo lineal:
```{r}
summary(lm(mpg ~ horsepower, data = Auto))$coef
```

```{r}
boot.fn <- function(data, index)
  coefficients(lm(mpg ~ horsepower + I(horsepower^2), data = data, subset = index))
set.seed(1)
boot(Auto, boot.fn, 1000)
summary(lm( mpg ~ horsepower + I(horsepower^2), data = Auto))$coef
```







