9.6.1 Support Vector Classifier

La libreria e1071 contiene muchos de modelos estadisticos y uno de ellos es svm() que vamos a utilizar para realizar un modelo maquina de vectores de soporte sin olvidar el parametro kernel=“linear”, también tenemos el parámetro cost que cuando es bajo nos permite ajustar mas vectores y cuando es muy alto permine menos vectores.

Generemos los datos para demostrar el uso de cost y comprobemos si son linealmente separables.

set.seed (1)
x = matrix (rnorm (20 * 2) , ncol = 2)
y = c(rep (-1, 10) , rep (1 , 10))
x[y == 1 , ] = x[y == 1, ] + 1
plot(x, col = (3 - y))

Vemos que no lo son. Ahora ajustaremos el modelo, notemos que para hacer la clasificación debemos codificar como factor la respuesta.

dat = data.frame(x = x, y = as.factor (y))
library (e1071)
svmfit = svm(
  y~.,
  data = dat ,
  kernel ="linear",
  cost = 10,
  scale = FALSE
)

el parmetro scale=FALSE indica que no se se haga la escala de cada variable hasta llegar a cero o la primer desviacion estandar

plot(svmfit , dat)

Lo que se encuentra en celeste sera asignado a -1 y lo lila sera asignado a 1, la frontera de decision entre las 2 clases es lineal por el parametro kernel que utilizamos. Los vectores son las x y podemos verlos con

svmfit$index
[1]  1  2  5  7 14 16 17

podemos obtener mas informacion sobre el modelo asi

summary (svmfit )

Call:
svm(formula = y ~ ., data = dat, kernel = "linear", cost = 10, scale = FALSE)


Parameters:
   SVM-Type:  C-classification 
 SVM-Kernel:  linear 
       cost:  10 

Number of Support Vectors:  7

 ( 4 3 )


Number of Classes:  2 

Levels: 
 -1 1

Ahora veamos que sucede al utilizar un cost mas alto

svmfit = svm(
  y~.,
  data = dat ,
  kernel ="linear",
  cost = 0.1,
  scale = FALSE
)
plot(svmfit , dat)

svmfit$index
 [1]  1  2  3  4  5  7  9 10 12 13 14 15 16 17 18 20

esta libreria tambien cuenta con la funcion tune() para realizar k-fold CV que por defecto toma k=10. A continuacion de como cofigurarlo utilizando distintos valores en cost.

set.seed (1)
tune.out = tune(svm ,
                y~.,
                data = dat ,
                kernel ="linear",
                ranges = list(cost = c(0.001 , 0.01, 0.1, 1, 5, 10, 100)))

y con summary() podemos consultar los errores de validacion cruzada

summary (tune.out)

Parameter tuning of ‘svm’:

- sampling method: 10-fold cross validation 

- best parameters:

- best performance: 0.1 

- Detailed performance results:
NA

vemos que cost = 0.1 es el mejor resultado y tune() por defecto lo almacena en best.model

bestmod =tune.out$best.model
summary (bestmod )

Call:
best.tune(method = svm, train.x = y ~ ., data = dat, ranges = list(cost = c(0.001, 
    0.01, 0.1, 1, 5, 10, 100)), kernel = "linear")


Parameters:
   SVM-Type:  C-classification 
 SVM-Kernel:  linear 
       cost:  0.1 

Number of Support Vectors:  16

 ( 8 8 )


Number of Classes:  2 

Levels: 
 -1 1

luego podemoos utilizar la funcion predict() para clasificar un set de datos de prueba y utilizaremos el mejor modelo segun la validacion cruzada

xtest=matrix (rnorm (20*2) , ncol =2)
ytest=sample (c(-1,1) , 20, rep=TRUE)
xtest[ytest ==1 ,]= xtest[ytest ==1,] + 1
testdat =data.frame (x=xtest , y=as.factor (ytest))

ypred=predict (bestmod ,testdat )
table(predict =ypred , truth= testdat$y )
       truth
predict -1  1
     -1 11  1
     1   0  8

con esto conseguimos 19 clasificaciones correctas pero que sucede si utilizamos cost=0.01

svmfit = svm(
  y~.,
  data = dat ,
  kernel ="linear",
  cost = .01,
  scale = FALSE
)
ypred = predict (svmfit , testdat)
table(predict = ypred , truth = testdat$y)
       truth
predict -1  1
     -1 11  2
     1   0  7

y vemos que tenemos un resultado correcto menos.

Ahora asumamos que las 2 clases son linealmente separables, configuremos nuestro set de datos y ajustemos el modelo con un valor cost muy alto

dat = data.frame(x = x, y = as.factor (y))
svmfit = svm(y~.,
             data = dat ,
             kernel ="linear",
             cost = 1e5)
summary (svmfit)

Call:
svm(formula = y ~ ., data = dat, kernel = "linear", cost = 1e+05)


Parameters:
   SVM-Type:  C-classification 
 SVM-Kernel:  linear 
       cost:  1e+05 

Number of Support Vectors:  7

 ( 4 3 )


Number of Classes:  2 

Levels: 
 -1 1
plot(svmfit , dat)

solo obtenemos 3 vectores de soporte porque en la figura vemos que las observaciones que no son vectores de soporte estan muy cerca de la frontera de decision, por ello asumimos que tendremos malos resultados si probamos un dataset de prueba.

Ahora configuremos un cost mas bajo

svmfit = svm(y~.,
             data = dat ,
             kernel ="linear",
             cost = 1)
summary (svmfit)

Call:
svm(formula = y ~ ., data = dat, kernel = "linear", cost = 1)


Parameters:
   SVM-Type:  C-classification 
 SVM-Kernel:  linear 
       cost:  1 

Number of Support Vectors:  11

 ( 6 5 )


Number of Classes:  2 

Levels: 
 -1 1
plot(svmfit , dat)

con cost=1 solo fallamos en una observacion y obtuvimos 7 vectores. Parece que este modelo tendra mejores resultados al hacer una comprobacion.

9.6.2 Support Vector Machine

Para un maquina de soporte de verctores no lineal utilizamos 2 nuevos parametros kernel=“polynomimal” y kernel=“radial”, tambien tenemos degree para indicar los grados de la forma polinomica y gamma para los kernel radiales.

set.seed (1)
x = matrix (rnorm (200 * 2) , ncol = 2)
x[1:100 , ] = x[1:100 , ] + 2
x[101:150 , ] = x[101:150 , ] - 2
y = c(rep (1 , 150) , rep (2 , 50))
dat = data.frame(x = x, y = as.factor (y))

al graficar vemos claramente que no es lineal la frontera

plot(x, col=y)

dividimos en train y test y ajustamos un melo radial con gamma=1

train = sample (200 , 100)
svmfit = svm(
  y~.,
  data = dat [train , ],
  kernel ="radial",
  gamma = 1,
  cost = 1
)
plot(svmfit , dat[train , ])


summary (svmfit)

Call:
svm(formula = y ~ ., data = dat[train, ], kernel = "radial", gamma = 1, cost = 1)


Parameters:
   SVM-Type:  C-classification 
 SVM-Kernel:  radial 
       cost:  1 

Number of Support Vectors:  37

 ( 17 20 )


Number of Classes:  2 

Levels: 
 1 2

en la grafica podemos ver que tenemos muchos errores de clasificacion, si aumentamos el costo podemos reducir errores pero esto viene a costas de una frontera mas irregular con la que corremos el riesgo de tener sobreajuste.

svmfit = svm(
  y~.,
  data = dat [train , ],
  kernel ="radial",
  gamma = 1,
  cost = 1e5
)
plot(svmfit , dat [train , ])

esto tambien lo podemos combinar con tune() para seleccionar la mejor combinacion de cost y gamma

set.seed (1)
tune.out = tune(
  svm ,
  y~.,
  data = dat[train , ],
  kernel ="radial",
  ranges = list(
    cost = c(0.1 , 1 , 10 , 100 , 1000),
    gamma = c(0.5, 1, 2, 3, 4)
  )
)
summary (tune.out)

Parameter tuning of ‘svm’:

- sampling method: 10-fold cross validation 

- best parameters:

- best performance: 0.12 

- Detailed performance results:
NA

los mejores resultados fueron con cost=1 y gamma=2, probemos con el set de prueba

table(true = dat[-train ,"y"],
      pred = predict (tune.out$best.model , newdata = dat[-train , ]))
    pred
true  1  2
   1 74  3
   2  7 16

tenemos un 10% de error.

9.6.3 ROC Curves

Utilizamos el paquete ROCR para para generar curvas ROC, primero creamos una funcion para graficar las curvas dado un vector con las observaciones. En una maquin a de soporte de vectores la clasificacion de la etiqueta se hace segun el signo del factor.

library (ROCR)
Loading required package: gplots

Attaching package: 㤼㸱gplots㤼㸲

The following object is masked from 㤼㸱package:stats㤼㸲:

    lowess
rocplot = function (pred , truth , ...) {
  predob = prediction (pred , truth)
  perf = performance (predob ,"tpr","fpr")
  plot(perf , ...)
}

svmfit.opt = svm(
  y~.,
  data = dat[train , ],
  kernel ="radial",
  gamma = 2,
  cost = 1,
  decision.values = T
)

fitted =attributes (predict (svmfit.opt ,dat[train ,], decision.values =TRUE))$decision.values

ahora graficamos el ROC

# par(mfrow =c(1,2))
# rocplot (fitted ,dat[train,"y"], main="Training Data")

parece estar haciendo un prediccion decente pero podemos aumentar gamma para mejorar los resultados

svmfit.flex = svm (
  y~.,
  data = dat[train , ],
  kernel ="radial",
  gamma = 50,
  cost = 1,
  decision.values = T
)
fitted = attributes (predict (svmfit.flex , dat[train , ], decision.values =
                                T))$decision.values 
# rocplot(fitted , dat [train ,"y"], add = T, col ="red")

luego probamo el modelo con set de prueba el modelo con gamma=2 parece dar los mejores resultados

fitted = attributes (predict (svmfit.opt , dat[-train , ], decision.values =
                                T))$decision.values
# rocplot (fitted , dat [-train ,"y"], main ="Test Data")
fitted = attributes (predict (svmfit.flex , dat[-train , ], decision.values =
                                T))$decision.values

str(fitted)
 num [1:100, 1] -0.946 -0.505 -0.968 -0.726 -0.589 ...
 - attr(*, "dimnames")=List of 2
  ..$ : chr [1:100] "12" "14" "15" "16" ...
  ..$ : chr "2/1"
# rocplot (fitted , dat [-train ,"y"], add = T, col ="red")

SVM with Multiple Classes

Si la respuesta que buscamos es un factor con mas de 2 valores svm() realizará una clasificación multiclase

set.seed (1)
x = rbind(x, matrix (rnorm (50 * 2) , ncol = 2))
y = c(y, rep (0 , 50))
x[y == 0 , 2] = x[y == 0 , 2] + 2
dat = data.frame(x = x, y = as.factor (y))
par(mfrow = c(1, 1))
plot(x, col = (y + 1))


svmfit = svm(
  y~.,
  data = dat ,
  kernel ="radial",
  cost = 10,
  gamma = 1
)
plot(svmfit , dat)

la funcion svm() tambien puede hacer maquinas de soporte de vectores de regresion si la variable es un numerica y no un factor.

9.6.5 Application to Gene Expression Data

usaremos el set de datos Khan acerca de 4 tejidos cancerigenos.

library (ISLR)
names(Khan)
[1] "xtrain" "xtest"  "ytrain" "ytest" 
dim(Khan$xtrain)
[1]   63 2308
dim(Khan$xtest)
[1]   20 2308
dim(Khan$ytrain)
NULL
dim(Khan$ytest)
NULL
table(Khan$ytrain )

 1  2  3  4 
 8 23 12 20 
table(Khan$ytest )

1 2 3 4 
3 6 6 5 

usaremos un modelo lineal por la gran cantidad de observaciones que tenemos


dat=data.frame(x=Khan$xtrain , y=as.factor( Khan$ytrain ))
out=svm(y~., data=dat , kernel ="linear",cost =10)
summary (out)

Call:
svm(formula = y ~ ., data = dat, kernel = "linear", cost = 10)


Parameters:
   SVM-Type:  C-classification 
 SVM-Kernel:  linear 
       cost:  10 

Number of Support Vectors:  58

 ( 20 20 11 7 )


Number of Classes:  4 

Levels: 
 1 2 3 4
table(out$fitted , dat$y)
   
     1  2  3  4
  1  8  0  0  0
  2  0 23  0  0
  3  0  0 12  0
  4  0  0  0 20

###libera memoria

gc()
          used  (Mb) gc trigger  (Mb) max used  (Mb)
Ncells 2012002 107.5    3422272 182.8  3422272 182.8
Vcells 5298944  40.5   18104948 138.2 19805804 151.2
---
title: 'ISLR - Lab 9.6: Support Vector Machines'
output:
  html_notebook: default
  html_document:
    df_print: paged
  pdf_document: default
---

### 9.6.1 Support Vector Classifier

La libreria *e1071* contiene muchos de modelos estadisticos y uno de ellos es *svm()* que vamos a utilizar para realizar un modelo *maquina de vectores de soporte* sin olvidar el parametro *kernel="linear"*, también tenemos el parámetro *cost* que cuando es bajo nos permite ajustar mas vectores y cuando es muy alto permine menos vectores.

Generemos los datos para demostrar el uso de *cost* y comprobemos si son linealmente separables.

```{r}
set.seed (1)
x = matrix (rnorm (20 * 2) , ncol = 2)
y = c(rep (-1, 10) , rep (1 , 10))
x[y == 1 , ] = x[y == 1, ] + 1
plot(x, col = (3 - y))

```

Vemos que no lo son. Ahora ajustaremos el modelo, notemos que para hacer la clasificación debemos codificar como factor la respuesta.

```{r}
dat = data.frame(x = x, y = as.factor (y))
library (e1071)
svmfit = svm(
  y~.,
  data = dat ,
  kernel ="linear",
  cost = 10,
  scale = FALSE
)
```

el parmetro *scale=FALSE* indica que no se se haga la escala de cada variable hasta llegar a cero o la primer desviacion estandar

```{r}
plot(svmfit , dat)
```

Lo que se encuentra en celeste sera asignado a -1 y lo lila sera asignado a 1, la frontera de decision entre las 2 clases es lineal por el parametro *kernel* que utilizamos. Los vectores son las x y podemos verlos con 

```{r}
svmfit$index
```

podemos obtener mas informacion sobre el modelo asi

```{r}
summary (svmfit )
```

Ahora veamos que sucede al utilizar un *cost* mas alto

```{r}
svmfit = svm(
  y~.,
  data = dat ,
  kernel ="linear",
  cost = 0.1,
  scale = FALSE
)
plot(svmfit , dat)
svmfit$index
```

esta libreria tambien cuenta con la funcion *tune()* para realizar *k-fold CV* que por defecto toma *k=10*. A continuacion de como cofigurarlo utilizando distintos valores en *cost*.

```{r}
set.seed (1)
tune.out = tune(svm ,
                y~.,
                data = dat ,
                kernel ="linear",
                ranges = list(cost = c(0.001 , 0.01, 0.1, 1, 5, 10, 100)))
```

y con *summary()* podemos consultar los errores de validacion cruzada

```{r}
summary (tune.out)
```

vemos que cost = 0.1  es el mejor resultado y *tune()* por defecto lo almacena en *best.model*

```{r}
bestmod =tune.out$best.model
summary (bestmod )
```

luego podemoos utilizar la funcion *predict()* para clasificar un set de datos de prueba y utilizaremos el mejor modelo segun la validacion cruzada

```{r}
xtest=matrix (rnorm (20*2) , ncol =2)
ytest=sample (c(-1,1) , 20, rep=TRUE)
xtest[ytest ==1 ,]= xtest[ytest ==1,] + 1
testdat =data.frame (x=xtest , y=as.factor (ytest))

ypred=predict (bestmod ,testdat )
table(predict =ypred , truth= testdat$y )
```

con esto conseguimos 19 clasificaciones correctas pero que sucede si utilizamos *cost=0.01*

```{r}
svmfit = svm(
  y~.,
  data = dat ,
  kernel ="linear",
  cost = .01,
  scale = FALSE
)
ypred = predict (svmfit , testdat)
table(predict = ypred , truth = testdat$y)
```

y vemos que tenemos un resultado correcto menos.

Ahora asumamos que las 2 clases son linealmente separables, configuremos nuestro set de datos y ajustemos el modelo con un valor *cost* muy alto

```{r}
dat = data.frame(x = x, y = as.factor (y))
svmfit = svm(y~.,
             data = dat ,
             kernel ="linear",
             cost = 1e5)
summary (svmfit)
plot(svmfit , dat)
```

solo obtenemos 3 vectores de soporte porque en la figura vemos que las observaciones que no son vectores de soporte estan muy cerca de la frontera de decision, por ello asumimos que tendremos malos resultados si probamos un dataset de prueba.

Ahora configuremos un *cost* mas bajo

```{r}
svmfit = svm(y~.,
             data = dat ,
             kernel ="linear",
             cost = 1)
summary (svmfit)
plot(svmfit , dat)
```

con *cost=1* solo fallamos en una observacion y obtuvimos 7 vectores. Parece que este modelo tendra mejores resultados al hacer una comprobacion.

### 9.6.2 Support Vector Machine

Para un maquina de soporte de verctores no lineal utilizamos 2 nuevos parametros *kernel="polynomimal"* y *kernel="radial"*, tambien tenemos *degree* para indicar los grados de la forma polinomica y *gamma* para los kernel radiales.

```{r}
set.seed (1)
x = matrix (rnorm (200 * 2) , ncol = 2)
x[1:100 , ] = x[1:100 , ] + 2
x[101:150 , ] = x[101:150 , ] - 2
y = c(rep (1 , 150) , rep (2 , 50))
dat = data.frame(x = x, y = as.factor (y))
```

al graficar vemos claramente que no es lineal la frontera

```{r}
plot(x, col=y)
```

dividimos en *train* y *test* y ajustamos un melo *radial* con *gamma=1* 

```{r}
train = sample (200 , 100)
svmfit = svm(
  y~.,
  data = dat [train , ],
  kernel ="radial",
  gamma = 1,
  cost = 1
)
plot(svmfit , dat[train , ])

summary (svmfit)
```

en la grafica podemos ver que tenemos muchos errores de clasificacion, si aumentamos el *costo* podemos reducir errores pero esto viene a costas de una frontera mas irregular con la que corremos el riesgo de tener sobreajuste.

```{r}
svmfit = svm(
  y~.,
  data = dat [train , ],
  kernel ="radial",
  gamma = 1,
  cost = 1e5
)
plot(svmfit , dat [train , ])
```

esto tambien lo podemos combinar con *tune()* para seleccionar la mejor combinacion de *cost* y *gamma*

```{r}
set.seed (1)
tune.out = tune(
  svm ,
  y~.,
  data = dat[train , ],
  kernel ="radial",
  ranges = list(
    cost = c(0.1 , 1 , 10 , 100 , 1000),
    gamma = c(0.5, 1, 2, 3, 4)
  )
)
summary (tune.out)
```

los mejores resultados fueron con *cost=1* y *gamma=2*, probemos con el set de prueba

```{r}
table(true = dat[-train ,"y"],
      pred = predict (tune.out$best.model , newdata = dat[-train , ]))
```

tenemos un 10% de error.

### 9.6.3 ROC Curves

Utilizamos el paquete ROCR para para generar curvas ROC, primero creamos una funcion para graficar las curvas dado un vector con las observaciones.  En una maquin a de soporte de vectores la clasificacion de la etiqueta se hace segun el signo del factor.

```{r}
library (ROCR)
rocplot = function (pred , truth , ...) {
  predob = prediction (pred , truth)
  perf = performance (predob ,"tpr","fpr")
  plot(perf , ...)
}

svmfit.opt = svm(
  y~.,
  data = dat[train , ],
  kernel ="radial",
  gamma = 2,
  cost = 1,
  decision.values = T
)

fitted =attributes (predict (svmfit.opt ,dat[train ,], decision.values =TRUE))$decision.values
```

ahora graficamos el ROC

```{r}
# par(mfrow =c(1,2))
# rocplot (fitted ,dat[train,"y"], main="Training Data")
```

parece estar haciendo un prediccion decente pero podemos aumentar *gamma* para mejorar los resultados

```{r}
svmfit.flex = svm (
  y~.,
  data = dat[train , ],
  kernel ="radial",
  gamma = 50,
  cost = 1,
  decision.values = T
)
fitted = attributes (predict (svmfit.flex , dat[train , ], decision.values =
                                T))$decision.values 
# rocplot(fitted , dat [train ,"y"], add = T, col ="red")

```

luego probamo el modelo con set de prueba el modelo con *gamma=2* parece dar los mejores resultados

```{r}
fitted = attributes (predict (svmfit.opt , dat[-train , ], decision.values =
                                T))$decision.values
# rocplot (fitted , dat [-train ,"y"], main ="Test Data")
fitted = attributes (predict (svmfit.flex , dat[-train , ], decision.values =
                                T))$decision.values

str(fitted)
# rocplot (fitted , dat [-train ,"y"], add = T, col ="red")
```

### SVM with Multiple Classes

Si la respuesta que buscamos es un factor con mas de 2 valores *svm()* realizará una clasificación multiclase

```{r}
set.seed (1)
x = rbind(x, matrix (rnorm (50 * 2) , ncol = 2))
y = c(y, rep (0 , 50))
x[y == 0 , 2] = x[y == 0 , 2] + 2
dat = data.frame(x = x, y = as.factor (y))
par(mfrow = c(1, 1))
plot(x, col = (y + 1))

svmfit = svm(
  y~.,
  data = dat ,
  kernel ="radial",
  cost = 10,
  gamma = 1
)
plot(svmfit , dat)
```

la funcion *svm()* tambien puede hacer maquinas de soporte de vectores de regresion si la variable es un numerica y no un factor.

### 9.6.5 Application to Gene Expression Data

usaremos el set de datos *Khan* acerca de 4 tejidos cancerigenos.

```{r}
library (ISLR)
names(Khan)

dim(Khan$xtrain)
dim(Khan$xtest)
dim(Khan$ytrain)
dim(Khan$ytest)

table(Khan$ytrain )
table(Khan$ytest )
```

usaremos un modelo lineal por la gran cantidad de observaciones que tenemos

```{r}

dat=data.frame(x=Khan$xtrain , y=as.factor( Khan$ytrain ))
out=svm(y~., data=dat , kernel ="linear",cost =10)
summary (out)

table(out$fitted , dat$y)
```

###libera memoria

```{r}
gc()
```

