Tên: Mai Huy

MSSV: 43.01.104.065

Số thứ tự: 08

# set.seed dùng để tái tạo những vector random giống nhau theo tương ứng với giá trị được đưa vào hàm seed
set.seed(1)
# Tạo một ma trận chứa 40 giá trị ngẫu nhiên , số lượng cột là 2 để tạo thành ma trận có kích thước 20x2 
x=matrix(rnorm(20*2) , ncol=2)
# Tạo một vector chứa 20 giá trị, 10 giá trị đầu là -1, 10 giá trị sau là 1
y=c(rep(-1,10), rep(1,10))
# Tăng giá trị của 10 dòng sau của ma trận X lên 1 ứng với giá trị vector y = 1
x[y==1,] = x[y==1 ,]+1
# Hiển thị biểu đồ phân tán để xem những quan sát được tạo trong x và y có độc lập tuyến tính hay không
plot(x, col=(3-y))

# Tạo một dữ liệu từ x và y ở trên, với y đã được chuyển thành thuộc tính factor
dat=data.frame(x=x, y=as.factor(y))
# Load thư viện e1071
library(e1071)
# Tạo mô hình SVM từ tập data được tạo
svmfit = svm(y~., data=dat, kernel="linear", cost=10,scale=FALSE)
svmfit

Call:
svm(formula = y ~ ., data = dat, kernel = "linear", cost = 10, scale = FALSE)


Parameters:
   SVM-Type:  C-classification 
 SVM-Kernel:  linear 
       cost:  10 

Number of Support Vectors:  7

số lượng điểm nằm trên 2 đường biên của 2 phân lớp là 7, tham số cost = 10, SVM-kernel dạng tuyến tính, loại mô hình SVM là classification, Scale = true để mô hình không chia tỉ lệ mỗi feature và có giá trị trung bình = 0, độ lệch chuẩn = 1

# Hiển thị biểu đồ biểu diễn dữ liệu với x1 và x2 lần lượt trục tung và trục tung, bên trong đồ thị các điểm quan sát đã được phân lớp thông qua mô hình SVM, mmàu đỏ thuộc về y=1, màu vàng thuộc về y = -1
plot(svmfit, dat)

# Hiển thị những điểm support vector
svmfit$index
[1]  1  2  5  7 14 16 17
# Phân tích mô hình SVM vừa được tạo
summary(svmfit)

Call:
svm(formula = y ~ ., data = dat, kernel = "linear", cost = 10, scale = FALSE)


Parameters:
   SVM-Type:  C-classification 
 SVM-Kernel:  linear 
       cost:  10 

Number of Support Vectors:  7

 ( 4 3 )


Number of Classes:  2 

Levels: 
 -1 1
# Tạo mô hình SVM với y là đầu ra và đầu vào là x, kernel là dạng linear, tham số cost = 0.1, mô hình không chia tỉ lệ các đặc trưng
svmfit = svm(y~., data=dat,kernel="linear", cost=0.1,scale=FALSE)
# Hiển thị biểu đồ biểu diễn dữ liệu với x1 và x2 lần lượt trục tung và trục tung, bên trong đồ thị các điểm quan sát đã được phân lớp thông qua mô hình SVM, mmàu đỏ thuộc về y=1, màu vàng thuộc về y = -1
plot(svmfit, dat)

# Hiển thị những điểm support vector
svmfit$index
 [1]  1  2  3  4  5  7  9 10 12 13 14 15 16 17 18 20

Ta thấy rằng với tham số cost nhỏ hơn, mô hình SVM có nhiều điểm support vector hơn do độ rộng margin đã được gia tăng

# set.seed dùng để tái tạo những vector random giống nhau theo tương ứng với giá trị được đưa vào hàm seed
set.seed (1)
# Hàm tune dùng để thử nghiệm từng tham số cost có giá trị khác nhau cho mô hình SVM tương tự ở trên
tune.out=tune(svm ,y∼.,data=dat ,kernel ="linear", ranges=list(cost=c(0.001, 0.01, 0.1, 1,5,10,100) ))
# Phân tích kết quả sau khi thử nghiệm các giá trị cost khác nhau 
summary(tune.out)

Parameter tuning of ‘svm’:

- sampling method: 10-fold cross validation 

- best parameters:

- best performance: 0.05 

- Detailed performance results:
NA
# bestmod trả về mô hình với giá trị cost là tốt nhất
bestmod=tune.out$best.model
# Phân tích mô hình SVM tối ưu nhất
summary(bestmod)

Call:
best.tune(method = svm, train.x = y ~ ., data = dat, ranges = list(cost = c(0.001, 0.01, 0.1, 1, 5, 10, 
    100)), kernel = "linear")


Parameters:
   SVM-Type:  C-classification 
 SVM-Kernel:  linear 
       cost:  0.1 

Number of Support Vectors:  16

 ( 8 8 )


Number of Classes:  2 

Levels: 
 -1 1
# Tạo một ma trận chứa 40 giá trị ngẫu nhiên , số lượng cột là 2 để tạo thành ma trận có kích thước 20x2
xtest=matrix(rnorm(20*2) , ncol=2)
# Tạo một vector chứa 20 giá trị, 10 giá trị đầu là -1, 10 giá trị sau là 1
ytest=sample(c(-1,1), 20, rep=TRUE)

Tạo một bộ test cho mô hình

# Tăng giá trị của 10 dòng sau của ma trận X lên 1 ứng với giá trị vector y = 1
xtest[ytest==1,]=xtest[ytest==1,] + 1
# Tạo một dữ liệu từ xtest và ytest ở trên, với ytest đã được chuyển thành thuộc tính factor
testdat=data.frame(x=xtest, y=as.factor(ytest))
# Tiến hành đưa ra dự đoán trên tập testdat dựa trên mô hình tốt nhất với giá trị cost = 0.1
ypred=predict(bestmod,testdat)
# Dùng hàm table() để tạo ra một ma trận để quyết định xem có bao nhiêu quan sát được phân loại đúng, bao nhiêu bị phân loại sai
table(predict =ypred, truth=testdat$y)
       truth
predict -1 1
     -1  9 1
     1   2 8

Tỉ lệ số lượng quan sát được phân loại đúng trong tập test là : (8+9)/20 = 0.85

=> Tỉ lệ phân loại sai là khoảng 15%

# Tạo mô hình SVM với y là đầu ra và đầu vào là x, kernel là dạng linear, tham số cost = 0.01, mô hình không chia tỉ lệ các đặc trưng
svmfit = svm(y~., data=dat, kernel="linear", cost=.01,scale=FALSE)
# Tiến hành đưa ra dự đoán trên tập testdat dựa trên mô hình với giá trị cost = 0.01
ypred=predict(svmfit,testdat)
# Dùng hàm table() để tạo ra một ma trận để quyết định xem có bao nhiêu quan sát được phân loại đúng, bao nhiêu bị phân loại sai
table(predict =ypred, truth=testdat$y)
       truth
predict -1  1
     -1 11  6
     1   0  3

Tỉ lệ số lượng quan sát được phân loại đúng trong tập test là : (11+3)/20 = 0.7

=> Tỉ lệ phân loại sai là khoảng 30%, cao hơn so với mô hình trước

# Tăng giá trị của 10 dòng sau của ma trận X lên 0.5 ứng với giá trị vector y = 1
x[y==1,] = x[y == 1 ,]+0.5

VỚi x và y hoàn toàn khác biệt tuyến tính

# Hiển thị biểu đồ cho x và y đã được thay đổi giá trị
plot(x, col=(y+5)/2, pch=19)

# Tạo một dữ liệu từ x và y ở trên, với y đã được chuyển thành thuộc tính factor
dat = data.frame(x=x,y=as.factor(y))
# Tạo mô hình SVM với y là đầu ra và đầu vào là x, kernel là dạng linear, tham số cost = 1e5 rất lớn để cho không quan sát nào bị phân loại sai
svmfit=svm(y~., data=dat, kernel="linear", cost=1e5)
# Phân tích mô hình SVM ở trên
summary(svmfit)

Call:
svm(formula = y ~ ., data = dat, kernel = "linear", cost = 1e+05)


Parameters:
   SVM-Type:  C-classification 
 SVM-Kernel:  linear 
       cost:  1e+05 

Number of Support Vectors:  3

 ( 1 2 )


Number of Classes:  2 

Levels: 
 -1 1
# Tạo mô hình SVM với y là đầu ra và đầu vào là x, kernel là dạng linear, điều chỉnh tham số cost nhỏ lại = 1
svmfit=svm(y~., data=dat, kernel = "linear", cost = 1)
# Phân tích mô hình SVM ở trên
summary(svmfit)

Call:
svm(formula = y ~ ., data = dat, kernel = "linear", cost = 1)


Parameters:
   SVM-Type:  C-classification 
 SVM-Kernel:  linear 
       cost:  1 

Number of Support Vectors:  7

 ( 4 3 )


Number of Classes:  2 

Levels: 
 -1 1
# Hiển thị biểu đồ biểu diễn dữ liệu với x1 và x2 lần lượt trục tung và trục tung, bên trong đồ thị các điểm quan sát đã được phân lớp thông qua mô hình SVM, mmàu đỏ thuộc về y=1, màu vàng thuộc về y = -1
plot(svmfit,dat)

---
title: "Support Vector Machine"
output: html_notebook
---


### Tên: Mai Huy
### MSSV: 43.01.104.065
### Số thứ tự: 08

```{r}
# set.seed dùng để tái tạo những vector random giống nhau theo tương ứng với giá trị được đưa vào hàm seed
set.seed(1)
# Tạo một ma trận chứa 40 giá trị ngẫu nhiên , số lượng cột là 2 để tạo thành ma trận có kích thước 20x2 
x=matrix(rnorm(20*2) , ncol=2)
# Tạo một vector chứa 20 giá trị, 10 giá trị đầu là -1, 10 giá trị sau là 1
y=c(rep(-1,10), rep(1,10))
```

```{r}
# Tăng giá trị của 10 dòng sau của ma trận X lên 1 ứng với giá trị vector y = 1
x[y==1,] = x[y==1 ,]+1
# Hiển thị biểu đồ phân tán để xem những quan sát được tạo trong x và y có độc lập tuyến tính hay không
plot(x, col=(3-y))
```




```{r}
# Tạo một dữ liệu từ x và y ở trên, với y đã được chuyển thành thuộc tính factor
dat=data.frame(x=x, y=as.factor(y))
```

```{r}
# Load thư viện e1071
library(e1071)
```

```{r}
# Tạo mô hình SVM từ tập data được tạo
svmfit = svm(y~., data=dat, kernel="linear", cost=10,scale=FALSE)
svmfit

```

số lượng điểm nằm trên 2 đường biên của 2 phân lớp là 7, tham số cost = 10, SVM-kernel dạng tuyến tính, loại mô hình SVM là classification, Scale = true để mô hình không chia tỉ lệ mỗi feature và có giá trị trung bình = 0, độ lệch chuẩn = 1 


```{r}
# Hiển thị biểu đồ biểu diễn dữ liệu với x1 và x2 lần lượt trục tung và trục tung, bên trong đồ thị các điểm quan sát đã được phân lớp thông qua mô hình SVM, mmàu đỏ thuộc về y=1, màu vàng thuộc về y = -1
plot(svmfit, dat)
```


```{r}
# Hiển thị những điểm support vector
svmfit$index
```

```{r}
# Phân tích mô hình SVM vừa được tạo
summary(svmfit)
```

- Mô hình ở dạng Classification
- Kernel ở dạng tuyến tính
- Tham số cost = 10
- Số lượng điểm nằm trên 2 đường biên là 7, 4 cho lớp 1 và 3 cho lớp 2
- Số lượng phân lớp : 2
- Giá trị 2 lớp là -1 và 1

```{r}
# Tạo mô hình SVM với y là đầu ra và đầu vào là x, kernel là dạng linear, tham số cost = 0.1, mô hình không chia tỉ lệ các đặc trưng
svmfit = svm(y~., data=dat,kernel="linear", cost=0.1,scale=FALSE)
```

```{r}
# Hiển thị biểu đồ biểu diễn dữ liệu với x1 và x2 lần lượt trục tung và trục tung, bên trong đồ thị các điểm quan sát đã được phân lớp thông qua mô hình SVM, mmàu đỏ thuộc về y=1, màu vàng thuộc về y = -1
plot(svmfit, dat)
```

```{r}
# Hiển thị những điểm support vector
svmfit$index
```

Ta thấy rằng với tham số cost nhỏ hơn, mô hình SVM có nhiều điểm support vector hơn do độ rộng margin đã được gia tăng

```{r}
# set.seed dùng để tái tạo những vector random giống nhau theo tương ứng với giá trị được đưa vào hàm seed
set.seed (1)
# Hàm tune dùng để thử nghiệm từng tham số cost có giá trị khác nhau cho mô hình SVM tương tự ở trên
tune.out=tune(svm ,y∼.,data=dat ,kernel ="linear", ranges=list(cost=c(0.001, 0.01, 0.1, 1,5,10,100) ))
```

```{r}
# Phân tích kết quả sau khi thử nghiệm các giá trị cost khác nhau 
summary(tune.out)

```

- Phương thức lấy mẫu để thử nghiệm : 10-fold cross validation
- Với giá trị tham số cost = 0.1 mô hình cho ra được sai số lỗi trên tập cross-validation là nhỏ nhất (0.05)
- Hàm summary cũng cho biết giá trị sai số lỗi trên tập cross-validation ứng với mỗi giá trị cos cũng như giá trị phân tán của nó

```{r}
# bestmod trả về mô hình với giá trị cost là tốt nhất
bestmod=tune.out$best.model
# Phân tích mô hình SVM tối ưu nhất
summary(bestmod)
```

- Mô hình ở dạng Classification
- Kernel ở dạng tuyến tính
- Tham số cost = 0.1
- Số lượng điểm nằm trên 2 đường biên là 16, 8 cho lớp 1 và 8 cho lớp 2
- Số lượng phân lớp : 2
- Giá trị 2 lớp là -1 và 1

```{r}
# Tạo một ma trận chứa 40 giá trị ngẫu nhiên , số lượng cột là 2 để tạo thành ma trận có kích thước 20x2
xtest=matrix(rnorm(20*2) , ncol=2)
# Tạo một vector chứa 20 giá trị, 10 giá trị đầu là -1, 10 giá trị sau là 1
ytest=sample(c(-1,1), 20, rep=TRUE)
```

Tạo một bộ test cho mô hình

```{r}
# Tăng giá trị của 10 dòng sau của ma trận X lên 1 ứng với giá trị vector y = 1
xtest[ytest==1,]=xtest[ytest==1,] + 1
# Tạo một dữ liệu từ xtest và ytest ở trên, với ytest đã được chuyển thành thuộc tính factor
testdat=data.frame(x=xtest, y=as.factor(ytest))
```

```{r}
# Tiến hành đưa ra dự đoán trên tập testdat dựa trên mô hình tốt nhất với giá trị cost = 0.1
ypred=predict(bestmod,testdat)
# Dùng hàm table() để tạo ra một ma trận để quyết định xem có bao nhiêu quan sát được phân loại đúng, bao nhiêu bị phân loại sai
table(predict =ypred, truth=testdat$y)
```

Tỉ lệ số lượng quan sát được phân loại đúng trong tập test là : (8+9)/20 = 0.85

=> Tỉ lệ phân loại sai là khoảng 15%

```{r}
# Tạo mô hình SVM với y là đầu ra và đầu vào là x, kernel là dạng linear, tham số cost = 0.01, mô hình không chia tỉ lệ các đặc trưng
svmfit = svm(y~., data=dat, kernel="linear", cost=.01,scale=FALSE)
# Tiến hành đưa ra dự đoán trên tập testdat dựa trên mô hình với giá trị cost = 0.01
ypred=predict(svmfit,testdat)
# Dùng hàm table() để tạo ra một ma trận để quyết định xem có bao nhiêu quan sát được phân loại đúng, bao nhiêu bị phân loại sai
table(predict =ypred, truth=testdat$y)
```

Tỉ lệ số lượng quan sát được phân loại đúng trong tập test là : (11+3)/20 = 0.7

=> Tỉ lệ phân loại sai là khoảng 30%, cao hơn so với mô hình trước

```{r}
# Tăng giá trị của 10 dòng sau của ma trận X lên 0.5 ứng với giá trị vector y = 1
x[y==1,] = x[y == 1 ,]+0.5
```

VỚi x và y hoàn toàn khác biệt tuyến tính

```{r}
# Hiển thị biểu đồ cho x và y đã được thay đổi giá trị
plot(x, col=(y+5)/2, pch=19)
```

```{r}
# Tạo một dữ liệu từ x và y ở trên, với y đã được chuyển thành thuộc tính factor
dat = data.frame(x=x,y=as.factor(y))
# Tạo mô hình SVM với y là đầu ra và đầu vào là x, kernel là dạng linear, tham số cost = 1e5 rất lớn để cho không quan sát nào bị phân loại sai
svmfit=svm(y~., data=dat, kernel="linear", cost=1e5)
# Phân tích mô hình SVM ở trên
summary(svmfit)
```

- Mô hình ở dạng Classification
- Kernel ở dạng tuyến tính
- Tham số cost =  1e+05 
- Số lượng điểm nằm trên 2 đường biên chỉ là 3, 1 cho lớp 1 và 2 cho lớp 2, margin của mô hình rất hẹp
- Số lượng phân lớp : 2
- Giá trị 2 lớp là -1 và 1


```{r}
# Tạo mô hình SVM với y là đầu ra và đầu vào là x, kernel là dạng linear, điều chỉnh tham số cost nhỏ lại = 1
svmfit=svm(y~., data=dat, kernel = "linear", cost = 1)
# Phân tích mô hình SVM ở trên
summary(svmfit)
```

- Mô hình ở dạng Classification
- Kernel ở dạng tuyến tính
- Tham số cost =  1 
- Số lượng điểm nằm trên 2 đường biên là 7, 4 cho lớp 1 và 3 cho lớp 2, với cost = 1 thì mô hình có thể bị phân loại sai một vài điểm quan sát nhưng quan trọng là độ rộng margin sẽ lớn hơn, mô hình sẽ dự đoán tốt hơn trên tập test so với mô hình trên
- Số lượng phân lớp : 2
- Giá trị 2 lớp là -1 và 1

```{r}
# Hiển thị biểu đồ biểu diễn dữ liệu với x1 và x2 lần lượt trục tung và trục tung, bên trong đồ thị các điểm quan sát đã được phân lớp thông qua mô hình SVM, mmàu đỏ thuộc về y=1, màu vàng thuộc về y = -1
plot(svmfit,dat)
```

