목차


정형 데이터 마이닝

정형, 비정형 데이터의 정의

데이터마이닝

앞에서 언급 하였듯 데이터마이닝은 거대한 양의 데이터 속에 쉽게 드러나지 않는 통계적 규칙이나 패턴과 같은 유용한 정보를 찾아내는 과정이라 말할 수 있다. 데이터 내에 정보를 찾는 것이 주 목적

데이터마이닝의 종류

  • 분류 : 새롭게 나타나는 현상을 기존 정의된 집합에 배정하는 것을 의미
  • 추정 : 수입, 수준, 신용잔고처럼 연속된 변수의 값을 추정하는 것을 의미
  • 예측 : 미래의 값을 추정하거나 분류하는 것을 의미
  • 군집 : 이질적인 모집단을 동질성을 지닌 그룹별로 세분화 하는 것을 의미
  • 연관 : 같이 팔리는 물건들 사이의 연관성을 파악하는 분석

iris data 설명

iris 자료는 R에서 기본으로 제공하는 붓꽃에 대한 자료

변수

  • Sepal.Length : 꽃받침의 길이정보
  • Sepal.Width : 꽃받침의 너비정보
  • Petal.Length : 꽃잎의 길이정보
  • Petal.Width : 꽃잎의 너비정보
  • Species : 꽃의 종류(setosa, versicolor, virginica)

setosa와 versicolor를 분류하는 모형을 만들려고 한다. 이에 따라 필요한 데이터를 추출


data(iris)
data=iris
summary(data)
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width          Species  
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100   setosa    :50  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300   versicolor:50  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300   virginica :50  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199                  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800                  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500                  
boxplot(iris[,-5])

분류 모형

기존 자료에 대해 학습한 모형을 바탕으로 새롭게 나타나는 자료에 대하여 정의된 집합에 배정하는 것 모형을 의미한다.

데이터 정재 - 모형 생성 - 모형평가 및 모형비교 순으로 진행

로지스틱 회귀모형(logistic model)

로지스틱 회귀는 분석 대상들이 여러 집단으로 나누어진 경우, 독립 변수의 선형 결합을 이용하여 개별 관측치가 어느 집단에 속하는지 확률을 계산하는 분류 기법이다. 로지스틱이란 odds에 log를 취한 값으로 로지스틱 회귀모형은 아래와 같은 수식으로 나타난다.

\(\ln(\frac{P}{1-P})=a+bX\)

\(odds =\frac{어떤일이\ 일어날\ 확률}{어떤\ 일이\ 일어나지\ 않을\ 확률}\)

로지스틱회귀 모형을 사용하여 setosa와 versicolor를 분류

#데이터 추출
data<-subset(data,Species=="setosa"|Species=="versicolor")
data$Species<-factor(data$Species)
#모형생성
Species_glm<-glm(Species~.,data=data,family=binomial)
# Species_glm<-glm(Species~.,data=data,family=binomial)
# Species_glm<-glm(Species~.-Sepal.Length,data=data,family=binomial)
# Species_glm<-glm(Species~.+I(Sepal.Length^2),data=data,family=binomial)
#모형 요약
summary(Species_glm)

Call:
glm(formula = Species ~ ., family = binomial, data = data)

Deviance Residuals: 
       Min          1Q      Median          3Q         Max  
-1.681e-05  -2.110e-08   0.000e+00   2.110e-08   2.006e-05  

Coefficients:
               Estimate Std. Error z value Pr(>|z|)
(Intercept)       6.556 601950.324       0        1
Sepal.Length     -9.879 194223.245       0        1
Sepal.Width      -7.418  92924.451       0        1
Petal.Length     19.054 144515.981       0        1
Petal.Width      25.033 216058.936       0        1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1.3863e+02  on 99  degrees of freedom
Residual deviance: 1.3166e-09  on 95  degrees of freedom
AIC: 10

Number of Fisher Scoring iterations: 25

모형의 성능평가(holdout cross validation)

모형의 성능을 평가하기 위해 데이터를 특정비율로 나누어 train 데이터만을 사용하여 모형을 학습시키고 test데이터로 이를 검증하는 방법을 cross validation이라고 한다. cross validation을 통해 모형의 성능을 비교가능 하다.

cross validation에는 holdout cross validation, k-fold cross validation, leave one out cross validation 등이 있다.

data2=data
set.seed(1)
idx=sample(1:nrow(data2),nrow(data2)*0.7)
train=data2[idx,]
test=data2[-idx,]

Species_glm<-glm(Species~.,data=train,family=binomial)
#test데이터를 Species_glm 모형으로 분류
pred=predict(Species_glm,test,type='response')

class=as.factor(round(pred))
levels(class)=c('setosa','versicolor')

table(class,test$Species)
            
class        setosa versicolor
  setosa         11          0
  versicolor      0         19

위와 같은 표를 정오분류 표라고 한다.

  • True Positive(TP) : 실제 True인 정답을 True라고 예측 (정답)
  • False Positive(FP) : 실제 False인 정답을 True라고 예측 (오답)
  • False Negative(FN) : 실제 True인 정답을 False라고 예측 (오답)
  • True Negative(TN) : 실제 False인 정답을 False라고 예측 (정답)

모형 평가 지표

  • 정밀도(Precision) : True라고 분류한 것 중에서 실제 True인 것의 비율 \(\frac{TP}{TP+FP}\)

  • 재현율(Recall) : 실제 True인 것 중에서 모델이 True라고 예측한 것의 비율.민감도(sensitivity)라고 표현하기도 한다. \(\frac{TP}{TP+FN}\)

  • 특이도(Specificity) : 실제 False인 것 중에서 False라고 예측한 것의 비율. \(\frac{TN}{TN+FP}\)

  • ROC(Receiver Operating Characteristics) : x축은 1-특이도, y축은 민감도를 나타낸 그래프로 이 그래프의 아랫 면적을 AUC(Area Under the ROC Curve)라 한다.

  • 정확도(Accuracy) : 제대로 예측한 것의 비율 \(\frac{TP+TN}{TP+TN+FP+FN}\)

  • F1 score : 정밀도와 재현율의 조화평균 \(F1\ score = 2 \times \frac{1}{1/재현율+1/정밀도}\)

일반적으로 정확도를 사용해 모형의 성능을 평가하며, 모형이 만일 편향된 예측을 하는 경우 재현율보다 정밀도가 중요해진다. 하지만 정확도는 이를 고려할 수 없다. 이에 자료가 불균형 구조를 띌 때에는 F1 score를 모형평가에 사용한다. 이 경우 정확도를 사용하게되면 편향을 고려할 수 없다.

의사결정나무(dicision Tree)

영역을 나누는 것의 기준은 분류모델을 기준으로 불순도(impurity)/불확실성(uncertainty)이 최소가 될 수 있도록하는 방향으로 진행된다. 순도나 불확실성의 증감을 두고 정보획득(information gain)으로 표현하기도 함.

library(rpart)
data2=iris
set.seed(1)
idx=sample(1:nrow(data2),nrow(data2)*0.7)
train=data2[idx,]
test=data2[-idx,]

Species_tree<-rpart(Species~.,data=train)
pred=predict(Species_tree,test,type='class')
table(pred,test$Species)
            
pred         setosa versicolor virginica
  setosa         15          0         0
  versicolor      0         13         3
  virginica       0          0        14

의사결정트리 시각화

library(rattle)
fancyRpartPlot(Species_tree)

서포트 벡터 머신(support vector machine)

가장 가까운 각 변수의 데이터 점들 간의 거리를 최대로 하는 초평면을 선택해 분류하는 기법

library(e1071)
data2=iris
set.seed(1)
idx=sample(1:nrow(data2),nrow(data2)*0.7)
train=data2[idx,]
test=data2[-idx,]

Species_svm<-svm(Species~.,data=train)
pred=predict(Species_svm,test,type='class')
table(pred,test$Species)
            
pred         setosa versicolor virginica
  setosa         15          0         0
  versicolor      0         13         2
  virginica       0          0        15

naiveBayes

베이즈정리를 기반으로 만들어젔으며, 확률적으로 독립이라는 가정을 요구한다. 적은 데이터에 대하여도 우수한 성능을 보여준다.

library(e1071)
data2=iris
set.seed(1)
idx=sample(1:nrow(data2),nrow(data2)*0.7)
train=data2[idx,]
test=data2[-idx,]

Species_nb<-naiveBayes(Species~.,data=train)
pred=predict(Species_nb,test,type='class')
table(pred,test$Species)
            
pred         setosa versicolor virginica
  setosa         15          0         0
  versicolor      0         13         2
  virginica       0          0        15

앙상블 모형(angsangble)

여러 개의 분류 모형의 결과를 종합하여 분류의 정확도를 높이는 방법

배깅(bootstrap aggregating) : 복원추출을 통해 각각의 모형을 생성하고 그 결과를 종합하는 방법. 부스팅(boosting) : 앞의 모델에서 오분류된 데이터에 대하여 가중치를 주어 표본을 추출하여 모형을 생성하는 작업을 반복하는 방법

트리기반 모델들이므로 control 옵션을 통해 조절 가능하다.

ex)

my.control<-rpart.control(xval=0,cp=0,maxdepth=1)

bagging(Species~.,data=train,control=my.control)

library(adabag)
data2=iris
set.seed(1)
idx=sample(1:nrow(data2),nrow(data2)*0.7)
train=data2[idx,]
test=data2[-idx,]

Species_bagging<-bagging(Species~.,data=train)
importanceplot(Species_bagging,cex.name=0.8,horiz=TRUE)

pred=predict(Species_bagging,test)
table(pred$class,test$Species)
            
             setosa versicolor virginica
  setosa         15          0         0
  versicolor      0         13         3
  virginica       0          0        14
library(adabag)
data2=iris
set.seed(1)
idx=sample(1:nrow(data2),nrow(data2)*0.7)
train=data2[idx,]
test=data2[-idx,]

Species_boosting<-boosting(Species~.,data=train)
importanceplot(Species_boosting,cex.name=0.8,horiz=TRUE)

pred=predict(Species_boosting,test)
table(pred$class,test$Species)
            
             setosa versicolor virginica
  setosa         15          0         0
  versicolor      0         13         2
  virginica       0          0        15

Random forest

randomforest는 의사결정나무의 앙상블 모형으로 다수의 의사결정나무의 분류 중 최고로 많이 분류된 기준을 분류 예측값으로 제시하며, 회귀의 경우 의사결정나무의 예측값의 평균을 예측값으로 사용.

library(randomForest)
data2=iris
set.seed(1)
idx=sample(1:nrow(data2),nrow(data2)*0.7)
train=data2[idx,]
test=data2[-idx,]

Species_rf<-randomForest(Species~.,data=train)
pred=predict(Species_rf,test,type='class')
table(pred,test$Species)
            
pred         setosa versicolor virginica
  setosa         15          0         0
  versicolor      0         13         2
  virginica       0          0        15

hyper parameter

  • ntree는 앙상블을 할 의사결정나무 개수
  • mrty는 앞서 설명드렸던 것처럼 변수의 부분집합을 만들 때 샘플링하는 변수 개수

하이퍼파라메터 : 알고리즘을 최적화 하는데 사용되는 모수

하이퍼 파라메터의 튜닝 방법은 다양하나 일반적으로 cross validation을 활용한다. cross validation은

seed=3
set.seed(seed)
idx=sample(1:nrow(iris),nrow(iris)*.5)
train=iris[idx,]
set.seed(seed)
idx2=sample(1:nrow(iris[-idx,]),nrow(iris[-idx,])*.5)
valid=iris[-idx,][idx2,]
test=iris[-idx,][-idx2,]
summary(train)
  Sepal.Length    Sepal.Width    Petal.Length    Petal.Width          Species  
 Min.   :4.400   Min.   :2.00   Min.   :1.000   Min.   :0.100   setosa    :27  
 1st Qu.:5.100   1st Qu.:2.80   1st Qu.:1.600   1st Qu.:0.250   versicolor:25  
 Median :5.800   Median :3.00   Median :4.100   Median :1.300   virginica :23  
 Mean   :5.873   Mean   :3.08   Mean   :3.663   Mean   :1.136                  
 3rd Qu.:6.400   3rd Qu.:3.40   3rd Qu.:5.100   3rd Qu.:1.800                  
 Max.   :7.900   Max.   :4.10   Max.   :6.900   Max.   :2.500                  
summary(valid)
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width          Species  
 Min.   :4.300   Min.   :2.200   Min.   :1.100   Min.   :0.100   setosa    :13  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.500   1st Qu.:0.400   versicolor:14  
 Median :5.700   Median :3.000   Median :4.500   Median :1.300   virginica :10  
 Mean   :5.768   Mean   :3.116   Mean   :3.659   Mean   :1.154                  
 3rd Qu.:6.500   3rd Qu.:3.400   3rd Qu.:5.000   3rd Qu.:1.700                  
 Max.   :7.400   Max.   :4.400   Max.   :6.100   Max.   :2.500                  
rf.model=randomForest(data=train,Species~.)
set.seed(seed)
trf=tuneRF(valid[,1:4],valid[,5])
mtry = 2  OOB error = 8.11% 
Searching left ...
mtry = 1    OOB error = 13.51% 
-0.6666667 0.05 
Searching right ...
mtry = 4    OOB error = 10.81% 
-0.3333333 0.05 

rf.model=randomForest(data=train,Species~.,mtry=2)
plot(rf.model)

pred=predict(rf.model,test)
table(test$Species,pred)
            pred
             setosa versicolor virginica
  setosa         10          0         0
  versicolor      0         11         0
  virginica       0          0        17
varImpPlot(rf.model)

예측모형 실습(prediction)

학습과 검증방법은 분류모형과 동일하나 평가지표가 수치형이므로 서로 상이하다.

예측모형 평가지표

예측모형도 앞에서와 같이 간단하게 생성할 수 있다. 모형 평가에 사용되는 지표는 분류모형과 달리 값이 연속형 수치이므로 다른 지표들을 사용한다. 일반적으로 RMSE와 MAE를 많이 사용한다.

  • MSE(mean squared error) : \(\frac{1}{n} \sum(Y_i-\hat{Y})^2\)
  • RMSE(root mean squared error) : MSE의 제곱근
  • MAE(mean squared error) : \(\frac{1}{n} \sum|Y_i-\hat{Y}|\)
  • MAPE(mean absolute percentage error) : 오차를 실제값으로 나눈 값들의 합을 n으로 나눈 값 \(\frac{100}{n}\sum|\frac{Y_i-\hat{Y}}{Y_i}|\)
  • BIAS : \(\sum\frac{\hat{Y}-Y_i}{n}\)
  • rBIAS(Relative BIAS) : \(\sum\frac{\hat{Y}-Y_i}{n\times mean(Y_i)}\)
  • rMSEP(Relative Mean Separation) : \(\sum(\hat{Y}-Y_i)/\sum(mean(\hat{Y})-Y_i)\)

bias-variance trade off

mse는 합을 하기전에 제곱을 하였으므로 실제값과 예측값의 차이가 클수록 값이 mae에 비해 커진다. 따라서 필요에 따라 모형지표를 선택할 필요가 있다. 또한 RMSE나 MAE는 단위에 영향을 받는 반면 MAPE는 단위의 영향을 받지 않는다.


예측모형 실습

library(spTimer)
seed=3
set.seed(seed)
idx=sample(1:nrow(iris),nrow(iris)*.5)
train=iris[idx,]
set.seed(seed)
idx2=sample(1:nrow(iris[-idx,]),nrow(iris[-idx,])*.5)
valid=iris[-idx,][idx2,]
test=iris[-idx,][-idx2,]
summary(train)
  Sepal.Length    Sepal.Width    Petal.Length    Petal.Width          Species  
 Min.   :4.400   Min.   :2.00   Min.   :1.000   Min.   :0.100   setosa    :27  
 1st Qu.:5.100   1st Qu.:2.80   1st Qu.:1.600   1st Qu.:0.250   versicolor:25  
 Median :5.800   Median :3.00   Median :4.100   Median :1.300   virginica :23  
 Mean   :5.873   Mean   :3.08   Mean   :3.663   Mean   :1.136                  
 3rd Qu.:6.400   3rd Qu.:3.40   3rd Qu.:5.100   3rd Qu.:1.800                  
 Max.   :7.900   Max.   :4.10   Max.   :6.900   Max.   :2.500                  
summary(valid)
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width          Species  
 Min.   :4.300   Min.   :2.200   Min.   :1.100   Min.   :0.100   setosa    :13  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.500   1st Qu.:0.400   versicolor:14  
 Median :5.700   Median :3.000   Median :4.500   Median :1.300   virginica :10  
 Mean   :5.768   Mean   :3.116   Mean   :3.659   Mean   :1.154                  
 3rd Qu.:6.500   3rd Qu.:3.400   3rd Qu.:5.000   3rd Qu.:1.700                  
 Max.   :7.400   Max.   :4.400   Max.   :6.100   Max.   :2.500                  
rf.model=randomForest(data=train,Species~.)
set.seed(seed)
trf=tuneRF(valid[,1:4],valid[,5])
mtry = 2  OOB error = 8.11% 
Searching left ...
mtry = 1    OOB error = 13.51% 
-0.6666667 0.05 
Searching right ...
mtry = 4    OOB error = 10.81% 
-0.3333333 0.05 

rf.model=randomForest(data=train,Sepal.Length~.,mtry=which.min(trf[,2]))
plot(rf.model)

pred=predict(rf.model,test)
spTimer::spT.validation(test$Sepal.Length,pred)
   MSE   RMSE    MAE   MAPE   BIAS  rBIAS  rMSEP 
0.1373 0.3705 0.2702 4.7305 0.1172 0.0200 0.2196 
varImpPlot(rf.model)

참고사이트 참고사이트2

---
title: "AI 와 Machine Learning을 위한 빅데이터 실습"
output: 
  html_notebook: 
    theme: spacelab
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```

****

# 목차

+ [2019-07-17 (오전) : 데이터마이닝 개요와 R 기초 사용법](http://rpubs.com/qkdrk777777/511942)
+ [2019-07-17 (오후) : 기초 통계분석](http://rpubs.com/qkdrk777777/511941)
+ **[2019-07-18 (오전) : 정형데이터마이닝 - 지도학습](http://rpubs.com/qkdrk777777/511940)**
+ [2019-07-18 (오후) : 정형데이터마이닝 - 비지도학습](http://rpubs.com/qkdrk777777/511938)
+ [2019-07-19 (오전) : 비정형데이터마이닝-자료 다루기](http://rpubs.com/qkdrk777777/511937)
+ [2019-07-19 (오후) : 비정형데이터마이닝-텍스트마이닝](http://rpubs.com/qkdrk777777/511198)

***

# 정형 데이터 마이닝

정형, 비정형 데이터의 정의 

+ **정형데이터 : 형태가 있고 연산이 가능한 데이터**
+ 반정형 데이터 : 형태가 있으나 연산이 불가능한 데이터
+ 비정형데이터 : 형태가 없고, 연산이 불가능한 데이터


### 데이터마이닝

앞에서 언급 하였듯 데이터마이닝은 거대한 양의 데이터 속에 쉽게 드러나지 않는 **통계적 규칙**이나 **패턴**과 같은 **유용한 정보를 찾아내는 과정**이라 말할 수 있다. 데이터 내에 정보를 찾는 것이 주 목적


## 데이터마이닝의 종류

+ 분류 : 새롭게 나타나는 현상을 기존 정의된 집합에 배정하는 것을 의미
+ 추정 : 수입, 수준, 신용잔고처럼 연속된 변수의 값을 추정하는 것을 의미
+ 예측 : 미래의 값을 추정하거나 분류하는 것을 의미
+ 군집 : 이질적인 모집단을 동질성을 지닌 그룹별로 세분화 하는 것을 의미
+ 연관 : 같이 팔리는 물건들 사이의 연관성을 파악하는 분석

***

## iris data 설명

iris 자료는 R에서 기본으로 제공하는 붓꽃에 대한 자료

**변수**

+ Sepal.Length : 꽃받침의 길이정보
+ Sepal.Width : 꽃받침의 너비정보
+ Petal.Length : 꽃잎의 길이정보
+ Petal.Width : 꽃잎의 너비정보
+ Species : 꽃의 종류(setosa, versicolor, virginica)

setosa와 versicolor를 분류하는 모형을 만들려고 한다. 이에 따라 필요한 데이터를 추출

```{r}

data(iris)
data=iris
summary(data)
#상자그림 생성
boxplot(iris[,-5])

```
## 분류 모형 {.tabset .tabset-fade .tabset-pills}

기존 자료에 대해 학습한 모형을 바탕으로 새롭게 나타나는 자료에 대하여 정의된 집합에 배정하는 것 모형을 의미한다.

데이터 정재 - 모형 생성 - 모형평가 및 모형비교 순으로 진행


### 로지스틱 회귀모형(logistic model)

로지스틱 회귀는 분석 대상들이 여러 집단으로 나누어진 경우, 독립 변수의 선형 결합을 이용하여 개별 관측치가 어느 집단에 속하는지 확률을 계산하는 분류 기법이다. 로지스틱이란 odds에 log를 취한 값으로 로지스틱 회귀모형은 아래와 같은 수식으로 나타난다.

$\ln(\frac{P}{1-P})=a+bX$

$odds =\frac{어떤일이\ 일어날\ 확률}{어떤\ 일이\ 일어나지\ 않을\ 확률}$


```{r, echo=FALSE}
#iris 자료의 Species 가 'setosa','versicolor'인 경우만 추출
data<-subset(data,Species=="setosa"|Species=="versicolor")
#factor로 변환
data$Species<-factor(data$Species)
#
x1=seq(min(data$Sepal.Length),max(data$Sepal.Length),len=100)
plot(x1,data$Species,pch=16,axes=F,ylab="Species",col=colors()[262:411],xlab="Sepal.Length",type='n')
lines(x1,1+1/(1+(1/exp(-27.831+5.140*x1))),lwd=3,type="l",col=colors()[100])

axis(2,at=seq(1,2,len=6),label=seq(1,2,len=6))
axis(1,at=seq(4.5,7,by=0.5),label=seq(4.5,7,by=0.5))
grid(0,5)

```

로지스틱회귀 모형을 사용하여 setosa와 versicolor를 분류

```{r,warning=FALSE}
#데이터 추출
#iris 자료의 Species 가 'setosa','versicolor'인 경우만 추출
data<-subset(data,Species=="setosa"|Species=="versicolor")
#factor로 변환
data$Species<-factor(data$Species)
#일반화가법모형생성
Species_glm<-glm(Species~.,data=data,family=binomial)
# Species_glm<-glm(Species~.,data=data,family=binomial)
# Species_glm<-glm(Species~.-Sepal.Length,data=data,family=binomial)
# Species_glm<-glm(Species~.+I(Sepal.Length^2),data=data,family=binomial)

#모형 요약
summary(Species_glm)
```

### 모형의 성능평가(holdout cross validation)

모형의 성능을 평가하기 위해 데이터를 특정비율로 나누어 train 데이터만을 사용하여 모형을 학습시키고 test데이터로 이를 검증하는 방법을 cross validation이라고 한다. cross validation을 통해 모형의 성능을 비교가능 하다. 

*cross validation에는 holdout cross validation, k-fold cross validation, leave one out cross validation 등이 있다.*

```{r,warning=FALSE}
data2=data
set.seed(1)
#자료 7:3으로 추출
idx=sample(1:nrow(data2),nrow(data2)*0.7)
train=data2[idx,]
test=data2[-idx,]
#로지스틱회귀모형 생성
Species_glm<-glm(Species~.,data=train,family=binomial)
#test데이터를 Species_glm 모형으로 분류
pred=predict(Species_glm,test,type='response')
#분류하기위해 factor로 변경 
class=as.factor(round(pred))
levels(class)=c('setosa','versicolor')

table(class,test$Species)
```

위와 같은 표를 정오분류 표라고 한다.

![](/cloud/project/캡처13.PNG)

+ True Positive(TP) : 실제 True인 정답을 True라고 예측 (정답)
+ False Positive(FP) : 실제 False인 정답을 True라고 예측 (오답)
+ False Negative(FN) : 실제 True인 정답을 False라고 예측 (오답)
+ True Negative(TN) : 실제 False인 정답을 False라고 예측 (정답)

**모형 평가 지표**

+ 정밀도(Precision) : True라고 분류한 것 중에서 실제 True인 것의 비율
$\frac{TP}{TP+FP}$

+ 재현율(Recall) : 실제 True인 것 중에서 모델이 True라고 예측한 것의 비율.민감도(sensitivity)라고 표현하기도 한다.
$\frac{TP}{TP+FN}$

+ 특이도(Specificity) : 실제 False인 것 중에서 False라고 예측한 것의 비율.
$\frac{TN}{TN+FP}$

+ ROC(Receiver Operating Characteristics) : x축은 1-특이도, y축은 민감도를 나타낸 그래프로 이 그래프의 아랫 면적을 AUC(Area Under the ROC Curve)라 한다.

+ 정확도(Accuracy) : 제대로 예측한 것의 비율
$\frac{TP+TN}{TP+TN+FP+FN}$

+ F1 score : 정밀도와 재현율의 조화평균
$F1\ score = 2 \times \frac{1}{1/재현율+1/정밀도}$



**일반적**으로 **정확도**를 사용해 **모형의 성능을 평가**하며, 모형이 만일 편향된 예측을 하는 경우 재현율보다 정밀도가 중요해진다. 하지만 정확도는 이를 고려할 수 없다. 이에 **자료가 불균형 구조를 띌 때**에는 **F1 score**를 모형평가에 사용한다. 이 경우 정확도를 사용하게되면 편향을 고려할 수 없다.

### 의사결정나무(dicision Tree)

영역을 나누는 것의 기준은 분류모델을 기준으로 불순도(impurity)/불확실성(uncertainty)이 최소가 될 수 있도록하는 방향으로 진행된다. 순도나 불확실성의 증감을 두고 정보획득(information gain)으로 표현하기도 함.

```{r}
#의사결정나무생성을 위한 패키지
library(rpart)

data2=iris
set.seed(1)

idx=sample(1:nrow(data2),nrow(data2)*0.7)
#자료를 7:3비율로 추출
train=data2[idx,]
test=data2[-idx,]
#의사결정나무모형 생성
Species_tree<-rpart(Species~.,data=train)
#test데이터를 의사결정나무모형으로 분류
pred=predict(Species_tree,test,type='class')

table(pred,test$Species)
```

의사결정트리 시각화

```{r}
library(rattle)
#트리모형 시각화
fancyRpartPlot(Species_tree)

```

### 서포트 벡터 머신(support vector machine)

가장 가까운 각 변수의 데이터 점들 간의 거리를 최대로 하는 초평면을 선택해 분류하는 기법

![](/cloud/project/캡처14.PNG)


```{r}
#머신러닝 관련패키지
library(e1071)
data2=iris
set.seed(1)
idx=sample(1:nrow(data2),nrow(data2)*0.7)
train=data2[idx,]
test=data2[-idx,]
#svm 모형생성
Species_svm<-svm(Species~.,data=train)
pred=predict(Species_svm,test,type='class')
table(pred,test$Species)

```


### naiveBayes

베이즈정리를 기반으로 만들어젔으며, 확률적으로 독립이라는 가정을 요구한다. 적은 데이터에 대하여도 우수한 성능을 보여준다.


```{r}
library(e1071)
data2=iris
set.seed(1)
idx=sample(1:nrow(data2),nrow(data2)*0.7)
train=data2[idx,]
test=data2[-idx,]
#나이브베이즈 모형생성
Species_nb<-naiveBayes(Species~.,data=train)
pred=predict(Species_nb,test,type='class')
table(pred,test$Species)

```

### 앙상블 모형(angsangble)

여러 개의 분류 모형의 결과를 종합하여 분류의 정확도를 높이는 방법

배깅(bootstrap aggregating) : 복원추출을 통해 각각의 모형을 생성하고 그 결과를 종합하는 방법.
부스팅(boosting) : 앞의 모델에서 오분류된 데이터에 대하여 가중치를 주어 표본을 추출하여 모형을 생성하는 작업을 반복하는 방법

트리기반 모델들이므로 control 옵션을 통해 조절 가능하다.

ex)

my.control<-rpart.control(xval=0,cp=0,maxdepth=1)

bagging(Species~.,data=train,control=my.control)

```{r}
#배깅 부스팅 관련 패키지
library(adabag)
data2=iris
set.seed(1)
idx=sample(1:nrow(data2),nrow(data2)*0.7)
train=data2[idx,]
test=data2[-idx,]

#배깅
Species_bagging<-bagging(Species~.,data=train)
#변수중요도
importanceplot(Species_bagging,cex.name=0.8,horiz=TRUE)
pred=predict(Species_bagging,test)
table(pred$class,test$Species)

```



```{r}
library(adabag)
data2=iris
set.seed(1)
idx=sample(1:nrow(data2),nrow(data2)*0.7)
train=data2[idx,]
test=data2[-idx,]
#부스팅
Species_boosting<-boosting(Species~.,data=train)
#변수중요도
importanceplot(Species_boosting,cex.name=0.8,horiz=TRUE)
pred=predict(Species_boosting,test)
table(pred$class,test$Species)
```

**Random forest**

randomforest는 의사결정나무의 앙상블 모형으로 다수의 의사결정나무의 분류 중 최고로 많이 분류된 기준을 분류 예측값으로 제시하며, 회귀의 경우 의사결정나무의 예측값의 평균을 예측값으로 사용.

```{r}
#렌덤포레스트 패키지
library(randomForest)
data2=iris
set.seed(1)
idx=sample(1:nrow(data2),nrow(data2)*0.7)
train=data2[idx,]
test=data2[-idx,]

#모형생성
Species_rf<-randomForest(Species~.,data=train)
pred=predict(Species_rf,test,type='class')
table(pred,test$Species)
```

*hyper parameter*

+ ntree는 앙상블을 할 의사결정나무 개수
+ mrty는 앞서 설명드렸던 것처럼 변수의 부분집합을 만들 때 샘플링하는 변수 개수


*하이퍼파라메터 : 알고리즘을 최적화 하는데 사용되는 모수*

하이퍼 파라메터의 튜닝 방법은 다양하나 일반적으로 cross validation을 활용한다. cross validation은 

```{r}
#자료를 train, test, validaion로  5:2.5:2.5 비율로 자료 생성
seed=3
set.seed(seed)
idx=sample(1:nrow(iris),nrow(iris)*.5)
train=iris[idx,]
set.seed(seed)
idx2=sample(1:nrow(iris[-idx,]),nrow(iris[-idx,])*.5)
valid=iris[-idx,][idx2,]
test=iris[-idx,][-idx2,]
summary(train)
summary(valid)
#모형생성
rf.model=randomForest(data=train,Species~.)
set.seed(seed)
#하이퍼파라메터 최적화
trf=tuneRF(valid[,1:4],valid[,5])
#모형생성
rf.model=randomForest(data=train,Species~.,mtry=2)
#ntree 설정
plot(rf.model)
pred=predict(rf.model,test)
table(test$Species,pred)
#변수중요도 
varImpPlot(rf.model)
```


### 예측모형 실습(prediction)

학습과 검증방법은 분류모형과 동일하나 평가지표가 수치형이므로 서로 상이하다. 

#### 예측모형 평가지표

예측모형도 앞에서와 같이 간단하게 생성할 수 있다. 모형 평가에 사용되는 지표는 분류모형과 달리 값이 연속형 수치이므로 다른 지표들을 사용한다. 일반적으로 RMSE와 MAE를 많이 사용한다. 

+ MSE(mean squared error) : $\frac{1}{n} \sum(Y_i-\hat{Y})^2$
+ RMSE(root mean squared error) : MSE의 제곱근
+ MAE(mean squared error) : $\frac{1}{n} \sum|Y_i-\hat{Y}|$
+ MAPE(mean absolute percentage error) : 오차를 실제값으로 나눈 값들의 합을 n으로 나눈 값
$\frac{100}{n}\sum|\frac{Y_i-\hat{Y}}{Y_i}|$
+ BIAS : $\sum\frac{\hat{Y}-Y_i}{n}$
+ rBIAS(Relative BIAS) :  $\sum\frac{\hat{Y}-Y_i}{n\times mean(Y_i)}$
+ rMSEP(Relative Mean Separation) : 
$\sum(\hat{Y}-Y_i)/\sum(mean(\hat{Y})-Y_i)$

**bias-variance trade off**

![](/cloud/project/캡처15.PNG)

mse는 합을 하기전에 제곱을 하였으므로 실제값과 예측값의 차이가 클수록 값이 mae에 비해 커진다. 따라서 필요에 따라 모형지표를 선택할 필요가 있다. 또한 RMSE나 MAE는 단위에 영향을 받는 반면 MAPE는 단위의 영향을 받지 않는다.

***

#### 예측모형 실습 

```{r}
#spTimer 패키지에 위에서 설명한 지표들을 제공
library(spTimer)
seed=3
set.seed(seed)
idx=sample(1:nrow(iris),nrow(iris)*.5)
train=iris[idx,]
set.seed(seed)
idx2=sample(1:nrow(iris[-idx,]),nrow(iris[-idx,])*.5)
valid=iris[-idx,][idx2,]
test=iris[-idx,][-idx2,]
summary(train)
summary(valid)
#모형생성
rf.model=randomForest(data=train,Species~.)
set.seed(seed)
trf=tuneRF(valid[,1:4],valid[,5])
rf.model=randomForest(data=train,Sepal.Length~.,mtry=which.min(trf[,2]))
plot(rf.model)

pred=predict(rf.model,test)

spTimer::spT.validation(test$Sepal.Length,pred)
varImpPlot(rf.model)
```



[참고사이트](https://bcho.tistory.com/1206)
[참고사이트2](https://m.blog.naver.com/PostView.nhn?blogId=laonple&logNo=220867768192&proxyReferer=https%3A%2F%2Fwww.google.com%2F)
