6.1 데이터 마이닝
6.1.1 데이터 마이니의 개념
데이터 마이닝은 대용량 데이터에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 과정이다. 대용량 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이라 할 수 있다.
통계 분석은 가설에 따라 분석이나 검증을 하지만, 데이터 마이닝은 다양한 수리 알고리즘을 이용해 데이터에서 의미있는 정보를 찾아내는 방법을 통칭한다.
지도학습중 분류는 데이터를 여러 값 중 하나로 분류하는 범주 타겟으로, 회귀분석은 데이터 값을 예측, 추정하는 수치 타겟으로 나타낸다.
비지도학습은 데이터 내에서 관계와 유사성을 파악하는 것에 목적이 있다. 이는 예측이 목적인 지도학습과 차이를 보이는 점이다.
6.1.2 데이터 마이닝의 대표적 기능
분류와 계층 확률 추정
분류는 어느 계층에 속할지를 예측하는 것으로(예, 아니오) 이고 새롭게 나타난 현상을 검토하여 기존의 분류 정의된 집합에 배정하는 것을 의미한다.
데이터 마이닝 프로세스는 고객이 어느 계층에 속할지 결정하는 모델을 생성하는데 이 과정을 점수화(scoring) 또는 계층 확률 추정(class probability estimation) 이라고 부른다.
유사도 매칭
유사도 매칭(similarity matching)은 고객에게 제품을 추처할 때 사용하는 가장 많이 사용하는 방법중 하나로, 구매하였거나 선호하는 제품의 관점에서 현재 고객과 유사한 사람을 찾아내는 것이다.
군집화
군집화(clustering) 는 데이터의 기초 조사 (탐색적 데이터 분석 EDA)를 수행할 때 어떤 그룹이 자연스럽게 만들어 지는지를 알려주고, 군집이 존재하면 다른 데이터 마이닝 작업을 수행해볼 필요가 있다는 점을 알 수 있기 때문에 매우 유용한 방법이다. 군집화는 미리 정의된 기준이나 예시에 의존하지 않고 특정 목적이 없는 상태에서 유사도에 의해 그룹화 된다. 주로 데이터 마이닝이나 모델링 준비 단계에서 주로 사용된다.
회귀분석
어떤 일이 얼마나 많이 일어나는지를 예측하는 것이다. 예로 ‘이 고객이 이동전화 서비스를 얼마나 많이 사용할지’ 와 같은 질문이다. 여기서 예측할 변수는 서비스 사용량이며 다른 유사한 고객과 그들의 사용량 이력 데이터를 살펴보고 모델을 만들수 있다. 즉, 회귀분석은 어떤 고객에 대한 특정 변수의 값을 추정하는 모델을 만드는 것이다.
동시발생 그룹화 (co-occurrence grouping)
동시발생 그룹화 는 빈발항목 집합 마이닝 (frequent itemset mining), 연관성규칙 발견(Association rule discovery), 장바구니분석(market-basket analysis) 이라고도 한다. 이는 개체에 관련된 거래에 기반하여 개체 간의 연관성을 찾아낸다. 예로 ‘일반적으로 어떤 상품을 함께 구매하는가’ 와 같은 질문을 들수있다.
데이터 축소(data reduction)
데이터 축소는 많은 변수의 데이터 즉 고차원의 데이터에서 중요 정보를 상당수 담고 있는 더 적은 변수의 데이터(저차원 데이터) 셋으로 바꾸는 것이다. 적은 변수의 데이터셋은 처리하기 더 쉽고 정보를 찾아내기도 쉬워진다. 일반적으로 데이터 축소를 하면 정보는 손실되지만 데이터에 대한 통찰력을 얻을수 있는 장점이 있다.
6.1.3 데이터 마이닝 추진 단계
1 단계: 목적 정의
데이터 마이닝을 통해 얻고자 하는 것이 무엇인지 명확한 목적을 정의하는 단계이다. 1 단계부터 전문가가 참여하여 목적에 따라 사용할 데이터 마이닝 모델과 필요한 데이터를 정의한다.
2 단계: 데이터 준비
고객정보, 거래정보, 상품마스터, 웹로그데이터, 사회연결망 데이터 등 다양한 데이터를 활용할 수 있도록 수집하는 단계다. IT 부서와 사전협의를 통해 데이터 접근 부하에 문제가 없도록 조율. 데이터 정제를 통해 데이터의 품질을 보장하고 데이터 마이닝 기법 적용에 문제가 없도록 데이터 양을 충분히 확보한다.
3 단계: 데이터 가공 혹은 전처리
데이터 마이닝 기법 적용이 가능하도록 데이터를 가공하는 단계. 모델링 목적에 따라 목적 변수를 정의하고 필요한 데이터를 데이터 마이닝 소프트웨어에 적용할수 있도록 적합한 형식으로 가공한다.
4 단계: 데이터 마이닝 기법 적용
준비한 데이터에 데이터 마이닝 기법을 적용하는 단계로 데이터 마이닝 소프트웨어를 활용하여 목적하는 정보를 추출한다.
5 단계: 데이터 마이닝 적용 결과 검증 및 확산
데이터 마이닝으로 추출한 정보를 검증하는 단계로 테스트 마케팅이나 과거 데이터를 활용해 테스트를 수행할 수도 있다. 검증이 완료되면 IT 부서와 협의하여 상시적으로 데이터 마이닝 결과를 업무에 적용할수 있도록 자동화 방안을 협의한다. 보고서를 작성하여 경영진 및 구성원에게 연간 추가 수익과 투자대비성(ROI)등으로 기대 효과를 전파한다.
6.1.4 분류분석의 주요 모델
의사결정나무: 목표변수와 가장 연관성이 높은 변수의 순서대로 지니지수나 엔트로피 등이 낮아지는 방향으로 트리 형태로 가지를 분할하면서 분류 기법을 만들어내는 기법. 이것을 분할 정복기법 이라고도 한다
로지스틱 회귀: 설명변수값이 주어졌을 때, 목표변수값이 특정 부류에 속할 확률이 로지스틱 함수 형태를 따른다고 가정해 최대 우도 추정 방법(maximum likelihood estimation) 을로 목표변수의 확률을 추정하는 기법.
인공신경망: 인간 뇌의 뉴런작용 형태에서 모티브를 얻을 기법으로 입력, 은닉, 출력 노드로 구성하여 복잡한 분류나 수치 예측 문제를 해결할 수 있도록 하는 분석 기법.
랜덤 포레스트: 주어진 데이터로부터 여러 개의 다양한 의사결정 트리를 만들어 각 의사결정 트리의 예측결과를 투표형식으로 집계하여 최종 분류 결과를 결정하는 앙상블 형태의 기법.
서포트 벡터 머신: 특정 데이터를 분류하는데 있어 서로 다른 분류에 속한 데이터 간의 간격이 최대화가 되는 평면을 찾아 이를 기준으로 분류하는 기법.
나이브 베이즈: 베이즈 정리에 근거하여 목표변수가 발생할 조건부 확률을 사전 확률과 우도 함수의 곱으로 표현하여 어떤 분류 항목에 속할지를 계산하여 확률이 높은 쪽으로 분류하는 기법.
K-최근접 이웃: 특정 데이터 좌표점과 다른 나머지 데이터 좌표점 간의 거리에 기반을 두어 가장 가까운 k개 점들의 목표변수값을 다수결로 분류하는 기법. 게으른 학습이라고도 한다.
6.2 의사결정나무
의사결정 나무 모델은 의사결정 규칙을 나무 구조에 의한 추론 규칙으로 표현하여 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석 방법이다.
목표변수가 이산형인 경우 분류나무라고 하고, 연속형인 경우 회귀나무라고 한다.
목표변수가 이산형인 분류나무의 경우 상위 노드에서 가지 분할을 수행할 때 분류 변수와 분류 기준값의 선택 방법으로 카이제곱 통계량의 p-value, 지니지수 엔트로피지수 등이 사용된다.
의사결정나무 모델은 시장조사, 광고조사, 의학연구, 품질관리 등의 다양한 분야에서 활용되고 있다.
createDataPartition()함수는 분류를 기준으로 훈련용 데이터에서 사용할 데이터를 설정한 비율로 분리한다.
predict() 함수는 테스트 데이터로 의사결정나무 모델을 사용한 예측을 수행한다.
rpart.plot 패키지의 prp()함수로 적합된 의사결정나무 모델을 시각화한다.
6.2.1 의사경정나무 모델의 개념
의사결정나무 모델은 의사겨정 규칙을 나무구조에 의한 추론 규칙으로 표현하여 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석 방법이다.
6.2.2 분류 변수와 분류 기준값의 선택 방법
분류 변수와 분류 기준값의 선택 방법으로 카이제곱 통계량의 p-value, 지니지수, 엔트로피지수 등이 사용된다. 선택 기준에 의한 분할이 일어날 때 카이제곱 통계랴의 p-value는 그값이 작을수록 자식노드 내의 불확실성이 큼을 나타내며, 지니지수나 엔트로피지수 역시 그값이 클수록 자식노드 내의 이질성이 큼을 의미한다. 따라서 이 값들이 가장 작아지는 방향으로 가지 분할을 수행하게 된다.
데이터가 얼마나 잘 분리되었는지를 평가하기 위해서는 일반적으로 지니지수를 사용하며 이러한 지니지수는 노드에 여러 분류가 섞여 있을수록 높고, 노드에 하나의 분류만 존재할 때 가장 낮아진다. 즉, 노드 분리 후 각 노드의 불확실성 측정지수가 낮아질수록 트리분류가 잘 된 것으로 볼 수 있다.
6.2.3 의사결정나무의 구조
목표변수가 연속형인 회귀나무의 경우 분류 변수와 분류 기준값의 선택 방법으로 F-통계량은 그 값이 클수록 오차의 변동에 비해 처리의 변동이 크다는 것을 의미하며, 이는 자식마디 사이가 이질적이다는 것을 의미하므로 이 값이 커지는 (p-value 작아지는) 방향으로 가지 분할을 수행하게 된다. 분산의 감소량도 이 값이 최대화되는 방향으로 가지 분할을 수행하게 된다.
뿌리마디: 맨 위의 마디를 뿌리마디(root node)
부모마디: 상위마디가 하위마디로 분기될 때 상위마디
가지분할: 나무의 가지를 생성하는 과정이다
가지치기: 생성된 가지를 잘라내어 모델을 단순화하는 과정을 말한다.
깊이: 뿌리마디부터 최종마디까지의 중간마디들의 수
의사결정나무 장, 단점
장점:
구조가 단순해서 해석이 용이하다
분류, 수치예측 모두 활용가능
선형성, 정규성, 등분산성 등의 수학적 가정이 불필요하다.
데이터에 결측값이 있는 경우에도 효과적으로 처리가능
중요한 변수만 선별할 수있고, 이를 통해 다른 추가 분석을 위한 통찰력을 얻을 수 있다.
분류 결과에 대한 규칙기반의 해석이 가능하여 결과 해석에 유용하다.
단점:
연속형 입력변수를 비연속적인 값으로 취급하므로, 분리의 경계점 근방에서 예측 오류 가능성이 있다.
선형 또는 주효과 모델과 같은 해석이 불가능함으로 모델식을 수립해야 하는 경우 적용이 어렵다.
훈련용 데이터에 대한 약간의 변경 발생 시 트리 분류 결정 논리에 큰 변화를 가져온다
모델이 쉽게 과적합되거나 과소적합 될 수 있다.
트리가 너무 커질 경우 패턴을 이해하기가 쉽지 않다.
의사결정나무 모델을 위한 알고리즘에는 CHAID(chi-squared automatic interaction detection), CART(classification and regression tree), ID3, C4.5, C5.0 등이 있다.
과적합: 훈련용 데이터에 대해서는 높은 정확도를 나타내지만 새로운 데이터에 대해서는 예측을 잘하지 못하는 것을 말한다.
과소적합: 데이터를 충분히 반영하지 못해(예로 샘플 수가 충분하지 않은 경우) 잡음이 많이 섞여 있어 낮은 성과를 보이는 문제.
6.2.4 의사결정나무 분석 예제 (rpart 함수)
다음은 rpart 패키지의 rpart() 함수로 아이리스 데이터셋을 이용한 의사결정나무 분석을 수행하는 예제다.
1. 아이리스 데이터셋을 훈련용 데이터 와 테스트 데이터로 분리하기
## Loading required package: ggplot2
## Loading required package: lattice
## Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1 5.1 3.5 1.4 0.2 setosa
## 2 4.9 3.0 1.4 0.2 setosa
## 3 4.7 3.2 1.3 0.2 setosa
## 4 4.6 3.1 1.5 0.2 setosa
## 5 5.0 3.6 1.4 0.2 setosa
## 6 5.4 3.9 1.7 0.4 setosa
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
## 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
## Median :5.800 Median :3.000 Median :4.350 Median :1.300
## Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
## 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
## Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
## Species
## setosa :50
## versicolor:50
## virginica :50
##
##
##
## 'data.frame': 150 obs. of 5 variables:
## $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
## $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
## $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
## $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
## $ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
# 80프로 선
parts<-createDataPartition(iris$Species, p=0.8)
summary(parts)
## Length Class Mode
## Resample1 120 -none- numeric
# 트레이닝 데이터
data.train<-iris[parts$Resample1,]
table(data.train$Species)
##
## setosa versicolor virginica
## 40 40 40
# 테스트 데이터
data.test<-iris[-parts$Resample1,]
table(data.test$Species)
##
## setosa versicolor virginica
## 10 10 10
2. 훈련용 데이터로 의사결정나무 모델 학습하기
library(rpart)
# 의사결정나무 모델 학습을 위해 종석변수를 Species, 독립변수를 Sepal.Length, Sepal.Width, Petal.Length, Petal.Width
dt.m<-rpart(Species~. ,data=data.train)
print(dt.m)
## n= 120
##
## node), split, n, loss, yval, (yprob)
## * denotes terminal node
##
## 1) root 120 80 setosa (0.33333333 0.33333333 0.33333333)
## 2) Petal.Length< 2.45 40 0 setosa (1.00000000 0.00000000 0.00000000) *
## 3) Petal.Length>=2.45 80 40 versicolor (0.00000000 0.50000000 0.50000000)
## 6) Petal.Width< 1.75 43 3 versicolor (0.00000000 0.93023256 0.06976744) *
## 7) Petal.Width>=1.75 37 0 virginica (0.00000000 0.00000000 1.00000000) *
3. 적합된 의사결정나무 모델 시각화
plot(dt.m, compress = TRUE, margin = 0.3)
text(dt.m,cex = 1.2)

테스트 데이터로 예측을 수행, 의사결정나무 모델의 성능 평가하기
dt.m.pred<-predict(dt.m, newdata = data.test, type = 'class')
confusionMatrix(data.test$Species, dt.m.pred)
## Confusion Matrix and Statistics
##
## Reference
## Prediction setosa versicolor virginica
## setosa 10 0 0
## versicolor 0 9 1
## virginica 0 2 8
##
## Overall Statistics
##
## Accuracy : 0.9
## 95% CI : (0.7347, 0.9789)
## No Information Rate : 0.3667
## P-Value [Acc > NIR] : 1.888e-09
##
## Kappa : 0.85
##
## Mcnemar's Test P-Value : NA
##
## Statistics by Class:
##
## Class: setosa Class: versicolor Class: virginica
## Sensitivity 1.0000 0.8182 0.8889
## Specificity 1.0000 0.9474 0.9048
## Pos Pred Value 1.0000 0.9000 0.8000
## Neg Pred Value 1.0000 0.9000 0.9500
## Prevalence 0.3333 0.3667 0.3000
## Detection Rate 0.3333 0.3000 0.2667
## Detection Prevalence 0.3333 0.3333 0.3333
## Balanced Accuracy 1.0000 0.8828 0.8968
정분류율 (Accuracy)는 100 프로이다.
5. rpart.plot 로 모델 시각화
library(rpart.plot)
prp(dt.m, extra = 2)

Petal.Length 가 2.5 보다 적은개체는 40 개 있는데 그중 40개 전부가 setosa 이다.
Petal.Length 가 2.5 보다 크고 Petal.With 가 1.8 보다 작은 개체는 44 개인데 그중 39 개가 versicol 이다.
Petal.Length 가 2.5 보다 크고 Petal.With 가 1.8 보다 큰 개체는 36 개인데 그중 35 개는 virginic 이다.
6.2.5 의사결정나무 분석 예제 (cnee 함수)
1. 훈련용 데이터로 의사결정나무 모델 학습하기
## Loading required package: grid
## Loading required package: mvtnorm
## Loading required package: modeltools
## Loading required package: stats4
## Loading required package: strucchange
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
## Loading required package: sandwich
dt.m2<- ctree(Species ~ ., data = data.train)
print(dt.m2)
##
## Conditional inference tree with 4 terminal nodes
##
## Response: Species
## Inputs: Sepal.Length, Sepal.Width, Petal.Length, Petal.Width
## Number of observations: 120
##
## 1) Petal.Length <= 1.9; criterion = 1, statistic = 112.878
## 2)* weights = 40
## 1) Petal.Length > 1.9
## 3) Petal.Width <= 1.7; criterion = 1, statistic = 55.55
## 4) Petal.Length <= 4.8; criterion = 0.999, statistic = 13.319
## 5)* weights = 36
## 4) Petal.Length > 4.8
## 6)* weights = 7
## 3) Petal.Width > 1.7
## 7)* weights = 37
2. 시각화

3. 테스트 데이터로 예측, 의사결정나무 모델 성능 평가
dt.m2.pred<-predict(dt.m2, newdata = data.test)
confusionMatrix(data.test$Species, dt.m2.pred)
## Confusion Matrix and Statistics
##
## Reference
## Prediction setosa versicolor virginica
## setosa 10 0 0
## versicolor 0 9 1
## virginica 0 2 8
##
## Overall Statistics
##
## Accuracy : 0.9
## 95% CI : (0.7347, 0.9789)
## No Information Rate : 0.3667
## P-Value [Acc > NIR] : 1.888e-09
##
## Kappa : 0.85
##
## Mcnemar's Test P-Value : NA
##
## Statistics by Class:
##
## Class: setosa Class: versicolor Class: virginica
## Sensitivity 1.0000 0.8182 0.8889
## Specificity 1.0000 0.9474 0.9048
## Pos Pred Value 1.0000 0.9000 0.8000
## Neg Pred Value 1.0000 0.9000 0.9500
## Prevalence 0.3333 0.3667 0.3000
## Detection Rate 0.3333 0.3000 0.2667
## Detection Prevalence 0.3333 0.3333 0.3333
## Balanced Accuracy 1.0000 0.8828 0.8968
정분류율(Accuracy) 는 0.9667.
6.3 로지스틱 회귀
로지스틱 회귀 모델은 목표변수 (또는 종속변수) 가 범주형인 경우에 적용되는 회귀분석 모델이다.
오즈는 성공할 확률이 실패할 확률의 몇 배인지를 나타내는 확률이다.
complete.cases() 함수는 해당 행의 모든 값이
로지스틱 회귀 모델의 개념 NA 가 아닌 경우 TRUE, 해당 행의 값이 하나라도 NA 를 포함하고 있는 경우 FALSE값을 반환한다.
duplicated() 함수는 중복 값이 존재하는 경우 TRUE, 아닌 경우 FALSE를 출력한다.
performanceAnalytics 패키지의 chart.Correlation()함수는 산점와 상관계수를 출력한다.
GGally 패키지의 ggcorr()함수는 설명변수 간의 상관계수 히트맵을 시각화한다.
fmsb 패키지의 VIF()함수는 분산팽창지수를 출력한다.
scale()함수는 설명변수를 평균이 0, 분산이 1인 값으로 표준화한다.
glm()함수는 로지스틱 회귀 모델을 생성한다.
step() 함수의 direction = ‘backward’ 옵션은 후진제거법을 사용해 모델을 적합한다.
anova()함수는 하나 이상의 적합된 모델에 대한 분산분석을 수행한다. 분산분석은 모델을 평가하거나 모델 간의 비교를 위해 사용된다.
6.3.1 로지스틱 회귀 모델의 개념
로지스틱 회귀모델은 목표변수가 범주형인 경우에 적용되는 회귀분석 모델이다.
새로운 설명변수 또는 독립변수의 값이 주어질 때 목표변수의 각 범주 또는 집단에 속할 확률이 얼마인지를 추정/예측 하여 추정확률의 기준치에 따라 분류하는 목적으로 사용될 수 있다. 이때 모델의 적합을 통해 추정된 확률을 사후확률 이라고 한다. (posterior probability)
선형 회귀와 로지스틱 회귀 비교
선형회귀 종속변수: 연속형 변수; 로지스틱 종속변수: 이항 반응변수 (0,1)
선형회귀 계수추정법: 최소제곱법; 로지스틱 계수추정법: 최대우도추정법
선형회귀 모델 검정: F 검정, T 검정; 로지스틱 모델검정: 카이제곱 검정
로지스틱 회귀 모델의 장, 단점 비교
장점:
선형통계 모델의 이론에 기반한 정교하고 체계적인 모수 추정이 가능하다.
확률 모델이므로 목표변수의 범주 확률값을 추정할수 있다.
추정된 모델의 계수에 대한 해석이 가능하며, 독립변수들의 유의성 및 영향력 등 결과 분석 시 유용한 해석이 가능하다.
단점:
데이터셋의 차원이 매우 많을 때 모델의 추정 정확도가 다른 분류 기법에 비해 좋지 않다.
복잡한 비선형적 분류가 필요한 경우에는 분류 정확도가 좋지 않다.
추정 방법상 x 값이 매우 커지거나 작아지면 확률값이 1 혹은 0 에 매우 가까워져서 수치계산 정확도가 떨어지게 되며, 반복 계산 시 과적합이 빈번하게 발생한다.
6.3.2 로지스틱 회귀 모델 예제(glm 함수)
다음은 glm 함수를 이용해 mlbench 패키지의 유방암 데이터셋으로 로지스틱 회귀분석을 수행하는 예제다. 이는 데이터 셋 소개, 탐색적 데이터 분석, 변수 선택, 목표변수와 설명변수 간의 상관분석, 모델 평가 순으로 진행한다.
1. 유방암 데이터셋 불러오기
library(mlbench)
data('BreastCancer')
str(BreastCancer)
## 'data.frame': 699 obs. of 11 variables:
## $ Id : chr "1000025" "1002945" "1015425" "1016277" ...
## $ Cl.thickness : Ord.factor w/ 10 levels "1"<"2"<"3"<"4"<..: 5 5 3 6 4 8 1 2 2 4 ...
## $ Cell.size : Ord.factor w/ 10 levels "1"<"2"<"3"<"4"<..: 1 4 1 8 1 10 1 1 1 2 ...
## $ Cell.shape : Ord.factor w/ 10 levels "1"<"2"<"3"<"4"<..: 1 4 1 8 1 10 1 2 1 1 ...
## $ Marg.adhesion : Ord.factor w/ 10 levels "1"<"2"<"3"<"4"<..: 1 5 1 1 3 8 1 1 1 1 ...
## $ Epith.c.size : Ord.factor w/ 10 levels "1"<"2"<"3"<"4"<..: 2 7 2 3 2 7 2 2 2 2 ...
## $ Bare.nuclei : Factor w/ 10 levels "1","2","3","4",..: 1 10 2 4 1 10 10 1 1 1 ...
## $ Bl.cromatin : Factor w/ 10 levels "1","2","3","4",..: 3 3 3 3 3 9 3 3 1 2 ...
## $ Normal.nucleoli: Factor w/ 10 levels "1","2","3","4",..: 1 2 1 7 1 7 1 1 1 1 ...
## $ Mitoses : Factor w/ 9 levels "1","2","3","4",..: 1 1 1 1 1 1 1 1 5 1 ...
## $ Class : Factor w/ 2 levels "benign","malignant": 1 1 1 1 1 2 1 1 1 1 ...
table(BreastCancer$Class)
##
## benign malignant
## 458 241
반응변수 Class 는 양성 begin 과 악성 malignant 두 가지 범주로 분류된다.
2. 결측값 확인 및 제거하기
colSums(is.na(BreastCancer))
## Id Cl.thickness Cell.size Cell.shape Marg.adhesion
## 0 0 0 0 0
## Epith.c.size Bare.nuclei Bl.cromatin Normal.nucleoli Mitoses
## 0 16 0 0 0
## Class
## 0
## [1] 16
결측값이 16개가 Bare.nuclei 에 있다.complete.cases() 함수는 해당 행의 모든 값이 로지스틱 회귀 모델의 개념 NA 가 아닌 경우 TRUE, 해당 행의 값이 하나라도 NA 를 포함하고 있는 경우 FALSE값을 반환한다. 여기서 complete.cases를 이용하여 NA 가 들어있는 행을 드랍시킨다.
BreastCancer2<-BreastCancer[complete.cases(BreastCancer),]
# NA 여부를 확인ㄷ
sum(is.na(BreastCancer2))
## [1] 0
중복 데이터 확인 및 제거
## [1] 683
sum(duplicated(BreastCancer2))
## [1] 8
683항 중에서 8항이 중복되었음을 알수 있다. 중복 제거
BreastCancer3<-BreastCancer2[!duplicated(BreastCancer2),]
nrow(BreastCancer3)
## [1] 675
sum(duplicated(BreastCancer3))
## [1] 0
4. 반응변수 구성 분포 확인
table(BreastCancer3$Class)
##
## benign malignant
## 439 236
cat("total :", margin.table(table(BreastCancer3$Class)))
## total : 675
prop.table(table(BreastCancer3$Class))
##
## benign malignant
## 0.6503704 0.3496296
유방암 데이터 전처리 후 반응변수 Class 의 분할표를 보면 begin이 439개, malignant가 236개인 것을 볼수 있다.
5. 설명변수 간 다중공선성(Multicollinearity) 확인을 위해 반응변수 Class 를 Y, 설명변수를 X라는 데이터프레임으로 분리하고, 설명변수의 타입을 숫자타입으로 변환한다
# Y assigned 0 as begin, 1 as malignant
Y<-ifelse(BreastCancer3$Class =='malignant', 1, 0)
# choose the 2nd to 10th columns from BreastCancer3
X<-BreastCancer3[, c(2:10)]
# 새로 생긴 설명변수 X들의 타입을 숫자형으로 변형
X$Cl.thickness <-as.integer(X$Cl.thickness)
X$Cell.size <-as.integer(X$Cell.size)
X$Cell.shape <-as.integer(X$Cell.shape)
X$Marg.adhesion <-as.integer(X$Marg.adhesion)
X$Epith.c.size <-as.integer(X$Epith.c.size)
X$Bare.nuclei <-as.integer(X$Bare.nuclei)
X$Bl.cromatin <-as.integer(X$Bl.cromatin)
X$Normal.nucleoli <-as.integer(X$Normal.nucleoli)
X$Mitoses <-as.integer(X$Mitoses)
다음은 설명변수 간의 다중공선성이 존재하는지를 확인하기 위해 산점도 scatter plot, 상관계수 correlation coefficient, 분산팽창지수 variance inflation factor, 를 확인한다. 이것은 회귀모델에서 설명변수 간 독립성을 가정하기 때문이다.
6. 설명변수 간의 산점도와 상관계수 확인하기
library(PerformanceAnalytics)
## Loading required package: xts
##
## Attaching package: 'PerformanceAnalytics'
## The following object is masked from 'package:graphics':
##
## legend
chart.Correlation(X, histogram = TRUE, col = 'gray10', pch =1)

분석결과 매이 높은 상관관계 0.9 이상 을 보이는 설명변수 Cell.size 와 Cell.shape가 존재함으로 다중공선성을 의심할수 있다.
GGally 패키지의 ggcorr() 함수는 설명변수 간의 상관계수 히트맵을 시각화한다.
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
ggcorr(X, name = 'correlation', label = T)
분석결과 Cell.size 와 Cell.shape 두 속성의 상관계수가 0.9로 매우 높은 상관관계가 있다는 것을 알 수 있다.
8. fmsb 패키지의 VIF 함수로 설명변수 간의 분산팽창지수를 확인하기
## Registered S3 methods overwritten by 'fmsb':
## method from
## print.roc pROC
## plot.roc pROC
VIF(lm(Cl.thickness ~ ., data=X))
## [1] 1.90642
VIF(lm(Cell.size ~ ., data=X))
## [1] 7.109585
VIF(lm(Cell.shape ~ ., data=X))
## [1] 6.462976
VIF(lm(Marg.adhesion ~ ., data=X))
## [1] 2.523803
VIF(lm(Epith.c.size ~ ., data=X))
## [1] 2.530673
VIF(lm(Bare.nuclei ~ ., data=X))
## [1] 2.589232
VIF(lm(Bl.cromatin ~ ., data=X))
## [1] 2.903433
VIF(lm(Normal.nucleoli ~ ., data=X))
## [1] 2.461502
VIF(lm(Mitoses ~ ., data=X))
## [1] 1.403406
분석 결과 분산팽창지수 값이 10 이상인 설명변수는 없는 것을 볼 수 있다. fmsb 패키지의 VIF 함수는 분산팽창지수를 출력한다.
9. 설명변수 표준화하기
## Cl.thickness Cell.size Cell.shape Marg.adhesion Epith.c.size
## Cl.thickness 1.0000000 0.6408468 0.6526171 0.4894212 0.5191716
## Cell.size 0.6408468 1.0000000 0.9057554 0.7146499 0.7488287
## Cell.shape 0.6526171 0.9057554 1.0000000 0.6940289 0.7171865
## Marg.adhesion 0.4894212 0.7146499 0.6940289 1.0000000 0.6034792
## Epith.c.size 0.5191716 0.7488287 0.7171865 0.6034792 1.0000000
## Bare.nuclei 0.5939357 0.6898953 0.7108760 0.6764278 0.5827524
## Bl.cromatin 0.5564040 0.7594179 0.7378729 0.6717437 0.6226487
## Normal.nucleoli 0.5338912 0.7237118 0.7232412 0.6021876 0.6341289
## Mitoses 0.3548217 0.4667208 0.4485088 0.4245258 0.4846702
## Bare.nuclei Bl.cromatin Normal.nucleoli Mitoses
## Cl.thickness 0.5939357 0.5564040 0.5338912 0.3548217
## Cell.size 0.6898953 0.7594179 0.7237118 0.4667208
## Cell.shape 0.7108760 0.7378729 0.7232412 0.4485088
## Marg.adhesion 0.6764278 0.6717437 0.6021876 0.4245258
## Epith.c.size 0.5827524 0.6226487 0.6341289 0.4846702
## Bare.nuclei 1.0000000 0.6791367 0.5879502 0.3495506
## Bl.cromatin 0.6791367 1.0000000 0.6688204 0.3532766
## Normal.nucleoli 0.5879502 0.6688204 1.0000000 0.4363314
## Mitoses 0.3495506 0.3532766 0.4363314 1.0000000
실행 결과 분산이 1인것을 볼 수 있다. scale()함수는 설명변수를 평균이 0, 분산이 1인값으로 표준화한다. 테이터를 표준화하면 변수의 측정 단위 또는 범위간의 편차를 없애준다.
10. 데이터셋을 훈련용 데이터 80 % 와 테스트 데이터 20 % 로 분리하기
BreastCancer4<- data.frame(Y, X2)
set.seed(123)
train<-sample(1:nrow(BreastCancer4), size = 0.8 * nrow(BreastCancer4), replace = F)
test<-(-train)
Y.test<-Y[test]
scales::percent(length(train)/nrow(BreastCancer4))
## [1] "80%"
훈련데이터와 테스트 데이터는 80%, 20% 로 분리된것을 알 수 있다.
12. 훈련용 데이터로 로지스틱 회귀 모델 적합하기
glm.fit<-glm(Y~., data = BreastCancer4[train,], family = binomial)
summary(glm.fit)
##
## Call:
## glm(formula = Y ~ ., family = binomial, data = BreastCancer4[train,
## ])
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -3.4697 -0.1092 -0.0645 0.0272 2.0358
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.25451 0.35899 -3.495 0.000475 ***
## Cl.thickness 1.42695 0.43656 3.269 0.001081 **
## Cell.size -0.03872 0.64364 -0.060 0.952034
## Cell.shape 0.94102 0.68520 1.373 0.169641
## Marg.adhesion 0.61825 0.39002 1.585 0.112929
## Epith.c.size -0.05972 0.44169 -0.135 0.892441
## Bare.nuclei 1.53896 0.38169 4.032 5.53e-05 ***
## Bl.cromatin 1.28305 0.47518 2.700 0.006931 **
## Normal.nucleoli 0.73540 0.38577 1.906 0.056612 .
## Mitoses 0.97173 0.59059 1.645 0.099896 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 697.996 on 539 degrees of freedom
## Residual deviance: 83.888 on 530 degrees of freedom
## AIC: 103.89
##
## Number of Fisher Scoring iterations: 8
영향력이 없는 변수를 제거하기위해 후진제거법을 사용하여 모델을 적합하기
step(glm.fit, direction = 'backward')
## Start: AIC=103.89
## Y ~ Cl.thickness + Cell.size + Cell.shape + Marg.adhesion + Epith.c.size +
## Bare.nuclei + Bl.cromatin + Normal.nucleoli + Mitoses
##
## Df Deviance AIC
## - Cell.size 1 83.891 101.89
## - Epith.c.size 1 83.906 101.91
## - Cell.shape 1 85.656 103.66
## <none> 83.888 103.89
## - Marg.adhesion 1 86.366 104.37
## - Normal.nucleoli 1 87.749 105.75
## - Mitoses 1 88.045 106.05
## - Bl.cromatin 1 92.061 110.06
## - Cl.thickness 1 97.034 115.03
## - Bare.nuclei 1 101.994 119.99
##
## Step: AIC=101.89
## Y ~ Cl.thickness + Cell.shape + Marg.adhesion + Epith.c.size +
## Bare.nuclei + Bl.cromatin + Normal.nucleoli + Mitoses
##
## Df Deviance AIC
## - Epith.c.size 1 83.912 99.912
## <none> 83.891 101.891
## - Marg.adhesion 1 86.410 102.410
## - Cell.shape 1 87.081 103.081
## - Normal.nucleoli 1 87.923 103.923
## - Mitoses 1 88.162 104.162
## - Bl.cromatin 1 92.600 108.600
## - Cl.thickness 1 97.347 113.347
## - Bare.nuclei 1 101.994 117.994
##
## Step: AIC=99.91
## Y ~ Cl.thickness + Cell.shape + Marg.adhesion + Bare.nuclei +
## Bl.cromatin + Normal.nucleoli + Mitoses
##
## Df Deviance AIC
## <none> 83.912 99.912
## - Marg.adhesion 1 86.415 100.415
## - Cell.shape 1 87.156 101.156
## - Normal.nucleoli 1 87.949 101.949
## - Mitoses 1 88.162 102.162
## - Bl.cromatin 1 93.061 107.061
## - Cl.thickness 1 97.348 111.348
## - Bare.nuclei 1 103.415 117.415
##
## Call: glm(formula = Y ~ Cl.thickness + Cell.shape + Marg.adhesion +
## Bare.nuclei + Bl.cromatin + Normal.nucleoli + Mitoses, family = binomial,
## data = BreastCancer4[train, ])
##
## Coefficients:
## (Intercept) Cl.thickness Cell.shape Marg.adhesion
## -1.2573 1.4211 0.8973 0.6136
## Bare.nuclei Bl.cromatin Normal.nucleoli Mitoses
## 1.5225 1.2598 0.7230 0.9679
##
## Degrees of Freedom: 539 Total (i.e. Null); 532 Residual
## Null Deviance: 698
## Residual Deviance: 83.91 AIC: 99.91
후진제거법을 통하여 AIC 가 99.91로 가장작은 glm(formula = Y ~ Cl.thickness + Cell.shape + Marg.adhesion + Bare.nuclei + Bl.cromatin + Normal.nucleoli + Mitoses, family = binomial, data = BreastCancer4[train, ]) 이 가장 우수한 모델이라고 판단할 수 있다.
14. 후진제거법에서 채택된 모델을 적합하고 모델의 유의 검정하기
glm.fit.2<-glm( Y ~ Cl.thickness + Cell.shape + Marg.adhesion +
Bare.nuclei + Bl.cromatin + Normal.nucleoli + Mitoses, family = binomial,
data = BreastCancer4[train, ])
summary(glm.fit.2)
##
## Call:
## glm(formula = Y ~ Cl.thickness + Cell.shape + Marg.adhesion +
## Bare.nuclei + Bl.cromatin + Normal.nucleoli + Mitoses, family = binomial,
## data = BreastCancer4[train, ])
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -3.4510 -0.1087 -0.0651 0.0274 2.0557
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.2573 0.3589 -3.504 0.000459 ***
## Cl.thickness 1.4211 0.4332 3.281 0.001036 **
## Cell.shape 0.8973 0.5237 1.713 0.086669 .
## Marg.adhesion 0.6136 0.3868 1.586 0.112694
## Bare.nuclei 1.5225 0.3629 4.195 2.72e-05 ***
## Bl.cromatin 1.2598 0.4511 2.793 0.005229 **
## Normal.nucleoli 0.7230 0.3733 1.937 0.052777 .
## Mitoses 0.9679 0.5870 1.649 0.099160 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 697.996 on 539 degrees of freedom
## Residual deviance: 83.912 on 532 degrees of freedom
## AIC: 99.912
##
## Number of Fisher Scoring iterations: 8
anova(glm.fit.2,test = 'Chisq')
## Analysis of Deviance Table
##
## Model: binomial, link: logit
##
## Response: Y
##
## Terms added sequentially (first to last)
##
##
## Df Deviance Resid. Df Resid. Dev Pr(>Chi)
## NULL 539 698.00
## Cl.thickness 1 323.28 538 374.71 < 2.2e-16 ***
## Cell.shape 1 208.78 537 165.94 < 2.2e-16 ***
## Marg.adhesion 1 30.76 536 135.18 2.920e-08 ***
## Bare.nuclei 1 28.39 535 106.79 9.932e-08 ***
## Bl.cromatin 1 14.15 534 92.64 0.0001692 ***
## Normal.nucleoli 1 4.48 533 88.16 0.0342509 *
## Mitoses 1 4.25 532 83.91 0.0392408 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
위의 최종 모델로부터 다른 설명변수가 통제되었을 경우 설명변수 Xi 가 한 단위 증가할때 유방암 악성일 확률의 오즈는 exp(beta(i)) 만큼 증가한다. 예로 Mitoses의 회귀계수가 0.96 이므로 Mitoses 속성이 한단위 증가할 때 유방암이 악성의 확률의 오즈는 exp(0.96) = 2.62 배 증가한다. 모든 설명변수의 p-value(prob Chi)가 0.05 보다 작아 모델이 유의미하다는 결론을 도출할 수 있다. anova 함수는 하나 이상의 적합된 모델에 대한 분산분석을 수해한다. 이는 모델을 평가하거나 모델간의 비교를 위해 사용된다.
테스트 데이터로 모델 성능 평가 수행하기
glm.probs<-predict(glm.fit.2, BreastCancer4[test, ], type = 'response')
# probability 형태의 예측
head(glm.probs)
## 1 3 9 18 22 33
## 0.015966687 0.008922727 0.013332039 0.009709133 0.998791643 0.998064958
# threshold 를 0.5로 설정
glm.pred<-ifelse(glm.probs > 0.5, 1, 0)
table(Y.test, glm.pred)
## glm.pred
## Y.test 0 1
## 0 87 0
## 1 4 44
# Accuracy. logic 변수는 mean으로 추출
mean(Y.test == glm.pred)
## [1] 0.9703704
# Error rate
mean(Y.test != glm.pred)
## [1] 0.02962963
16. ROC 그래프와 AUC 확인하기
library(ROCR)
pr <- prediction(glm.probs, Y.test)
prf <- performance(pr, measure = 'tpr', x.measure = 'fpr')
plot(prf, main = 'ROC Curve')

auc <- performance(pr, measure = 'auc')
auc<-auc@y.values[[1]]
auc
## [1] 0.9978448
분석결과 ROC 곡선이 매이 이상적이고 AUC가 약 0.99 로 매우 우수한 모델이라 할 수 있다.
참고: VIF 값이 5 이상이면 다중공선성이 있다고 보고, VIF 값이 10 이상이면 다중공선성이 매우 심각하다고 평가한다.
6.4 인공신경망
인공신경망 모델: 생물체의 뇌신경계를 모방하여 입력신호와 출력신호 간의 관계를 모델화하는 기법이다.
단층신경망: 입력층이 은닉층을 거치지 않고 직접 출력층에 연결 (오로지 입력층과 출력층으로만 구성 되어 있다.)
다층신경망: 단층신결망 모델과 달리 입력층과 출력층 사이에 여러 개의 은닉층을 가질 수 있다.
피드포워드신경망: 정보가 전방으로 전달되는 것은 생물학적 신경계에서도 유사하게 나타나며, 이러한 원리를 인공신경망에 적용한 것을 말한다.
dupicated 함수는 중복 값이 존재하는 경우 TRUE 아닌 경우 FALSE로 값을 출력한다.
GGally 패키지의 ggcorr 함수는 설명변수 간의 상관계수 히트맵을 시각화한다.
fmsb 패키지의 VIF 함수는 분산팽창지수를 추력한다
scale 함수는 설명변수를 평균이 0, 분산이 1 인값으로 표준화한다.
nnet 함수는 활성함수로 시그모이드 또는 선형 출력을 사용한다.
neuralnet 함수는 다양한 역전파 알고리즘을 통해 모델을 생성한다.
compute 함수는 각 뉴런의 출력값을 계산한다.
6.4.1 인공신경망 모델의 개념
인공신경망 ANN 모델은 생물체의 뇌신경계를 모방하여 입력신호와 출력 신호간의 관계를 모델화하는 기법이다.
자연 뉴런이 시냅스를 통해 신호를 전달받는 과정에서 신호의 강도가 기준치보다 크면 뉴런은 활성화되고 신경돌기를 통하여 신호를 방출한다.
여기서 입력은 시냅스에 해당하고, 개별 신호의 강도에 따라 가중되며, 활성함수는 출력을 계산한다.
6.4.2 단층신경망/단층퍼셉트론
단층신경망은 입력층이 은닉층을 거치지 않고 직접 출력층에 연결되어 있다. 입력층과 출력층으로만 구성 되어있다.
인공신경망은 많은 데이터에 대해 학습을 거쳐 원하는 결과가 나오도록 (오차가 작아지는 방향으로 ) 가중치가 조정된다. 즉, 인공신경망은 가중치를 반복적으로 조정하며 학습한다.
6.4.3 다층신경망
다층신경망 또는 다층퍼셉트론 은 단층신경망과 달리 입력층과 출력층 사이에 여러 개의 은닉층을 가질 수 있다. 은닉층의 수는 의사결정 경계를 정하는데 중요하다. 은닉층의 수를 정할때 고려사항은
다층신경망은 단층신경망에 비해 훈련이 어렵다. 시그모이드 함수를 가지는 2개 층의 네트워크(1개 은닉층)는 임의의 의사결정 경계를 모델화할 수 있다.
각 층의 노드 수 (units) 는 다음을 결정하여 결정한다.
출력층 노드 - output units 의 수는 출력 범주의 수로 결정한다. 입력 - inputs 의 수는 입력 차원의 수로 결정한다. 은닉층 노드 - hidden units 의 수는 다음을 고려하여 정한다.너무 적으면 네트워크가 복잡한 의사결정 경계를 만들수 없다, 너무 많으면 네트워크의 일반화가 어렵다.
6.4.4 피드드포워드신경망 FNN
Feedforward Neural Network(FNN): 정보가 전방으로 전달되는 인공신경망, 신경세포를 오직 앞 방향으로만 연결시킨다. 어떤 신경세포 층도 이전의 신경세포 층과는 달리 연결되지 않기 때문에 피드포워드라는 이름을 갖게 되었다.
피드포워드신경망에서 입력층은 입력 데이터를 받아들이는 기능이고, 입력층의 뉴런 또는 노드 개수는 입력 데이터의 특성 개수와 일치하다.
은닉층에서 뉴런 수가 너무 많으면 과적합이 발생하고, 뉴런 수가 너무 적으면 입력 데이터를 충분히 표현못하는 경우가 발생할 수 있다. 은닉층의 활성화 함수는 뉴런으로 모아진 신호를 좀 더 변별력 있는 상태로 전환하는 것이다.
학습(learning): 피드포워드신경망에서 원하는 결과를 얻기 위해서는 뉴런 사이에 정보 전달 과정에 작용하는 적당한 가중치를 알아내야 하는데 이것을 학습이라고 한다.
역전파(Back Propagation) 는 대표적인 지도학습 알고리즘으로 레이블된 학습 데이터를 가지고 여러 개의 은닉층을 가지는 피드포워드신경망을 학습시킬 때 사용된다. 이는 현재 신경망에서 가장 많이 사용되는 학습 알고리즘이다.
역전파 학습은 크게 3 단계 과정이 반복된다.
1. 피드포워드 과정
먼저 모든 층에 있는 가중치를 임의의 수로 초기화하고, 레이블된 학습 데이터를 입력층에서 입력받아 은닉층을 통해 출력층까지 피드포워드 한다.
2. 역전파 계산
피드포워드된 예상값과 실제값의 차이인 에러를 구하고, 에러를 최소화하는 가중치를 찾는 과정이다.
3. 가중치 조정
가중치 조정: 앞 단계에서 계산된 에러로 학습률(최소평균제곱의 미분값을 이용해 학습률을 선정) 만큼 수정된 가중치를 구하고, 델타 룰을 이영해 가중치를 조정한다.
인공신경ㅇ망 모델의 장, 단점
장점:
변수의 수가 많거나 입, 출력 변수 간의 복자반 비선형 문제에도 탁월한 성능을 보인다.
분류 및 수치 예측 문제에 모두 적용 가능하다.
통계적 기본 가정이 적고 유연한 모델을 만든다.
데이터 사이즈가 작거나 불완전 데이터, 노이즈 데이터가 있는 경우에도 다른 모델에 비하여 예측성능이 우수한 경우가 많다.
단점:
모델 결과 해석이 어려워서 은닉층의 노드들이 무엇을 표현하는지, 결과값 설명이 필요한 모델링에는 적합하지 않다.
은닉층의 수와 은닉노드 수의 결정이 어렵다.
나이브 베이즈 로지스틱 회귀 모델처럼 보다 단순한 분류 모델에 비해 컴퓨팅 연산에 많은 자원이 필요하다.
과적합 또는 과서적합이 발생하기 쉽다.
초기값에 따라 전체적 관점에서의 최적해가 아닌 지역 최적해가 선택될 수 있다.
많이 사용되는 활성함수
시그모이드 함수: 결과는 연속형이고 0<=y<=1 이며 ,로지스틱 회귀 모델과 유사하다. y = 1 / [1+exp(-z)]
계단함수: 결과는 이진형인 0 또는 1. y = 0 when z<0; y = 1 when z>=1
tanh 함수: 결과는 연속형이며 -1<=y<=1 이다. y = [exp(z)-exp(-z)]/[exp(z)+exp(-z)]
relu 함수: 입력값이 0 이하는 0, 0 초과는 x 값을 가지며 최근 딥러닝에서 많이 사용되는 함수이다. Yrelu = 0, if x <= 0 or Yrelu = x, if x > 0
softmax 함수: 표준화주수 또는 일반화 로지스틱 함수로도 불리며 출력값이 여러 개로 주어지고, 목표치가 다범주인 경우에 각 범주에 속할 사후 확률을 제공하는 함수이다.
가우스 함수: 결과는 연속형이며 0 <= y <= 1 이다. y = exp(-z^2 / 2)
부호 또는 threshold 함수: 결과는 이진형 -1 또는 1 이다. y = -1 , z < 0 or y = 1, z >= 1
참고: 지역해 - local minimum
신경망은 가중치를 임의의 값으로 초기화한 후에 가중치를 조절하면서 에러의 제곱학 (sum of squred error) 또는 엔트로피를 기준으로 최적화한다. 이는 수식으로 단번에 최적의 가중치를 찾는 것이 어렵기 때문에 반복적으로 답을 찾아가는 것이다. 지역해 문제는 에러를 최소화시키는 최적의 파라미터를 찾는 문제에 있어서 파라미터 공간에 수많은 지역적인 홀들이 존재하여 이러한 지역해에 빠질경우 전역해 (global minimum) 을 찾기 힘들게 되는 문제를 일컫는다.
6.4.5 인공신경망 분석 예제 with nnet()함수
다음은 nnet함수로 datasets 패키지의 자연 유산과 인공 유산 후의 불임에 대한 사례-대조 연구 데이터셋을 이용해 신경망 모델을 적합하는 예제다.
1. infer 데이터셋 불로오기
data('infert', package = 'datasets')
str(infert)
## 'data.frame': 248 obs. of 8 variables:
## $ education : Factor w/ 3 levels "0-5yrs","6-11yrs",..: 1 1 1 1 2 2 2 2 2 2 ...
## $ age : num 26 42 39 34 35 36 23 32 21 28 ...
## $ parity : num 6 1 6 4 3 4 1 2 1 2 ...
## $ induced : num 1 1 2 2 1 2 0 0 0 0 ...
## $ case : num 1 1 1 1 1 1 1 1 1 1 ...
## $ spontaneous : num 2 0 0 0 1 1 0 0 1 0 ...
## $ stratum : int 1 2 3 4 5 6 7 8 9 10 ...
## $ pooled.stratum: num 3 1 4 2 32 36 6 22 5 19 ...
table(infert$case) # 타깃 변수
##
## 0 1
## 165 83
infert 데이터는 8개의 변수와 248개의 관측값을 가지고 있다. 반응변수 case는 1(사례), 0 (대조)를 나타낸다. 반응변수의 분할표를 보면 0이 165개, 1이 83개인 것을 볼 수 있다.
2. 결측값, 중복데이터 확인 및 제거하기
# 토탈 NA
colSums(is.na(infert))
## education age parity induced case
## 0 0 0 0 0
## spontaneous stratum pooled.stratum
## 0 0 0
## [1] 248
# 토탈 중복데이터
sum(duplicated(infert))
## [1] 31
분석결과 결측값은 존재하지 않았고, 중복 데이터는 31개 있어 모두 제거한다.
# 중복된 데이터를 제거하고 infert2 라고 지정
infert2<-infert[!duplicated(infert), ]
nrow(infert2)
## [1] 217
## [1] 0
3. 반응변수 구성 분포 확인하기
table(infert2$case); cat('total:', margin.table(table(infert2$case)))
##
## 0 1
## 134 83
## total: 217
# 0 = 대조 , 1 = 사례
prop.table(table(infert2$case))
##
## 0 1
## 0.6175115 0.3824885
infert 데이터 전처리 후 반응변수의 분할표를 보면 0(대조) 이 134개, 1(사례)이 83개인 것을 볼 수있다.
4. 설명변수 간 다중공선성 확인을 위해 목표변수를 Y, 설명변수를 X라는 데이터 프레임으로 분리하기
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:xts':
##
## first, last
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
Y <- infert2$case
# 설명변수 중에서 education속성을 제외한 나머지 6개변수를 선택하여 X에 할당한다.
X <- infert2 %>%
select('age','parity','induced','spontaneous','stratum','pooled.stratum')
5. 설명변수 간의 산점도scatter plot와 상관계수값correlation coefficient 확인하기
library(PerformanceAnalytics)
chart.Correlation(X, histogram = TRUE, col = 'grey10', pch = 1)

분석결과 높은 상관계수(0.7이상) 을 보이는 설명변수는 stratum, pooled.stratum 가존재함으로 다중공선성을 의심할수 있다.
library(GGally)
ggcorr(X, name = 'correlation coefficient', label = T)

GGally 패키지의 ggcorr함수로 분석한 결과 stratum, pooled.stratum 두 속성의 상관계수가 0.7로 높은 상관관계가 있다는 것을 알 수 있다.
7. 설명변수 간의 분산팽창지수 - VIF 확인하기
library(fmsb)
VIF(lm(age ~ ., data = X))
## [1] 1.082952
VIF(lm(parity ~ ., data = X))
## [1] 2.278814
VIF(lm(induced ~ ., data = X))
## [1] 1.773881
VIF(lm(spontaneous ~ ., data = X))
## [1] 1.669696
VIF(lm(stratum ~ ., data = X))
## [1] 3.873179
VIF(lm(pooled.stratum ~ ., data = X))
## [1] 3.667886
분석 결과 분산팽창지수값이 5이상인 설명변수는 없는 것을 볼 수있다. VIF는 독립변수가 다중 공산성(Multicollnearity)의 문제를 갖고 있는지 판단하는 기준이며,주로 10보다 크면 그 독립변수는 다중공산성이 있다고 말합니다.
8. 설명변수 표준화하기
## age parity induced spontaneous stratum
## age 1.00000000 0.1067976 -0.07064768 -0.04451437 -0.19519692
## parity 0.10679763 1.0000000 0.40037688 0.34393582 -0.30761505
## induced -0.07064768 0.4003769 1.00000000 -0.30214629 -0.11164181
## spontaneous -0.04451437 0.3439358 -0.30214629 1.00000000 0.03446012
## stratum -0.19519692 -0.3076150 -0.11164181 0.03446012 1.00000000
## pooled.stratum -0.13929427 0.1420194 0.14741830 0.19379142 0.74825495
## pooled.stratum
## age -0.1392943
## parity 0.1420194
## induced 0.1474183
## spontaneous 0.1937914
## stratum 0.7482550
## pooled.stratum 1.0000000
실행 결과 분산이 1인것을 볼 수 있다. scale 함수는 설명변수를 평균이 0, 분산이 1인 값으로 표준화한다.
10. 데이터셋 을 훈련용 데이터와 테스트 데이터로 분리
infert.data<-data.frame(Y,X2)
set.seed(123)
train<-sample(1:nrow(infert.data), size = 0.8*nrow(infert.data), replace = F)
test<-(-train)
Y.test<-Y[test]
scales::percent(length(train)/nrow(infert.data))
## [1] "80%"
## [1] 159 207 179 14 195 170
실행 결과 데이터셋에서 80프로가 훈련용 데이터로 분리된것을 알 수 있다. 여기서 훈련용 데이터(train), 테스트 데이터(test), 테스트 반응변수 데이터 (Y.test) 에는 관측값이 들어있는 것이 아니라 인덱스 정보가 들어 있다.
11. 훈련용 데이터로 인공신경망 모델을 적합하기
library(nnet)
nn.fit<-nnet(Y ~ spontaneous + pooled.stratum + age + stratum, data = infert.data[train, ],
size = 2, rang = 0.1, decay = 5e-4, maxit = 200)
## # weights: 13
## initial value 43.233005
## iter 10 value 35.964349
## iter 20 value 33.572048
## iter 30 value 33.501981
## iter 40 value 33.494601
## iter 50 value 33.491939
## iter 60 value 33.490829
## iter 70 value 33.490809
## final value 33.490794
## converged
## a 4-2-1 network with 13 weights
## options were - decay=5e-04
## b->h1 i1->h1 i2->h1 i3->h1 i4->h1
## -4.26 -5.72 -2.76 -7.28 -1.90
## b->h2 i1->h2 i2->h2 i3->h2 i4->h2
## 4.79 -9.11 8.35 -2.16 -11.92
## b->o h1->o h2->o
## 0.62 1.21 -2.47
nnet 패키지에서 신경망의 파라미터는 엔트로피 또는 에러의 제곱합을 고려해 최적화 된다. 여기서 기본값은 에러의 제곱합 이다. 출력결과는 softmax를 사용해 확률과 같은 형태로 변환할 수 있고 과적합을 막기위해 가중치 감소 (weight decay)옵션을 제공한다. nnet() 함수는 활성함수로 시그모이드 또는 선형 출력(기본값은 시그모이드 함수, lineout = FALSE)을 사용한다.
12. 모델 적합 결과 시각화하기
## Loading required package: usethis
# import the plot function for nnet
source_url('https://gist.githubusercontent.com/fawda123/7471137/raw/466c1474d0a505ff044412703516c34f1a4684a5/nnet_plot_update.r')
## ℹ SHA-1 hash of file is "74c80bd5ddbc17ab3ae5ece9c0ed9beb612e87ef"
## Loading required package: scales
## Loading required package: reshape
##
## Attaching package: 'reshape'
## The following object is masked from 'package:dplyr':
##
## rename

위 그림에서의 선의 굵기는 연결선의 가중치에 비례한다.
13. 테스트 데이터로 모델 성능 평가 수행하기
nn.probs<-predict(nn.fit, infert.data[test, ])
nn.pred<-ifelse(nn.probs > 0.5, 1, 0)
table(Y.test, nn.pred)
## nn.pred
## Y.test 0 1
## 0 22 4
## 1 7 11
# Accuracy
mean(Y.test == nn.pred)
## [1] 0.75
14. ROC 그래프와 AUC 확인하기
library(ROCR)
pr<-prediction(nn.pred, Y.test)
prf<-performance(pr, measure = 'tpr', x.measure = 'fpr')
plot(prf, main = 'ROC Curve')

auc<-performance(pr, measure = 'auc')
auc<-auc@y.values[[1]]
auc
## [1] 0.7286325
분석결과 ROC 곡선이 완만하게 증가하고, AUC 가 약 0.6 이므로 적합된 모델이 매우 우수한 모델이라고는 할 수 없지만, 좋은 비즈니스 결과를 가져올 수도 있다.
6.4.6 인공신경망 분석 예제 with neuralnet 함수
다음은 neuralnet 패키지의 neuralnet함수를 이용해 infert 자료로 인공신경망 분석을 수행하는 예제다.
1. 훈련용 데이터셋을 이용해 인공신경망 모델을 적합하기
##
## Attaching package: 'neuralnet'
## The following object is masked from 'package:dplyr':
##
## compute
## The following object is masked from 'package:ROCR':
##
## prediction
net.fit<-neuralnet(formula = Y ~ spontaneous + pooled.stratum + age + stratum, data = infert.data[train, ], hidden = c(2,2), err.fct = 'ce', threshold = 0.01, linear.output = FALSE, likelihood = TRUE,stepmax = 1e7) # stepmax를 지정하였음
은닉층이 2개인 모델을 적용하기 위해 각각 은닉 노드의 수는 2개,2개로 한다. 이를 위해 neuralnet() 함수의 hidden = c(2,2) 옵션을 사용한다. threshold 옵션은 오차함수의 편미분에 대한 값으로 정지규칙(stop rule) 으로 사용된다. neauralnet() 함수는 다양한 역전파(back-propagation) 알고리즘을 통해 모델을 생성한다.
적합된 모델 시각화하기
실행 결과 입력층이 4개, 은닉층이 2개, 출력층이 1개인 모델로 적합된것을 볼수 있다.
3. 적합된 모델의 추가적인 정보 확인하기
## [1] "call" "response" "covariate"
## [4] "model.list" "err.fct" "act.fct"
## [7] "linear.output" "data" "exclude"
## [10] "net.result" "weights" "generalized.weights"
## [13] "startweights" "result.matrix"
$data : 전체자료
$covariate, 와 response : 모델 적합에 사용된 자료
$net.result: 적합값
$startweights: 가중치의 초기값
$weights: 가중치의 적합값
$result.matrix: 결과 행렬에 대한 정보
$generalized.weights: 일반화 가중치
4. 모델 적합에 사용된 자료와 적합된 값 확인하기
out<-cbind(net.fit$covariate, net.fit$net.result[[1]])
dimnames(out)<-list(NULL, c('spotaneous','pooled.stratum','age','stratum','nn-output'))
head(out)
## spotaneous pooled.stratum age stratum nn-output
## [1,] -0.8524475 1.0830316 -0.0602827 1.4351792 0.1758648
## [2,] -0.8524475 0.3814858 -1.2145191 1.1437304 0.1627067
## [3,] -0.8524475 -0.9046817 -0.6374009 -0.8131403 0.3441342
## [4,] -0.8524475 -0.3200601 -0.4450282 -1.1878602 0.3446074
## [5,] 0.4783518 0.4399479 -0.6374009 0.4775616 0.4359711
## [6,] -0.8524475 -1.7231518 -1.9840100 -1.3960380 0.3446367
5. 일반화 가중치(generalized weights)에 대한 시각화하기
par(mfrow = c(2,2))
gwplot(net.fit, selected.covariate = 'spontaneous', min = -2.5, max = 5)
gwplot(net.fit, selected.covariate = 'pooled.stratum', min = -2.5, max = 5)
gwplot(net.fit, selected.covariate = 'age', min = -2.5, max = 5)
gwplot(net.fit, selected.covariate = 'stratum', min = -2.5, max = 5)

분석 결과 일반화 가중치의 분포로부터 pooled.stratum, age, stratum은 대부분 값이 0 근처의 값을 가지므로 사례-대조 상태에 따른 효과가 미미하고 spontaneous는 일반화 가중치의 분산이 전반적으로 1보다 크기 때문에 비선형 효과를 가진다고 할 수 있다.
일반화 가중치는 다른 모든 공변량에 의존하므로 각 자료점에서 국소적인 기요도를 나타낸다. 예를 들어 , 동일변수가 몇몇 관측값에 대해서는 양의 영향을 가지며 다른 관측값에 대해서는 음의 영향을 가진다면 평균적으로 0에 가까운 영향을 갖는 것이 가능하다.
모든 자료에 대한 일반화 가중치의 분포는 특정 공변량의 효과가 선형인지의 여부를 나타낸다. 즉, 작은 분산은 선형 효과를 제시하며 큰 분산은 관측값 공간상에서 변화가 심하다는 것을 나타내므로 비선형적인 효과가 있음을 나타낸다
6. 테스트 데이터로 적합된 모델의 뉴런 출려값 계산하기 (예측값 구하기)
test.data.out<-compute(net.fit, infert.data[test, ])
head(test.data.out$net.result)
## [,1]
## 3 0.3419691
## 10 0.3446257
## 12 0.3442493
## 15 0.3445452
## 18 0.3446219
## 19 0.3446313
# confusion matrix
net.pred<-ifelse(test.data.out$net.result>0.5, 1, 0)
table(infert.data[test, ]$Y, net.pred)
## net.pred
## 0 1
## 0 22 4
## 1 12 6
# Accuracy
mean(net.pred == infert.data[test, ]$Y)
## [1] 0.6363636
6.5 알상블
앙상블 모델: 주어진 데이터로부터 여러 개의 모델을 학습한 후 결과를 종합하여 알고리즘의 안정성과 정확성을 높이는 방법이다.
배깅은 일반적인 모델을 만드는데 집중되어 있고 부스팅은 어려운 문제를 맞추는데 초점이 맞추어져 있다.
배깅은 각 샘플에서 나타난 결과를 일종의 중앙값으로 맞추기 때문에 과적합을 피할수 있다.
데이터 분할시 createDataPartition 함수를 사용하면 반응변수값의 비율이 원본 데이터와 같게 유지된다.
adabag 패키지의 bagging 함수는 배깅 모델을 생성하고 boosting 함수는 부스팅 모델을 생성한다.
부스팅은 순차적으로 학습시키고 학습하는 과정에서 오답에 대해 높은 가중치를 부여하지만 정답에 대해서는 낮은 가중치를 부여하기 때문에 오답에 더욱 집중할 수 있다.
랜덤 포레스트는 의사결정나무 분석의 예측 정확도를 높이기 위해 하나의 의사결정나무를 사용하는 대신에 다수의 의사결정나무를 사용해 결과를 예측하는 아상블 학습 기법이다.
6.5.1 앙상블 모델의 개념
앙상블 모델은 주어진 데이터로부터 여러 개의 모델을 학습한 후 결과를 종합하여 알고리즘의 안정성과 정확성을 높이는 방법이다. 이는 데이터에서 표본추출법으로 여러훈련용 데이터 집합을 만들어 각각의 데이터 집합에서 하나의 분류기(최종 모델) 를 만들어 앙상블하는 방법이다.
아상블 기법은 높은 편향 (bias) 로 인한 과소적합과 높은 분산 (variance) 으로 인한 과적합을 최소화하는데 도움이 된다.
배깅(boostrap aggregating)은 일반적인 모델을 만드는데 집중되어있다면, 부스팅은 어려운 문제를 맞추는데 초점이 맞추어져 있다.
부스팅(boosting) - 학습하는 과정에서 오답에 대해 높은 가중치를 부여해서 오답을 잘 맞춘 모델은 최종 모델로 선정한다.
배깅은 병렬로 학습, 부스팅은 순차적으로 학습.
랜덤 포레스트 - 대표적인 배깅 알고리즘 모델이다. 랜덤 포레스트는 일반적으로 성능이 뛰어나고 의사결정나무 여러 개를 사용해 과적합 문제를 피할 수 있다.
6.5.2
배깅(bagging/boostrap aggregating) 알고리즘 원리 : 주어진 자료에서 여러 개의 붓스트랩 자료를 생성하고, 각 표본에 대해 분류기(classifiers)를 생성한 후(모델 학습후) 그 결과를 결합(voting/average) 하여 최종 모델을 만드는 방법이다. 배깅은 각 샘플에서 나타난 결과를 일종의 중앙값으로 맞추기 때문에 과적합을 피할 수 있다.
배깅알고리즘 알아둬야 할점: 배깅은 복원 추출 방법을 사용하기 때문에 같은 데이터가 한 표본에 여러 번 추출될수도 있고, 어떤 데이터는 한번도 추출 되지 않을수 있다.
다은은 adabag 패키지의 bagging 함수로 아이리스 자료를 이용해 배깅 모델을 적합하는 예제다.
## Loading required package: foreach
## Loading required package: doParallel
## Loading required package: iterators
## Loading required package: parallel
data("iris")
summary(iris)
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
## 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
## Median :5.800 Median :3.000 Median :4.350 Median :1.300
## Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
## 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
## Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
## Species
## setosa :50
## versicolor:50
## virginica :50
##
##
##
iris 는 5개 변수와 150개의 관측값을 가지고 있다. 그중 Species 는 setosa, versicolor, virginica 세 가지 범주로 분류된다.
2. iris 자료를 훈련용 데이터 80% 와 테스트 데이터 20% 로 분리하기
library(caret)
parts<-createDataPartition(iris$Species, p=0.8)
# training data
iris.train<-iris[parts$Resample1, ]
# test data
iris.test<-iris[-parts$Resample1, ]
table(iris.train$Species)
##
## setosa versicolor virginica
## 40 40 40
##
## setosa versicolor virginica
## 10 10 10
데이터 분할 시 createDataPartition 함수를 사용하여 Species 값의 비율이 원본 데이터와 같게 유지되는 것을 알 수 있다.
3. 훈련용 데이터로 100회 반복(100개 트리 수 사용)으로 배깅 모델 적합하기
bag.fit<-bagging(Species ~., data = iris.train, mfinal = 100)
mfinal = 100 인자는 학습에 사용할 트리 수(반복횟수)를 성정한다.
적합된 모델의 추가적인 정보 확인하기
## [1] "call" "class" "formula" "importance" "prob"
## [6] "samples" "terms" "trees" "votes"
5. 적합된 모델에서 첫 번째 트리 확인하기
## n= 120
##
## node), split, n, loss, yval, (yprob)
## * denotes terminal node
##
## 1) root 120 79 versicolor (0.31666667 0.34166667 0.34166667)
## 2) Petal.Length< 2.5 38 0 setosa (1.00000000 0.00000000 0.00000000) *
## 3) Petal.Length>=2.5 82 41 versicolor (0.00000000 0.50000000 0.50000000)
## 6) Petal.Width< 1.75 41 2 versicolor (0.00000000 0.95121951 0.04878049) *
## 7) Petal.Width>=1.75 41 2 virginica (0.00000000 0.04878049 0.95121951) *
# 첫 번째 트리 시각화
plot(bag.fit$trees[[1]])
text(bag.fit$trees[[1]])

첫 번째 트리 모델분석 결과 Petal.Length < 2.6 인경우 setosa 로 분류되고, petal.Length > 2.6 이고 Petal.Width < 1.75 인 경우 versicolor 로 분류되고, petal.Length > 2.6 이고 Petal.Width >= 1.75 인 경우 verginica 로 분류된다.
6. 설명변수 중요도 확인하기
## Petal.Length Petal.Width Sepal.Length Sepal.Width
## 82.36981478 17.57798543 0.05219979 0.00000000
# 중요도를 시각화
barplot(bag.fit$importance[order(bag.fit$importance, decreasing = T)], main = 'Variables Relative Importance')

분석 결과 Petal.Length, Petal.Width 변수 순으로 중요도가 높은 것을 볼 수 있다.
7. 테스트 데이터로 예측을 수행하고, 배깅 모델의 성능 평가하기
bag.pred<-predict(bag.fit, newdata = iris.test)
bag.tb<-table(bag.pred$class, iris.test$Species)
bag.tb
##
## setosa versicolor virginica
## setosa 10 0 0
## versicolor 0 9 1
## virginica 0 1 9
분석 결과 정오분류표를 보면 setosa는 10개 모두, versicolor는 10개중 9개, virginica는 10개 모두 제대로 분류된 것 을 볼수 있다.
정분류율 (Accuracy) 과 오류분율(Error rate) 계산하기
mean(iris.test$Species == bag.pred$class)
## [1] 0.9333333
## [1] 0.06666667
분석 결과 정분류율(Accuracy) 는 0.96 이고 오분류율 (error rate)은 0.03 이다.
6.5.3 부스팅과 분석 예제 with boosting 함수
부스팅 알고리즘: 부스팅은 배깅과 동일하게 복원 임의 샘플링을 하지만 가중치를 부여한다는 차이점이 있다. 부스팅은 순차적으로 학습시키고 학습하는 과정에서 오답에 대해 높은 가중치를 부여하지만, 정답에 대해 낮은 가중치를 부여하기 때문에 오답에 더욱 집중할 수 있다. 부스팅 기법은 정확도가 높게 나오는 반면 이상값(outlier)에 취약하다. 부스팅 모델에는 AdaBoost, XGBoost, GradientBoost 등이 있다.
아다부스트는 이전의 분류기에 의해 잘못 분류된 것을 이어지는 약한 학습기가 수정해줄수있다는 점에서 다양한 상황에 적용할 수 있다.
아다부스트는 잡음이 많은 데이터와 이상값에 취약하지만 과적합에 덜 취약하다.
다음은 adabag 의 boosting 함수로 아이리스 자료를 이용해 부스팅 모델을 적합하는 예제이다.
1. adabag 패키지와 iris 데이터 불로오기
library(adabag)
data('iris')
2. iris 자료를 훈련용 데이터 80% 와 테스트 데이터 20% 로 분리하기
library(caret)
parts<-createDataPartition(iris$Species, p=0.8)
iris.train<-iris[parts$Resample1, ]
iris.test<-iris[-parts$Resample1,]
table(iris.train$Species)
##
## setosa versicolor virginica
## 40 40 40
##
## setosa versicolor virginica
## 10 10 10
3. 훈련용 데이터로 100 회반복(100개 트리 수 사용)으로 부스팅 모델 적합하기
boo.fit<-boosting(Species~., data = iris.train, boos = T, mfinal = 100)
4. 적합된 모델의 추가적인 정보 확인하기
## [1] "call" "class" "formula" "importance" "prob"
## [6] "terms" "trees" "votes" "weights"
##
## setosa versicolor virginica
## 40 40 40
boo.fit 에서 $class 속성 정보의 분할표에서 setosa는 40 개, versicolor는 40개, verginica는 40개로 반응변수가 분류된 것을 볼 수 있다.
5. 적합된 모델에서 100 번째 트리 확인하기
## n= 120
##
## node), split, n, loss, yval, (yprob)
## * denotes terminal node
##
## 1) root 120 70 virginica (0.27500000 0.30833333 0.41666667)
## 2) Petal.Length< 2.75 33 0 setosa (1.00000000 0.00000000 0.00000000) *
## 3) Petal.Length>=2.75 87 37 virginica (0.00000000 0.42528736 0.57471264)
## 6) Petal.Width< 1.75 45 8 versicolor (0.00000000 0.82222222 0.17777778)
## 12) Sepal.Width>=2.65 34 1 versicolor (0.00000000 0.97058824 0.02941176) *
## 13) Sepal.Width< 2.65 11 4 virginica (0.00000000 0.36363636 0.63636364) *
## 7) Petal.Width>=1.75 42 0 virginica (0.00000000 0.00000000 1.00000000) *
# 100 번째 모델 시각화
plot(boo.fit$trees[[100]])
text(boo.fit$trees[[100]])

6. 설명변수 중요도 확인하기
## Petal.Length Petal.Width Sepal.Length Sepal.Width
## 51.038538 33.500664 10.170732 5.290067
# 중요도 시각화
barplot(boo.fit$importance[order(boo.fit$importance, decreasing = T)], ylim = c(0,100), main = 'Variables Relative Importance')

분석 결과 petal.Length, Petal.Width 가 중요도가 높은것을 볼 수 있다.
7. 테스트 데이터로 예측을 수행하고 부스팅 모델의 성능 평가하기
boo.pred<-predict(boo.fit, newdata = iris.test)
boo.tb<- table(boo.pred$class, iris.test$Species)
boo.tb
##
## setosa versicolor virginica
## setosa 10 0 0
## versicolor 0 9 0
## virginica 0 1 10
# Accuracy
mean(iris.test$Species == boo.pred$class)
## [1] 0.9666667
# error rate
boo.pred$error
## [1] 0.03333333
분석 결과 정오분류표를 보면 모두 제대로 분류된것을 볼수 있고 정분류율(Accuracy)는 1 이고 오분류율(error rate) 은 0 이다.
6.5.4 랜덤 포레스트와 분석 예제
랜덤포레스트: 의사결정나무 모델의 예측 정확도를 높이기 위해 하나의 의사결정 나무를 사용하는 대신에 다수의 의사결정나무를 사용해 결과를 예측하는 앙상블 학습 기법이다.
랜덤포레스트 알고리즘: 훈련용 데이터셋에서 임의의 샘플을 복원 추출하여 각 샘플에 대해서만 의사결정나무를 만드는 랜덤 포레스트 방식은 배깅과 유사하다. 그러나 노드 내 데이터를 자식노드로 나누는 기준을 정할 때, 전체 예측변수가 아니라 예측변수를 임의로 추출하여 추출된 변수내에서 최적의 분할을 만들어 나가는 방법을 사용한다.
예측방법: 새로운 데이터에 대한 예측에서 목표변수가 분류의 경우는 다수결, 회귀의 경우에는 평균을 취하는 방법을 사용한다.
다음은 randomForest 함수로 stagec 데이터셋을 이용한 랜덤포레스트 모델을 적합하는 예제다.
1. randomForest, rpart 패키지와 stagec 데이터 불러오기
## randomForest 4.7-1
## Type rfNews() to see new features/changes/bug fixes.
##
## Attaching package: 'randomForest'
## The following object is masked from 'package:dplyr':
##
## combine
## The following object is masked from 'package:ggplot2':
##
## margin
library(rpart)
data(stagec)
str(stagec)
## 'data.frame': 146 obs. of 8 variables:
## $ pgtime : num 6.1 9.4 5.2 3.2 1.9 4.8 5.8 7.3 3.7 15.9 ...
## $ pgstat : int 0 0 1 1 1 0 0 0 1 0 ...
## $ age : int 64 62 59 62 64 69 75 71 73 64 ...
## $ eet : int 2 1 2 2 2 1 2 2 2 2 ...
## $ g2 : num 10.26 NA 9.99 3.57 22.56 ...
## $ grade : int 2 3 3 2 4 3 2 3 3 3 ...
## $ gleason: int 4 8 7 4 8 7 NA 7 6 7 ...
## $ ploidy : Factor w/ 3 levels "diploid","tetraploid",..: 1 3 1 1 2 1 2 3 1 2 ...
##
## diploid tetraploid aneuploid
## 67 68 11
실행 결과 stagec 자료는 총 8개 변수와 146개의 관측값이 존재하는 것을 볼 수 있다. 목표변수는 diploid, tetraploid, aneuploid 세 가지 범주로 분류된다. 목표변수의 분할표에서 diploid 67개, tetraploid 68개, aneuploid 11개인 것을 알 수 있다.
2. 결측값, 중복데이터 확인 및 제거
## pgtime pgstat age eet g2 grade gleason ploidy
## 0 0 0 2 7 0 3 0
## [1] 12
# NA 제거
stagec2<-stagec[complete.cases(stagec), ]
colSums(is.na(stagec2))
## pgtime pgstat age eet g2 grade gleason ploidy
## 0 0 0 0 0 0 0 0
## [1] 134
## [1] 0
분석 결과 결측값이 12개 있어서 모두 제거 하였고 중복데이터는 존재하지 않는다.
3. 데이터셋을 훈련용 데이터 80%와 테스트 데이터 20%로 분리하기
library(caret)
parts<-createDataPartition(stagec2$ploidy, p = 0.8 )
stagec.train<- stagec2[parts$Resample1, ]
stagec.test<- stagec2[-parts$Resample1, ]
table(stagec.train$ploidy)
##
## diploid tetraploid aneuploid
## 52 52 4
table(stagec.test$ploidy)
##
## diploid tetraploid aneuploid
## 13 12 1
4. 훈련용 데이터로 랜덤 포레스트 모델을 생성하기
rf.fit<-randomForest(ploidy ~., data = stagec.train, ntree = 500, proximity = T)
rf.fit
##
## Call:
## randomForest(formula = ploidy ~ ., data = stagec.train, ntree = 500, proximity = T)
## Type of random forest: classification
## Number of trees: 500
## No. of variables tried at each split: 2
##
## OOB estimate of error rate: 5.56%
## Confusion matrix:
## diploid tetraploid aneuploid class.error
## diploid 50 1 1 0.03846154
## tetraploid 0 52 0 0.00000000
## aneuploid 3 1 0 1.00000000
실행 결과 정오분류표와 오분류율에 대한 OOB 추정치를 제공한다. 랜덤 포레스트는 붓스트랩 샘플 과정에서 제외된 OOB 자료를 사용하여 검증을 실시할 수 이싿.
5. plot 함수로 반응변수 범주별 정오분류율 시각화하기

검은색이 전체 정오분류율, 빨강이 diploid, 연두가 tetraploid, 하늘이 aneuploid 이다.
6. 설명변수 중요도 확인하기
importance(rf.fit)[order(importance(rf.fit), decreasing = T)]
## [1] 39.272219 5.100241 3.664813 2.818158 2.696932 1.561626 1.095731
# 중요도 시각화
varImpPlot(rf.fit)

분석 결과 g2, pgtime, age, gleason, pgstat, grade, eet 변수 순으로 중요도가 높은 것을 볼 수 있다.
7. 테스트 데이터로 예측을 수행하고, 랜덤 포레스트 모델의 성능 평가하기
rf.pred<-predict(rf.fit, newdata = stagec.test)
fr.tb<-table(rf.pred, stagec.test$ploidy)
fr.tb
##
## rf.pred diploid tetraploid aneuploid
## diploid 13 0 1
## tetraploid 0 12 0
## aneuploid 0 0 0
# Accuracy
mean(rf.pred == stagec.test$ploidy)
## [1] 0.9615385
# Error rate
(1-sum(diag(fr.tb)/sum(fr.tb)))
## [1] 0.03846154
분석 결과 정오분류표를 보면 diploid는 13개 모두, tetraploid는 12개 모두, aneuploid는 1개 중 0개가 제대로 분류된 것을 볼 수 있다. 정분류율(Accuracy)는 약 0.962 이고 오분류율(error rate)은 약 0.038이다.
6.6 서포트 벡터 머신
서포트 벡터 머신 모델은 데이터를 선형으로 분리하는 최적의 선형 결정 경계를 찾는 알고리즘이다.
마진은 두 데이터 군과 결정 경계와 떨어져 있는 정도를 의미한다.
서포트 벡터 머신은 분류와 수치 예측 문제에 모두 활용할 수 있으며 분류 성능이 우수하면서 과적합이 잘되지 않는다.
커널트릭은 주어진 데이터를 적절한 고차원으로 옮긴 뒤, 변환된 차원에서 데이터를 잘 분류할 수 있는 초평면을 찾는다.
ksvm 함수는 서포트 벡터 머신 모델을 생성한다.
적합된 모델에서 추가적인 정보는 ls()함수로 확인 가능하다.
cost는 얼마나 많은 데이터 샘플들이 다른 클래스에 놓이는 것을 허용하는지 결정한다.
gamma는 하나의 데이터 샘플이 영향력을 행사하는 거리를 결정한다.
6.6.1 서포트 벡터 머신 모델의 개념
서포트 벡터 머신는 서로 다른 분류에 속하는 데이터 간에 간격(마진) 이최대가 되는 선 (초평면) 을 찾아서 이를 기준으로 데이터를 분류하는 모델이다. 즉 SVM은 데이터를 선형으로 분리하는 최적의 선형 결정 경계를 찾는 알고리즘이다.
마진은 두 데이터 범주와 결정 경계와 떨어져 있는 정도를 의미한다.
서포트 벡터 알고리즘: 두 범주 간의 데이터를 같은 간격으로 그리고 최대로 멀리 떨어진 선 또는 평면을 찾는다. 두범주간의 데이터를 나누는 직선 혹은 평면은 여러 개가 있을 수 있지만 현재의 훈련용 데이터가 아닌, 미래의 데이터를 분류 예측하는데 최대한 일반화하여 분류를 이끌어 낼수 있는 최대여백 초평면 을 찾고자 하는 것이다. 여기서 이 경계선과 가장 가까운 각 분류에 속한 점들을 서포트 벡터 라고 한다.
때로는 곡선 형태나 더 복잡한 형태의 비선형 분류 평면으로 데이터를 분류해야 할 경우도 있는데, 이런경우에는 커널트릭이라는 기법으로 해결한다.
커널트릭: 주어진 데이터를 적절한 고차원으로 옮긴뒤, 변환된 차원에서 데이터를 잘 분류할 수 있는 초평면을 찾는다. 즉 커널 기법은 주어진 데이터를 고차원 특징 공간으로 사상해주는 것이다. 커널 기법에서 데이터를 고차원으로 변환하는 대신에 고차원 벡터 간 내적 계산을 수행했을 때와 유사한 값을 반환하는 커널 함수를 사용한다.
대표적인 커널 함수: 다항 커널, 가우시안 커널, 레이디얼 베이스 함수 커널, 시그모이드 커널 등이 있는데 일반적으로 가우시안 커널의 성능이 가장 우수해 가장많이 사용된다.
서포트벡터 장점
범주분류나 수치 예측 문제에 모두 활용이 가능하다.
노이즈 데이터에 영향을 많이 받지 않고, 과적합이 잘 일어나지 않는다.
일반적으로 분류 문제에서 다른 알고리즘보다 성능이 높은 것으로 알려져 있다.
분류 경계가 복잡한 비선형 문제일 경우 타 기법 대비 성능이 우수하다.
서포트벡터 단점
최적 분류를 위해 커널 함수와 매개변수 등에 대한 반복적인 조합 테스트가 필요하다.
입력 데이터가 대량이거나 변수가 많은 경우 오랜 훈련시간이 필요하다.
배경이 되는 이론과 알고리즘 구현시 타 기법에 비하여 상대적으로 난해한 면이 있다.
결과 해석이나 설명 등에 있어 어려움이 있다.
서포트 벡터 모델을 위한 패키지: kernlab, e1071
6.6.2 서포트 벡터 머신 분석 예제 with ksvm 함수
1. kernlab 패키지와 iris 데이터 불러오기
##
## Attaching package: 'kernlab'
## The following object is masked from 'package:scales':
##
## alpha
## The following object is masked from 'package:modeltools':
##
## prior
## The following object is masked from 'package:ggplot2':
##
## alpha
2. iris 자료를 훈련용 데이터 80%와 테스트 데이터 20%로 분리하기
library(caret)
parts<-createDataPartition(iris$Species, p = 0.8)
# training data
iris.train<-iris[parts$Resample1, ]
# test data
iris.test<-iris[-parts$Resample1, ]
table(iris.train$Species)
##
## setosa versicolor virginica
## 40 40 40
##
## setosa versicolor virginica
## 10 10 10
3. 훈련용 데이터로 서포트 벡터 머신 모델 생성하기
svm.fit<-ksvm(Species ~., data = iris.train)
svm.fit
## Support Vector Machine object of class "ksvm"
##
## SV type: C-svc (classification)
## parameter : cost C = 1
##
## Gaussian Radial Basis kernel function.
## Hyperparameter : sigma = 0.847876968601768
##
## Number of Support Vectors : 54
##
## Objective Function Value : -4.3672 -5.17 -19.1235
## Training error : 0.033333
서포트 벡터 머신 모델 생성에 이용한 ksvm() 함수는 사용할 커널에 대한 옵션을 지정하지 않는경우 레이디얼 베이스 함수 커널을 이용한다.
4. 테스트 데이터로 예측을 수행하고, 서포트 벡터 머신 모델의 성능 평가하기
svm.pred<-predict(svm.fit, newdata = iris.test)
head(svm.pred)
## [1] setosa setosa setosa setosa setosa setosa
## Levels: setosa versicolor virginica
svm.tb<-table(svm.pred, iris.test$Species)
svm.tb
##
## svm.pred setosa versicolor virginica
## setosa 10 0 0
## versicolor 0 10 0
## virginica 0 0 10
# Accuracy
mean(svm.pred == iris.test$Species)
## [1] 1
# Error rate
(1-sum(diag(svm.tb))/sum(svm.tb))
## [1] 0
분석 결과 versicolor의 10 중 9개는 제대로 분류 되었고 나머지 setosa, virginica 도 모두 제대로 분류 되었다. 정분류율은 0.967 이고 오분류율은 0.033 이다.
6.6.3 서포트 벡터 머신 분석 예제 with svm() 함수
다음은 e1071 패키지 svm 함수로 아이리스 자료를 이용해 서포트 벡터 머신 모델을 생성 하는 예제다.
1. 훈련용 데이터로 서포트 벡터 머신 모델 생성하기
##
## Attaching package: 'e1071'
## The following objects are masked from 'package:PerformanceAnalytics':
##
## kurtosis, skewness
svm.fit<-svm(Species ~., data = iris.train)
svm.fit
##
## Call:
## svm(formula = Species ~ ., data = iris.train)
##
##
## Parameters:
## SVM-Type: C-classification
## SVM-Kernel: radial
## cost: 1
##
## Number of Support Vectors: 46
2. 적합된 모델 추가적인 정보 확인하기
## [1] "call" "coef0" "coefs" "compprob"
## [5] "cost" "decision.values" "degree" "epsilon"
## [9] "fitted" "gamma" "index" "kernel"
## [13] "labels" "levels" "na.action" "nclasses"
## [17] "nSV" "nu" "probA" "probB"
## [21] "rho" "scaled" "sigma" "sparse"
## [25] "SV" "terms" "tot.nSV" "type"
## [29] "x.scale" "y.scale"
## [1] 1
## [1] 0.25
SVM 의 기본 매개변수인 cost(C) 와 gamma
데이터에 이상값이 관측된 데이터가 있을때, 이런 데이터를 완변하게 분리해내는 것은 어려운것이다. 이를 해결하기 위하여 약간의 오류를 허용하게되는데 이 허용정도(얼마나 데이터 샘플이 다른 클래스에 놓이는 것을 허용하는지 결정)를 cost라고 한다. 어느 정도의 cost를 허용함(cost를 낮게 봄)으로서 모델을 새로운 데이터에 적합할때 좋은 성능을 보일수 있지만 cost를 높게 보면 트레이닝 데이터를 잘 분류하겠지만 새로운 데이터 적합에서 좋은 성능을 보일기 힘들다. 즉 cost 값이 너무 작으면 과서적합이 될 가능성이 커지고, c 값이 너무 높으면 과적합이 될 가능 성이 커지게 된다.
gamma는 하나의 데이터 샘플이 영향력을 행사하는 거리를 결정한다.gamma 값이 클수록 한데이터 포인터가 영향력을 행사하는 거리는 짧ㅅ아지는 반면 gamma값이 작을수록 한 데이터 포인터가 영향력을 행사하는 거리는 커진다. gamma 값이 커질수록 결정 경계가 점점 더 구불구불해지는데 이는 즉, gamma 매개변수는 결정 경계의 곡률을 조정한다고 말할수 있다. gamma 값이 너무 작으면 과소적합될 가능성이 크고, gamma 값이 너무 높으면 과적합의 위험이 있다.
3. 테스트 데이터로 예측을 수행하고, 서포트 벡터 머신 모델의 성능 평가하기
# predict the test sets
svm.pred<-predict(svm.fit, iris.test)
# confusion matrix
svm.tb<-table(svm.pred, iris.test$Species)
svm.tb
##
## svm.pred setosa versicolor virginica
## setosa 10 0 0
## versicolor 0 10 0
## virginica 0 0 10
# Accuracy
mean(svm.pred == iris.test$Species)
## [1] 1
# Error Rate
(1-sum(diag(svm.tb))/sum(svm.tb))
## [1] 0
분석결과 virginica 는 10개 중 8개를 제대로 분류하였고 나머지 setosa 와 versicolor 는 모두 제대로 분류 되었다. 정분류율은 0.933 이고 오분류율은 약 0.066 이다.
나이브 베이즈
나이브 베이즈 모델은 목표변수의 범주를 학습시키기 위해 통계학의 베이즈 확률 추정에 기반을 둔 확률 모델인 베이즈 정리 또는 베이즈 룰을 사용한다.
베이즈 정리는 두 확률변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리다.
나이브 베이즈의 확률적 추론 방법은 어떤 가설의 확률을 평가하기 위해 임의적으로 사전 확률을 먼저 정하고, 관찰된 데이터를 기반으로 하는 가능도를 계산해서 처음에 설정한 임의적 확률을 보정하는 방법이다. 이때 베이즈 정리는 이러한 확률을 해석하는데 있어 핵심적인 개념을 제공한다.
naiveBayes 함수는 나이브 베이즈 모델을 생성한다.
6.7.1 나이브 베이즈 모델의 개념
나이브 베이즈 모델은 목표변수의 범주를 학습시키기 위해 통계학의 베이즈 확률 추정에 기반을 둔 확률 모델인 베이즈 정리 또는 베이즈 룰을 사용한다.
나이브 기법 장, 단점
장점:
개념이 단순하고 계산이 빠르다
고차원의 데이터셋에 적합하다
데이터에 노이즈 및 결측값이 포함되어 있어도 잘 동작한다
단점
범주 분류 문제에 적합하지만, 예측된 범주의 확률값을 활용해야 할 경우에는 적합하지 않다.
독립변수들이 범주 형태가 아닌 수치 형태일 경우에는 정확성이 떨어진다.
독립변수가 서로 독립적이고, 중요도가 같다는 가정이 위배되는 경우에 오류가 발생할 수 있다.
6.7.2 나이브 베이즈 분석 with naiveBayes 함수
다음은 e1071 패키지의 naiveBayes 함수로 mlbench 패키지의 HouseVotes84 자료를 이용해 나이브 베이즈 모델을 생성하는 예제다.
1. e1071, mlbench 패키지와 HouseVote84 데이터 불로오기
library(e1071)
library(mlbench)
data(HouseVotes84, package = 'mlbench')
str(HouseVotes84)
## 'data.frame': 435 obs. of 17 variables:
## $ Class: Factor w/ 2 levels "democrat","republican": 2 2 1 1 1 1 1 2 2 1 ...
## $ V1 : Factor w/ 2 levels "n","y": 1 1 NA 1 2 1 1 1 1 2 ...
## $ V2 : Factor w/ 2 levels "n","y": 2 2 2 2 2 2 2 2 2 2 ...
## $ V3 : Factor w/ 2 levels "n","y": 1 1 2 2 2 2 1 1 1 2 ...
## $ V4 : Factor w/ 2 levels "n","y": 2 2 NA 1 1 1 2 2 2 1 ...
## $ V5 : Factor w/ 2 levels "n","y": 2 2 2 NA 2 2 2 2 2 1 ...
## $ V6 : Factor w/ 2 levels "n","y": 2 2 2 2 2 2 2 2 2 1 ...
## $ V7 : Factor w/ 2 levels "n","y": 1 1 1 1 1 1 1 1 1 2 ...
## $ V8 : Factor w/ 2 levels "n","y": 1 1 1 1 1 1 1 1 1 2 ...
## $ V9 : Factor w/ 2 levels "n","y": 1 1 1 1 1 1 1 1 1 2 ...
## $ V10 : Factor w/ 2 levels "n","y": 2 1 1 1 1 1 1 1 1 1 ...
## $ V11 : Factor w/ 2 levels "n","y": NA 1 2 2 2 1 1 1 1 1 ...
## $ V12 : Factor w/ 2 levels "n","y": 2 2 1 1 NA 1 1 1 2 1 ...
## $ V13 : Factor w/ 2 levels "n","y": 2 2 2 2 2 2 NA 2 2 1 ...
## $ V14 : Factor w/ 2 levels "n","y": 2 2 2 1 2 2 2 2 2 1 ...
## $ V15 : Factor w/ 2 levels "n","y": 1 1 1 1 2 2 2 NA 1 NA ...
## $ V16 : Factor w/ 2 levels "n","y": 2 NA 1 2 2 2 2 2 2 NA ...
table(HouseVotes84$Class)
##
## democrat republican
## 267 168
실행 결과 HouseVotes84 데이터는 17개 변수와 435개의 관측값이 존재하는 것을 볼 수 있다. 미국의 하원의원 435 명 중에 267명이 민주당이고 168명이 공화당이다.
HouseVotes84 데이터 요약
## Class V1 V2 V3 V4 V5
## democrat :267 n :236 n :192 n :171 n :247 n :208
## republican:168 y :187 y :195 y :253 y :177 y :212
## NA's: 12 NA's: 48 NA's: 11 NA's: 11 NA's: 15
## V6 V7 V8 V9 V10 V11 V12
## n :152 n :182 n :178 n :206 n :212 n :264 n :233
## y :272 y :239 y :242 y :207 y :216 y :150 y :171
## NA's: 11 NA's: 14 NA's: 15 NA's: 22 NA's: 7 NA's: 21 NA's: 31
## V13 V14 V15 V16
## n :201 n :170 n :233 n : 62
## y :209 y :248 y :174 y :269
## NA's: 25 NA's: 17 NA's: 28 NA's:104
colSums(is.na(HouseVotes84))
## Class V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12
## 0 12 48 11 11 15 11 14 15 22 7 21 31
## V13 V14 V15 V16
## 25 17 28 104
## [1] 392
분석결과 반응변수/목표변수 Class 를 제외한 나머지 변수들은 모두 결측값이 존재한다는 것을 알 수 있다.
3. HouseVotes84 자료를 훈련용 데이터 80%와 테스트 데이터 20%로 분리하기
library(caret)
parts<-createDataPartition(HouseVotes84$Class, p=0.8)
data.train<-HouseVotes84[parts$Resample1, ]
data.test<-HouseVotes84[-parts$Resample1, ]
table(data.train$Class)
##
## democrat republican
## 214 135
##
## democrat republican
## 53 33
4. 훈련용 데이터로 나이브 베이즈 모델을 생성하기
nai.fit<-naiveBayes(Class ~., data = data.train)
5. 테스트 데이터로 예측을 수행하고, 나이브 베이즈 모델의 성능 평가하기
nai.pred<-predict(nai.fit, newdata = data.test, type = 'class')
nai.tb<-table(nai.pred, data.test$Class)
nai.tb
##
## nai.pred democrat republican
## democrat 47 3
## republican 6 30
# Accuracy
mean(nai.pred == data.test$Class)
## [1] 0.8953488
# Error rate
(1-sum(diag(nai.tb))/sum(nai.tb))
## [1] 0.1046512
분석결과 democrat의 53개중 45개가 제대로 분류되었고 republican의 33개중 30개가 제대로 분류되었다. 정분류율은 약 0.872 이고 오분류율은 약 0.128 이다.
6.8 k-최근접 이웃
k-최근접 이웃 모델은 목표변수의 범주를 알지 못하는 데이터 셋의 분류를 위해해당 데이터셋과 가장 유사한 k개의 주변 데이터셋을 수집하고, k개의 데이터셋이 가장 많이 속해 있는 범주로 지정하는 방식으로 분류 예측을 하는 기법이다.
데이터 간의 유사성을 측정하는 방식은 일반적으로 두 점간의 유클리드 거리의 역수를 사용하거나 피어슨 상관계수를 이용하여 계산한다.
knn 함수는 k-최근접 이웃 모델을 생성한다.
train.kknn() 함수는 최적의 k 값을 k-fold 교차검증 방법으로 찾는다.
6.8.1 k-최근접 이웃 모델의 개념
k-최근접 이웃 모델은 목표변수의 범주를 알지 못하는 데이터 셋의 분류를 위해해당 데이터셋과 가장 유사한 k개의 주변 데이터셋을 수집하고, k개의 데이터셋이 가장 많이 속해 있는 범주로 지정하는 방식으로 분류 예측을 하는 기법이다.
해당 데이터 점과 유사한 k개의 주변 데이터 점에서 다수결의 원칙에 따라 새로운 범주를 결정하는 방식이 k-최근접 이웃 기법이다
k-최근접 이웃 기법에서 적절한 k값을 정하는 것이 매우 중요하다. 여러가지 k 값을 설정해보면서 반복적으로 테스트하여 최적의 분류 성능을 보이는 k 값으로 최종적으로 정하면 된다. 다만 k 값은 관측값^0.5 보다는 작은 것이 좋다고 알려져있다.
k-최근접 이웃 기법의 장,단점 비교
장점
알고리즘이 이해하기 쉽고 직관적이다.
데이터셋의 확률분포 등에 대한 가정이 필요하지 않다.
사전 모델 성정 및 모수 추정이 필요없다.
훈련시간이 빠르다.
단점
k 값에 대한 명확한 기준이 없어 시행착오적 접근이 필요하다.
특정한 가설이나 모델 없이 주어진 데이터를 통해 범주의 분류 결과만 판단함으로 분석을 통한 통찰력을 얻기 어렵다.
새로운 데이터가 주어질 떄마다 모든 데이터와의 유사도를 계산해야함으로 그만큼 시간소요가 많다. 이런 특성 때문에 게으른 학습으로 불린다.
데이터셋의 모든 데이터들과 거리 계산을 위해 메인 메모리에 가져와야 함으로 많은 메모리가 필요하다
6.8.2 k-최근접 이웃 분석 예제 with knn 함수
다음은 class 패키지의 knn 함수로 아이리스 자료를 이용해 k-최근접 이웃 알고리즘 모델을 생성하는 예제다.
1. class 패키지와 iris 데이터 불러오기
##
## Attaching package: 'class'
## The following object is masked from 'package:reshape':
##
## condense
2. iris 자료를 훈련용 데이터 80%와 트스트 데이터 20%로 분리하기
library(caret)
# partition
parts<-createDataPartition(iris$Species, p = 0.8)
# training data
data.train<-iris[parts$Resample1, ]
# test data
data.test<-iris[-parts$Resample1, ]
table(data.train$Species)
##
## setosa versicolor virginica
## 40 40 40
##
## setosa versicolor virginica
## 10 10 10
3. k = 1 부터 k= 10 사이의 범위에서 정분류율 계산하기
library(foreach)
knn.k<-c(1,2,3,4,5,6,7,8,9,10)
knn_result<-foreach(k = knn.k, .combine = rbind) %do% {
knn.pred<-knn(data.train[,1:4], data.test[,1:4],
data.train$Species, k = k , prob = T)
acc.val<-mean(knn.pred == data.test$Species)
return(data.frame(k = k, acc = acc.val))
}
knn_result
## k acc
## 1 1 0.9333333
## 2 2 0.9333333
## 3 3 0.9666667
## 4 4 0.9666667
## 5 5 0.9666667
## 6 6 0.9666667
## 7 7 1.0000000
## 8 8 1.0000000
## 9 9 1.0000000
## 10 10 1.0000000
분석 결과 k = 3 인 경우 정분류율이 96.67% 이므로 k 값을 3 으로 결정한다.
4. 준비된 데이터셋으로 k-최근접 이웃 모델 생성하기
knn_model<-knn(data.train[,1:4], data.test[,1:4], data.train$Species, k = 3, prob = TRUE)
5. 테스트 데이터로 예측을 수행하고, k-최근접 이웃 모델의 성능 평가하기
knn.tb<-table(knn.pred, data.test$Species)
knn.tb
##
## knn.pred setosa versicolor virginica
## setosa 10 0 0
## versicolor 0 10 0
## virginica 0 0 10
# Accuracy
mean(knn.pred == data.test$Species)
## [1] 1
# Error rate
(1-sum(diag(knn.tb))/sum(knn.tb))
## [1] 0
분석 결과 정오류분류표 (confusion matrix)를 보면 setosa는 10개, versicolor는 10중 9개, virginica는 모두 제대로 분류된 것을 볼 수 있다. 정분류율은 약 0.967이고 오분류율은 약 0.033 이다.
6.8.3 k-최근접 이웃 분석 예제 kknn 함수
다음은 kknn패키지의 kknn 함수로 BreastCancer 자료를 이용해 k-최근접 이웃 모델을 생성하는 예제다.
1. kknn 패키지와 BreastCancer 데이터 불러오기
##
## Attaching package: 'kknn'
## The following object is masked from 'package:caret':
##
## contr.dummy
library(mlbench)
data("BreastCancer")
2. 결측값 확인 및 제거하기
# 각 컬럼의 결측값
colSums(is.na(BreastCancer))
## Id Cl.thickness Cell.size Cell.shape Marg.adhesion
## 0 0 0 0 0
## Epith.c.size Bare.nuclei Bl.cromatin Normal.nucleoli Mitoses
## 0 16 0 0 0
## Class
## 0
# 토탈 결측값
sum(is.na(BreastCancer))
## [1] 16
# 결측값 제거
BreastCancer2<-BreastCancer[complete.cases(BreastCancer), ]
# 중복값 탐색
sum(duplicated(BreastCancer2))
## [1] 8
# 중복값 제거
BreastCancer2<-BreastCancer2[!duplicated(BreastCancer2),]
분석 결과 16개의 결측치와 8개의 중복값이 존재하였고 결측치와 중복값을 제거하였다.
3. BreastCancer 데이터로 훈련용 데이터 80%, 테스트 데이터 20%로 분리하기
library(caret)
parts<-createDataPartition(BreastCancer2$Class, p = 0.8)
data.train<-BreastCancer2[parts$Resample1, ]
data.test<-BreastCancer2[-parts$Resample1, ]
table(data.train$Class)
##
## benign malignant
## 352 189
##
## benign malignant
## 87 47
4. 훈련용 데이터셋을 이용해 최적의 k 값 확인하기-cross validation to get the best k.
knn.tr<-train.kknn(Class ~., data.train[,-1], kmax = 10, distance = 1, kernel = 'rectangular')
# missclassification errors(the lower, the better)
knn.tr$MISCLASS
## rectangular
## 1 0.03327172
## 2 0.04621072
## 3 0.03327172
## 4 0.04066543
## 5 0.03881701
## 6 0.04066543
## 7 0.03881701
## 8 0.03881701
## 9 0.03696858
## 10 0.04066543
## $kernel
## [1] "rectangular"
##
## $k
## [1] 1
분석결과 k = 9 인경우 오분류 에러 (missclassification errors) 값이 약 0.033으로 가장 낮게 나온 것을 볼 수 있다.train.kknn 함수는 k 값을 k fold 교차검증 방법으로 찾는다.
5. 준비된 k 와 데이터를 이용하여 k-최근접 이웃 모델 생성하기- builing model
# ID 를 제외한 변수들을 포함
kkn.fit<-kknn(Class ~., data.train[,-1], data.test[,-1], k=9, distance = 1, kernel = 'rectangular')
summary(kkn.fit)
##
## Call:
## kknn(formula = Class ~ ., train = data.train[, -1], test = data.test[, -1], k = 9, distance = 1, kernel = "rectangular")
##
## Response: "nominal"
## fit prob.benign prob.malignant
## 1 benign 1.0000000 0.0000000
## 2 benign 1.0000000 0.0000000
## 3 benign 1.0000000 0.0000000
## 4 benign 1.0000000 0.0000000
## 5 benign 1.0000000 0.0000000
## 6 benign 1.0000000 0.0000000
## 7 benign 1.0000000 0.0000000
## 8 benign 1.0000000 0.0000000
## 9 benign 1.0000000 0.0000000
## 10 benign 1.0000000 0.0000000
## 11 malignant 0.0000000 1.0000000
## 12 benign 1.0000000 0.0000000
## 13 malignant 0.0000000 1.0000000
## 14 benign 1.0000000 0.0000000
## 15 malignant 0.3333333 0.6666667
## 16 malignant 0.3333333 0.6666667
## 17 benign 1.0000000 0.0000000
## 18 malignant 0.2222222 0.7777778
## 19 malignant 0.0000000 1.0000000
## 20 malignant 0.4444444 0.5555556
## 21 malignant 0.1111111 0.8888889
## 22 benign 1.0000000 0.0000000
## 23 benign 1.0000000 0.0000000
## 24 benign 1.0000000 0.0000000
## 25 benign 1.0000000 0.0000000
## 26 malignant 0.0000000 1.0000000
## 27 benign 0.7777778 0.2222222
## 28 malignant 0.0000000 1.0000000
## 29 malignant 0.0000000 1.0000000
## 30 malignant 0.0000000 1.0000000
## 31 malignant 0.1111111 0.8888889
## 32 benign 1.0000000 0.0000000
## 33 benign 1.0000000 0.0000000
## 34 malignant 0.1111111 0.8888889
## 35 benign 1.0000000 0.0000000
## 36 benign 1.0000000 0.0000000
## 37 malignant 0.0000000 1.0000000
## 38 benign 1.0000000 0.0000000
## 39 malignant 0.0000000 1.0000000
## 40 malignant 0.0000000 1.0000000
## 41 benign 1.0000000 0.0000000
## 42 malignant 0.0000000 1.0000000
## 43 benign 1.0000000 0.0000000
## 44 malignant 0.0000000 1.0000000
## 45 benign 1.0000000 0.0000000
## 46 malignant 0.0000000 1.0000000
## 47 benign 1.0000000 0.0000000
## 48 malignant 0.0000000 1.0000000
## 49 benign 1.0000000 0.0000000
## 50 malignant 0.0000000 1.0000000
## 51 benign 1.0000000 0.0000000
## 52 benign 1.0000000 0.0000000
## 53 malignant 0.0000000 1.0000000
## 54 benign 1.0000000 0.0000000
## 55 benign 1.0000000 0.0000000
## 56 benign 1.0000000 0.0000000
## 57 malignant 0.0000000 1.0000000
## 58 malignant 0.0000000 1.0000000
## 59 benign 1.0000000 0.0000000
## 60 malignant 0.1111111 0.8888889
## 61 malignant 0.0000000 1.0000000
## 62 malignant 0.0000000 1.0000000
## 63 malignant 0.0000000 1.0000000
## 64 benign 1.0000000 0.0000000
## 65 malignant 0.0000000 1.0000000
## 66 benign 1.0000000 0.0000000
## 67 malignant 0.0000000 1.0000000
## 68 benign 1.0000000 0.0000000
## 69 benign 1.0000000 0.0000000
## 70 benign 1.0000000 0.0000000
## 71 malignant 0.1111111 0.8888889
## 72 benign 1.0000000 0.0000000
## 73 malignant 0.1111111 0.8888889
## 74 benign 1.0000000 0.0000000
## 75 benign 1.0000000 0.0000000
## 76 benign 1.0000000 0.0000000
## 77 benign 1.0000000 0.0000000
## 78 malignant 0.0000000 1.0000000
## 79 malignant 0.0000000 1.0000000
## 80 benign 1.0000000 0.0000000
## 81 benign 1.0000000 0.0000000
## 82 benign 1.0000000 0.0000000
## 83 malignant 0.1111111 0.8888889
## 84 malignant 0.1111111 0.8888889
## 85 benign 1.0000000 0.0000000
## 86 benign 1.0000000 0.0000000
## 87 benign 1.0000000 0.0000000
## 88 benign 1.0000000 0.0000000
## 89 benign 1.0000000 0.0000000
## 90 benign 1.0000000 0.0000000
## 91 benign 1.0000000 0.0000000
## 92 malignant 0.0000000 1.0000000
## 93 malignant 0.0000000 1.0000000
## 94 malignant 0.0000000 1.0000000
## 95 malignant 0.0000000 1.0000000
## 96 benign 1.0000000 0.0000000
## 97 benign 1.0000000 0.0000000
## 98 benign 1.0000000 0.0000000
## 99 benign 1.0000000 0.0000000
## 100 benign 1.0000000 0.0000000
## 101 benign 1.0000000 0.0000000
## 102 benign 1.0000000 0.0000000
## 103 benign 1.0000000 0.0000000
## 104 benign 1.0000000 0.0000000
## 105 malignant 0.0000000 1.0000000
## 106 benign 1.0000000 0.0000000
## 107 benign 1.0000000 0.0000000
## 108 benign 1.0000000 0.0000000
## 109 benign 1.0000000 0.0000000
## 110 benign 1.0000000 0.0000000
## 111 malignant 0.0000000 1.0000000
## 112 malignant 0.0000000 1.0000000
## 113 malignant 0.0000000 1.0000000
## 114 benign 1.0000000 0.0000000
## 115 benign 1.0000000 0.0000000
## 116 benign 1.0000000 0.0000000
## 117 benign 1.0000000 0.0000000
## 118 malignant 0.0000000 1.0000000
## 119 benign 1.0000000 0.0000000
## 120 benign 1.0000000 0.0000000
## 121 benign 0.7777778 0.2222222
## 122 benign 1.0000000 0.0000000
## 123 benign 1.0000000 0.0000000
## 124 benign 1.0000000 0.0000000
## 125 benign 1.0000000 0.0000000
## 126 benign 1.0000000 0.0000000
## 127 benign 1.0000000 0.0000000
## 128 benign 1.0000000 0.0000000
## 129 benign 1.0000000 0.0000000
## 130 benign 1.0000000 0.0000000
## 131 benign 1.0000000 0.0000000
## 132 malignant 0.0000000 1.0000000
## 133 benign 1.0000000 0.0000000
## 134 malignant 0.1111111 0.8888889
6. 적합된 모델의 추가적인 정보 확인하기
## [1] "C" "call" "CL" "D"
## [5] "distance" "fitted.values" "prob" "response"
## [9] "terms" "W"
7. 테스트 데이터로 예측을 수행하고, k-최근접 이웃 모델의 성능 평가하기
kkn.tb<-table(kkn.fit$fitted.values, data.test$Class)
kkn.tb
##
## benign malignant
## benign 85 1
## malignant 2 46
# Accuracy
mean(kkn.fit$fitted.values == data.test$Class)
## [1] 0.9776119
# Error rate
(1-sum(diag(kkn.tb))/sum(kkn.tb))
## [1] 0.02238806
분석 결과 정오분류표를 보면 benign 의 87개 중 87개를 모두 제대로 분류하였고 malignant는 47개 중 42개를 제대로 분류하였다. kknn모델의 정분류율은 약 0.962 이고 오분류율은 약0.037 이다.
---
title: "Chapter 6 분류분석"
author: "Chunjie Nan"
date: "2022-10-17"
output:
  html_document:
    code_download: yes
    code_folding: hide
    highlight: pygments
    number_sections: yes
    theme: flatly
    toc: yes
    toc_float: yes
  word_document:
    toc: yes
  pdf_document:
    toc: yes
---



```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```
## 6.1 데이터 마이닝

## 6.1.1 데이터 마이니의 개념

데이터 마이닝은 대용량 데이터에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 과정이다. 대용량 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에
활용하는 방법이라 할 수 있다. 

통계 분석은 가설에 따라 분석이나 검증을 하지만, 데이터 마이닝은 다양한 수리 알고리즘을 이용해 데이터에서 의미있는 정보를 찾아내는 방법을 통칭한다.

지도학습중 분류는 데이터를 여러 값 중 하나로 분류하는 범주 타겟으로, 회귀분석은 데이터 값을 예측, 추정하는 수치 타겟으로 나타낸다. 

비지도학습은 데이터 내에서 관계와 유사성을 파악하는 것에 목적이 있다. 이는 예측이 목적인 지도학습과 차이를  보이는 점이다. 


## 6.1.2 데이터 마이닝의 대표적 기능

### 분류와 계층 확률 추정

분류는 어느 계층에 속할지를 예측하는 것으로(예, 아니오) 이고 새롭게 나타난 현상을 검토하여 기존의 분류 정의된 집합에 배정하는 것을 의미한다.

데이터 마이닝 프로세스는 고객이 어느 계층에 속할지 결정하는 모델을 생성하는데 이 과정을 점수화(scoring) 또는 계층 확률 추정(class probability estimation) 이라고 부른다. 


### 유사도 매칭

유사도 매칭(similarity matching)은 고객에게 제품을 추처할 때 사용하는 가장 많이 사용하는 방법중 하나로, 구매하였거나 선호하는 제품의 관점에서 현재 고객과 유사한 사람을 찾아내는 것이다.

### 군집화 

군집화(clustering) 는 데이터의 기초 조사 (탐색적 데이터 분석 EDA)를 수행할 때 어떤 그룹이 자연스럽게 만들어 지는지를 알려주고, 군집이 존재하면 다른 데이터 마이닝 작업을 수행해볼 필요가 있다는 점을 알 수 있기 때문에 매우 유용한 방법이다. 군집화는 미리 정의된 기준이나 예시에 의존하지 않고 특정 목적이 없는 상태에서 유사도에 의해 그룹화 된다. 주로 데이터 마이닝이나 모델링 준비 단계에서 주로 사용된다. 


### 회귀분석 

어떤 일이 얼마나 많이 일어나는지를 예측하는 것이다. 예로 '이 고객이 이동전화 서비스를 얼마나 많이 사용할지' 와 같은 질문이다. 여기서 예측할 변수는 서비스 사용량이며 다른 유사한 고객과 그들의 사용량 이력 데이터를 살펴보고 모델을 만들수 있다. 즉, 회귀분석은 어떤 고객에 대한 특정 변수의 값을 추정하는 모델을 만드는 것이다.


### 동시발생 그룹화 (co-occurrence grouping) 

동시발생 그룹화 는 빈발항목 집합 마이닝 (frequent itemset mining), 연관성규칙 발견(Association rule discovery), 장바구니분석(market-basket analysis) 이라고도 한다. 이는 개체에 관련된 거래에 기반하여 개체 간의 연관성을 찾아낸다. 예로 '일반적으로 어떤 상품을 함께 구매하는가' 와 같은 질문을 들수있다.


### 데이터 축소(data reduction) 

데이터 축소는 많은 변수의 데이터 즉 고차원의 데이터에서 중요 정보를 상당수 담고 있는 더 적은 변수의 데이터(저차원 데이터) 셋으로 바꾸는 것이다.
적은 변수의 데이터셋은 처리하기 더 쉽고 정보를 찾아내기도 쉬워진다. 일반적으로 데이터 축소를 하면 정보는 손실되지만 데이터에 대한 통찰력을 얻을수 있는 장점이 있다. 


## 6.1.3 데이터 마이닝 추진 단계

### 1 단계: 목적 정의

데이터 마이닝을 통해 얻고자 하는 것이 무엇인지 명확한 목적을 정의하는 단계이다. 1 단계부터 전문가가 참여하여 목적에 따라 사용할 데이터 마이닝 모델과 필요한 데이터를 정의한다.


### 2 단계: 데이터 준비

고객정보, 거래정보, 상품마스터, 웹로그데이터, 사회연결망 데이터 등 다양한 데이터를 활용할 수 있도록 수집하는 단계다. 
IT 부서와 사전협의를 통해 데이터 접근 부하에 문제가 없도록 조율. 데이터 정제를 통해 데이터의 품질을 보장하고 데이터 마이닝 기법 적용에 문제가 없도록 데이터 양을 충분히 확보한다.


### 3 단계: 데이터 가공 혹은 전처리

데이터 마이닝 기법 적용이 가능하도록 데이터를 가공하는 단계. 모델링 목적에 따라 목적 변수를 정의하고 필요한 데이터를 데이터 마이닝 소프트웨어에 적용할수 있도록 적합한 형식으로 가공한다. 

### 4 단계: 데이터 마이닝 기법 적용 

준비한 데이터에 데이터 마이닝 기법을 적용하는 단계로  데이터 마이닝 소프트웨어를 활용하여 목적하는 정보를 추출한다. 

### 5 단계: 데이터 마이닝 적용 결과 검증 및 확산

데이터 마이닝으로 추출한 정보를 검증하는 단계로 테스트 마케팅이나 과거 데이터를 활용해 테스트를 수행할 수도 있다. 검증이 완료되면 IT 부서와 협의하여 상시적으로 데이터 마이닝 결과를 업무에 적용할수 있도록 자동화 방안을 협의한다. 보고서를 작성하여 경영진 및 구성원에게 연간 추가 수익과 투자대비성(ROI)등으로 기대 효과를 전파한다. 


## 6.1.4 분류분석의 주요 모델

의사결정나무: 목표변수와 가장 연관성이 높은 변수의 순서대로 지니지수나 엔트로피 등이 낮아지는 방향으로 트리 형태로 가지를 분할하면서 분류 기법을 만들어내는 기법. 이것을 분할 정복기법 이라고도 한다

로지스틱 회귀: 설명변수값이 주어졌을 때, 목표변수값이 특정 부류에 속할 확률이 로지스틱 함수 형태를 따른다고 가정해 최대 우도 추정 방법(maximum likelihood estimation) 을로 목표변수의 확률을 추정하는 기법.

인공신경망: 인간 뇌의 뉴런작용 형태에서 모티브를 얻을 기법으로 입력, 은닉, 출력 노드로 구성하여 복잡한 분류나 수치 예측 문제를 해결할 수 있도록 하는 분석 기법.

랜덤 포레스트: 주어진 데이터로부터 여러 개의 다양한 의사결정 트리를 만들어 각 의사결정 트리의 예측결과를 투표형식으로 집계하여 최종 분류 결과를 결정하는 앙상블 형태의 기법.

서포트 벡터 머신: 특정 데이터를 분류하는데 있어 서로 다른 분류에 속한 데이터 간의 간격이 최대화가 되는 평면을 찾아 이를 기준으로 분류하는 기법.

나이브 베이즈: 베이즈 정리에 근거하여 목표변수가 발생할 조건부 확률을 사전 확률과 우도 함수의 곱으로 표현하여 어떤 분류 항목에 속할지를 계산하여 확률이 높은 쪽으로 분류하는 기법.

K-최근접 이웃: 특정 데이터 좌표점과 다른 나머지 데이터 좌표점 간의 거리에 기반을 두어 가장 가까운 k개 점들의 목표변수값을 다수결로 분류하는 기법. 게으른 학습이라고도 한다.



## 6.2 의사결정나무 

의사결정 나무 모델은 의사결정 규칙을 나무 구조에 의한 추론 규칙으로 표현하여 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석 방법이다.

목표변수가 이산형인 경우 분류나무라고 하고, 연속형인 경우 회귀나무라고 한다.

목표변수가 이산형인 분류나무의 경우 상위 노드에서 가지 분할을 수행할 때 분류 변수와 분류 기준값의 선택 방법으로 카이제곱 통계량의 p-value, 지니지수 엔트로피지수 등이 사용된다. 

의사결정나무 모델은 시장조사, 광고조사, 의학연구, 품질관리 등의 다양한 분야에서 활용되고 있다.

createDataPartition()함수는 분류를 기준으로 훈련용 데이터에서 사용할 데이터를 설정한 비율로 분리한다.

predict() 함수는 테스트 데이터로 의사결정나무 모델을 사용한 예측을 수행한다.

rpart.plot 패키지의 prp()함수로 적합된 의사결정나무 모델을 시각화한다.


## 6.2.1 의사경정나무 모델의 개념

의사결정나무 모델은 의사겨정 규칙을 나무구조에 의한 추론 규칙으로 표현하여 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석 방법이다.


## 6.2.2 분류 변수와 분류 기준값의 선택 방법

분류 변수와 분류 기준값의 선택 방법으로 카이제곱 통계량의 p-value, 지니지수, 엔트로피지수 등이 사용된다. 선택 기준에 의한 분할이 일어날 때 카이제곱 통계랴의 p-value는 그값이 작을수록 자식노드 내의 불확실성이 큼을 나타내며, 지니지수나 엔트로피지수 역시 그값이 클수록 자식노드 내의 이질성이 큼을 의미한다. 따라서 이 값들이 가장 작아지는 방향으로 가지 분할을 수행하게 된다.

데이터가 얼마나 잘 분리되었는지를 평가하기 위해서는 일반적으로 지니지수를 사용하며 이러한 지니지수는 노드에 여러 분류가 섞여 있을수록 높고, 노드에 하나의 분류만 존재할 때 가장 낮아진다. 즉, 노드 분리 후 각 노드의 불확실성 측정지수가 낮아질수록 트리분류가 잘 된 것으로 볼 수 있다.

## 6.2.3 의사결정나무의 구조
 
 목표변수가 연속형인 회귀나무의 경우 분류 변수와 분류 기준값의 선택 방법으로 F-통계량은 그 값이 클수록 오차의 변동에 비해 처리의 변동이 크다는 것을 의미하며, 이는 자식마디 사이가 이질적이다는 것을 의미하므로 이 값이 커지는 (p-value 작아지는) 방향으로 가지 분할을 수행하게 된다. 
분산의 감소량도 이 값이 최대화되는 방향으로 가지 분할을 수행하게 된다. 

뿌리마디: 맨 위의 마디를 뿌리마디(root node)

부모마디: 상위마디가 하위마디로 분기될 때 상위마디 

가지분할: 나무의 가지를 생성하는 과정이다 

가지치기: 생성된 가지를 잘라내어 모델을 단순화하는 과정을 말한다.

깊이: 뿌리마디부터 최종마디까지의 중간마디들의 수

**의사결정나무 장, 단점** 

*장점:*

구조가 단순해서 해석이 용이하다

분류, 수치예측 모두 활용가능

선형성, 정규성, 등분산성 등의 수학적 가정이 불필요하다. 

데이터에 결측값이 있는 경우에도 효과적으로 처리가능 

중요한 변수만 선별할 수있고, 이를 통해 다른 추가 분석을 위한 통찰력을 얻을 수 있다. 

분류 결과에 대한 규칙기반의 해석이 가능하여 결과 해석에 유용하다. 


*단점:*

연속형 입력변수를 비연속적인 값으로 취급하므로, 분리의 경계점 근방에서 예측 오류 가능성이 있다.

선형 또는 주효과 모델과 같은 해석이 불가능함으로 모델식을 수립해야 하는 경우 적용이 어렵다.

훈련용 데이터에 대한 약간의 변경 발생 시 트리 분류 결정 논리에 큰 변화를 가져온다 

모델이 쉽게 과적합되거나 과소적합 될 수 있다.

트리가 너무 커질 경우 패턴을 이해하기가 쉽지 않다. 


의사결정나무 모델을 위한 알고리즘에는 CHAID(chi-squared automatic interaction detection), CART(classification and regression tree), ID3, C4.5, C5.0  등이 있다. 


과적합: 훈련용 데이터에 대해서는 높은 정확도를 나타내지만 새로운 데이터에 대해서는 예측을 잘하지 못하는 것을 말한다. 

과소적합: 데이터를 충분히 반영하지 못해(예로 샘플 수가 충분하지 않은 경우) 잡음이 많이 섞여 있어 낮은 성과를 보이는 문제.



## 6.2.4 의사결정나무 분석 예제 (rpart 함수)

다음은 rpart 패키지의 rpart() 함수로 아이리스 데이터셋을 이용한 의사결정나무 분석을 수행하는 예제다. 

**1. 아이리스 데이터셋을 훈련용 데이터 와 테스트 데이터로 분리하기**

```{r}
library(caret)

head(iris)
summary(iris)
str(iris)

# 80프로 선 
parts<-createDataPartition(iris$Species, p=0.8)
summary(parts)

# 트레이닝 데이터 
data.train<-iris[parts$Resample1,]
table(data.train$Species)

# 테스트 데이터 
data.test<-iris[-parts$Resample1,]
table(data.test$Species)
```



**2. 훈련용 데이터로 의사결정나무 모델 학습하기**

```{r}
library(rpart)

# 의사결정나무 모델 학습을 위해 종석변수를 Species, 독립변수를 Sepal.Length, Sepal.Width, Petal.Length, Petal.Width
dt.m<-rpart(Species~. ,data=data.train)
print(dt.m)
```


**3. 적합된 의사결정나무 모델 시각화**

```{r}
plot(dt.m, compress = TRUE, margin = 0.3)
text(dt.m,cex = 1.2)
```



**테스트 데이터로 예측을 수행, 의사결정나무 모델의 성능 평가하기**

```{r}
dt.m.pred<-predict(dt.m, newdata = data.test, type = 'class')

confusionMatrix(data.test$Species, dt.m.pred)
```


정분류율 (Accuracy)는 100 프로이다. 

**5. rpart.plot 로 모델 시각화**

```{r}
library(rpart.plot)
prp(dt.m, extra = 2)
```

Petal.Length 가 2.5 보다 적은개체는 40 개 있는데 그중 40개 전부가 setosa 이다.

Petal.Length 가 2.5 보다 크고 Petal.With 가 1.8 보다 작은 개체는 44 개인데 그중 39 개가 versicol 이다. 

Petal.Length 가 2.5 보다 크고 Petal.With 가 1.8 보다 큰 개체는 36 개인데 그중 35 개는 virginic 이다. 



## 6.2.5 의사결정나무 분석 예제 (cnee 함수)

**1. 훈련용 데이터로 의사결정나무 모델 학습하기**

```{r}
library(party)

dt.m2<- ctree(Species ~ ., data = data.train)
print(dt.m2)
```


**2. 시각화**

```{r}
plot(dt.m2)
```



**3. 테스트 데이터로 예측, 의사결정나무 모델 성능 평가**

```{r}
dt.m2.pred<-predict(dt.m2, newdata = data.test)

confusionMatrix(data.test$Species, dt.m2.pred)
```

정분류율(Accuracy) 는 0.9667.


## 6.3 로지스틱 회귀 


로지스틱 회귀 모델은 목표변수 (또는 종속변수) 가 범주형인 경우에 적용되는 회귀분석 모델이다. 

오즈는 성공할 확률이 실패할 확률의 몇 배인지를 나타내는 확률이다. 

complete.cases() 함수는 해당 행의 모든 값이 

로지스틱 회귀 모델의 개념 NA 가 아닌 경우 TRUE, 해당 행의 값이 하나라도 NA 를 포함하고 있는 경우 FALSE값을 반환한다. 

duplicated() 함수는 중복 값이 존재하는 경우 TRUE, 아닌 경우 FALSE를 출력한다. 

performanceAnalytics 패키지의 chart.Correlation()함수는 산점와 상관계수를 출력한다.

GGally 패키지의 ggcorr()함수는 설명변수 간의 상관계수 히트맵을 시각화한다.

fmsb 패키지의 VIF()함수는 분산팽창지수를 출력한다.

scale()함수는 설명변수를 평균이 0, 분산이 1인 값으로 표준화한다.

glm()함수는 로지스틱 회귀 모델을 생성한다. 

step() 함수의 direction = 'backward' 옵션은 후진제거법을 사용해 모델을 적합한다. 

anova()함수는 하나 이상의 적합된 모델에 대한 분산분석을 수행한다. 분산분석은 모델을 평가하거나 모델 간의 비교를 위해 사용된다. 



## 6.3.1 로지스틱 회귀 모델의 개념 

로지스틱 회귀모델은 목표변수가 범주형인 경우에 적용되는 회귀분석 모델이다. 

새로운 설명변수 또는 독립변수의 값이 주어질 때 목표변수의 각 범주 또는 집단에 속할 확률이 얼마인지를 추정/예측 하여 추정확률의 기준치에 따라 분류하는 목적으로 사용될 수 있다. 이때 모델의 적합을 통해 추정된 확률을 사후확률 이라고 한다. (posterior probability)


**선형 회귀와 로지스틱 회귀 비교** 

선형회귀 종속변수: 연속형 변수; 로지스틱 종속변수: 이항 반응변수 (0,1)

선형회귀 계수추정법: 최소제곱법; 로지스틱 계수추정법: 최대우도추정법 

선형회귀 모델 검정: F 검정, T 검정; 로지스틱 모델검정: 카이제곱 검정 


**로지스틱 회귀 모델의 장, 단점 비교**

*장점:*

선형통계 모델의 이론에 기반한 정교하고 체계적인 모수 추정이 가능하다.

확률 모델이므로 목표변수의 범주 확률값을 추정할수 있다.

추정된 모델의 계수에 대한 해석이 가능하며, 독립변수들의 유의성 및 영향력 등 결과 분석 시 유용한 해석이 가능하다. 


*단점:*

데이터셋의 차원이 매우 많을 때 모델의 추정 정확도가 다른 분류 기법에 비해 좋지 않다. 

복잡한 비선형적 분류가 필요한 경우에는 분류 정확도가 좋지 않다. 

추정 방법상 x 값이 매우 커지거나 작아지면 확률값이 1 혹은 0 에 매우 가까워져서 수치계산 정확도가 떨어지게 되며, 반복 계산 시 과적합이 빈번하게 발생한다. 



## 6.3.2 로지스틱 회귀 모델 예제(glm 함수)


다음은 glm 함수를 이용해 mlbench 패키지의 유방암 데이터셋으로 로지스틱 회귀분석을 수행하는 예제다. 
이는 데이터 셋 소개, 탐색적 데이터 분석, 변수 선택, 목표변수와 설명변수 간의 상관분석, 모델 평가 순으로 진행한다. 

**1. 유방암 데이터셋 불러오기**

```{r}
library(mlbench)
data('BreastCancer')
str(BreastCancer)
table(BreastCancer$Class)
```
반응변수 Class 는 양성 begin 과 악성 malignant 두 가지 범주로 분류된다. 



**2. 결측값 확인 및 제거하기**

```{r}
colSums(is.na(BreastCancer))
sum(is.na(BreastCancer))
```

결측값이 16개가 Bare.nuclei 에 있다.complete.cases() 함수는 해당 행의 모든 값이 로지스틱 회귀 모델의 개념 NA 가 아닌 경우 TRUE, 해당 행의 값이 하나라도 NA 를 포함하고 있는 경우 FALSE값을 반환한다. 여기서 complete.cases를 이용하여 NA 가 들어있는 행을 드랍시킨다.

```{r}
BreastCancer2<-BreastCancer[complete.cases(BreastCancer),]

# NA 여부를 확인ㄷ
sum(is.na(BreastCancer2))
```



**중복 데이터 확인 및 제거**

```{r}
nrow(BreastCancer2)

sum(duplicated(BreastCancer2))

```
683항 중에서 8항이 중복되었음을 알수 있다. 중복 제거


```{r}
BreastCancer3<-BreastCancer2[!duplicated(BreastCancer2),]
nrow(BreastCancer3)
sum(duplicated(BreastCancer3))
```


**4. 반응변수 구성 분포 확인**


```{r}
table(BreastCancer3$Class)
cat("total :", margin.table(table(BreastCancer3$Class)))


prop.table(table(BreastCancer3$Class))
```
유방암 데이터 전처리 후 반응변수 Class 의 분할표를 보면 begin이 439개, malignant가 236개인 것을 볼수 있다. 


**5. 설명변수 간 다중공선성(Multicollinearity) 확인을 위해 반응변수 Class 를 Y, 설명변수를 X라는 데이터프레임으로 분리하고, 설명변수의 타입을 숫자타입으로 변환한다**


```{r}
# Y assigned 0 as begin, 1 as malignant
Y<-ifelse(BreastCancer3$Class =='malignant', 1, 0)

# choose the 2nd to 10th columns from BreastCancer3
X<-BreastCancer3[, c(2:10)]

# 새로 생긴 설명변수 X들의 타입을 숫자형으로 변형

X$Cl.thickness <-as.integer(X$Cl.thickness)
X$Cell.size <-as.integer(X$Cell.size)
X$Cell.shape <-as.integer(X$Cell.shape)
X$Marg.adhesion <-as.integer(X$Marg.adhesion)
X$Epith.c.size <-as.integer(X$Epith.c.size)
X$Bare.nuclei <-as.integer(X$Bare.nuclei)
X$Bl.cromatin <-as.integer(X$Bl.cromatin)
X$Normal.nucleoli <-as.integer(X$Normal.nucleoli)
X$Mitoses <-as.integer(X$Mitoses)
```

다음은 설명변수 간의 다중공선성이 존재하는지를 확인하기 위해 산점도 scatter plot, 상관계수 correlation coefficient, 분산팽창지수 variance inflation factor, 를 확인한다. 이것은 회귀모델에서 설명변수 간 독립성을 가정하기 때문이다. 




**6. 설명변수 간의 산점도와 상관계수 확인하기**

```{r}
library(PerformanceAnalytics)
chart.Correlation(X, histogram = TRUE, col = 'gray10', pch =1)
```


분석결과 매이 높은 상관관계 0.9 이상 을 보이는 설명변수 Cell.size 와 Cell.shape가 존재함으로 다중공선성을 의심할수 있다. 

GGally 패키지의 ggcorr() 함수는 설명변수 간의 상관계수 히트맵을 시각화한다. 

```{r}
library(GGally)
ggcorr(X, name = 'correlation', label = T)
```
분석결과 Cell.size 와 Cell.shape 두 속성의 상관계수가 0.9로 매우 높은 상관관계가 있다는 것을 알 수 있다. 


**8. fmsb 패키지의 VIF 함수로 설명변수 간의 분산팽창지수를 확인하기**

```{r}
library(fmsb)

VIF(lm(Cl.thickness ~ ., data=X))
VIF(lm(Cell.size ~ ., data=X))
VIF(lm(Cell.shape ~ ., data=X))
VIF(lm(Marg.adhesion  ~ ., data=X))
VIF(lm(Epith.c.size ~ ., data=X))
VIF(lm(Bare.nuclei ~ ., data=X))
VIF(lm(Bl.cromatin ~ ., data=X))
VIF(lm(Normal.nucleoli ~ ., data=X))
VIF(lm(Mitoses ~ ., data=X))

```
분석 결과 분산팽창지수 값이 10 이상인 설명변수는 없는 것을 볼 수 있다. 
fmsb 패키지의 VIF 함수는 분산팽창지수를 출력한다. 


**9. 설명변수 표준화하기**

```{r}
X2<-scale(X)
var(X2[,])
```

실행 결과 분산이 1인것을 볼 수 있다. scale()함수는 설명변수를 평균이 0, 분산이 1인값으로 표준화한다. 테이터를 표준화하면 변수의 측정 단위 또는 범위간의 편차를 없애준다. 


**10. 데이터셋을 훈련용 데이터 80 % 와 테스트 데이터 20 % 로 분리하기 **
```{r}
BreastCancer4<- data.frame(Y, X2)
set.seed(123)

train<-sample(1:nrow(BreastCancer4), size =  0.8 * nrow(BreastCancer4), replace = F)
test<-(-train)
Y.test<-Y[test]

scales::percent(length(train)/nrow(BreastCancer4))
```

훈련데이터와 테스트 데이터는 80%, 20% 로 분리된것을 알 수 있다. 


**12. 훈련용 데이터로 로지스틱 회귀 모델 적합하기**

```{r}
glm.fit<-glm(Y~., data = BreastCancer4[train,], family = binomial)
summary(glm.fit)
```

**영향력이 없는 변수를 제거하기위해 후진제거법을 사용하여 모델을 적합하기**

```{r}
step(glm.fit, direction = 'backward')

```


후진제거법을 통하여 AIC 가 99.91로 가장작은 glm(formula = Y ~ Cl.thickness + Cell.shape + Marg.adhesion + Bare.nuclei + Bl.cromatin + Normal.nucleoli + Mitoses, family = binomial, 
data = BreastCancer4[train, ]) 이 가장 우수한 모델이라고 판단할 수 있다.

```{r}


```


**14. 후진제거법에서 채택된 모델을 적합하고 모델의 유의 검정하기 **
```{r}
glm.fit.2<-glm( Y ~ Cl.thickness + Cell.shape + Marg.adhesion + 
    Bare.nuclei + Bl.cromatin + Normal.nucleoli + Mitoses, family = binomial, 
    data = BreastCancer4[train, ])

summary(glm.fit.2)

anova(glm.fit.2,test = 'Chisq')
```
위의 최종 모델로부터 다른 설명변수가 통제되었을 경우 설명변수 Xi 가 한 단위 증가할때 유방암 악성일 확률의 오즈는 exp(beta(i)) 만큼 증가한다. 예로 Mitoses의 회귀계수가 0.96 이므로 Mitoses 속성이 한단위 증가할 때 유방암이 악성의 확률의 오즈는 exp(0.96) = 2.62 배 증가한다.
모든 설명변수의 p-value(prob Chi)가 0.05 보다 작아 모델이 유의미하다는 결론을 도출할 수 있다. anova 함수는 하나 이상의 적합된 모델에 대한 분산분석을 수해한다. 이는 모델을 평가하거나 모델간의 비교를 위해 사용된다.


**테스트 데이터로 모델 성능 평가 수행하기 **

```{r}
glm.probs<-predict(glm.fit.2, BreastCancer4[test, ], type = 'response')

# probability 형태의 예측 
head(glm.probs)

# threshold 를 0.5로 설정
glm.pred<-ifelse(glm.probs > 0.5, 1, 0)

table(Y.test, glm.pred)

# Accuracy. logic 변수는 mean으로 추출 
mean(Y.test == glm.pred)

# Error rate
mean(Y.test != glm.pred)
```


**16. ROC 그래프와 AUC 확인하기 **

```{r}
library(ROCR)
pr <- prediction(glm.probs, Y.test)
prf <- performance(pr, measure = 'tpr', x.measure = 'fpr')
plot(prf, main = 'ROC Curve')


auc <- performance(pr, measure = 'auc')
auc<-auc@y.values[[1]]
auc
```

분석결과 ROC 곡선이 매이 이상적이고 AUC가 약 0.99 로 매우 우수한 모델이라 할 수 있다.


참고: VIF 값이 5 이상이면 다중공선성이 있다고 보고, VIF 값이 10 이상이면 다중공선성이 매우 심각하다고 평가한다. 



## 6.4 인공신경망 

인공신경망 모델: 생물체의 뇌신경계를 모방하여 입력신호와 출력신호 간의 관계를 모델화하는 기법이다. 

단층신경망: 입력층이 은닉층을 거치지 않고 직접 출력층에 연결 (오로지 입력층과 출력층으로만 구성 되어 있다.)

다층신경망: 단층신결망 모델과 달리 입력층과 출력층 사이에 여러 개의 은닉층을 가질 수 있다.

피드포워드신경망: 정보가 전방으로 전달되는 것은 생물학적 신경계에서도 유사하게 나타나며, 이러한 원리를 인공신경망에 적용한 것을 말한다.

dupicated 함수는 중복 값이 존재하는 경우 TRUE 아닌 경우 FALSE로 값을 출력한다.

GGally 패키지의 ggcorr 함수는 설명변수 간의 상관계수 히트맵을 시각화한다.

fmsb 패키지의 VIF 함수는 분산팽창지수를 추력한다

scale 함수는 설명변수를 평균이 0, 분산이 1 인값으로 표준화한다. 

nnet 함수는 활성함수로 시그모이드 또는 선형 출력을 사용한다. 

neuralnet 함수는 다양한 역전파 알고리즘을 통해 모델을 생성한다.

compute 함수는 각 뉴런의 출력값을 계산한다. 



## 6.4.1 인공신경망 모델의 개념

인공신경망 ANN 모델은 생물체의 뇌신경계를 모방하여 입력신호와 출력 신호간의 관계를 모델화하는 기법이다. 

자연 뉴런이 시냅스를 통해 신호를 전달받는 과정에서 신호의 강도가 기준치보다 크면 뉴런은 활성화되고 신경돌기를 통하여 신호를 방출한다. 

여기서 입력은 시냅스에 해당하고, 개별 신호의 강도에 따라 가중되며, 활성함수는 출력을 계산한다. 


## 6.4.2 단층신경망/단층퍼셉트론

단층신경망은 입력층이 은닉층을 거치지 않고 직접 출력층에 연결되어 있다. 입력층과 출력층으로만 구성 되어있다. 

인공신경망은 많은 데이터에 대해 학습을 거쳐 원하는 결과가 나오도록 (오차가 작아지는 방향으로 ) 가중치가 조정된다. 즉, 인공신경망은 가중치를 반복적으로 조정하며 학습한다. 


## 6.4.3 다층신경망 

다층신경망 또는 다층퍼셉트론 은 단층신경망과 달리 입력층과 출력층 사이에 여러 개의 은닉층을 가질 수 있다. 은닉층의 수는 의사결정 경계를 정하는데 중요하다. 
은닉층의 수를 정할때 고려사항은 

*다층신경망은 단층신경망에 비해 훈련이 어렵다.*
*시그모이드 함수를 가지는 2개 층의 네트워크(1개 은닉층)는 임의의 의사결정 경계를 모델화할 수 있다. *

각 층의 노드 수 (units) 는 다음을 결정하여 결정한다.

*출력층 노드 - output units 의 수는 출력 범주의 수로 결정한다. *
*입력 - inputs 의 수는 입력 차원의 수로 결정한다.*
*은닉층 노드 - hidden units 의 수는 다음을 고려하여 정한다.너무 적으면 네트워크가 복잡한 의사결정 경계를 만들수 없다, 너무 많으면 네트워크의 일반화가 어렵다.*


## 6.4.4 피드드포워드신경망 FNN

Feedforward Neural Network(FNN): 정보가 전방으로 전달되는 인공신경망, 신경세포를 오직 앞 방향으로만 연결시킨다. 어떤 신경세포 층도 이전의 신경세포 층과는 달리 연결되지 않기 때문에 피드포워드라는 이름을 갖게 되었다.

피드포워드신경망에서 입력층은 입력 데이터를 받아들이는 기능이고, 입력층의 뉴런 또는 노드 개수는 입력 데이터의 특성 개수와 일치하다. 

은닉층에서 뉴런 수가 너무 많으면 과적합이 발생하고, 뉴런 수가 너무 적으면 입력 데이터를 충분히 표현못하는 경우가 발생할 수 있다. 은닉층의 활성화 함수는 뉴런으로 모아진 신호를 좀 더 변별력 있는 상태로 전환하는 것이다. 

학습(learning): 피드포워드신경망에서 원하는 결과를 얻기 위해서는 뉴런 사이에 정보 전달 과정에 작용하는 적당한 가중치를 알아내야 하는데 이것을 학습이라고 한다. 

역전파(Back Propagation) 는 대표적인 지도학습 알고리즘으로 레이블된 학습 데이터를 가지고 여러 개의 은닉층을 가지는 피드포워드신경망을 학습시킬 때 사용된다. 이는 현재 신경망에서 가장 많이 사용되는 학습 알고리즘이다. 


**역전파 학습은 크게 3 단계 과정이 반복된다.**

*1. 피드포워드 과정*

먼저 모든 층에 있는 가중치를 임의의 수로 초기화하고, 레이블된 학습 데이터를 입력층에서 입력받아 은닉층을 통해 출력층까지 피드포워드 한다. 

*2. 역전파 계산*

피드포워드된 예상값과 실제값의 차이인 에러를 구하고, 에러를 최소화하는 가중치를 찾는 과정이다. 

*3. 가중치 조정*

가중치 조정: 앞 단계에서 계산된 에러로 학습률(최소평균제곱의 미분값을 이용해 학습률을 선정) 만큼 수정된 가중치를 구하고, 델타 룰을 이영해 가중치를 조정한다. 


**인공신경ㅇ망 모델의 장, 단점**

*장점:*

변수의 수가 많거나 입, 출력 변수 간의 복자반 비선형 문제에도 탁월한 성능을 보인다.

분류 및 수치 예측 문제에 모두 적용 가능하다.

통계적 기본 가정이 적고 유연한 모델을 만든다.

데이터 사이즈가 작거나 불완전 데이터, 노이즈 데이터가 있는 경우에도 다른 모델에 비하여 예측성능이 우수한 경우가 많다. 


*단점:*

모델 결과 해석이 어려워서 은닉층의 노드들이 무엇을 표현하는지, 결과값 설명이 필요한 모델링에는 적합하지 않다. 

은닉층의 수와 은닉노드 수의 결정이 어렵다.

나이브 베이즈 로지스틱 회귀 모델처럼 보다 단순한 분류 모델에 비해 컴퓨팅 연산에 많은 자원이 필요하다. 

과적합 또는 과서적합이 발생하기 쉽다.

초기값에 따라 전체적 관점에서의 최적해가 아닌 지역 최적해가 선택될 수 있다.


**많이 사용되는 활성함수**

시그모이드 함수: 결과는 연속형이고 0<=y<=1 이며 ,로지스틱 회귀 모델과 유사하다.
y = 1 / [1+exp(-z)]

계단함수: 결과는 이진형인 0 또는 1.
y = 0 when z<0;  y = 1 when z>=1

tanh 함수: 결과는 연속형이며 -1<=y<=1 이다.
y = [exp(z)-exp(-z)]/[exp(z)+exp(-z)]

relu 함수: 입력값이 0 이하는 0, 0 초과는 x 값을 가지며 최근 딥러닝에서 많이 사용되는 함수이다.
Yrelu = 0, if x <= 0 or Yrelu = x, if x > 0 

softmax 함수: 표준화주수 또는 일반화 로지스틱 함수로도 불리며 출력값이 여러 개로 주어지고, 
목표치가 다범주인 경우에 각 범주에 속할 사후 확률을 제공하는 함수이다. 

가우스 함수: 결과는 연속형이며 0 <= y <=  1 이다. 
y = exp(-z^2 / 2)

부호 또는 threshold 함수: 결과는 이진형 -1 또는 1 이다. 
y = -1 , z < 0 or y = 1, z >= 1


*참고: 지역해 - local minimum*

신경망은 가중치를 임의의 값으로 초기화한 후에 가중치를 조절하면서 에러의 제곱학 (sum of squred error) 또는 엔트로피를 기준으로 최적화한다. 이는 수식으로 단번에 최적의 가중치를 찾는 것이 어렵기 때문에 반복적으로 답을 찾아가는 것이다. 지역해 문제는 에러를 최소화시키는 최적의 파라미터를 찾는 문제에 있어서 파라미터 공간에 수많은 지역적인 홀들이 존재하여 이러한 지역해에 빠질경우 전역해 (global minimum) 을 찾기 힘들게 되는 문제를 일컫는다. 

## 6.4.5 인공신경망 분석 예제 with nnet()함수 

다음은 nnet함수로 datasets 패키지의 자연 유산과 인공 유산 후의 불임에 대한 사례-대조 연구 데이터셋을 이용해 신경망 모델을 적합하는 예제다. 


### 1. infer 데이터셋 불로오기

```{r}
data('infert', package = 'datasets')
str(infert)
table(infert$case) # 타깃 변수
```



infert 데이터는 8개의 변수와 248개의 관측값을 가지고 있다. 반응변수 case는 1(사례), 0 (대조)를 나타낸다. 반응변수의 분할표를 보면 0이 165개, 1이 83개인 것을 볼 수 있다. 

### 2. 결측값, 중복데이터 확인 및 제거하기 

```{r}
# 토탈 NA 
colSums(is.na(infert))

# 토탈 항수
nrow(infert)

# 토탈 중복데이터 
sum(duplicated(infert))

```
분석결과 결측값은 존재하지 않았고, 중복 데이터는 31개 있어 모두 제거한다.

```{r}
# 중복된 데이터를 제거하고 infert2 라고 지정
infert2<-infert[!duplicated(infert), ]

nrow(infert2)

sum(duplicated(infert2))
```

### 3. 반응변수 구성 분포 확인하기

```{r}
table(infert2$case); cat('total:', margin.table(table(infert2$case)))

# 0 = 대조 , 1 = 사례 
prop.table(table(infert2$case))
```

infert 데이터 전처리 후 반응변수의 분할표를 보면 0(대조) 이 134개, 1(사례)이 83개인 것을 볼 수있다. 

### 4. 설명변수 간 다중공선성 확인을 위해 목표변수를 Y, 설명변수를 X라는 데이터 프레임으로 분리하기 

```{r}
library(dplyr)

Y <- infert2$case

# 설명변수 중에서 education속성을 제외한 나머지 6개변수를 선택하여 X에 할당한다.
X <- infert2 %>%
  select('age','parity','induced','spontaneous','stratum','pooled.stratum')
``` 

### 5. 설명변수 간의 산점도scatter plot와 상관계수값correlation coefficient 확인하기 

```{r}
library(PerformanceAnalytics)
chart.Correlation(X, histogram = TRUE, col = 'grey10', pch = 1)
```

분석결과 높은 상관계수(0.7이상) 을 보이는 설명변수는 stratum, pooled.stratum 가존재함으로 다중공선성을 의심할수 있다. 

```{r}
library(GGally)
ggcorr(X, name = 'correlation coefficient', label = T)

```

GGally 패키지의 ggcorr함수로 분석한 결과 stratum, pooled.stratum 두 속성의 상관계수가 0.7로 높은 상관관계가 있다는 것을 알 수 있다. 


### 7. 설명변수 간의 분산팽창지수 - VIF 확인하기 
```{r}
library(fmsb)
VIF(lm(age ~ ., data = X))
VIF(lm(parity ~ ., data = X))
VIF(lm(induced ~ ., data = X))
VIF(lm(spontaneous ~ ., data = X))
VIF(lm(stratum ~ ., data = X))
VIF(lm(pooled.stratum ~ ., data = X))


```

분석 결과 분산팽창지수값이 5이상인 설명변수는 없는 것을 볼 수있다. VIF는 독립변수가 다중 공산성(Multicollnearity)의 문제를 갖고 있는지 판단하는 기준이며,주로 10보다 크면 그 독립변수는 다중공산성이 있다고 말합니다.

### 8. 설명변수 표준화하기

```{r}
X2<- scale(X)
var(X2)
``` 

실행 결과 분산이 1인것을 볼 수 있다. scale 함수는 설명변수를 평균이 0, 분산이 1인 값으로 표준화한다. 


### 10. 데이터셋 을 훈련용 데이터와 테스트 데이터로 분리 

```{r}
infert.data<-data.frame(Y,X2)

set.seed(123)
train<-sample(1:nrow(infert.data), size = 0.8*nrow(infert.data), replace = F)
test<-(-train)
Y.test<-Y[test]

scales::percent(length(train)/nrow(infert.data))
head(train)
```

실행 결과 데이터셋에서 80프로가 훈련용 데이터로 분리된것을 알 수 있다. 여기서 훈련용 데이터(train), 테스트 데이터(test), 테스트 반응변수 데이터 (Y.test) 에는 관측값이 들어있는 것이 아니라 인덱스 정보가 들어 있다.


### 11. 훈련용 데이터로 인공신경망 모델을 적합하기 

```{r}
library(nnet)

nn.fit<-nnet(Y ~ spontaneous + pooled.stratum + age + stratum, data = infert.data[train, ],
             size = 2, rang = 0.1, decay = 5e-4, maxit = 200)

summary(nn.fit)
```

nnet 패키지에서 신경망의 파라미터는 엔트로피 또는 에러의 제곱합을 고려해 최적화 된다. 여기서 기본값은 에러의 제곱합 이다. 출력결과는 softmax를 사용해 확률과 같은 형태로 변환할 수 있고 과적합을 막기위해 가중치 감소 (weight decay)옵션을 제공한다. nnet() 함수는 활성함수로 시그모이드 또는 선형 출력(기본값은 시그모이드 함수, lineout = FALSE)을 사용한다.

### 12. 모델 적합 결과 시각화하기

```{r}
library(devtools)

# import the plot function for nnet

source_url('https://gist.githubusercontent.com/fawda123/7471137/raw/466c1474d0a505ff044412703516c34f1a4684a5/nnet_plot_update.r')

plot.nnet(nn.fit)

```

위 그림에서의 선의 굵기는 연결선의 가중치에 비례한다. 


### 13. 테스트 데이터로 모델 성능 평가 수행하기 

```{r}
nn.probs<-predict(nn.fit, infert.data[test, ])

nn.pred<-ifelse(nn.probs > 0.5, 1, 0)
table(Y.test, nn.pred)

# Accuracy
mean(Y.test == nn.pred)

```


### 14. ROC 그래프와 AUC 확인하기 

```{r}
library(ROCR)
pr<-prediction(nn.pred, Y.test)
prf<-performance(pr, measure = 'tpr', x.measure = 'fpr')
plot(prf, main = 'ROC Curve')
auc<-performance(pr, measure = 'auc')
auc<-auc@y.values[[1]]
auc

```

분석결과 ROC 곡선이 완만하게 증가하고, AUC 가 약 0.6 이므로 적합된 모델이 매우 우수한 모델이라고는 할 수 없지만, 좋은 비즈니스 결과를 가져올 수도 있다. 


## 6.4.6 인공신경망 분석 예제 with neuralnet 함수 

다음은 neuralnet 패키지의 neuralnet함수를 이용해 infert 자료로 인공신경망 분석을 수행하는 예제다. 


### 1. 훈련용 데이터셋을 이용해 인공신경망 모델을 적합하기 

```{r}
library(neuralnet)

net.fit<-neuralnet(formula = Y ~ spontaneous + pooled.stratum + age + stratum, data = infert.data[train, ], hidden = c(2,2), err.fct = 'ce', threshold = 0.01, linear.output = FALSE, likelihood = TRUE,stepmax = 1e7) # stepmax를 지정하였음 
```



은닉층이 2개인 모델을 적용하기 위해 각각 은닉 노드의 수는 2개,2개로 한다. 이를 위해 neuralnet() 함수의 hidden = c(2,2) 옵션을 사용한다. threshold 옵션은 오차함수의 편미분에 대한 값으로 정지규칙(stop rule) 으로 사용된다. neauralnet() 함수는 다양한 역전파(back-propagation) 알고리즘을 통해 모델을 생성한다. 


### 적합된 모델 시각화하기

```{r}
plot(net.fit)

```


실행 결과 입력층이 4개, 은닉층이 2개, 출력층이 1개인 모델로 적합된것을 볼수 있다. 


### 3. 적합된 모델의 추가적인 정보 확인하기 

```{r}
names(net.fit)

```

$data : 전체자료 

$covariate, 와 response : 모델 적합에 사용된 자료

$net.result: 적합값

$startweights: 가중치의 초기값

$weights: 가중치의 적합값 

$result.matrix: 결과 행렬에 대한 정보 

$generalized.weights: 일반화 가중치 


### 4. 모델 적합에 사용된 자료와 적합된 값 확인하기 

```{r}
out<-cbind(net.fit$covariate, net.fit$net.result[[1]])
dimnames(out)<-list(NULL, c('spotaneous','pooled.stratum','age','stratum','nn-output'))

head(out)
```


### 5. 일반화 가중치(generalized weights)에 대한 시각화하기

```{r}
par(mfrow = c(2,2))
gwplot(net.fit, selected.covariate = 'spontaneous', min = -2.5, max = 5)
gwplot(net.fit, selected.covariate = 'pooled.stratum', min = -2.5, max = 5)
gwplot(net.fit, selected.covariate = 'age', min = -2.5, max = 5)
gwplot(net.fit, selected.covariate = 'stratum', min = -2.5, max = 5)
par9mfrow = c(1,1)

```

분석 결과 일반화 가중치의 분포로부터 pooled.stratum, age, stratum은 대부분 값이 0 근처의 값을 가지므로 사례-대조 상태에 따른 효과가 미미하고 spontaneous는 일반화 가중치의 분산이 전반적으로 1보다 크기 때문에 비선형 효과를 가진다고 할 수 있다. 


일반화 가중치는 다른 모든 공변량에 의존하므로 각 자료점에서 국소적인 기요도를 나타낸다.
예를 들어 , 동일변수가 몇몇 관측값에 대해서는 양의 영향을 가지며 다른 관측값에 대해서는 음의 영향을 가진다면 평균적으로 0에 가까운 영향을 갖는 것이 가능하다.

모든 자료에 대한 일반화 가중치의 분포는 특정 공변량의 효과가 선형인지의 여부를 나타낸다. 
즉, 작은 분산은 선형 효과를 제시하며 큰 분산은 관측값 공간상에서 변화가 심하다는 것을 나타내므로 비선형적인 효과가 있음을 나타낸다 


### 6. 테스트 데이터로 적합된 모델의 뉴런 출려값 계산하기 (예측값 구하기)

```{r}
test.data.out<-compute(net.fit, infert.data[test, ])
head(test.data.out$net.result)

# confusion matrix
net.pred<-ifelse(test.data.out$net.result>0.5, 1, 0)
table(infert.data[test, ]$Y, net.pred)

# Accuracy
mean(net.pred == infert.data[test, ]$Y)
```



## 6.5 알상블

앙상블 모델: 주어진 데이터로부터 여러 개의 모델을 학습한 후 결과를 종합하여 알고리즘의 안정성과 정확성을 높이는 방법이다. 

배깅은 일반적인 모델을 만드는데 집중되어 있고 부스팅은 어려운 문제를 맞추는데 초점이 맞추어져 있다.

배깅은 각 샘플에서 나타난 결과를 일종의 중앙값으로 맞추기 때문에 과적합을 피할수 있다.

데이터 분할시 createDataPartition 함수를 사용하면 반응변수값의 비율이 원본 데이터와 같게 유지된다.

adabag 패키지의 bagging 함수는 배깅 모델을 생성하고 boosting 함수는 부스팅 모델을 생성한다.

부스팅은 순차적으로 학습시키고 학습하는 과정에서 오답에 대해 높은 가중치를 부여하지만 정답에 대해서는 낮은 가중치를 부여하기 때문에 오답에 더욱 집중할 수 있다. 

랜덤 포레스트는 의사결정나무 분석의 예측 정확도를 높이기 위해 하나의 의사결정나무를 사용하는 대신에 다수의 의사결정나무를 사용해 결과를 예측하는 아상블 학습 기법이다. 


## 6.5.1 앙상블 모델의 개념 

앙상블 모델은 주어진 데이터로부터 여러 개의 모델을 학습한 후 결과를 종합하여 알고리즘의 안정성과 정확성을 높이는 방법이다. 이는 데이터에서 표본추출법으로 여러훈련용 데이터 집합을 만들어 각각의 데이터 집합에서 하나의 분류기(최종 모델) 를 만들어 앙상블하는 방법이다. 

아상블 기법은 높은 편향 (bias) 로 인한 과소적합과 높은 분산 (variance) 으로 인한 과적합을 최소화하는데 도움이 된다.

배깅(boostrap aggregating)은 일반적인 모델을 만드는데 집중되어있다면, 부스팅은 어려운 문제를 맞추는데 초점이 맞추어져 있다.

부스팅(boosting) - 학습하는 과정에서 오답에 대해 높은 가중치를 부여해서 오답을 잘 맞춘 모델은 최종 모델로 선정한다.

배깅은 병렬로 학습, 부스팅은 순차적으로 학습.

랜덤 포레스트 - 대표적인 배깅 알고리즘 모델이다. 랜덤 포레스트는 일반적으로 성능이 뛰어나고 의사결정나무 여러 개를 사용해 과적합 문제를 피할 수 있다. 


### 6.5.2

배깅(bagging/boostrap aggregating) 알고리즘 원리 : 주어진 자료에서 여러 개의 붓스트랩 자료를 생성하고, 각 표본에 대해 분류기(classifiers)를 생성한 후(모델 학습후) 그 결과를 결합(voting/average) 하여 최종 모델을 만드는 방법이다. 배깅은 각 샘플에서 나타난 결과를 일종의 중앙값으로 맞추기 때문에 과적합을 피할 수 있다. 

배깅알고리즘 알아둬야 할점: 배깅은 복원 추출 방법을 사용하기 때문에 같은 데이터가 한 표본에 여러 번 추출될수도 있고, 어떤 데이터는 한번도 추출 되지 않을수 있다.

다은은 adabag 패키지의 bagging 함수로 아이리스 자료를 이용해 배깅 모델을 적합하는 예제다. 

```{r}
library(adabag)
data("iris")
summary(iris)
```

iris 는 5개 변수와 150개의 관측값을 가지고 있다. 그중 Species 는 setosa, versicolor, virginica 세 가지 범주로 분류된다. 


### 2. iris 자료를 훈련용 데이터 80% 와 테스트 데이터 20% 로 분리하기 

```{r}
library(caret)
parts<-createDataPartition(iris$Species, p=0.8)

# training data
iris.train<-iris[parts$Resample1, ]

# test data
iris.test<-iris[-parts$Resample1, ]

table(iris.train$Species)
table(iris.test$Species)
```

데이터 분할 시 createDataPartition 함수를 사용하여 Species 값의 비율이 원본 데이터와 같게 유지되는 것을 알 수 있다.


### 3. 훈련용 데이터로 100회 반복(100개 트리 수 사용)으로 배깅 모델 적합하기

```{r}
bag.fit<-bagging(Species ~., data = iris.train, mfinal = 100)

```
mfinal = 100 인자는 학습에 사용할 트리 수(반복횟수)를 성정한다.


### 적합된 모델의 추가적인 정보 확인하기

```{r}
ls(bag.fit)

```




### 5. 적합된 모델에서 첫 번째 트리 확인하기 

```{r}
bag.fit$trees[[1]]

# 첫 번째 트리 시각화 
plot(bag.fit$trees[[1]])
text(bag.fit$trees[[1]])
```


첫 번째 트리 모델분석 결과 Petal.Length < 2.6 인경우 setosa 로 분류되고,
petal.Length > 2.6 이고 Petal.Width < 1.75 인 경우 versicolor 로 분류되고,
petal.Length > 2.6 이고 Petal.Width >= 1.75 인 경우 verginica 로 분류된다. 


### 6. 설명변수 중요도 확인하기 

```{r}
bag.fit$importance

# 중요도를 시각화

barplot(bag.fit$importance[order(bag.fit$importance, decreasing = T)], main = 'Variables Relative Importance')
```

분석 결과 Petal.Length, Petal.Width 변수 순으로 중요도가 높은 것을 볼 수 있다. 


### 7. 테스트 데이터로 예측을 수행하고, 배깅 모델의 성능 평가하기 

```{r}
bag.pred<-predict(bag.fit, newdata = iris.test)
bag.tb<-table(bag.pred$class, iris.test$Species)
bag.tb
```

분석 결과 정오분류표를 보면 setosa는 10개 모두, versicolor는 10개중 9개, virginica는 10개 모두 제대로 분류된 것 을 볼수 있다. 


### 정분류율 (Accuracy) 과 오류분율(Error rate) 계산하기

```{r}
mean(iris.test$Species == bag.pred$class)

bag.pred$error
```

분석 결과 정분류율(Accuracy) 는 0.96 이고 오분류율 (error rate)은 0.03 이다. 


## 6.5.3 부스팅과 분석 예제 with boosting 함수 

부스팅 알고리즘: 부스팅은 배깅과 동일하게 복원 임의 샘플링을 하지만 가중치를 부여한다는 차이점이 있다. 부스팅은 순차적으로 학습시키고 학습하는 과정에서 오답에 대해 높은 가중치를 부여하지만, 정답에 대해 낮은 가중치를 부여하기 때문에 오답에 더욱 집중할 수 있다. 부스팅 기법은 정확도가 높게 나오는 반면 이상값(outlier)에 취약하다.
부스팅 모델에는 AdaBoost, XGBoost, GradientBoost 등이 있다. 

아다부스트는 이전의 분류기에 의해 잘못 분류된 것을 이어지는 약한 학습기가 수정해줄수있다는 점에서 다양한 상황에 적용할 수 있다. 

아다부스트는 잡음이 많은 데이터와 이상값에 취약하지만 과적합에 덜 취약하다. 

다음은 adabag 의 boosting 함수로 아이리스 자료를 이용해 부스팅 모델을 적합하는 예제이다.

### 1. adabag 패키지와 iris 데이터 불로오기 

```{r}
library(adabag)
data('iris')
```


### 2. iris 자료를 훈련용 데이터 80% 와 테스트 데이터 20% 로 분리하기 

```{r}
library(caret)
parts<-createDataPartition(iris$Species, p=0.8)
iris.train<-iris[parts$Resample1, ]
iris.test<-iris[-parts$Resample1,]

table(iris.train$Species)
table(iris.test$Species)

```

### 3. 훈련용 데이터로 100 회반복(100개 트리 수 사용)으로 부스팅 모델 적합하기 

```{r}
boo.fit<-boosting(Species~., data = iris.train, boos = T, mfinal = 100)

```

### 4. 적합된 모델의 추가적인 정보 확인하기 

```{r}
ls(boo.fit)

table(boo.fit$class)
```
boo.fit 에서 $class 속성 정보의 분할표에서 setosa는 40 개, versicolor는 40개, verginica는 40개로 반응변수가 분류된 것을 볼 수 있다. 

### 5. 적합된 모델에서 100 번째 트리 확인하기 

```{r}
boo.fit$trees[[100]]

# 100 번째 모델 시각화 

plot(boo.fit$trees[[100]])
text(boo.fit$trees[[100]])
```


### 6. 설명변수 중요도 확인하기 

```{r}
boo.fit$importance

# 중요도 시각화

barplot(boo.fit$importance[order(boo.fit$importance, decreasing = T)], ylim = c(0,100), main = 'Variables Relative Importance')
```

분석 결과 petal.Length, Petal.Width 가 중요도가 높은것을 볼 수 있다. 


### 7. 테스트 데이터로 예측을 수행하고 부스팅 모델의 성능 평가하기 

```{r}
boo.pred<-predict(boo.fit, newdata = iris.test)
boo.tb<- table(boo.pred$class, iris.test$Species)
boo.tb

# Accuracy
mean(iris.test$Species == boo.pred$class)

# error rate
boo.pred$error
```

분석 결과 정오분류표를 보면 모두 제대로 분류된것을 볼수 있고 정분류율(Accuracy)는 1 이고 오분류율(error rate) 은 0 이다.


### 6.5.4 랜덤 포레스트와 분석 예제 

랜덤포레스트: 의사결정나무 모델의 예측 정확도를 높이기 위해 하나의 의사결정 나무를 사용하는 대신에 다수의 의사결정나무를 사용해 결과를 예측하는 앙상블 학습 기법이다.

랜덤포레스트 알고리즘: 훈련용 데이터셋에서 임의의 샘플을 복원 추출하여 각 샘플에 대해서만 의사결정나무를 만드는 랜덤 포레스트 방식은 배깅과 유사하다.
그러나 노드 내 데이터를 자식노드로 나누는 기준을 정할 때, 전체 예측변수가 아니라 예측변수를 임의로 추출하여 추출된 변수내에서 최적의 분할을 만들어 나가는 방법을 사용한다.

예측방법: 새로운 데이터에 대한 예측에서 목표변수가 분류의 경우는 다수결, 회귀의 경우에는 평균을 취하는 방법을 사용한다. 


다음은 randomForest 함수로 stagec 데이터셋을 이용한 랜덤포레스트 모델을 적합하는 예제다.

### 1. randomForest, rpart 패키지와 stagec 데이터 불러오기 

```{r}
library(randomForest)
library(rpart)
data(stagec)
str(stagec)
table(stagec$ploidy)
```

실행 결과 stagec 자료는 총 8개 변수와 146개의 관측값이 존재하는 것을 볼 수 있다. 
목표변수는 diploid, tetraploid, aneuploid 세 가지 범주로 분류된다. 목표변수의 분할표에서 diploid 67개, tetraploid 68개, aneuploid 11개인 것을 알 수 있다. 


### 2. 결측값, 중복데이터 확인 및 제거 


```{r}
colSums(is.na(stagec))
sum(is.na(stagec))

# NA 제거
stagec2<-stagec[complete.cases(stagec), ]
colSums(is.na(stagec2))

nrow(stagec2)

sum(duplicated(stagec2))

```
분석 결과 결측값이 12개 있어서 모두 제거 하였고 중복데이터는 존재하지 않는다. 


### 3. 데이터셋을 훈련용 데이터 80%와 테스트 데이터 20%로 분리하기 

```{r}
library(caret)
parts<-createDataPartition(stagec2$ploidy, p = 0.8 )
stagec.train<- stagec2[parts$Resample1, ]
stagec.test<- stagec2[-parts$Resample1, ]


table(stagec.train$ploidy)
table(stagec.test$ploidy)
```


### 4. 훈련용 데이터로 랜덤 포레스트 모델을 생성하기
```{r}
rf.fit<-randomForest(ploidy ~., data = stagec.train, ntree = 500, proximity = T)
rf.fit
```

실행 결과 정오분류표와 오분류율에 대한 OOB 추정치를 제공한다. 
랜덤 포레스트는 붓스트랩 샘플 과정에서 제외된 OOB 자료를 사용하여 검증을 실시할 수 이싿. 

### 5. plot 함수로 반응변수 범주별 정오분류율 시각화하기 

```{r}
plot(rf.fit)

```

검은색이 전체 정오분류율, 빨강이 diploid, 연두가 tetraploid, 하늘이 aneuploid 이다.


### 6. 설명변수 중요도 확인하기 

```{r}
importance(rf.fit)[order(importance(rf.fit), decreasing = T)]

# 중요도 시각화 
varImpPlot(rf.fit)
```

분석 결과 g2, pgtime, age, gleason, pgstat, grade, eet 변수 순으로 중요도가 높은 것을 볼 수 있다. 


### 7. 테스트 데이터로 예측을 수행하고, 랜덤 포레스트 모델의 성능 평가하기 

```{r}
rf.pred<-predict(rf.fit, newdata = stagec.test)
fr.tb<-table(rf.pred, stagec.test$ploidy)
fr.tb

# Accuracy
mean(rf.pred == stagec.test$ploidy)

# Error rate

(1-sum(diag(fr.tb)/sum(fr.tb)))

```
분석 결과 정오분류표를 보면 diploid는 13개 모두, tetraploid는 12개 모두, aneuploid는 1개 중 0개가 제대로 분류된 것을 볼 수 있다. 정분류율(Accuracy)는 약 0.962 이고 오분류율(error rate)은 약 0.038이다. 


## 6.6 서포트 벡터 머신 

서포트 벡터 머신 모델은 데이터를 선형으로 분리하는 최적의 선형 결정 경계를 찾는 알고리즘이다.

마진은 두 데이터 군과 결정 경계와 떨어져 있는 정도를 의미한다.

서포트 벡터 머신은 분류와 수치 예측 문제에 모두 활용할 수 있으며 분류 성능이 우수하면서 과적합이 잘되지 않는다.

커널트릭은 주어진 데이터를 적절한 고차원으로 옮긴 뒤, 변환된 차원에서 데이터를 잘 분류할 수 있는 초평면을 찾는다.

ksvm 함수는 서포트 벡터 머신 모델을 생성한다. 

적합된 모델에서 추가적인 정보는 ls()함수로 확인 가능하다. 

cost는 얼마나 많은 데이터 샘플들이 다른 클래스에 놓이는 것을 허용하는지 결정한다.

gamma는 하나의 데이터 샘플이 영향력을 행사하는 거리를 결정한다. 


## 6.6.1 서포트 벡터 머신 모델의 개념

서포트 벡터 머신는 서로 다른 분류에 속하는 데이터 간에 간격(마진) 이최대가 되는 선 (초평면) 을 찾아서 이를 기준으로 데이터를 분류하는 모델이다. 즉 SVM은 데이터를 선형으로 분리하는 최적의 선형 결정 경계를 찾는 알고리즘이다. 

마진은 두 데이터 범주와 결정 경계와 떨어져 있는 정도를 의미한다. 

서포트 벡터 알고리즘: 두 범주 간의 데이터를 같은 간격으로 그리고 최대로 멀리 떨어진 선 또는 평면을 찾는다. 두범주간의 데이터를 나누는 직선 혹은 평면은 여러 개가 있을 수 있지만 현재의 훈련용 데이터가 아닌, 미래의 데이터를 분류 예측하는데 최대한 일반화하여 분류를 이끌어 낼수 있는 최대여백 초평면 을 찾고자 하는 것이다. 여기서 이 경계선과 가장 가까운 각 분류에 속한 점들을 서포트 벡터 라고 한다. 

때로는 곡선 형태나 더 복잡한 형태의 비선형 분류 평면으로 데이터를 분류해야 할 경우도 있는데, 이런경우에는 커널트릭이라는 기법으로 해결한다. 

커널트릭: 주어진 데이터를 적절한 고차원으로 옮긴뒤, 변환된 차원에서 데이터를 잘 분류할 수 있는 초평면을 찾는다. 즉 커널 기법은 주어진 데이터를 고차원 특징 공간으로 사상해주는 것이다. 커널 기법에서 데이터를 고차원으로 변환하는 대신에 고차원 벡터 간 내적 계산을 수행했을 때와 유사한 값을 반환하는 커널 함수를 사용한다. 

대표적인 커널 함수: 다항 커널, 가우시안 커널, 레이디얼 베이스 함수 커널, 시그모이드 커널 등이 있는데 일반적으로 가우시안 커널의 성능이 가장 우수해 가장많이 사용된다. 

**서포트벡터 장점** 

범주분류나 수치 예측 문제에 모두 활용이 가능하다.

노이즈 데이터에 영향을 많이 받지 않고, 과적합이 잘 일어나지 않는다.

일반적으로 분류 문제에서 다른 알고리즘보다 성능이 높은 것으로 알려져 있다.

분류 경계가 복잡한 비선형 문제일 경우 타 기법 대비 성능이 우수하다.

**서포트벡터 단점**

최적 분류를 위해 커널 함수와 매개변수 등에 대한 반복적인 조합 테스트가 필요하다.

입력 데이터가 대량이거나 변수가 많은 경우 오랜 훈련시간이 필요하다.

배경이 되는 이론과 알고리즘 구현시 타 기법에 비하여 상대적으로 난해한 면이 있다.

결과 해석이나 설명 등에 있어 어려움이 있다. 


서포트 벡터 모델을 위한 패키지: kernlab, e1071


## 6.6.2 서포트 벡터 머신 분석 예제 with ksvm 함수 

### 1. kernlab 패키지와 iris 데이터 불러오기 
```{r}
library(kernlab)
data(iris)
```


### 2. iris 자료를 훈련용 데이터 80%와 테스트 데이터 20%로 분리하기 


```{r}
library(caret)
parts<-createDataPartition(iris$Species, p = 0.8)

# training data
iris.train<-iris[parts$Resample1, ]

# test data
iris.test<-iris[-parts$Resample1, ]

table(iris.train$Species)
table(iris.test$Species)
```


### 3. 훈련용 데이터로 서포트 벡터 머신 모델 생성하기 

```{r}
svm.fit<-ksvm(Species ~., data = iris.train)
svm.fit


```
서포트 벡터 머신 모델 생성에 이용한 ksvm() 함수는 사용할 커널에 대한 옵션을 지정하지 않는경우 레이디얼 베이스 함수 커널을 이용한다. 

### 4. 테스트 데이터로 예측을 수행하고, 서포트 벡터 머신 모델의 성능 평가하기 

```{r}
svm.pred<-predict(svm.fit, newdata = iris.test)
head(svm.pred)

svm.tb<-table(svm.pred, iris.test$Species)
svm.tb


# Accuracy
mean(svm.pred == iris.test$Species)

# Error rate
(1-sum(diag(svm.tb))/sum(svm.tb))
```

분석 결과 versicolor의 10 중 9개는 제대로 분류 되었고 나머지 setosa, virginica 도 모두 제대로 분류 되었다. 정분류율은 0.967 이고 오분류율은 0.033 이다. 



## 6.6.3 서포트 벡터 머신 분석 예제 with svm() 함수 

다음은 e1071 패키지 svm 함수로 아이리스 자료를 이용해 서포트 벡터 머신 모델을 생성 하는 예제다. 

### 1. 훈련용 데이터로 서포트 벡터 머신 모델 생성하기 

```{r}
library(e1071)
svm.fit<-svm(Species ~., data = iris.train)
svm.fit
```


### 2. 적합된 모델 추가적인 정보 확인하기 

```{r}
ls(svm.fit)

svm.fit$cost

svm.fit$gamma
```

**SVM 의 기본 매개변수인 cost(C) 와 gamma**

데이터에 이상값이 관측된 데이터가 있을때, 이런 데이터를 완변하게 분리해내는 것은 어려운것이다. 이를 해결하기 위하여 약간의 오류를 허용하게되는데 이 허용정도(얼마나 데이터 샘플이 다른 클래스에 놓이는 것을 허용하는지 결정)를 cost라고 한다. 어느 정도의 cost를 허용함(cost를 낮게 봄)으로서 모델을 새로운 데이터에 적합할때 좋은 성능을 보일수 있지만 cost를 높게 보면 트레이닝 데이터를 잘 분류하겠지만 새로운 데이터 적합에서 좋은 성능을 보일기 힘들다. 즉 cost 값이 너무 작으면 과서적합이 될 가능성이 커지고, c 값이 너무 높으면 과적합이 될 가능 성이 커지게 된다. 

gamma는 하나의 데이터 샘플이 영향력을 행사하는 거리를 결정한다.gamma 값이 클수록 한데이터 포인터가 영향력을 행사하는 거리는 짧ㅅ아지는 반면 gamma값이 작을수록 한 데이터 포인터가 영향력을 행사하는 거리는 커진다. gamma 값이 커질수록 결정 경계가 점점 더 구불구불해지는데 이는 즉, gamma 매개변수는 결정 경계의 곡률을 조정한다고 말할수 있다.
gamma 값이 너무 작으면 과소적합될 가능성이 크고, gamma 값이 너무 높으면 과적합의 위험이 있다. 



### 3. 테스트 데이터로 예측을 수행하고, 서포트 벡터 머신 모델의 성능 평가하기

```{r}
# predict the test sets
svm.pred<-predict(svm.fit, iris.test)

# confusion matrix
svm.tb<-table(svm.pred, iris.test$Species)
svm.tb

# Accuracy
mean(svm.pred == iris.test$Species)

# Error Rate
(1-sum(diag(svm.tb))/sum(svm.tb))
```

분석결과 virginica 는 10개 중 8개를 제대로 분류하였고 나머지 setosa 와 versicolor 는 모두 제대로 분류 되었다. 정분류율은 0.933 이고 오분류율은 약 0.066 이다.




## 나이브 베이즈 

나이브 베이즈 모델은 목표변수의  범주를 학습시키기 위해 통계학의 베이즈 확률 추정에 기반을 둔 확률 모델인 베이즈 정리 또는 베이즈 룰을 사용한다. 

베이즈 정리는 두 확률변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리다.

나이브 베이즈의 확률적 추론 방법은 어떤 가설의 확률을 평가하기 위해 임의적으로 사전 확률을 먼저 정하고, 관찰된 데이터를 기반으로 하는 가능도를 계산해서 처음에 설정한 임의적 확률을 보정하는 방법이다. 이때 베이즈 정리는 이러한 확률을 해석하는데 있어 핵심적인 개념을 제공한다. 

naiveBayes 함수는 나이브 베이즈 모델을 생성한다.


### 6.7.1 나이브 베이즈 모델의 개념

나이브 베이즈 모델은 목표변수의  범주를 학습시키기 위해 통계학의 베이즈 확률 추정에 기반을 둔 확률 모델인 베이즈 정리 또는 베이즈 룰을 사용한다.

**나이브 기법 장, 단점**

*장점:*

개념이 단순하고 계산이 빠르다

고차원의 데이터셋에 적합하다

데이터에 노이즈 및 결측값이 포함되어 있어도 잘 동작한다


*단점*
 
 범주 분류 문제에 적합하지만, 예측된 범주의 확률값을 활용해야 할 경우에는 적합하지 않다.
 
 독립변수들이 범주 형태가 아닌 수치 형태일 경우에는 정확성이 떨어진다.
 
 독립변수가 서로 독립적이고, 중요도가 같다는 가정이 위배되는 경우에 오류가 발생할 수 있다. 
 
 
## 6.7.2 나이브 베이즈 분석 with naiveBayes 함수 

다음은 e1071 패키지의 naiveBayes 함수로 mlbench 패키지의 HouseVotes84 자료를 이용해 나이브 베이즈 모델을 생성하는 예제다. 


### 1. e1071, mlbench 패키지와 HouseVote84 데이터 불로오기 

```{r}
library(e1071)
library(mlbench)

data(HouseVotes84, package = 'mlbench')
str(HouseVotes84)
table(HouseVotes84$Class)
```

실행 결과 HouseVotes84 데이터는 17개 변수와 435개의 관측값이 존재하는 것을 볼 수 있다. 미국의 하원의원 435 명 중에 267명이 민주당이고 168명이 공화당이다. 

### HouseVotes84 데이터 요약

```{r}
summary(HouseVotes84)

colSums(is.na(HouseVotes84))

sum(is.na(HouseVotes84))
```

분석결과 반응변수/목표변수 Class 를 제외한 나머지 변수들은 모두 결측값이 존재한다는 것을 알 수 있다.

### 3. HouseVotes84 자료를 훈련용 데이터 80%와 테스트 데이터 20%로 분리하기 

```{r}
library(caret)

parts<-createDataPartition(HouseVotes84$Class, p=0.8)
data.train<-HouseVotes84[parts$Resample1, ]
data.test<-HouseVotes84[-parts$Resample1, ]

table(data.train$Class)
table(data.test$Class)
```


### 4. 훈련용 데이터로 나이브 베이즈 모델을 생성하기 

```{r}
nai.fit<-naiveBayes(Class ~., data = data.train)

```


### 5. 테스트 데이터로 예측을 수행하고, 나이브 베이즈 모델의 성능 평가하기 

```{r}
nai.pred<-predict(nai.fit, newdata = data.test, type = 'class')
nai.tb<-table(nai.pred, data.test$Class)
nai.tb

# Accuracy
mean(nai.pred == data.test$Class)

# Error rate
(1-sum(diag(nai.tb))/sum(nai.tb))
```

분석결과 democrat의 53개중 45개가 제대로 분류되었고 republican의 33개중 30개가 제대로 분류되었다. 정분류율은 약 0.872 이고 오분류율은 약 0.128 이다.


## 6.8 k-최근접 이웃 


k-최근접 이웃 모델은 목표변수의 범주를 알지 못하는 데이터 셋의 분류를 위해해당 데이터셋과 가장 유사한 k개의 주변 데이터셋을 수집하고, k개의 데이터셋이 가장 많이 속해 있는 범주로 지정하는 방식으로 분류 예측을 하는 기법이다. 

데이터 간의 유사성을 측정하는 방식은 일반적으로 두 점간의 유클리드 거리의 역수를 사용하거나 피어슨 상관계수를 이용하여 계산한다. 

knn 함수는 k-최근접 이웃 모델을 생성한다.

train.kknn() 함수는 최적의 k 값을 k-fold 교차검증 방법으로 찾는다. 



## 6.8.1 k-최근접 이웃 모델의 개념 

k-최근접 이웃 모델은 목표변수의 범주를 알지 못하는 데이터 셋의 분류를 위해해당 데이터셋과 가장 유사한 k개의 주변 데이터셋을 수집하고, k개의 데이터셋이 가장 많이 속해 있는 범주로 지정하는 방식으로 분류 예측을 하는 기법이다. 

해당 데이터 점과 유사한 k개의 주변 데이터 점에서 다수결의 원칙에 따라 새로운 범주를 결정하는 방식이 k-최근접 이웃 기법이다 

k-최근접 이웃 기법에서 적절한 k값을 정하는 것이 매우 중요하다. 여러가지 k 값을 설정해보면서 반복적으로 테스트하여 최적의 분류 성능을 보이는 k 값으로 최종적으로 정하면 된다. 다만 k 값은 관측값^0.5 보다는 작은 것이 좋다고 알려져있다.


**k-최근접 이웃 기법의 장,단점 비교**

*장점*

알고리즘이 이해하기 쉽고 직관적이다.

데이터셋의 확률분포 등에 대한 가정이 필요하지 않다.

사전 모델 성정 및 모수 추정이 필요없다.

훈련시간이 빠르다.


*단점*

k 값에 대한 명확한 기준이 없어 시행착오적 접근이 필요하다.

특정한 가설이나 모델 없이 주어진 데이터를 통해 범주의 분류 결과만 판단함으로 분석을 통한 통찰력을 얻기 어렵다. 

새로운 데이터가 주어질 떄마다 모든 데이터와의 유사도를 계산해야함으로 그만큼 시간소요가 많다. 이런 특성 때문에 게으른 학습으로 불린다. 

데이터셋의 모든 데이터들과 거리 계산을 위해 메인 메모리에 가져와야 함으로 많은 메모리가 필요하다 


### 6.8.2 k-최근접 이웃 분석 예제 with knn 함수 

다음은 class 패키지의 knn 함수로 아이리스 자료를 이용해 k-최근접 이웃 알고리즘 모델을 생성하는 예제다. 

### 1. class 패키지와 iris 데이터 불러오기 

```{r}
library(class)
data('iris')

```


### 2. iris 자료를 훈련용 데이터 80%와 트스트 데이터 20%로 분리하기 

```{r}
library(caret)

# partition
parts<-createDataPartition(iris$Species, p = 0.8)

# training data
data.train<-iris[parts$Resample1, ]

# test data
data.test<-iris[-parts$Resample1, ]

table(data.train$Species)
table(data.test$Species)

```

### 3. k = 1 부터 k= 10 사이의 범위에서 정분류율 계산하기 

```{r}
library(foreach)

knn.k<-c(1,2,3,4,5,6,7,8,9,10)

knn_result<-foreach(k = knn.k, .combine = rbind) %do% {
  knn.pred<-knn(data.train[,1:4], data.test[,1:4],
                data.train$Species, k = k , prob = T)

acc.val<-mean(knn.pred == data.test$Species)

return(data.frame(k = k, acc = acc.val))
}

knn_result
```

분석 결과 k = 3 인 경우 정분류율이 96.67% 이므로 k 값을 3 으로 결정한다. 


### 4. 준비된 데이터셋으로 k-최근접 이웃 모델 생성하기 

```{r}
knn_model<-knn(data.train[,1:4], data.test[,1:4], data.train$Species, k = 3, prob = TRUE)

```



### 5. 테스트 데이터로 예측을 수행하고, k-최근접 이웃 모델의 성능 평가하기 

```{r}
knn.tb<-table(knn.pred, data.test$Species)
knn.tb

# Accuracy
mean(knn.pred == data.test$Species)

# Error rate
(1-sum(diag(knn.tb))/sum(knn.tb))
```

분석 결과 정오류분류표 (confusion matrix)를 보면 setosa는 10개, versicolor는 10중 9개, virginica는 모두 제대로 분류된 것을 볼 수 있다. 정분류율은 약 0.967이고 오분류율은 약 0.033
이다. 


### 6.8.3 k-최근접 이웃 분석 예제 kknn 함수 

다음은 kknn패키지의 kknn 함수로 BreastCancer 자료를 이용해 k-최근접 이웃 모델을 생성하는 예제다. 

### 1. kknn 패키지와 BreastCancer 데이터 불러오기 

```{r}
library(kknn)
library(mlbench)

data("BreastCancer")
```


### 2. 결측값 확인 및 제거하기 

```{r}
# 각 컬럼의 결측값 
colSums(is.na(BreastCancer))

# 토탈 결측값 
sum(is.na(BreastCancer))

# 결측값 제거 
BreastCancer2<-BreastCancer[complete.cases(BreastCancer), ]

# 중복값 탐색 
sum(duplicated(BreastCancer2))

# 중복값 제거 
BreastCancer2<-BreastCancer2[!duplicated(BreastCancer2),]
```

분석 결과 16개의 결측치와 8개의 중복값이 존재하였고 결측치와 중복값을 제거하였다. 


### 3. BreastCancer 데이터로 훈련용 데이터 80%, 테스트 데이터 20%로 분리하기 

```{r}
library(caret)

parts<-createDataPartition(BreastCancer2$Class, p = 0.8)

data.train<-BreastCancer2[parts$Resample1, ]
data.test<-BreastCancer2[-parts$Resample1, ]

table(data.train$Class)
table(data.test$Class)
```

### 4. 훈련용 데이터셋을 이용해 최적의 k 값 확인하기-cross validation to get the best k.

```{r}
knn.tr<-train.kknn(Class ~., data.train[,-1], kmax = 10, distance = 1, kernel = 'rectangular')

# missclassification errors(the lower, the better)
knn.tr$MISCLASS


knn.tr$best.parameters


```

분석결과 k = 9 인경우 오분류 에러 (missclassification errors) 값이 약 0.033으로 가장 낮게 나온 것을 볼 수 있다.train.kknn 함수는 k 값을 k fold 교차검증 방법으로 찾는다.


### 5. 준비된 k 와 데이터를 이용하여 k-최근접 이웃 모델 생성하기- builing model


```{r}
# ID 를 제외한 변수들을 포함 
kkn.fit<-kknn(Class ~., data.train[,-1], data.test[,-1], k=9, distance = 1, kernel = 'rectangular')
summary(kkn.fit)
```

### 6. 적합된 모델의 추가적인 정보 확인하기 

```{r}
ls(kkn.fit)

```

### 7. 테스트 데이터로 예측을 수행하고, k-최근접 이웃 모델의 성능 평가하기 

```{r}
kkn.tb<-table(kkn.fit$fitted.values, data.test$Class)
kkn.tb

# Accuracy

mean(kkn.fit$fitted.values == data.test$Class)

# Error rate

(1-sum(diag(kkn.tb))/sum(kkn.tb))

```

분석 결과 정오분류표를 보면 benign 의 87개 중 87개를 모두 제대로 분류하였고 malignant는 47개 중 42개를 제대로 분류하였다. kknn모델의 정분류율은 약 0.962 이고 오분류율은 약0.037 이다.
