R을 이용한 실습


1. 의사결정나무 R 함수


rpart package : recursive partitioning

CART 의사결정나무의 알고리즘을 구현한 것이다. rpart package로 분류나무와 회귀나무 모두를 수행할 수 있다.


(1) rpart 함수

[함수의 구조] rpart(formula, data, weights, subset, na.action=na.rpart, method, parms, control, cost, …)

[기능] 훈련 데이터를 이용하여 의사결정나무를 생성한다. R의 rpart 오브젝트를 생성한다.

[옵션]
  • formula : R에서 사용하는 모형 관련 공식. 옵션 data의 데이터 프레임에 존재하는 변수 이름만 사용 가능하다.
  • data : 훈련 데이터에 해당하는 데이터 프레임 이름
  • weights : 훈련 데이터의 관찰값에 대한 가중치 벡터. default는 균등가중치
  • subset : 조건에 맞는 훈련 데이터의 일부분만 사용하고자 할 때. default는 전체 사용
  • na.action = na.rpart : 목표변수가 결측치이면 전체 관찰값을 삭제. 입력변수가 결측치인 경우에는 삭제하지 않음
  • method : 의사결정나무의 종류를 지정. “anova”, “poisson”, “class”, “exp” 중에서 선택해야 하며, “anova” 선택시 회귀나무, “poisson” 선택시 포아송 회귀나무, “class” 선택시 분류나무, “exp” 선택시 생존나무가 생성됨. default는 “class”
  • parms : 분할을 위한 옵션. 회귀나무에는 해당사항이 없고, 분류나무에는 사전확률을 주거나 불순도 함수를 지정할 때 사용. 예를 들어 parms = list(prior=c(0.65, 0.35), split=“information”)인 경우, 집단 1과 집단 2의 사전 확률은 65:35이다. 불순도 함수는 엔트로피 함수 사용을 의미함. default는 집단 간 데이터 비율(proportion) 사전확률과 지니계수
  • control : rpart.control과 같은 역할 (rpart.control에서 설명)
  • cost : 오분류 비용을 지정할 때 사용. default는 균등비용



  • (2) rpart.control 함수


    [함수의 구조] rpart.control(minsplit = 20, minbucket = round(minsplit/3), cp=0.01, maxcompete = 4, maxsurrogate=5, xval=10, maxdepth=30, …)

    [기능] 의사결정나무를 생성할 때, 분할규칙 등을 정한다.

    [옵션]
  • minsplit : 한 노드를 분할하기 위해 필요한 데이터의 개수. 이 값보다 적은 수의 관찰값이 있는 노드는 분할하지 않음. default는 20개
  • minbucket : 최종노드에 포함되어야 하는 최소 데이터의 개수. minsplit이 지정되면 자동으로 minsplit/3으로 지정되고, minbucket보다 적은 수의 관찰값이 있는 노드는 만들지 않게 됨
  • cp : 비용복잡함수의 벌점 모수. 노드를 분할할 때 분할 전과 비교하여 오분류율이 cp 값 이상으로 향상되지 않으면 더 이상 분할하지 않고 나무 구조 생성을 멈춘다. default는 0.01
  • maxcompete : CART 분할방법에서 우수했던 분할후보점을 maxcompete 개수만큼 출력. default 는 4개
  • maxsurrogate : 결과물에 출력할 서로게이트 분할점의 개수를 지정(서로게이트란 결측치를 처리하기 위한 대체 분할법의 일종임). default는 5개
  • xval : 가지치기를 위한 교차타당성의 fold 개수. default는 10
  • maxdepth : 나무구조의 깊이를 설정. 뿌리노드가 0이고, 가령 maxdepth=5이면 나무구조는 뿌리노드로부터 5단계 아래로 내려감. default는 30



  • (3) printcp 함수


    [함수의 구조] printcp(x, digits = getOption(“digits”) - 2)


    [기능] R의 rpart 오브젝트를 대상으로 cp 값에 대한 나무구조 순서를 출력한다.


    [옵션]
  • x : rpart 오브젝트 이름
  • digits : 출력할 숫자의 소숫점 이하 자릿수



  • (4) prune.rpart 함수


    [함수의 구조] prune(tree, cp, …)


    [기능] 의사결정나무의 가지치기를 실시한다.


    [옵션]
  • tree : rpart 오브젝트의 이름
  • cp : 가지치기할 비용복잡함수의 벌점모수값



  • (5) plot.rpart 함수


    [함수의 구조] plot(x, uniform=FALSE, branch=1, compress=FALSE, nspace, margin=0, …)


    [기능] 생성된 의사결정나무를 나무그림으로 표현한다.


    [옵션]
  • x : rpart 오브젝트 이름
  • uniform : 부모노드와 자식노드의 간격 크기. 만약 FALSE이면 분할개선도에 비례하여 간격이 커지거나 작아지고, TRUE이면 균등한 간격을 유지함. default는 FALSE
  • branch : 중간노드를 잇는 가지의 형태. 만약 1이면 직교형이고, 0이면 V자 형태이며, 0과 1 사이 값이면 직교와 V자의 혼합형임. default는 1
  • compress : 출력 시 노드의 배치에 관한 사항. 만약 TRUE이면 더 압축된 의사결정나무 그림을 출력. default는 FALSE
  • nspace : 중간노드와 최종노드 사이의 공간 여백 값. default는 branch의 값과 동일
  • margin : 나무 출력 시 주변 여백 값. 너무 작은 값을 사용하면 분할규칙이 잘리는 경우도 있음. default는 0



  • (6) text.rpart 함수


    [함수의 구조] text(x, splits=TRUE, all=FALSE, digits=getOption(“digits) - 3, use.n=FLASE, fancy=FALSE, fwidth=0.8, bg=par(”bg”), col, …)


    [기능] plot에 의해 그려진 나무구조에 텍스트를 삽입한다.


    [옵션]
  • x : rpart 오브젝트 이름
  • splits : 나무 출력 시 분할규칙도 함께 출력하는지 여부. default는 TRUE.
  • all : 최종노드만 분류집단명을 출력할지 여부. TRUE이면 중간노드에도 분류집단을 출력. default는 FALSE
  • digits : 분할규칙에 사용할 소숫점 이하 자릿수
  • use.n : 최종노드에 대한 정보 출력. TRUE이면 정보를 출력. 분류나무이면 각 집단별 관찰값 개수를 출력하고, 회귀나무이면 최종노드의 관찰값 개수를 출력. default는 FALSE
  • fancy : TRUE이면 중간노드는 타원으로, 최종노드는 직사각형으로 출력. default는 FALSE
  • fwidth : fancy 옵션이 TRUE일 때 사용하는 것으로, 타원과 직사각형의 넓이를 조절, default는 0.8
  • fheight : fancy 옵션이 TRUE일 때 사용하는 것으로, 타원과 직사각형의 높이를 조절. default는 0.8
  • bg : fancy 옵션이 TRUE일 때 사용하는 것으로, 나무의 배경 색상
  • col : 나무의 문자 색상



  • (7) predict.rpart 함수


    [함수의 구조] predict(object, newdata, type=c(“vector”, “prob”, “class”, “matrix”), na.action=na.pass, …)


    [기능] 생성된 의사결정나무 오브젝트에 새로운 데이터 newdata를 적용하여 예측한다.


    [옵션]
  • object : rpart 오브젝트 이름
  • newdata : 예측의 대상인 데이터 프레임
  • type : 분류나무인 경우 “vector”이면 예측된 집단명이 출력되고, “prob”이면 집단별 예측확률이 출력되며, “class”이면 예측된 집단이 factor 형태로 출력되고, “matrix”이면 위의 모든 겻을 출력. 회귀나무인 경우, “vector” 혹은 “matrix”이면 예측값이 출력되고, 다른 옵션은 회귀나무와 관계가 없음
  • na.action : newdata의 결측치에 대한 처리 방법. na.omit는 결측치를 제외하는 방법이고, na.pass는 서로게이트 분할을 이용하는 방법임 (서로게이트란 결측치를 처리하기 위한 대체 분할법의 일종임). default는 na.pass



  • (8) prp 함수


    의사결정나무 생성 함수인 rpart에 의해 생성된 rpart 오브젝트는 rpart.plot 이라는 패키지를 활용하면 더 보기 좋게 나무 구조를 출력할 수 있다. rpart.plot 패키지의 prp 함수를 소개한다.


    [함수의 구조] prp(object, type=2, extra=“auto”, digits=2, box.palette=“auto”, …)


    [기능] 생성된 의사결정나무 오브젝트를 나무구조의 형태로 출력한다.


    [옵션]
  • object : rpart 오브젝트 이름
  • type : 의사결정나무 출력 형식 지정. 0이면 중간노드를 그리지 않고, 1이면 중간노드를 도형으로 표현하고 노드를 분할하는 조건을 노드 위쪽에 출력, 2이면 중간노드를 그리면서 노드를 분할하는 조건을 노드 아래쪽에 출력, 3이면 중간노드를 그리지 않으면서 왼쪽으로 분할하는 조건과 오른쪽으로 분할하는 조건을 모두 출력, 4이면 중간노드를 그리면서 왼쪽으로 분할하는 조건과 오른쪽으로 분할하는 조건을 모두 출력함
  • extra : 중간노드 내의 출력 형식을 지정. 0인 경우 분류나무이면 다수 범주를 출력하고 회귀나무이면 노드의 목표변수 평균을 출력. 1인 경우 0 옵션의 결과에 추가하여 분류나무이면 범주별 관찰값 개수 출력, 회귀나무이면 노드의 총 관찰값 개수 출력, 2인 경우 분류나무인 경우 다수 범주의 관찰값 개수와 총 관찰값 개수를 출력함. 회귀나무는 해당 사항 없음.
  • digits : 출력 시 사용하는 소숫점 자릿수. default는 2
  • box.palette : 노드별로 목표변수의 요약값을 색상으로 표현하는 색상표 ’auto’인 경우 모델의 형태에 따라 자동으로 선택하고, ’Grays’인 경우 회색으로 표현함



  • 2. 분류의사결정나무 사례 분석


    분류의사결정나무를 생성하는 사례분석으로 앞서 사용되었던 와인품질 데이터(‘winequalityCLASS.csv’)를 이용하여 가장 대중적 의사결정나무인 CART 방법을 이용한 의사결정나무를 구축해 본다.


    (1) 데이터를 읽고 CART 의사결정나무 실행하기

    먼저 와인 품질 데이터가 담긴 ‘winequalityCLASS.csv’ 파일을 확인한다. 데이터 파일을 읽고 CART 의사결정나무를 실행하기 위해서 <R 3-1>과 같이 수행하면 된다.


    3-1 의사결정나무 실행
    # importing data
    wine <- read.csv("./data/winequalityCLASS.csv")
    # factorize for classification
    wine$quality <- factor(wine$quality)
    # classification tree
    library(rpart)
    set.seed(1234)
    my.control <- rpart.control(xval = 10, cp = 0, minsplit = 20)
    tree.wine <- rpart(quality ~ ., data = wine, method = "class", control = my.control)
    print(tree.wine)
    n= 1194 
    
    node), split, n, loss, yval, (yprob)
          * denotes terminal node
    
       1) root 1194 549 1 (0.45979899 0.54020101)  
         2) alcohol< 10.15 613 204 0 (0.66721044 0.33278956)  
           4) sulphates< 0.575 276  54 0 (0.80434783 0.19565217)  
             8) chlorides>=0.0795 138  16 0 (0.88405797 0.11594203) *
             9) chlorides< 0.0795 138  38 0 (0.72463768 0.27536232)  
              18) volatile>=0.42 124  29 0 (0.76612903 0.23387097)  
                36) fixed< 7.65 60   6 0 (0.90000000 0.10000000) *
                37) fixed>=7.65 64  23 0 (0.64062500 0.35937500)  
                  74) citric>=0.245 23   4 0 (0.82608696 0.17391304) *
                  75) citric< 0.245 41  19 0 (0.53658537 0.46341463)  
                   150) freeSD< 12.5 28   9 0 (0.67857143 0.32142857)  
                     300) chlorides>=0.0695 20   4 0 (0.80000000 0.20000000) *
                     301) chlorides< 0.0695 8   3 1 (0.37500000 0.62500000) *
                   151) freeSD>=12.5 13   3 1 (0.23076923 0.76923077) *
              19) volatile< 0.42 14   5 1 (0.35714286 0.64285714) *
           5) sulphates>=0.575 337 150 0 (0.55489614 0.44510386)  
            10) fixed< 10.05 296 117 0 (0.60472973 0.39527027)  
              20) volatile>=0.385 254  89 0 (0.64960630 0.35039370)  
                40) totalSD>=46.5 115  26 0 (0.77391304 0.22608696)  
                  80) volatile>=0.6475 28   1 0 (0.96428571 0.03571429) *
                  81) volatile< 0.6475 87  25 0 (0.71264368 0.28735632)  
                   162) fixed>=8.7 26   2 0 (0.92307692 0.07692308) *
                   163) fixed< 8.7 61  23 0 (0.62295082 0.37704918)  
                     326) fixed< 7.85 45  13 0 (0.71111111 0.28888889)  
                       652) citric< 0.205 21   3 0 (0.85714286 0.14285714) *
                       653) citric>=0.205 24  10 0 (0.58333333 0.41666667)  
                        1306) citric>=0.275 17   4 0 (0.76470588 0.23529412) *
                        1307) citric< 0.275 7   1 1 (0.14285714 0.85714286) *
                     327) fixed>=7.85 16   6 1 (0.37500000 0.62500000) *
                41) totalSD< 46.5 139  63 0 (0.54676259 0.45323741)  
                  82) pH>=3.535 17   2 0 (0.88235294 0.11764706) *
                  83) pH< 3.535 122  61 0 (0.50000000 0.50000000)  
                   166) citric>=0.35 7   0 0 (1.00000000 0.00000000) *
                   167) citric< 0.35 115  54 1 (0.46956522 0.53043478)  
                     334) volatile>=0.555 70  30 0 (0.57142857 0.42857143)  
                       668) totalSD< 23.5 25   4 0 (0.84000000 0.16000000) *
                       669) totalSD>=23.5 45  19 1 (0.42222222 0.57777778)  
                        1338) density>=0.99685 35  17 0 (0.51428571 0.48571429)  
                          2676) sulphates< 0.655 16   3 0 (0.81250000 0.18750000) *
                          2677) sulphates>=0.655 19   5 1 (0.26315789 0.73684211) *
                        1339) density< 0.99685 10   1 1 (0.10000000 0.90000000) *
                     335) volatile< 0.555 45  14 1 (0.31111111 0.68888889)  
                       670) density< 0.99715 24  12 0 (0.50000000 0.50000000)  
                        1340) citric>=0.2 7   0 0 (1.00000000 0.00000000) *
                        1341) citric< 0.2 17   5 1 (0.29411765 0.70588235) *
                       671) density>=0.99715 21   2 1 (0.09523810 0.90476190) *
              21) volatile< 0.385 42  14 1 (0.33333333 0.66666667)  
                42) fixed>=9.1 10   3 0 (0.70000000 0.30000000) *
                43) fixed< 9.1 32   7 1 (0.21875000 0.78125000)  
                  86) density< 0.9965 8   3 0 (0.62500000 0.37500000) *
                  87) density>=0.9965 24   2 1 (0.08333333 0.91666667) *
            11) fixed>=10.05 41   8 1 (0.19512195 0.80487805) *
         3) alcohol>=10.15 581 140 1 (0.24096386 0.75903614)  
           6) sulphates< 0.715 392 127 1 (0.32397959 0.67602041)  
            12) alcohol< 11.03333 222  96 1 (0.43243243 0.56756757)  
              24) chlorides>=0.097 24   6 0 (0.75000000 0.25000000) *
              25) chlorides< 0.097 198  78 1 (0.39393939 0.60606061)  
                50) sulphates< 0.505 20   5 0 (0.75000000 0.25000000) *
                51) sulphates>=0.505 178  63 1 (0.35393258 0.64606742)  
                 102) density>=0.99591 111  47 1 (0.42342342 0.57657658)  
                   204) residsugar< 1.85 16   3 0 (0.81250000 0.18750000) *
                   205) residsugar>=1.85 95  34 1 (0.35789474 0.64210526)  
                     410) pH>=3.335 35  17 0 (0.51428571 0.48571429)  
                       820) freeSD< 10 13   2 0 (0.84615385 0.15384615) *
                       821) freeSD>=10 22   7 1 (0.31818182 0.68181818)  
                        1642) sulphates>=0.655 9   4 0 (0.55555556 0.44444444) *
                        1643) sulphates< 0.655 13   2 1 (0.15384615 0.84615385) *
                     411) pH< 3.335 60  16 1 (0.26666667 0.73333333)  
                       822) sulphates< 0.625 29  12 1 (0.41379310 0.58620690)  
                        1644) volatile>=0.615 10   3 0 (0.70000000 0.30000000) *
                        1645) volatile< 0.615 19   5 1 (0.26315789 0.73684211) *
                       823) sulphates>=0.625 31   4 1 (0.12903226 0.87096774) *
                 103) density< 0.99591 67  16 1 (0.23880597 0.76119403)  
                   206) totalSD>=43.5 17   8 0 (0.52941176 0.47058824) *
                   207) totalSD< 43.5 50   7 1 (0.14000000 0.86000000) *
            13) alcohol>=11.03333 170  31 1 (0.18235294 0.81764706)  
              26) fixed< 6.35 28  14 0 (0.50000000 0.50000000)  
                52) chlorides< 0.0535 9   1 0 (0.88888889 0.11111111) *
                53) chlorides>=0.0535 19   6 1 (0.31578947 0.68421053) *
              27) fixed>=6.35 142  17 1 (0.11971831 0.88028169)  
                54) volatile>=0.765 9   4 0 (0.55555556 0.44444444) *
                55) volatile< 0.765 133  12 1 (0.09022556 0.90977444) *
           7) sulphates>=0.715 189  13 1 (0.06878307 0.93121693)  
            14) totalSD>=57.5 32   8 1 (0.25000000 0.75000000)  
              28) alcohol< 11.5 20   8 1 (0.40000000 0.60000000)  
                56) pH>=3.325 9   3 0 (0.66666667 0.33333333) *
                57) pH< 3.325 11   2 1 (0.18181818 0.81818182) *
              29) alcohol>=11.5 12   0 1 (0.00000000 1.00000000) *
            15) totalSD< 57.5 157   5 1 (0.03184713 0.96815287) *

  • 목표변수인 ‘quality’ 변수는 와인의 품질이 우수등급인 경우 1의 값을 가지고, 보통등급인 경우 0의 값을 가지는 범주형 변수이므로, 이를 factor() 함수를 통해 범주형 변수로 변경하였다. 만약 이렇게 하지 않으면 0과 1이라는 정수형 변수로 인식하게 되어 회귀나무를 수행하게 될 위험이 있다. CART 방법을 R에서 수행하기 위해서는 ’rpart’라는 패키지를 우선 호출한다.
  • ‘set.seed(1234)’ 명령어를 수행하는데, 이는 가지치기를 위한 교차타당성을 수행하는 과정에서 무작위 난수가 사용되기 때문에 난수의 발생을 위한 시드번호를 정해주는 역할을 한다. 이렇게 하면 매번 동일한 나수가 생성되므로 가지치기를 수행해도 동일한 결과를 재현할 수 있다.
  • CART 분류나무 생성을 위해 수행해 볼 수 있는 다양한 옵션은 ’rpart.control()’이라는 명령어로 조절할 수 있다.
  • ‘xval’은 의사결정나무의 가지치기에 필요한 ’cross-validation’의 약어로서 ’xval=10’이면 ’10-fold’ 교차타당성(cross-validation) 오분류율을 계산하게 된다.
  • ‘cp’ 라는 옵션은 ‘cost-complexity’의 약어로서 비용복잡함수에서의 a(alpha) 값을 의미한다. 즉, ’cp=0’이란 오분류율값이 최솟값이 될 때까지 계속 분할하라는 뜻이다. 또한 ’minsplit=20’이라는 옵션은 ’rpart’ 함수에서 중간노드를 분할하기 위한 최소 자료의 수이다. 이 값보다 적은 개수의 관찰값이 있는 노드는 더 이상 분할하지 않고 멈추게 된다. 따라서 이 값을 크게 할 수록 분할하기 어려워지므로 의사결정나무는 더 짧고 단순해진다.
  • ‘rpart()’ 명령어를 수행하는 부분을 보자. 와인품질 데이터의 경우 목표변수는 품질등급을 지칭하는 ‘quality’ 변수가 되고 나머지 변수들은 입력변수가 되므로 R의 formula는 ’quality ~ .’가 된다. 분류나무를 생성하기 위해서는 ’method=“class”’라고 지정해 주어야 한다.
  • 생성된 의사결정나무를 간단하게 출력하기 위해서는 ‘print()’ 함수를 사용하는데, 이 결과는 텍스트 형태의 의사결정나무 결과로 출력되고 있다. 노드번호, 분할규칙, 해당 노드의 총 관찰값 수, 해당 노드에서 오분류되는 관찰값 수, 해당 노드의 목표 변수 예측값의 순서로 정보가 제공되고 있다. 그리고 괄호 안에는 목표변수의 각 집단별 비유을 보이고 있다. 줄 마지막에 있는 * 표시는 해당 노드가 최종 노드임을 의미한다.

  • 의사결정나무를 나무형태이 그래프로 그리기 위해서는 prp() 함수를 사용하면 된다.

    3-2 의사결정나무의 그래프 출력
    # display tree
    # install.packages("rpart.plot")
    library(rpart.plot)
    prp(tree.wine, type = 4, extra = 1, digits = 2, box.palette = "auto") # grays




    (2) 가지치기 수행하기


    3-3 CART 의사결정나무 가지치기 단계별 정보
    # pruning with c-s.e.
    cps <- printcp(tree.wine)
    
    Classification tree:
    rpart(formula = quality ~ ., data = wine, method = "class", control = my.control)
    
    Variables actually used in tree construction:
     [1] alcohol    chlorides  citric     density    fixed      freeSD     pH         residsugar sulphates  totalSD    volatile  
    
    Root node error: 549/1194 = 0.4598
    
    n= 1194 
    
             CP nsplit rel error  xerror     xstd
    1 0.3734062      0   1.00000 1.00000 0.031368
    2 0.0227687      1   0.62659 0.65392 0.028861
    3 0.0077413      4   0.55556 0.61384 0.028329
    4 0.0072860     11   0.49362 0.61384 0.028329
    5 0.0063752     20   0.41166 0.60291 0.028174
    6 0.0036430     24   0.38616 0.58834 0.027960
    7 0.0024287     33   0.35155 0.62113 0.028430
    8 0.0018215     38   0.33515 0.62842 0.028529
    9 0.0000000     44   0.32423 0.62842 0.028529


  • printcp() 함수에 의해 결과를 얻었다. 뿌리노드에서 나무구조가 종료되도록 하려면 ‘cp’ 값은 0.3734062를 사용하면 된다. 중간노드를 계속 분할해 나가려면 ‘cp’ 값은 이보다는 작은 값이어야 한다. ‘cp’ 값이 0.0일 때는 분할의 횟사가 44(nslplit=44)인 상당히 규모가 큰 나무구조가 도출되며, 이 단계에 해당하는 나무구조가 최대나무 (maximal tree)이다. 이 나무구조는 위에서 보인 것을 의미한다.
  • ‘xerror’ : 이 값은 교차타당성(cross-validation) 방법에 의한 오분류율을 의미하는 것으로서 ’xerror’의 최솟값은 4번째 단계이며 분리의 횟수가 11(nsplit=11)인 나무를 의미한다.
  • 따라서 ’cp=0.0072860’이 교차타당성 오분류율을 최소화시키는 최적의 나무 사이즈이며, 이 값을 기준으로 가지치기를 진행하면 된다. 하지만 결과 3-3에 따르면 3번째 단계이며 분리의 횟수가 4 (nsplit=4)인 나무는 교차타당성 오분류율이 최소는 아니지만 4번째 단계의 나무가 가지는 최소 오분류율과는 크게 차이가 나지 않는다. 그리고 최소 오분류율 표준오차의 1배 범위 (0.63934 < 0.62477 + 0.02848) 내에 있다. 이런 경우 3-3절에 소개한 바와 같이 1-s.e. 법칙에 의해 3번째 단계이며 분리의 횟수가 4 (nsplit=4)인 나무를 선택하는 것도 가능하다.

  • 3-4 1-s.e. 법칙으로 가지치기 수행
    # pruning with c-s.e.
    cps <- printcp(tree.wine)
    
    Classification tree:
    rpart(formula = quality ~ ., data = wine, method = "class", control = my.control)
    
    Variables actually used in tree construction:
     [1] alcohol    chlorides  citric     density    fixed      freeSD     pH         residsugar sulphates  totalSD    volatile  
    
    Root node error: 549/1194 = 0.4598
    
    n= 1194 
    
             CP nsplit rel error  xerror     xstd
    1 0.3734062      0   1.00000 1.00000 0.031368
    2 0.0227687      1   0.62659 0.65392 0.028861
    3 0.0077413      4   0.55556 0.61384 0.028329
    4 0.0072860     11   0.49362 0.61384 0.028329
    5 0.0063752     20   0.41166 0.60291 0.028174
    6 0.0036430     24   0.38616 0.58834 0.027960
    7 0.0024287     33   0.35155 0.62113 0.028430
    8 0.0018215     38   0.33515 0.62842 0.028529
    9 0.0000000     44   0.32423 0.62842 0.028529
    k <- which.min(cps[, "xerror"])
    err <- cps[k, "xerror"]; se <- cps[k, "xstd"]
    c <-1  # 1-s.e.
    
    k1 <- which(cps[, "xerror"] <= err + c * se)[1]
    cp.chosen <- cps[k1, "CP"]
    tree.pruned.wine <- prune(tree.wine, cp = cp.chosen)
    print(tree.pruned.wine)
    n= 1194 
    
    node), split, n, loss, yval, (yprob)
          * denotes terminal node
    
     1) root 1194 549 1 (0.4597990 0.5402010)  
       2) alcohol< 10.15 613 204 0 (0.6672104 0.3327896)  
         4) sulphates< 0.575 276  54 0 (0.8043478 0.1956522) *
         5) sulphates>=0.575 337 150 0 (0.5548961 0.4451039)  
          10) fixed< 10.05 296 117 0 (0.6047297 0.3952703)  
            20) volatile>=0.385 254  89 0 (0.6496063 0.3503937) *
            21) volatile< 0.385 42  14 1 (0.3333333 0.6666667) *
          11) fixed>=10.05 41   8 1 (0.1951220 0.8048780) *
       3) alcohol>=10.15 581 140 1 (0.2409639 0.7590361) *


  • prune() 함수를 이용하여 가지치기를 하고 있다. 가지치기에 사용할 ‘cp’ 는 1-s.e. 법칙에 의한 ‘cp’ 값을 사용하는 부분이 포함되어 있다. 여기서 0.5-s.e. 법칙을 사용하려면 ’c=0.5’처럼 ’c’의 값을 변경해 주면 된다.
  • 위의 결과에는 1-s.e. 법칙에 의해 가지치기한 CART 의사결정나무의 결과가 텍스트 형태로 출력되어 있다. 노드번호, 분할규칙, 해당 노드의 총 관찰값 수, 해당 노드에서 오분류되는 관찰값 수, 해당 노드의 목표변수 예측값의 순서로 정보가 제공되고 있다. 그리고 괄호 안에는 목표변수의 각 집단별 비율을 보이고 있다. 줄 마지막에 있는 * 표시는 해당 노드가 최종노드임을 의미한다.
  • 가지치기가 수행된 의사결정나무를 나무형태의 그래프로 그리기 위해서는 다음과 같이 ‘prp()’ 함수를 사용하였다.

  • 3-5 의사결정나무의 그래프 출력
    # display tree
    prp(tree.pruned.wine, type = 4, extra = 1, digits = 2, box.palette = "Grays")


  • prp() 함수에서 ’type = 4’는 의사결정나무의 노드를 표현하는 방식을 의미하고, ’extra = 1’은 중간노드 내의 값을 출력하는 형식을 지정한다. ’digits = 2’는 출력값의 자릿수를 의미하고, ’box.palette = “Grays”’는 노드별 색상을 부여할 때의 색상표이다.
  • 위의 결과를 살펴 보면, 549개의 보통등급(‘0’ 범주)의 와인과 645개의 우수등급(‘1’ 범주)의 와인이 포함되어 있다. 이 뿌리노드를 좌우로 분할하는 분할규칙은 ‘alcohol < 10’인지 여부이다. 만약 사실이면 해당되는 와인은 좌측 노드로 내려가고, 만약 반대의 경우라면 우측노드로 내려가면 된다. 우측노드로 내려간 경우에는 140개의 ’0’ 범주의 와인과 441개의 ‘1’ 범주의 와인이 포함되어 있어 절대다수가 ‘1’ 범주인 우수등급 와인들이다. 반면 좌측노드를 보면 추가로 ‘sulphate’ 값에 의해 분할되는데, 이 변수가 0.58보다 큰지 혹은 작은지를 기준으로 추가로 분할되게 된다. 예를 들어 ‘sulphate < 0.58’에 의해 좌측노드에 속한 와인들은 222개의 ’0’ 범주의 와인과 54개의 ‘1’ 범주의 와인이 포함되어 있어 절대다수가 ‘0’ 범주인 보통등급 와인들이다.

  • (3) 분류정확도 계산하기


    와인품질 데이터에서 목표변수의 분류예측값을 구하고, 정확도를 평가하는 방법에 대해서 알아보자. 우선 분류예측 확률을 구하고, 이를 토대로 목표변수의 범주값을 예측하는 과정을 3-6에서 알 수 있다.


    3-6 CART 의사결정나무의 예측값 산출
    # making predictions - probability prediction
    prob.tree.wine <- predict(tree.pruned.wine, newdata = wine, type = "prob")
    head(prob.tree.wine, 5)
              0         1
    1 0.8043478 0.1956522
    2 0.6496063 0.3503937
    3 0.6496063 0.3503937
    4 0.1951220 0.8048780
    5 0.8043478 0.1956522
    cutoff <- 0.5  # cutoff
    yhat.tree.wine <- ifelse(prob.tree.wine[, 2] > cutoff, 1, 0)


    한가지 주목할 것은 ‘predict’ 명령문의 ’newdata’이다. 위의 코드에서는 ’newdata = wine’이라 하여 wine 데이터를 다시 사용하였기 때문에 기존 학습 데이터에 대한 분류나무의 분류예측값을 구할 수 있었다. 만일 ’newdata’에 wine 데이터와 도오일한 형식의 새로운 데이터를 사용하게 된다면, 새로운 데이터에 대한 예측값을 구할 수 있게 된다. 이것은 미래의 관찰값에 대한 예측을 수행해야 하는 경우에 필요한 기법이다.
  • ‘predict’ 명령문의 ’type = “prob”’는 목표변수의 범주값에 대한 예측확률을 의미한다. 만약 회귀나무라면 ’type = “vector”’라고 해야만 목표변수의 값을 예측한다.
  • 목표변수의 범주값에 대한 예측확률인 ’prob.tree.wine’이라는 개체는 범주 ’0’일 예측확률과 범주 ’1’일 예측확률을 포함하고 있다. 위의 결과에는 처음 5개 관찰값에 대한 두 범주별 예측확률이 출력되어 있다.
  • ‘ifelse()’ 명령어를 통해 ‘1’ 범주에 대한 예측확률값이 기준값인 cutoff = 0.5를 상회하면 ‘1’ 범주로 예측하고, 그렇지 않으면 ‘0’ 범주로 예측하는 부분을 포함하고 있다.

  • 3-7 CART 의사결정나무의 예측값과 실제 목표변수값 비교
    # evaluation
    tab <- table(wine$quality, yhat.tree.wine, dnn = c("Observed", "Predicted"))
    print(tab) # confusion matrix
            Predicted
    Observed   0   1
           0 387 162
           1 143 502
    sum(diag(tab) / sum(tab)) # accuracy
    [1] 0.7445561
    tab[2, 2] / sum(tab[2, ]) # sensitivity
    [1] 0.7782946
    tab[1, 1] / sum(tab[1, ]) # specificity
    [1] 0.704918


    table() 함수를 이용하여 학습 데이터의 실제 목표변수와 의사결정나무에 의해 예측된 목표변수의 예측값의 일치성을 확인하기 위해 빈도기준으로 분할표를 만들고 있다. 흔히 이 분할표를 ‘confusion matrix’라고 한다. 또한 보통등급(’0’ 범주)과 우수등급(‘1’ 범주)의 예측 결과에 대한 비교를 위해 정확도, 민감도, 특이도를 계산하는 부분이 나온다.


    결과에 따르면 보통 등급 와인을 보통 등급 와인으로 예측한 경우는 387번이고, 우수 등급 와인을 우수 등급 와인으로 예측한 경우는 502번이다. 따라서 학습 데이터에 대한 정확도는 (387 + 502) / 1,194 = 74.46%로 계산되었다. 총 645개의 우수등급 와인 중에서 실제로 우수 등급 와인으로 예측한 경우는 502번이다. 따라서 민감도는 502/645 = 77.8%이다. 마지막으로 총 549개의 보통 등급 와인 중에서 실제로 보통 등급 와인으로 예측한 경우는 387번이다. 따라서 특이도는 387/549=70.5%이다.




    3. 회귀의사결정나무 사례 분석


    회귀나무를 생성하는 사례분석으로 앞서 사용되었던 의류생산성 데이터(‘productivityREG.csv’)를 이용하여 CART 방법을 이용한 회귀나무를 구축해 보고자 한다.


    (1) 데이터 읽고 CART 의사결정나무 실행하기


    먼저 의류생산성 데이터가 담긴 ‘productivityREG.csv’ 파일을 확인한다. CART 의사결정나무를 실행하기 위해서 다음과 같이 수행하면 된다.

    # importing data
    prod <- read.csv("./data/productivityREG.csv", header = T)
    # factorizing predictor variables
    prod$quarter <- factor(prod$quarter)
    prod$department <- factor(prod$quarter)
    prod$day <- factor(prod$day)
    prod$team <- factor(prod$team)
    library(rpart)
    set.seed(1234)
    my.control <- rpart.control(xval = 10, cp = 0.01, minsplit = 30)
    tree.prod <- rpart(productivity ~ ., data = prod, method = "anova", control = my.control)
    print(tree.prod)
    n= 936 
    
    node), split, n, deviance, yval
          * denotes terminal node
    
      1) root 936 19.0783800 0.7745872  
        2) target< 0.725 256  5.9939720 0.6987081  
          4) over_time>=3210 147  1.9551960 0.6661212  
            8) incentive< 28 59  1.1297170 0.5911298 *
            9) incentive>=28 88  0.2712242 0.7163995 *
          5) over_time< 3210 109  3.6721560 0.7426556  
           10) numworkers< 9.5 72  2.3460690 0.6953575  
             20) team=2,6,7,9,10,11 28  0.8858318 0.5938276 *
             21) team=1,4,5,8,12 44  0.9879286 0.7599675 *
           11) numworkers>=9.5 37  0.8515788 0.8346949  
             22) team=8,9,11 10  0.2922560 0.6892305 *
             23) team=1,2,4,5,6,7,10 27  0.2693539 0.8885707 *
        3) target>=0.725 680 11.0555500 0.8031535  
          6) incentive< 84.5 626  9.5634660 0.7899670  
           12) smv< 3.4 74  1.4816030 0.6786105  
             24) numworkers< 8.5 61  0.9512037 0.6481869 *
             25) numworkers>=8.5 13  0.2090045 0.8213672 *
           13) smv>=3.4 552  7.0412290 0.8048952  
             26) smv>=30.25 13  0.2204477 0.6076220 *
             27) smv< 30.25 539  6.3026620 0.8096532  
               54) smv>=4.115 383  3.3506460 0.7921739  
                108) numworkers< 8.5 28  0.9711016 0.7003731 *
                109) numworkers>=8.5 355  2.1249660 0.7994145 *
               55) smv< 4.115 156  2.5477100 0.8525670  
                110) over_time< 1020 32  0.9787853 0.7835423  
                  220) team=3,7,9,10 20  0.5727786 0.7122460 *
                  221) team=1,2,4 12  0.1349048 0.9023694 *
                111) over_time>=1020 124  1.3771190 0.8703799 *
          7) incentive>=84.5 54  0.1213521 0.9560197 *

  • ‘quarter’, ‘department’, ‘day’, ‘team’ 변수는 범주형 변수이므로 factor() 함수를 사용해 범주형으로 인식되게 한다.
  • 제2장에서는 위의 범주형 변수들에 대해서 가변수를 생성했어야 하지만, 회귀의사결정나무모형에서는 범주형 변수를 가변수로 변환하지 않고 있는 그래도 사용할 수 있다.
  • 분류의사결정나무와 마찬가지로 회귀의사결정나무도 R에서는 ‘rpart’라는 패키지를 이용한다. ’rpart.control()’ 함수에서 10-fold 교차타당성 오분류율을 계산하고, 가지치기 방법에서 a(alpha)값은 0.01이 될 때까지 순차적인 나무구조를 저장하도록 한다. 그리고 노드를 나누는 최소 자료의 수인 ’minsplit’은 30개로 하였다.
  • ‘rpart()’ 명령어를 수행하는 부분을 보자. 의류생산성 데이터의 경우 목표변수는 생산성을 지칭하는 ‘productivity’ 변수가 되고 나머지 변수들은 입력변수가 되므로 R의 formula는 ’productivity ~ .’가 된다. 회귀나무를 생성하기 위해서는 ’method = “anova”’라고 지정해 주어야 한다.
  • 생성된 의사결정나무를 간단하게 출력하기 위해서는 ‘print()’ 함수를 사용하는데 이 결과는 노드번호, 분할규칙, 해당 노드의 총 관찰값 수, 해당 노드의 평균제곱오차, 해당 노드의 목표변수 평균값의 순서로 정보가 제공되고 있다. 줄 마지막에 있는 * 표시는 해당 노드가 최종노드임을 의미한다.

  • 의사결정나무를 나무형태의 그래프로 그리기 위해서는 다음과 같이 ‘prp()’ 함수를 사용하면 된다.


    3-9 의사결정나무 그래프의 출력
    # display tree
    library(rpart.plot)
    prp(tree.prod, type = 4, extra = 1, digits = 2, box.palette = "auto")


    위의 의사결정나무는 가지치기 전의 결과이므로 대단히 사이즈가 큰 상태이다. 이처럼 나무 구조가 과도하게 크면 의사결정나무를 해석하는 것이 매우 어려울 것이다.




    (2) 가지치기 수행하기


    의사결정나무의 가지치기를 수행하기 위해서는 다음처럼 가지치기 단계별 정보를 파악할 필요가 있다.


    3-10 CART 의사결정나무 가지치기 단계별 정보
    # pruning with c-s.e.
    cps <- printcp(tree.prod)
    
    Regression tree:
    rpart(formula = productivity ~ ., data = prod, method = "anova", 
        control = my.control)
    
    Variables actually used in tree construction:
    [1] incentive  numworkers over_time  smv        target     team      
    
    Root node error: 19.078/936 = 0.020383
    
    n= 936 
    
             CP nsplit rel error  xerror     xstd
    1  0.106343      0   1.00000 1.00131 0.051171
    2  0.071847      1   0.89366 0.91542 0.049271
    3  0.054545      2   0.82181 0.85369 0.048553
    4  0.027157      3   0.76726 0.78994 0.047001
    5  0.024380      4   0.74011 0.79369 0.049856
    6  0.021192      8   0.64221 0.76571 0.049399
    7  0.016846      9   0.62102 0.74842 0.049034
    8  0.015199     10   0.60417 0.74757 0.049209
    9  0.013344     11   0.58897 0.74632 0.049216
    10 0.012132     12   0.57563 0.73686 0.048710
    11 0.010000     14   0.55137 0.71037 0.046591


    가지치기를 수행하기 위해서 비용복잡함수의 a(alpha)와 해당되는 나무구조의 교차타당성 오류율을 알아야 한다. printcp() 함수에 의해 실행된 결과를 살펴 보자.

  • 결과에 따르면 10-fold 교차타당성(cross-validation) 방법에 의한 오류율이 최소가 되는 나무구조는 11번째 단계예 있는 나무구조이며 분리의 횟수가 14인 나무구조를 의미한다. 하지만 이 나무구조는 크기가 너무 방대하여 해석이 난해할 것이기 때문에, 1-s.e. 법칙을 사용하여 더 작은 크기의 회귀나무를 선택하기로 한다.
  • 1-s.e 법칙에 의하면 최소 교차타당성 오류율+표준오차는 0.756961 (=0.71037+0.046591)이다. 따라서 교차타당성 오류율이 0.756961보다 작은 나무구조 중에서 가장 작은 크기의 나무를 선택하면 7번째 단계이며, 분할의 횟수가 9번인 나무구조가 될 것이다.

  • 다음의 코드 3-11에는 prune() 함수를 이용하여 1-s.e. 법칙에 의한 ‘cp’ 값을 사용하여 가지치기 하는 부분이 포함되어 있다.


    3-11 1-s.e. 법칙으로 가지치기 수행
    # pruning with c-s.e.
    k <- which.min(cps[, "xerror"])
    err <- cps[k, "xerror"]; se <- cps[k, "xstd"]
    c <- 1  # 1-s.e.
    
    k1 <- which(cps[, "xerror"] <= err+c*se)[1]
    cp.chosen <- cps[k1, "CP"]
    treee.pruned.prod <- prune(tree.prod, cp=cp.chosen)
    print(treee.pruned.prod)
    n= 936 
    
    node), split, n, deviance, yval
          * denotes terminal node
    
     1) root 936 19.0783800 0.7745872  
       2) target< 0.725 256  5.9939720 0.6987081  
         4) over_time>=3210 147  1.9551960 0.6661212  
           8) incentive< 28 59  1.1297170 0.5911298 *
           9) incentive>=28 88  0.2712242 0.7163995 *
         5) over_time< 3210 109  3.6721560 0.7426556  
          10) numworkers< 9.5 72  2.3460690 0.6953575  
            20) team=2,6,7,9,10,11 28  0.8858318 0.5938276 *
            21) team=1,4,5,8,12 44  0.9879286 0.7599675 *
          11) numworkers>=9.5 37  0.8515788 0.8346949 *
       3) target>=0.725 680 11.0555500 0.8031535  
         6) incentive< 84.5 626  9.5634660 0.7899670  
          12) smv< 3.4 74  1.4816030 0.6786105 *
          13) smv>=3.4 552  7.0412290 0.8048952  
            26) smv>=30.25 13  0.2204477 0.6076220 *
            27) smv< 30.25 539  6.3026620 0.8096532  
              54) smv>=4.115 383  3.3506460 0.7921739 *
              55) smv< 4.115 156  2.5477100 0.8525670 *
         7) incentive>=84.5 54  0.1213521 0.9560197 *


    결과에서는 1-s.e. 법칙에 의해 가지치기한 CART 의사결정나무의 결과가 텍스트 형식으로 출력되어 있다. 노드번호, 분할규칙, 해당 노드의 총 관찰값 수, 해당 노드의 평균 제곱 오차, 해당 노드의 목표변수 예측값 (회귀나무일 때는 평균값)의 순서로 정보가 제공되고 있다. 줄 마지막에 있는 * 표시는 해당 노드가 최종 노드임을 의미한다.


    가지치기가 수행된 의사결정나무를 나무형태 그래프로 그리기 위해서 prp() 함수를 이용한다.


    3-12 의사결정나무 그래프 출력
    # display tree
    prp(treee.pruned.prod, type = 4, extra = 1, digits = 2, box.palette = "Grays")


    위의 그래프는 prp() 함수를 활용하여 1-s.e. 법칙에 의해 가지치기한 의사결정나무 그래프이다.
  • prp()에서 ‘type = 4’ : 의사결정나무의 노드를 표현하는 방식을 의미
  • ‘extra = 1’ : 중간노드 내의 값을 출력하는 형식을 지정한다.
  • ‘digits = 2’ : 출력값의 자릿수를 의미
  • ‘box.palette = “Grays”’ : 노드별 색상을 부여할 때의 색상표

  • 결과 그래프에서 뿌리노드를 살펴 보면 936개의 관찰값이 있고, 목표변수인 생산성의 평균값은 0.787이다. 이 뿌리노드를 좌우로 분할하는 분할규칙은 ’target < 0.73’인지 여부이다. 만약 사실이면 해당되는 관찰값은 좌측노드로 내려가고, 만약 반대의 경우라면 우측노드로 내려가면 된다. 좌측노드로 내려간 경우에는 총 256개의 관찰값이 있고 그 평균이 0.7이므로, 뿌리노드에 비하면 생산성이 낮아진 노드라고 할 수 있다. 반면 우측노드로 내려간 경우에는 680개의 관찰값과 평균 0.8의 생산성을 보이고 있다.


    좌측노드를 추가로 ‘over_time’ 값에 의해 분할했는데, 이 변수가 3,210보다 큰지 혹은 작은지를 기준으로 추가로 분할하게 된다. 예를 들어 ’over_time >= 3210’에 의해 좌측노드에 속하게 되는 관찰값들은 생산성의 평균이 0.67에 불과하다. 반면 뿌리노드에서 우측으로 간 노드를 다시 한 번 ’incentive >= 85’에 의해 분할을 하면 총 54개의 관찰값이 속하는데, 그들의 평균 생산성은 0.96으로 매우 높다.




    (3) 회귀예측 정확도 계산하기


    의류생산성 데이터에서 목표변수의 예측값을 구하고 평가하는 방법에 대해서 알아보자.


    3-13 CART 의사결정나무의 예측값 및 정확도 산출
    # making predictions
    pred.tree.prod <- predict(treee.pruned.prod, newdata = prod, type = "vector")
    head(pred.tree.prod, 5)
            1         2         3         4         5 
    0.9560197 0.8525670 0.7921739 0.7921739 0.7921739 

  • predict() 함수에 ’newdata = prod’라고 하여 prod 데이터를 다시 사용하였기 때문에 기존 학습 데이터에 대한 회귀나무의 예측값을 구할 수 있다. 만일 ’newdata’에 prod 데이터와 동일한 형식의 새로운 데이터를 사용하게 된다면 새로운 데이터에 대한 예측값을 구할 수 있다. 이것은 미래의 관찰값에 대한 예측을 수행해야 하는 경우에 필요한 기법이다.
  • predict() 함수의 ‘type = “vector”’ : 회귀나무에 해당하는 목표변수의 예측결과를 의미한다. 회귀나무에 의해 예측된 목표변수의 값은 ’pred.tree.prod’에 저장되어 있고, 처음 5개 관찰값에 대한 목표변수의 예측값을 출력하고 있다.

  • 아래는 평균제곱오차(Mean Squared Error, MSE)와 평균절대오차(Mean Absolute Error, MAE)를 계산하는 코드이다. 평균절대오차는 실제값과 계측값 차이의 절댓값들을 평균한 것이다. 출력값에 따르면 회귀나무의 평균제곱오차는 0.0127이고 평균절대오차는 0.0784이다.

    # evaluation
    mean((prod$productivity - pred.tree.prod)^2) # MSE
    [1] 0.01265816
    mean(abs(prod$productivity - pred.tree.prod)) # MAE
    [1] 0.07839877


    다음으로 CART 회귀이사결정나무의 예측값과 실제값의 일치도를 산점도로 그리고자 한다. 결과를 살펴 보면 회귀의사결정나무에서 최종노드 내 관찰값들의 평균값을 예측값으로 사용하기 때문에 동일한 값을 가진 점이 많은 것을 확인할 수 있다.


    3-14 CART 회귀의사결정나무의 예측값과 실제값의 산점도
    # observed vs. predicted
    plot(prod$productivity, pred.tree.prod, xlab = "Observed Values", ylab = "Fitted Values")
    abline(0, 1)

    