Processing math: 100%

목차


정형 데이터 마이닝

머신러닝의 종류

  • 지도학습 : 독립변수와 종속변수의 쌍으로 된 자료가 주어질 때 새로운 자료에 대하여 문제를 풀 수 있는 함수를 찾는 학습방법
  • 비지도학습 : 종속변수가 없이 자료들로부터 패턴을 추출하는 학습방법(데이터 마이닝의 군집의 개념)
  • 강화학습 : 문제에 대한 직접적인 해답을 주지 않고 경험을 통해 기대값이 최대가 되는 것을 찾는 학습방법

비지도학습

각 개체에 대해 여러 변수값들로부터 n개의 유사한 성격의 군집으로 군집화하고 군집간 관계를 분석하는 기법

KernSmooth 2.23 loaded
Copyright M. P. Wand 1997-2009

가장 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법. 작은 군집으로부터 출발하여 을 병합해 나가는 방법(병합적 방법)과 큰 군집으로부터 군집을 분리해 나가는 방법(분할적 방법)이 있다.

군집 간의 연결방법
  • 최단연결법(single linkage method) : 두 군집 사이의 거리를 각 군집에서 관측값을 하나씩 뽑았을 때 나타날 수 있는 최소거리로 측정
  • 최장연결법(complete linkage method) : 두 군집 사이의 거리를 각 군집에서 관측값을 하나씩 뽑았을 때 나타날 수 있는 최장거리로 측정
  • 평균연결법(average linkage) : 모든 항목에 대한 거리의 평균을 거리로 측정
  • 중심연결법(centroid linkage) : 두 군집의 중심을 거리로 측정
  • 와드연결법(Ward linkage) : 군집내 오차제곱합이 가장 작아지는 방향으로 군집을 형성

개체간 거리의 종류
  • 민코우스키(MinKowski) 거리 : Dist(x,y)=[(xrixsi)p]1/p

  • 맨하튼 거리 : 두 점 간의 차이의 절대값을 합한 값, r=1일 때의 민코우스키의 거리와 같음. Dist(x,y)=|xiyi|

  • 유클리드 거리 : 민코우스키거리의 특별 경우(r=2) 자료의 분포적 특성을 고려할 수 없으며, 단위 또한 같아야한다는 단점이 존재. Dist(x,y)=(xrixsi)2=[XrXs]T[XrXs]

  • 체비셰프 거리(=maximum distance) : 두 집단에서 가장 긴 지점에서의 거리 max(|x1y1|,,|xpyp|

  • 표준화 거리 : 유클리드 거리를 공분산으로 나눈 거리 [(XrXs)TD1(XrXs)]1/2,D=diag(S11,,Spp)

  • 마할라노비스(Mahalanobis) 거리 : 공분산 구조를 함께 고려한 통계적 거리, 자료의 분포적 특성을 고려하기 위한 방법. [(XrXs)TS1(XrXs)]1/2,S=

참고:공분산이 단위행렬이 되면 유클리드거리와 같아지는데 이러한 변환을 화이트닝변환이라 한다.

  • 캔버라 거리 : 맨하튼 거리에 가중치를 적용한 거리의 개념 dist(x,y)=|xiyi|xiyi

method에 euclidean, maximum, manhattan, canbera, minkowski 등이 들어갈 수 있다.

x1=rnorm(30)
x2=rnorm(30)
dist(rbind(x1,x2),method='euclidean')
         x1
x2 8.833439
  • 코사인 거리 : 코사인 유사도는 무게나 크기는 전혀 고려하지 않고 벡터 사이의 각도만으로 측정하는 것과 유사 cos(Xr,Xs)=Xr×Xs|Xr||Xs|
#거리계산 패키지
library('lsa')
Loading required package: SnowballC
x1=sample(c(0,1),30,replace = T)
x2=sample(c(0,1),30,replace = T)
#코사인 거리 계산
cosine(x1,x2)
          [,1]
[1,] 0.5477226
  • 피어슨 거리 : 피어슨 상관계수의 범위가 -1~1이므로 1에서 피어슨 상관계수를 뺀 값을 거리로 사용

hclust 함수의 method 옵션에는 “ward.D”, “ward.D2”, “single”, “complete”, “average”, “mcquitty”, “median” or “centroid”이 있다.


자료 설명 미국 내 50개 주의1973년에 발생한 범죄관련 통계자료

  • Murder : 10만명 당 살인죄 수
  • Assault : 10만명 당 폭행죄 수
  • UrbanPop : 도시에 살고 있는 인구 비율
  • Rape : 10만명당 성범죄 수
library(cluster)
data(USArrests)
str(USArrests)
'data.frame':   50 obs. of  4 variables:
 $ Murder  : num  13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 ...
 $ Assault : int  236 263 294 190 276 204 110 238 335 211 ...
 $ UrbanPop: int  58 48 80 50 91 78 77 72 80 60 ...
 $ Rape    : num  21.2 44.5 31 19.5 40.6 38.7 11.1 15.8 31.9 25.8 ...
rownames(USArrests)
 [1] "Alabama"        "Alaska"         "Arizona"        "Arkansas"       "California"    
 [6] "Colorado"       "Connecticut"    "Delaware"       "Florida"        "Georgia"       
[11] "Hawaii"         "Idaho"          "Illinois"       "Indiana"        "Iowa"          
[16] "Kansas"         "Kentucky"       "Louisiana"      "Maine"          "Maryland"      
[21] "Massachusetts"  "Michigan"       "Minnesota"      "Mississippi"    "Missouri"      
[26] "Montana"        "Nebraska"       "Nevada"         "New Hampshire"  "New Jersey"    
[31] "New Mexico"     "New York"       "North Carolina" "North Dakota"   "Ohio"          
[36] "Oklahoma"       "Oregon"         "Pennsylvania"   "Rhode Island"   "South Carolina"
[41] "South Dakota"   "Tennessee"      "Texas"          "Utah"           "Vermont"       
[46] "Virginia"       "Washington"     "West Virginia"  "Wisconsin"      "Wyoming"       
#인구비율이 가장 높은 지역의 정보
USArrests[which.max(USArrests$UrbanPop),]
ABCDEFGHIJ0123456789
 
 
Murder
<dbl>
Assault
<int>
UrbanPop
<int>
Rape
<dbl>
California92769140.6
#살인비율이 가장 높은 지역의 정보
USArrests[which.max(USArrests$Murder),]
ABCDEFGHIJ0123456789
 
 
Murder
<dbl>
Assault
<int>
UrbanPop
<int>
Rape
<dbl>
Georgia17.42116025.8
#살인비율이 가장 늦은 지역의 정보
USArrests[which.min(USArrests$Murder),]
ABCDEFGHIJ0123456789
 
 
Murder
<dbl>
Assault
<int>
UrbanPop
<int>
Rape
<dbl>
North Dakota0.845447.3
병합적 방법(1)

작은 군집으로부터 출발하여 을 병합해 나가는 방법

#유클리드거리 계산
d <-dist(USArrests, method="euclidean")
#평균연결법을 활용한 계층적군집
fit <-hclust(d, method="average")

#시각화
plot(fit)

plot(fit,hang=-1)

병합적 방법(1)

metric 옵션을 통해 거리계산의 종류를 지정해 줄 수 있다. metric 대신 daisy함수를 통해 거리계산 가능 stand 옵션을 TRUE로 주면 거리 계산 전에 표준화를 수행한다.

#계층적 군집 관련 패키지
library(cluster)
#병합적방법
#stand=T이면 표준화 진행
agn1 <-agnes(USArrests, metric="manhattan", stand=TRUE)
plot(agn1)

#최장연결법으로 계층적 군집 실행
agn2 <-agnes(daisy(USArrests), diss=TRUE, method="complete")
plot(agn2)

병합적방법(2)

(분할적 방법) 큰 군집으로부터 군집을 분리해 나가는 방법

library(cluster)
#분할적 방법
#stand=T이면 표준화 진행
agn1 <-diana(USArrests, metric="manhattan", stand=TRUE)
plot(agn1)

#최장연결법으로 계층적 군집 실행
agn2 <-diana(daisy(USArrests), diss=TRUE, metric ="complete")
plot(agn2)

K개(원하는 군집수)의 초기값을 지정하고 각 자료를 가까운 초깃값에 할당하여 군집을 형성한 뒤, 각 군집의 평균을 계산하여 초깃값을 갱신하는 것을 반복하는 군집 방법

집단 내 제곱합의 그래프를 통한 군집수 결정

k에 해당하는 초깃값을 최적화 하는 방법

#집합내 잔차제곱합을 활용하여 군집 수 최적화
wssplot<-function(data, nc=15, seed=1234){
wss<-(nrow(data)-1)*sum(apply(data,2,var))
for (i in 2:nc){
set.seed(seed)
wss[i] <-sum(kmeans(data, centers=i)$withinss)}
plot(1:nc, wss, type="b", xlab="Number of Clusters",
ylab="Within groups sum of squares")}

wssplot(USArrests)

package를 이용

library(NbClust)
set.seed(1234)
nc=NbClust(USArrests,min.nc=2,max.nc=15,method='kmeans')
*** : The Hubert index is a graphical method of determining the number of clusters.
                In the plot of Hubert index, we seek a significant knee that corresponds to a 
                significant increase of the value of the measure i.e the significant peak in Hubert
                index second differences plot. 
 

*** : The D index is a graphical method of determining the number of clusters. 
                In the plot of D index, we seek a significant knee (the significant peak in Dindex
                second differences plot) that corresponds to a significant increase of the value of
                the measure. 
 
******************************************************************* 
* Among all indices:                                                
* 9 proposed 2 as the best number of clusters 
* 6 proposed 3 as the best number of clusters 
* 1 proposed 4 as the best number of clusters 
* 3 proposed 5 as the best number of clusters 
* 3 proposed 7 as the best number of clusters 
* 1 proposed 11 as the best number of clusters 
* 1 proposed 15 as the best number of clusters 

                   ***** Conclusion *****                            
 
* According to the majority rule, the best number of clusters is  2 
 
 
******************************************************************* 

nc$Best.n[1,,drop=F]
                KL CH Hartigan CCC Scott Marriot TrCovW TraceW Friedman Rubin Cindex DB Silhouette
Number_clusters  5  5        3   2     7       7      3      3       11     7      4  2          2
                Duda PseudoT2 Beale Ratkowsky Ball PtBiserial Frey McClain Dunn Hubert SDindex Dindex
Number_clusters    2        2     2         2    3          2    3       2    5      0       3      0
                SDbw
Number_clusters   15
which.max(table(nc$Best.n[1,]))
2 
2 
set.seed(1234)
#2개의 군집 생성
fit.km <-kmeans(USArrests, 2, nstart=25)
fit.km$size
[1] 29 21
#시각화
plot(USArrests, col=fit.km$cluster)

#군집별 변수별 평균값
aggregate(USArrests, by=list(cluster=fit.km$cluster), mean)
ABCDEFGHIJ0123456789
cluster
<int>
Murder
<dbl>
Assault
<dbl>
UrbanPop
<dbl>
Rape
<dbl>
14.841379109.758664.0344816.24828
211.857143255.000067.6190528.11429

밀도 기반의 클러스터링은 점이 세밀하게 몰려 있어서 밀도가 높은 부분을 클러스터링 하는 방식. epsilon 반경 내에 최소 n개의 개수의 점이 있으면 군집으로 인식

dbscan() : 밀도기반 군집을 생성하는 코드, eps와 MinPts를 옵션으로 주어야 하며, eps는 epsilon, MinPts는 반경 내의 최소 점의 개수를 의미한다.

library(fpc)
#밀도기반 군집
test.dbscan1 <-dbscan(USArrests, eps=20, MinPts=7)
n <-max(test.dbscan1$cluster)
dscenter<-as.data.frame(matrix(0, nrow=1, ncol=2))
for (i in 1:n){
  dscenter[i,] <-colMeans(USArrests[test.dbscan1$cluster == i,])
}
plot(USArrests, col=test.dbscan1$cluster+1)

밀도기반 군집과 k-means 군집간 비교

#아래 그림과 같은 분포의 자료 생성 (test.sample1)

set.seed(7979)
get.sample<-function (n=1000, p=0.7) {
x1 <-rnorm(n)
y1 <-rnorm(n)
r2 <-7+rnorm(n)
t2 <-runif(n,0,2*pi)
x2 <-r2*cos(t2)
y2 <-r2*sin(t2)
r <-runif(n)>p
x <-ifelse(r,x1,x2)
y <-ifelse(r,y1,y2)
d <-data.frame(x=x, y=y)
d
}
test.sample1 <-get.sample()


plot(test.sample1)

library(KernSmooth)
r <-bkde2D(test.sample1, bandwidth=c(0.5,0.5))
persp(r$fhat, scale=T, expand=0.3, col="white", theta = 30, phi = 30)

library(fpc)
#밀도기반 군집
test.dbscan1 <-dbscan(test.sample1, eps=0.8, MinPts=5)
n <-max(test.dbscan1$cluster)
dscenter<-as.data.frame(matrix(0, nrow=1, ncol=2))
for (i in 1:n){
dscenter[i,] <-colMeans(test.sample1[test.dbscan1$cluster == i,])
}
plot(test.sample1, col=test.dbscan1$cluster+1,main='DBSCAN')

#k means 군집
test.kmeans1 <-kmeans(test.sample1, centers=2)
plot(test.sample1, col=test.kmeans1$cluster+1,main='k-means')

각 군집 방법의 장단점 및 비교

장점

  • k-평균 군집 : 다른 군집 방법보다 많은 양의 자료를 다룰 수 있다.
  • 밀도기반 군집 : 특이한 형태의 군집을 찾는데 유리하며, 잡음을 포함한 데이터를 다루는데 적합

단점

  • k-평균 군집 : 초기값, 이상치에 영향을 많이 받으며, 볼록한 형태가 아닌 군집에 대해 성능이 떨어짐
  • 밀도기반 군집 : 경계점에 대하여 두 군집 모두에 속할 수 있다는 문제가 존재. 고차원자료의경우‘차원의저주(curse of dimensionality)’로인해거리측도가무의미하거나, 이로인해적절한반경(𝜖)을찾기어렵다.

iris 자료에 대한 모형 비교

iris2=iris[,1:4]

dist=dist(iris2)
#계층적 군집
hcl=hclust(dist,method='average')
#군집 수 3개로 설정
cut=cutree(hcl,k=3)
#군집 시각화
plot(hcl,hang=-1,cex=.8)
rect.hclust(hcl,k=3)

#실제 자료의 분류
plot(iris[,-5],col=iris$Species)

#계층적 군집 분류 시각화
plot(iris[,-5],col=cut,pch=cut)

#분류 비율
class=as.factor(cut)
levels(class)= levels(iris$Species)
table(class)
class
    setosa versicolor  virginica 
        50         64         36 
#정오분류표
table(class,iris$Species)
            
class        setosa versicolor virginica
  setosa         50          0         0
  versicolor      0         50        14
  virginica       0          0        36
library(NbClust)
set.seed(1234)
#kmeans 군집
fit.km <-kmeans(iris[,-5], 3, nstart=25)
fit.km$size
[1] 50 38 62
#실제 자료의 분류
plot(iris[,-5],col=iris$Species)


#kmean 군집의 분류 
plot(iris[,-5], col=fit.km$cluster)

#kmean 군집의 분류별 평균
aggregate(iris[,-5], by=list(cluster=fit.km$cluster), mean)
ABCDEFGHIJ0123456789
cluster
<int>
Sepal.Length
<dbl>
Sepal.Width
<dbl>
Petal.Length
<dbl>
Petal.Width
<dbl>
15.0060003.4280001.4620000.246000
26.8500003.0736845.7421052.071053
35.9016132.7483874.3935481.433871

#분류비율
class=as.factor(fit.km$cluster)
levels(class)= levels(iris$Species)
table(class)
class
    setosa versicolor  virginica 
        50         38         62 
#정오분류표
table(class,iris$Species)
            
class        setosa versicolor virginica
  setosa         50          0         0
  versicolor      0          2        36
  virginica       0         48        14
library(fpc)
#밀도기반 군집
test.dbscan1 <-dbscan(iris[,-5], eps=0.8, MinPts=5)
n <-max(test.dbscan1$cluster)
dscenter<-as.data.frame(matrix(0, nrow=1, ncol=2))
for (i in 1:n){
dscenter[i,] <-colMeans(iris[,-5][test.dbscan1$cluster == i,])
}

#실제 자료의 분류
plot(iris[,-5],col=iris$Species)

#밀도기반군짐의 분류
plot(iris[,-5], col=test.dbscan1$cluster+1)


#분류비율
class=as.factor(test.dbscan1$cluster+1)
levels(class)= levels(iris$Species)
table(class)
class
    setosa versicolor  virginica 
         2         50         98 
#정오분류표
table(class,iris$Species)
            
class        setosa versicolor virginica
  setosa          0          0         2
  versicolor     50          0         0
  virginica       0         50        48
library(fpc)
#밀도기반 군집(적은 변수로)
test.dbscan1 <-dbscan(iris[,-c(1,4:5)], eps=0.8, MinPts=7)
test.dbscan1
dbscan Pts=150 MinPts=7 eps=0.8
        1   2
border  0   4
seed   50  96
total  50 100
n <-max(test.dbscan1$cluster)
n
[1] 2
dscenter<-as.data.frame(matrix(0, nrow=1, ncol=2))
for (i in 1:n){
  dscenter[i,] <-colMeans(iris[,-5][test.dbscan1$cluster == i,])
}

#실제자료의 분류
plot(iris[,-5],col=iris$Species)


#밀도기반군집의 분류
plot(iris[,-5], col=test.dbscan1$cluster+1)



#분류비율
class=as.factor(test.dbscan1$cluster+1)
levels(class)= levels(iris$Species)
table(class)
class
    setosa versicolor  virginica 
        50        100          0 
#정오분류표
table(class,iris$Species)
            
class        setosa versicolor virginica
  setosa         50          0         0
  versicolor      0         50        50
  virginica       0          0         0
---
title: "AI 와 Machine Learning을 위한 빅데이터 실습"
output: 
  html_notebook: 
    theme: spacelab
---


****

# 목차

+ [2019-07-17 (오전) : 데이터마이닝 개요와 R 기초 사용법](http://rpubs.com/qkdrk777777/511942)
+ [2019-07-17 (오후) : 기초 통계분석](http://rpubs.com/qkdrk777777/511941)
+ [2019-07-18 (오전) : 정형데이터마이닝 - 지도학습](http://rpubs.com/qkdrk777777/511940)
+ **[2019-07-18 (오후) : 정형데이터마이닝 - 비지도학습](http://rpubs.com/qkdrk777777/511938)**
+ [2019-07-19 (오전) : 비정형데이터마이닝-자료 다루기](http://rpubs.com/qkdrk777777/511937)
+ [2019-07-19 (오후) : 비정형데이터마이닝-텍스트마이닝](http://rpubs.com/qkdrk777777/511198)

***

# 정형 데이터 마이닝

## 머신러닝의 종류

+ 지도학습 : 독립변수와 종속변수의 쌍으로 된 자료가 주어질 때 새로운 자료에 대하여 문제를 풀 수 있는 함수를 찾는 학습방법
+ **비지도학습** : 종속변수가 없이 자료들로부터 패턴을 추출하는 학습방법(데이터 마이닝의 군집의 개념)
+ 강화학습 :  문제에 대한 직접적인 해답을 주지 않고 경험을 통해 기대값이 최대가 되는 것을 찾는 학습방법


## 비지도학습{.tabset .tabset-fade .tabset-pills}

각 개체에 대해 여러 변수값들로부터 n개의 **유사한 성격**의 군집으로 군집화하고 군집간 관계를 분석하는 기법

```{r echo=FALSE}

set.seed(7979)
get.sample<-function (n=1000, p=0.7) {
x1 <-rnorm(n)
y1 <-rnorm(n)
r2 <-7+rnorm(n)
t2 <-runif(n,0,2*pi)
x2 <-r2*cos(t2)
y2 <-r2*sin(t2)
r <-runif(n)>p
x <-ifelse(r,x1,x2)
y <-ifelse(r,y1,y2)
d <-data.frame(x=x, y=y)
d}
test.sample1 <-get.sample()
plot(test.sample1)
library(KernSmooth)
library(fpc)
test.dbscan1 <-dbscan(test.sample1, eps=0.8, MinPts=5)
n <-max(test.dbscan1$cluster)
dscenter<-as.data.frame(matrix(0, nrow=1, ncol=2))
for (i in 1:n){
dscenter[i,] <-colMeans(test.sample1[test.dbscan1$cluster == i,])
}
plot(test.sample1, col=test.dbscan1$cluster+1)
```


### 계층적 군집(Hiarichical clustering) {.tabset .tabset-fade}

가장 유사한 **개체를 묶어 나가는 과정을 반복**하여 원하는 개수의 군집을 형성하는 방법.
작은 군집으로부터 출발하여 을 병합해 나가는 방법(병합적 방법)과 큰 군집으로부터 군집을 분리해 나가는 방법(분할적 방법)이 있다.


#### **군집 간의 연결방법과 거리의 종류**

##### **군집 간의 연결방법**

+ 최단연결법(single linkage method) : 두 군집 사이의 거리를 각 군집에서 관측값을 하나씩 뽑았을 때 나타날 수 있는 최소거리로 측정
+ 최장연결법(complete linkage method) : 두 군집 사이의 거리를 각 군집에서 관측값을 하나씩 뽑았을 때 나타날 수 있는 최장거리로 측정
+ 평균연결법(average linkage) : 모든 항목에 대한 거리의 평균을 거리로 측정
+ 중심연결법(centroid linkage) : 두 군집의 중심을 거리로 측정
+ 와드연결법(Ward linkage) : 군집내 오차제곱합이 가장 작아지는 방향으로 군집을 형성

***

##### **개체간 거리의 종류**

+ **민코우스키(MinKowski) 거리** : $Dist(x,y)=[\sum(x_{ri}-x_{si})^p]^{1/p}$

+ **맨하튼 거리** : 두 점 간의 차이의 절대값을 합한 값, r=1일 때의 민코우스키의 거리와 같음. 
$Dist(x,y)=\sum|x_i-y_i|$

+ **유클리드 거리** : 민코우스키거리의 특별 경우(r=2) 자료의 분포적 특성을 고려할 수 없으며, 단위 또한 같아야한다는 단점이 존재. $Dist(x,y)=\sqrt{\sum(x_{ri}-x_{si})^2}=\sqrt{[X_r-X_s]^T[X_r-X_s]}$

+ **체비셰프 거리(=maximum distance)** : 두 집단에서 가장 긴 지점에서의 거리 $max(|x_1-y_1|,\cdots,|x_p-y_p|$

+ **표준화 거리** : 유클리드 거리를 공분산으로 나눈 거리 $[(X_r-X_s)^TD^{-1}(X_r-X_s)]^{1/2} , D=diag(S_{11},\cdots,S_{pp})$

+ **마할라노비스(Mahalanobis) 거리** : 공분산 구조를 함께 고려한 통계적 거리, 자료의 분포적 특성을 고려하기 위한 방법. $[(X_r-X_s)^TS^{-1}(X_r-X_s)]^{1/2} , S=표본공분산행렬$

*참고:공분산이 단위행렬이 되면 유클리드거리와 같아지는데 이러한 변환을 화이트닝변환이라 한다.* 

+ **캔버라 거리 ** : 맨하튼 거리에 가중치를 적용한 거리의 개념 $dist(x,y)=\sum\frac{|x_i-y_i|}{x_i-y_i}$

method에 euclidean, maximum, manhattan, canbera, minkowski 등이 들어갈 수 있다. 

```{r}
x1=rnorm(30)
x2=rnorm(30)
dist(rbind(x1,x2),method='euclidean')
```


+ **코사인 거리** : 코사인 유사도는 무게나 크기는 전혀 고려하지 않고 벡터 사이의 각도만으로 측정하는 것과 유사 $cos(X_r,X_s)=\frac{X_r\times X_s}{|X_r||X_s|}$

```{r}
#거리계산 패키지
library('lsa')
x1=sample(c(0,1),30,replace = T)
x2=sample(c(0,1),30,replace = T)
#코사인 거리 계산
cosine(x1,x2)
```

+ **피어슨 거리 ** : 피어슨 상관계수의 범위가 -1~1이므로 1에서 피어슨 상관계수를 뺀 값을 거리로 사용


hclust 함수의 method 옵션에는 "ward.D", "ward.D2", "single", "complete", "average", "mcquitty", "median" or "centroid"이 있다.

***

#### Code

**자료 설명**
미국 내 50개 주의1973년에 발생한 범죄관련 통계자료

+ Murder : 10만명 당 살인죄 수
+ Assault : 10만명 당 폭행죄 수
+ UrbanPop : 도시에 살고 있는 인구 비율
+ Rape : 10만명당 성범죄 수

```{r}
library(cluster)
data(USArrests)
str(USArrests)

rownames(USArrests)
#인구비율이 가장 높은 지역의 정보
USArrests[which.max(USArrests$UrbanPop),]
#살인비율이 가장 높은 지역의 정보
USArrests[which.max(USArrests$Murder),]
#살인비율이 가장 늦은 지역의 정보
USArrests[which.min(USArrests$Murder),]
```
##### **병합적 방법(1)**

작은 군집으로부터 출발하여 을 병합해 나가는 방법

```{r}
#유클리드거리 계산
d <-dist(USArrests, method="euclidean")
#평균연결법을 활용한 계층적군집
fit <-hclust(d, method="average")

#시각화
plot(fit)
plot(fit,hang=-1)
```

**병합적 방법(1)**

metric 옵션을 통해 거리계산의 종류를 지정해 줄 수 있다.
metric 대신 daisy함수를 통해 거리계산 가능
stand 옵션을 TRUE로 주면 거리 계산 전에 표준화를 수행한다.

```{r}
#계층적 군집 관련 패키지
library(cluster)
#병합적방법
#stand=T이면 표준화 진행
agn1 <-agnes(USArrests, metric="manhattan", stand=TRUE)
plot(agn1)
#최장연결법으로 계층적 군집 실행
agn2 <-agnes(daisy(USArrests), diss=TRUE, method="complete")
plot(agn2)
```

##### **병합적방법(2)**

(분할적 방법) 큰 군집으로부터 군집을 분리해 나가는 방법

```{r}
library(cluster)
#분할적 방법
#stand=T이면 표준화 진행
agn1 <-diana(USArrests, metric="manhattan", stand=TRUE)
plot(agn1)
#최장연결법으로 계층적 군집 실행
agn2 <-diana(daisy(USArrests), diss=TRUE, metric ="complete")
plot(agn2)
```


### K-평균 군집(k-means clustering)

K개(원하는 군집수)의 초기값을 지정하고 각 자료를 가까운 초깃값에 할당하여 군집을 형성한 뒤, 각 군집의 평균을 계산하여 초깃값을 갱신하는 것을 반복하는 군집 방법

집단 내 제곱합의 그래프를 통한 군집수 결정

#### k에 해당하는 초깃값을 최적화 하는 방법

```{r}
#집합내 잔차제곱합을 활용하여 군집 수 최적화
wssplot<-function(data, nc=15, seed=1234){
wss<-(nrow(data)-1)*sum(apply(data,2,var))
for (i in 2:nc){
set.seed(seed)
wss[i] <-sum(kmeans(data, centers=i)$withinss)}
plot(1:nc, wss, type="b", xlab="Number of Clusters",
ylab="Within groups sum of squares")}

wssplot(USArrests)
```
package를 이용

```{r}
library(NbClust)
set.seed(1234)
nc=NbClust(USArrests,min.nc=2,max.nc=15,method='kmeans')
nc$Best.n[1,,drop=F]
which.max(table(nc$Best.n[1,]))
```

```{r}
set.seed(1234)
#2개의 군집 생성
fit.km <-kmeans(USArrests, 2, nstart=25)
fit.km$size
#시각화
plot(USArrests, col=fit.km$cluster)
#군집별 변수별 평균값
aggregate(USArrests, by=list(cluster=fit.km$cluster), mean)
```

### 밀도기반군집(DBSCAN)

밀도 기반의 클러스터링은 점이 세밀하게 몰려 있어서 밀도가 높은 부분을 클러스터링 하는 방식. **epsilon 반경 내에 최소 n개의 개수의 점이 있으면 군집으로 인식**

dbscan() : 밀도기반 군집을 생성하는 코드, eps와 MinPts를 옵션으로 주어야 하며, eps는 epsilon, MinPts는 반경 내의 최소 점의 개수를 의미한다.


```{r}
library(fpc)
#밀도기반 군집
test.dbscan1 <-dbscan(USArrests, eps=20, MinPts=7)
n <-max(test.dbscan1$cluster)
dscenter<-as.data.frame(matrix(0, nrow=1, ncol=2))
for (i in 1:n){
  dscenter[i,] <-colMeans(USArrests[test.dbscan1$cluster == i,])
}
plot(USArrests, col=test.dbscan1$cluster+1)
```

### 군집 방법 간 비교 

#### 밀도기반 군집과 k-means 군집간 비교


```{r}
#아래 그림과 같은 분포의 자료 생성 (test.sample1)

set.seed(7979)
get.sample<-function (n=1000, p=0.7) {
x1 <-rnorm(n)
y1 <-rnorm(n)
r2 <-7+rnorm(n)
t2 <-runif(n,0,2*pi)
x2 <-r2*cos(t2)
y2 <-r2*sin(t2)
r <-runif(n)>p
x <-ifelse(r,x1,x2)
y <-ifelse(r,y1,y2)
d <-data.frame(x=x, y=y)
d
}
test.sample1 <-get.sample()


plot(test.sample1)
library(KernSmooth)
r <-bkde2D(test.sample1, bandwidth=c(0.5,0.5))
persp(r$fhat, scale=T, expand=0.3, col="white", theta = 30, phi = 30)
```


```{r}
library(fpc)
#밀도기반 군집
test.dbscan1 <-dbscan(test.sample1, eps=0.8, MinPts=5)
n <-max(test.dbscan1$cluster)
dscenter<-as.data.frame(matrix(0, nrow=1, ncol=2))
for (i in 1:n){
dscenter[i,] <-colMeans(test.sample1[test.dbscan1$cluster == i,])
}
plot(test.sample1, col=test.dbscan1$cluster+1,main='DBSCAN')
#k means 군집
test.kmeans1 <-kmeans(test.sample1, centers=2)
plot(test.sample1, col=test.kmeans1$cluster+1,main='k-means')
```


#### 각 군집 방법의 장단점 및 비교

**장점**

+ k-평균 군집 : 다른 군집 방법보다 많은 양의 자료를 다룰 수 있다.
+ 밀도기반 군집 : 특이한 형태의 군집을 찾는데 유리하며, 잡음을 포함한 데이터를 다루는데 적합 

**단점**

+ k-평균 군집 : 초기값, 이상치에 영향을 많이 받으며, 볼록한 형태가 아닌 군집에 대해 성능이 떨어짐
+ 밀도기반 군집 : 경계점에 대하여 두 군집 모두에 속할 수 있다는 문제가 존재. 고차원자료의경우‘차원의저주(curse of dimensionality)'로인해거리측도가무의미하거나, 이로인해적절한반경(𝜖)을찾기어렵다.

#### iris 자료에 대한 모형 비교

```{r}
iris2=iris[,1:4]

dist=dist(iris2)
#계층적 군집
hcl=hclust(dist,method='average')
#군집 수 3개로 설정
cut=cutree(hcl,k=3)
#군집 시각화
plot(hcl,hang=-1,cex=.8)
rect.hclust(hcl,k=3)
#실제 자료의 분류
plot(iris[,-5],col=iris$Species)
#계층적 군집 분류 시각화
plot(iris[,-5],col=cut,pch=cut)
#분류 비율
class=as.factor(cut)
levels(class)= levels(iris$Species)
table(class)
#정오분류표
table(class,iris$Species)



library(NbClust)
set.seed(1234)
#kmeans 군집
fit.km <-kmeans(iris[,-5], 3, nstart=25)
fit.km$size

#실제 자료의 분류
plot(iris[,-5],col=iris$Species)

#kmean 군집의 분류 
plot(iris[,-5], col=fit.km$cluster)
#kmean 군집의 분류별 평균
aggregate(iris[,-5], by=list(cluster=fit.km$cluster), mean)

#분류비율
class=as.factor(fit.km$cluster)
levels(class)= levels(iris$Species)
table(class)

#정오분류표
table(class,iris$Species)


library(fpc)
#밀도기반 군집
test.dbscan1 <-dbscan(iris[,-5], eps=0.8, MinPts=5)
n <-max(test.dbscan1$cluster)
dscenter<-as.data.frame(matrix(0, nrow=1, ncol=2))
for (i in 1:n){
dscenter[i,] <-colMeans(iris[,-5][test.dbscan1$cluster == i,])
}

#실제 자료의 분류
plot(iris[,-5],col=iris$Species)
#밀도기반군짐의 분류
plot(iris[,-5], col=test.dbscan1$cluster+1)

#분류비율
class=as.factor(test.dbscan1$cluster+1)
levels(class)= levels(iris$Species)
table(class)

#정오분류표
table(class,iris$Species)


library(fpc)
#밀도기반 군집(적은 변수로)
test.dbscan1 <-dbscan(iris[,-c(1,4:5)], eps=0.8, MinPts=7)
test.dbscan1

n <-max(test.dbscan1$cluster)
n
dscenter<-as.data.frame(matrix(0, nrow=1, ncol=2))
for (i in 1:n){
  dscenter[i,] <-colMeans(iris[,-5][test.dbscan1$cluster == i,])
}

#실제자료의 분류
plot(iris[,-5],col=iris$Species)

#밀도기반군집의 분류
plot(iris[,-5], col=test.dbscan1$cluster+1)


#분류비율
class=as.factor(test.dbscan1$cluster+1)
levels(class)= levels(iris$Species)
table(class)

#정오분류표
table(class,iris$Species)




```
