텍스트마이닝

data load

데이터는 문재인 대통령 취임사 자료를 가져온 text파일입니다.

#데이터 불러오는 패키지
library('tidyverse')

Warning messages:
1: In strsplit(x, "\n") : input string 1 is invalid in this locale
2: In strsplit(code, "\n", fixed = TRUE) :
  input string 1 is invalid in this locale

#명사추출에 사용되는 패키지
library('KoNLP')
library(tm)
#워드클라우드 패키지
library(wordcloud2)
#사회관계망 패키지
library(qgraph)
library("visNetwork") 
setwd('X:/data')

The working directory was changed to X:/data inside a notebook chunk. The working directory will be reset when the chunk is finished running. Use the knitr root.dir option in the setup chunk to change the working directory for notebook chunks.

# Lines=readLines('moon.txt',encoding = 'UTF-8')
Lines=read_lines('moon.txt')

SimplePos09() : 9개의 품사 추출

#딕셔너리 불러오기
useNIADic()

Backup was just finished!
983012 words dictionary was built.

Warning message:
In strsplit(code, "\n", fixed = TRUE) :
  input string 1 is invalid in this locale

#9개 품사 추출
SimplePos09(c('최대한 친절하게 쓴 R','최대한 친절하게 쓴 R'))

[[1]]
[[1]]$최대한
[1] "최대한/M"

[[1]]$친절하게
[1] "친절/N+하/X+게/E"

[[1]]$쓴
[1] "쓰/P+ㄴ/E"

[[1]]$R
[1] "R/F"


[[2]]
[[2]]$최대한
[1] "최대한/M"

[[2]]$친절하게
[1] "친절/N+하/X+게/E"

[[2]]$쓴
[1] "쓰/P+ㄴ/E"

[[2]]$R
[1] "R/F"

#22개 품사로 추출
mp <- SimplePos22(Lines)

정규식에서 추출하고 싶은 값만 ()를 써서 추출

mp <- SimplePos22(Lines)

Warning message:
In strsplit(code, "\n", fixed = TRUE) :
  input string 1 is invalid in this locale

#명사 추출
temp=str_match(mp,'[ㄱ-힣]+/N')

argument is not an atomic vector; coercing

head(temp)

     [,1]                  
[1,] "북녘/N"              
[2,] NA                    
[3,] "남북군사공동위원회/N"
[4,] NA                    
[5,] "그동안/N"            
[6,] "나/N"

#품사를 제거한 순수 명사 추출
temp=str_match(mp,'([ㄱ-힣]+)/N')

argument is not an atomic vector; coercing

head(temp)

     [,1]                   [,2]                
[1,] "북녘/N"               "북녘"              
[2,] NA                     NA                  
[3,] "남북군사공동위원회/N" "남북군사공동위원회"
[4,] NA                     NA                  
[5,] "그동안/N"             "그동안"            
[6,] "나/N"                 "나"

#명사추출
doc=str_match(mp,'([ㄱ-힣]+)/N')

argument is not an atomic vector; coercingWarning message:
In strsplit(code, "\n", fixed = TRUE) :
  input string 1 is invalid in this locale

#결측치 제거
doc2=doc[,2]
doc2=doc2[!is.na(doc2)]
#리스트 해제
unique(unlist(extractNoun(Lines)))

  [1] "북녘"               "동포"               "여러분"            
  [4] "남녘"               "국민"               "해외"              
  [7] "전쟁"               "한반도"             "시작"              
 [10] "되"                 "남"                 "오늘"              
 [13] "전"                 "지역"               "수"                
 [16] "위험"               "합의"               ""                  
 [19] "남북군사공동위원회" "동해"               "군사"              
 [22] "분야"               "사항"               "이행"              
 [25] "협의"               "진행"               "하기"              
 [28] "1953"               "년"                 "정전협정"          
 [31] "포성"               "65"                 "우리"              
 [34] "삶"                 "계속"               "이유"              
 [37] "목숨"               "들이"               "이웃"              
 [40] "들"                 "사이"               "벽"                
 [43] "평화"               "지대"               "정상"              
 [46] "그동안"             "위협"               "이념"              
 [49] "대결"               "특권"               "부패"              
 [52] "반인권"             "사회"               "나라"              
 [55] "복원"               "할"                 "나"                
 [58] "말씀"               "가슴"               "처음"              
 [61] "비핵화"             "방안"               "의미"              
 [64] "성과"               "북측"               "동창"              
 [67] "리"                 "엔진"               "시험장"            
 [70] "미사일"             "발사대"             "유관국"            
 [73] "전문가"             "참여"               "하"                
 [76] "영구적"             "폐쇄"               "미국"              
 [79] "상응"               "조치"               "영변"              
 [82] "핵시설"             "영구"               "폐기"              
 [85] "겨레"               "모두"               "일"                
 [88] "완전"               "한"                 "앞"                
 [91] "등"                 "국제"               "최종"              
 [94] "달성"               "긴밀"               "협력"              
 [97] "해"                 "역할"               "막중"              
[100] "신뢰"               "때"                 "절실"              
[103] "판문점"             "선언"               "이후"              
[106] "주변"               "역사"               "적"                
[109] "사변"               "거대"               "변화"              
[112] "사상"               "최초"               "북미"              
[115] "회담"               "추가"               "핵실험"            
[118] "실험"               "일체"               "약속"              
[121] "이"                 "한미"               "양국"              
[124] "대규모"             "연합"               "훈련"              
[127] "중단"               "개성"               "남북"              
[130] "공동"               "연락사무소"         "설치"              
[133] "상시적"             "문제"               "논의"              
[136] "시대"               "꿈"                 "눈앞"              
[139] "번영"               "마음"               "순간"              
[142] "것"                 "오랫동안"           "준비"              
[145] "끝"                 "하나"               "8"                 
[148] "천"                 "길"                 "완성"              
[151] "내"                 "실천"               "김정은"            
[154] "위원장"             "평양"               "북"                
[157] "교류"               "증대"               "민족"              
[160] "경제"               "균형적"             "발전"              
[163] "대책"               "올해"               "안"                
[166] "동·서해선"         "철도"               "도"                
[169] "연결"               "착공식"             "환경"              
[172] "조성"               "대"                 "공단"              
[175] "금강산"             "관광"               "사업"              
[178] "정상화"             "전염성"             "질병"              
[181] "유입"               "확산"               "보건의료"          
[184] "추진"               "이산가족"           "상설"              
[187] "면회소"             "복구"               "왕래"              
[190] "화상"               "상봉"               "우선"              
[193] "실현"               "2032"               "하계올림픽"        
[196] "개최"               "유치"               "3.1운동"           
[199] "100"                "주년"               "행사"              
[202] "구체"               "10"                 "월"                
[205] "예술단"             "서울"               "가을"              
[208] "공연"               "방문"               "요청"              
[211] "김"                 "시"                 "여기"              
[214] "말"                 "특별"               "사정"              
[217] "최고지도자"         "남북관계"           "획기적"            
[220] "전기"               "마련"               "핵무기"            
[223] "핵"                 "뜻"                 "세계"              
[226] "여망"               "부응"               "결단"              
[229] "실행"               "경의"               "표"                
[232] "바탕"               "대화"               "재개"              
[235] "친서"               "교환"               "간"                
[238] "확인"               "정상회담"           "지점"              
[241] "노력"               "지난봄"             "씨앗"              
[244] "열매"               "감사"

text maining by using tm package

corpus말뭉치 : 텍스트를 모아놓은것

term document matrix : 각 문서에 나타난 단어를 표로 정리한 것

termDocumentMatrix에서 tokenize에 function은 Terms에 해당하는 list를 생성할 함수

removeNumbers는 숫자목록을제거

removePunctuation는 모든 구두점을 제거

stripWhitespacesms 공백을 제거한다.

wordLengths 는 최소 몇글자부터 최대 몇글자까지 할지 최대는 inf 사용 가능

stopwords로 특정 단어 제거 가능

texts <- c('hello world', 'hello text')

Warning message:
In strsplit(code, "\n", fixed = TRUE) :
  input string 1 is invalid in this locale

# corpus에대한  객체로 변환
cps <- Corpus(VectorSource(texts))
#courpus 확인
inspect(cps[[1]])

<<PlainTextDocument>>
Metadata:  7
Content:  chars: 11

hello world

#TermDocumentMatrix 생성
tdm <- TermDocumentMatrix(cps)
as.matrix(tdm)

       Docs
Terms   1 2
  hello 1 1
  world 1 0
  text  0 1

#Encoding
texts <- c('hello world', 'hello text')
# corpus에대한  객체로 변환
#한글로 사용하기위해 VCorpus 사용
cps <- VCorpus(VectorSource(Lines))
#TermDocumentMatrix 생성
tdm <- TermDocumentMatrix(cps)
as.matrix(tdm)

                      Docs
Terms                  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
  '가까운              0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0
  '가을이              0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0
  '올해                0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0
  100주년              0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0
  10월이               0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0
  1953년               0 0 1 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0
  2032년               0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0
  3.1운동              0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0
  65년                 0 0 1 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0
  8천만                0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0
  가까운               0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0
  가까워질             0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0
  가동해               0 0 1 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0
  가을의               0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0
  감사합니다.          0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0
  같이했습니다.        0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0
  개성공단과           0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0
  개성에는             0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  1  0  0  0
  거대한               0 0 0 0 0 0 0 0 0  0  0  0  0  1  0  0  0  0  0  0
  것이며               0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0
  것입니다.            0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0
  겨레와               0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0
  겨레의               0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0
  결단과               0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0
                      Docs
Terms                  21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37
  '가까운               0  0  0  0  0  0  0  0  0  0  0  1  0  0  0  0  0
  '가을이               0  0  0  0  0  0  0  0  0  1  0  0  0  0  0  0  0
  '올해                 0  0  0  0  0  0  0  0  0  0  0  1  0  0  0  0  0
  100주년               0  0  0  0  0  0  0  0  1  0  0  0  0  0  0  0  0
  10월이                0  0  0  0  0  0  0  0  0  1  0  0  0  0  0  0  0
  1953년                0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  2032년                0  0  0  0  0  0  0  1  0  0  0  0  0  0  0  0  0
  3.1운동               0  0  0  0  0  0  0  0  1  0  0  0  0  0  0  0  0
  65년                  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  8천만                 1  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  가까운                0  0  0  0  0  0  0  0  0  0  0  1  0  0  0  0  0
  가까워질              0  0  0  0  0  0  0  0  0  1  0  0  0  0  0  0  0
  가동해                0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  가을의                0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  감사합니다.           0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  같이했습니다.         0  0  0  0  0  0  0  0  0  0  0  0  0  1  0  0  0
  개성공단과            0  0  0  1  0  0  0  0  0  0  0  0  0  0  0  0  0
  개성에는              0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  거대한                0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  것이며                0  0  0  0  0  0  0  0  0  0  0  1  0  0  0  0  0
  것입니다.             2  0  0  2  0  2  0  0  0  1  0  1  0  0  0  0  1
  겨레와                0  0  0  0  0  0  0  0  0  0  0  0  0  1  0  0  0
  겨레의                2  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  결단과                0  0  0  0  0  0  0  0  0  0  0  0  0  0  1  0  0
                      Docs
Terms                  38 39 40 41
  '가까운               0  0  0  0
  '가을이               0  0  0  0
  '올해                 0  0  0  0
  100주년               0  0  0  0
  10월이                0  0  0  0
  1953년                0  0  0  0
  2032년                0  0  0  0
  3.1운동               0  0  0  0
  65년                  0  0  0  0
  8천만                 0  0  0  0
  가까운                0  0  0  0
  가까워질              0  0  0  0
  가동해                0  0  0  0
  가을의                0  0  1  0
  감사합니다.           0  0  0  1
  같이했습니다.         0  0  0  0
  개성공단과            0  0  0  0
  개성에는              0  0  0  0
  거대한                0  0  0  0
  것이며                0  0  0  0
  것입니다.             0  0  0  0
  겨레와                0  0  0  0
  겨레의                0  0  0  0
  결단과                0  0  0  0
 [ reached getOption("max.print") -- omitted 280 rows ]

#명사 추출
tdm <- TermDocumentMatrix(cps,control = list(tokenize=function(x)unlist(extractNoun(x)),removeNumbers=T
))

Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!

as.matrix(tdm)

                    Docs
Terms                1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
  .운동              0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0  0
  균형적             0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0  0
  그동안             0 0 0 0 1 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0  0
  금강산             0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0  0
  김정은             0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0  0
  남북관계           0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0  0
  남북군사공동위원회 0 0 1 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0  0
  대규모             0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  1  0  0  0  0  0
  동·서해선         0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0  0
  면회소             0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0  0
  미사일             0 0 0 0 0 0 0 0 1  0  0  0  0  0  0  1  0  0  0  0  0
  반인권             0 0 0 0 1 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0  0
  발사대             0 0 0 0 0 0 0 0 1  0  0  0  0  0  0  0  0  0  0  0  0
  보건의료           0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0  0
  비핵화             0 0 0 0 0 0 0 1 0  0  2  0  0  0  0  0  0  0  0  0  1
  상시적             0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  1  0  0  0  0
  시험장             0 0 0 0 0 0 0 0 1  0  0  0  0  0  0  0  0  0  0  0  0
  여러분             3 0 0 0 0 0 0 0 0  0  0  0  0  2  0  0  0  0  0  0  0
  연락사무소         0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  1  0  0  0  0
  영구적             0 0 0 0 0 0 0 0 1  0  0  0  0  0  0  0  0  0  0  0  0
  예술단             0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0  0
  오랫동안           0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0  1
  위원장             0 0 0 0 0 0 0 0 0  0  0  0  0  0  0  0  0  0  0  0  0
  유관국             0 0 0 0 0 0 0 0 1  0  0  0  0  0  0  0  0  0  0  0  0
                    Docs
Terms                22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
  .운동               0  0  0  0  0  0  0  1  0  0  0  0  0  0  0  0  0  0
  균형적              0  1  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  그동안              0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  금강산              0  0  1  0  1  0  0  0  0  0  0  0  0  0  0  0  0  0
  김정은              0  1  0  0  0  0  0  0  0  0  1  0  1  1  0  0  0  0
  남북관계            0  0  0  0  0  0  0  0  0  0  1  0  0  0  0  1  0  0
  남북군사공동위원회  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  대규모              0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  동·서해선          0  0  1  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  면회소              0  0  0  0  1  0  0  0  0  0  0  0  0  0  0  0  0  0
  미사일              0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  반인권              0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  발사대              0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  보건의료            0  0  0  0  1  0  0  0  0  0  0  0  0  0  0  0  0  0
  비핵화              0  0  0  0  0  0  0  0  0  0  0  0  1  0  0  0  0  0
  상시적              0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  시험장              0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  여러분              0  0  0  0  0  0  0  0  0  0  0  0  3  0  0  0  0  0
  연락사무소          0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  영구적              0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  예술단              0  0  0  0  0  0  0  0  1  0  0  0  0  0  0  0  0  0
  오랫동안            0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  위원장              0  1  0  0  0  0  0  0  0  0  3  0  1  1  0  0  0  0
  유관국              0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
                    Docs
Terms                40 41
  .운동               0  0
  균형적              0  0
  그동안              0  0
  금강산              0  0
  김정은              0  0
  남북관계            0  0
  남북군사공동위원회  0  0
  대규모              0  0
  동·서해선          0  0
  면회소              0  0
  미사일              0  0
  반인권              0  0
  발사대              0  0
  보건의료            0  0
  비핵화              0  0
  상시적              0  0
  시험장              0  0
  여러분              0  0
  연락사무소          0  0
  영구적              0  0
  예술단              0  0
  오랫동안            0  0
  위원장              0  0
  유관국              0  0
 [ reached getOption("max.print") -- omitted 16 rows ]

Co-occurence Matrix : 두 단어가 얼마나 함께 나타나는지 나타낸 것.

#단어 빈도
tdm.matrix <- as.matrix(tdm)

Warning message:
In strsplit(code, "\n", fixed = TRUE) :
  input string 1 is invalid in this locale

word.count <- rowSums(tdm.matrix)
word.count

             .운동             균형적             그동안             금강산 
                 1                  1                  1                  2 
            김정은           남북관계 남북군사공동위원회             대규모 
                 4                  2                  1                  1 
        동·서해선             면회소             미사일             반인권 
                 1                  1                  2                  1 
            발사대           보건의료             비핵화             상시적 
                 1                  1                  5                  1 
            시험장             여러분         연락사무소             영구적 
                 1                  8                  1                  1 
            예술단           오랫동안             위원장             유관국 
                 1                  1                  6                  1 
          이산가족             전문가             전염성             정상화 
                 1                  1                  1                  1 
          정상회담           정전협정             지난봄             착공식 
                 1                  1                  1                  1 
        최고지도자             판문점         하계올림픽             한반도 
                 1                  1                  1                  9 
            핵무기             핵시설             핵실험             획기적 
                 1                  1                  1                  1

word.order <- order(word.count, decreasing=T)
word.order

 [1] 36 18 23 15  5  4  6 11  1  2  3  7  8  9 10 12 13 14 16 17 19 20 21 22
[25] 24 25 26 27 28 29 30 31 32 33 34 35 37 38 39 40

rownames(tdm.matrix)[word.order[1:20]]

 [1] "한반도"             "여러분"             "위원장"            
 [4] "비핵화"             "김정은"             "금강산"            
 [7] "남북관계"           "미사일"             ".운동"             
[10] "균형적"             "그동안"             "남북군사공동위원회"
[13] "대규모"             "동·서해선"         "면회소"            
[16] "반인권"             "발사대"             "보건의료"          
[19] "상시적"             "시험장"

#상위 20개 단어 빈도
freq.words <- tdm.matrix[word.order[1:20], ]
#상위 20개 단어에 대한 Co-occurence Matrix  생성
co.matrix <- freq.words %*% t(freq.words)
tdm.matrix%*% t(tdm.matrix)

                    Terms
Terms                .운동 균형적 그동안 금강산 김정은 남북관계
  .운동                  1      0      0      0      0        0
  균형적                 0      1      0      0      1        0
  그동안                 0      0      1      0      0        0
  금강산                 0      0      0      2      0        0
  김정은                 0      1      0      0      4        1
  남북관계               0      0      0      0      1        2
  남북군사공동위원회     0      0      0      0      0        0
  대규모                 0      0      0      0      0        0
  동·서해선             0      0      0      1      0        0
  면회소                 0      0      0      1      0        0
  미사일                 0      0      0      0      0        0
  반인권                 0      0      1      0      0        0
  발사대                 0      0      0      0      0        0
  보건의료               0      0      0      1      0        0
  비핵화                 0      0      0      0      1        0
  상시적                 0      0      0      0      0        0
  시험장                 0      0      0      0      0        0
  여러분                 0      0      0      0      3        0
  연락사무소             0      0      0      0      0        0
  영구적                 0      0      0      0      0        0
  예술단                 0      0      0      0      0        0
  오랫동안               0      0      0      0      0        0
  위원장                 0      1      0      0      6        3
  유관국                 0      0      0      0      0        0
  이산가족               0      0      0      1      0        0
                    Terms
Terms                남북군사공동위원회 대규모 동·서해선 면회소 미사일
  .운동                               0      0          0      0      0
  균형적                              0      0          0      0      0
  그동안                              0      0          0      0      0
  금강산                              0      0          1      1      0
  김정은                              0      0          0      0      0
  남북관계                            0      0          0      0      0
  남북군사공동위원회                  1      0          0      0      0
  대규모                              0      1          0      0      1
  동·서해선                          0      0          1      0      0
  면회소                              0      0          0      1      0
  미사일                              0      1          0      0      2
  반인권                              0      0          0      0      0
  발사대                              0      0          0      0      1
  보건의료                            0      0          0      1      0
  비핵화                              0      0          0      0      0
  상시적                              0      0          0      0      0
  시험장                              0      0          0      0      1
  여러분                              0      0          0      0      0
  연락사무소                          0      0          0      0      0
  영구적                              0      0          0      0      1
  예술단                              0      0          0      0      0
  오랫동안                            0      0          0      0      0
  위원장                              0      0          0      0      0
  유관국                              0      0          0      0      1
  이산가족                            0      0          0      1      0
                    Terms
Terms                반인권 발사대 보건의료 비핵화 상시적 시험장 여러분
  .운동                   0      0        0      0      0      0      0
  균형적                  0      0        0      0      0      0      0
  그동안                  1      0        0      0      0      0      0
  금강산                  0      0        1      0      0      0      0
  김정은                  0      0        0      1      0      0      3
  남북관계                0      0        0      0      0      0      0
  남북군사공동위원회      0      0        0      0      0      0      0
  대규모                  0      0        0      0      0      0      0
  동·서해선              0      0        0      0      0      0      0
  면회소                  0      0        1      0      0      0      0
  미사일                  0      1        0      0      0      1      0
  반인권                  1      0        0      0      0      0      0
  발사대                  0      1        0      0      0      1      0
  보건의료                0      0        1      0      0      0      0
  비핵화                  0      0        0      7      0      0      3
  상시적                  0      0        0      0      1      0      0
  시험장                  0      1        0      0      0      1      0
  여러분                  0      0        0      3      0      0     22
  연락사무소              0      0        0      0      1      0      0
  영구적                  0      1        0      0      0      1      0
  예술단                  0      0        0      0      0      0      0
  오랫동안                0      0        0      1      0      0      0
  위원장                  0      0        0      1      0      0      3
  유관국                  0      1        0      0      0      1      0
  이산가족                0      0        1      0      0      0      0
                    Terms
Terms                연락사무소 영구적 예술단 오랫동안 위원장 유관국
  .운동                       0      0      0        0      0      0
  균형적                      0      0      0        0      1      0
  그동안                      0      0      0        0      0      0
  금강산                      0      0      0        0      0      0
  김정은                      0      0      0        0      6      0
  남북관계                    0      0      0        0      3      0
  남북군사공동위원회          0      0      0        0      0      0
  대규모                      0      0      0        0      0      0
  동·서해선                  0      0      0        0      0      0
  면회소                      0      0      0        0      0      0
  미사일                      0      1      0        0      0      1
  반인권                      0      0      0        0      0      0
  발사대                      0      1      0        0      0      1
  보건의료                    0      0      0        0      0      0
  비핵화                      0      0      0        1      1      0
  상시적                      1      0      0        0      0      0
  시험장                      0      1      0        0      0      1
  여러분                      0      0      0        0      3      0
  연락사무소                  1      0      0        0      0      0
  영구적                      0      1      0        0      0      1
  예술단                      0      0      1        0      0      0
  오랫동안                    0      0      0        1      0      0
  위원장                      0      0      0        0     12      0
  유관국                      0      1      0        0      0      1
  이산가족                    0      0      0        0      0      0
                    Terms
Terms                이산가족 전문가 전염성 정상화 정상회담 정전협정 지난봄
  .운동                     0      0      0      0        0        0      0
  균형적                    0      0      0      0        0        0      0
  그동안                    0      0      0      0        0        0      0
  금강산                    1      0      1      1        0        0      0
  김정은                    0      0      0      0        0        0      0
  남북관계                  0      0      0      0        0        0      0
  남북군사공동위원회        0      0      0      0        0        1      0
  대규모                    0      0      0      0        0        0      0
  동·서해선                0      0      0      1        0        0      0
  면회소                    1      0      1      0        0        0      0
  미사일                    0      1      0      0        0        0      0
  반인권                    0      0      0      0        0        0      0
  발사대                    0      1      0      0        0        0      0
  보건의료                  1      0      1      0        0        0      0
  비핵화                    0      0      0      0        0        0      0
  상시적                    0      0      0      0        0        0      0
  시험장                    0      1      0      0        0        0      0
  여러분                    0      0      0      0        0        0      0
  연락사무소                0      0      0      0        0        0      0
  영구적                    0      1      0      0        0        0      0
  예술단                    0      0      0      0        0        0      0
  오랫동안                  0      0      0      0        0        0      0
  위원장                    0      0      0      0        0        0      0
  유관국                    0      1      0      0        0        0      0
  이산가족                  1      0      1      0        0        0      0
                    Terms
Terms                착공식 최고지도자 판문점 하계올림픽 한반도 핵무기
  .운동                   0          0      0          0      0      0
  균형적                  0          0      0          0      0      0
  그동안                  0          0      0          0      0      0
  금강산                  1          0      0          0      1      0
  김정은                  0          1      0          0      2      1
  남북관계                0          1      0          0      0      0
  남북군사공동위원회      0          0      0          0      1      0
  대규모                  0          0      0          0      0      0
  동·서해선              1          0      0          0      0      0
  면회소                  0          0      0          0      1      0
  미사일                  0          0      0          0      0      0
  반인권                  0          0      0          0      0      0
  발사대                  0          0      0          0      0      0
  보건의료                0          0      0          0      1      0
  비핵화                  0          0      0          0      4      1
  상시적                  0          0      0          0      0      0
  시험장                  0          0      0          0      0      0
  여러분                  0          0      2          0     14      3
  연락사무소              0          0      0          0      0      0
  영구적                  0          0      0          0      0      0
  예술단                  0          0      0          0      0      0
  오랫동안                0          0      0          0      0      0
  위원장                  0          3      0          0      2      1
  유관국                  0          0      0          0      0      0
  이산가족                0          0      0          0      1      0
                    Terms
Terms                핵시설 핵실험 획기적
  .운동                   0      0      0
  균형적                  0      0      0
  그동안                  0      0      0
  금강산                  0      0      0
  김정은                  0      0      1
  남북관계                0      0      1
  남북군사공동위원회      0      0      0
  대규모                  0      1      0
  동·서해선              0      0      0
  면회소                  0      0      0
  미사일                  1      1      0
  반인권                  0      0      0
  발사대                  1      0      0
  보건의료                0      0      0
  비핵화                  0      0      0
  상시적                  0      0      0
  시험장                  1      0      0
  여러분                  0      0      0
  연락사무소              0      0      0
  영구적                  1      0      0
  예술단                  0      0      0
  오랫동안                0      0      0
  위원장                  0      0      3
  유관국                  1      0      0
  이산가족                0      0      0
 [ reached getOption("max.print") -- omitted 15 rows ]

Wordcloud 그리기

문서의 키워드나 개념을 직관적으로 파악할 수 있도록 시각화하는 기법

cps <- VCorpus(VectorSource(Lines))

Warning message:
In strsplit(code, "\n", fixed = TRUE) :
  input string 1 is invalid in this locale

#TermDocumentMatrix 생성
tdm <- TermDocumentMatrix(cps)
#단어 빈도
tdm.matrix <- as.matrix(tdm)
word.count <- rowSums(tdm.matrix)
head(word.count)

'가까운 '가을이   '올해 100주년  10월이  1953년 
      1       1       1       1       1       1

#명사 추출
tdm <- TermDocumentMatrix(cps,control = list(tokenize=function(x)unlist(extractNoun(x)),removeNumbers=T
))

Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!

head(names(word.count),3)

[1] "'가까운" "'가을이" "'올해"

head(word.count,3)

'가까운 '가을이   '올해 
      1       1       1

#워드클라우드 생성
wordcloud2(data.frame(names=names(word.count),freq=word.count))

참고:맥이용자는 par(family=‘AppleGothic’) 설정 해야합니다.

사회관계망(Social network Analysis) 그리기

사회 연결망 데이터를 활용하여 사회 연결망과 사회 구조등을 사회과학적으로 분석하는 하나의 방식

cps <- VCorpus(VectorSource(Lines))

Warning message:
In strsplit(code, "\n", fixed = TRUE) :
  input string 1 is invalid in this locale

#TermDocumentMatrix 생성
tdm <- TermDocumentMatrix(cps)
#단어 빈도
tdm.matrix <- as.matrix(tdm)
word.count <- rowSums(tdm.matrix)
head(word.count)

'가까운 '가을이   '올해 100주년  10월이  1953년 
      1       1       1       1       1       1

#명사 추출
tdm <- TermDocumentMatrix(cps,control = list(tokenize=function(x)unlist(extractNoun(x)),removeNumbers=T
))

Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!Input must be legitimate character!

word.order <- order(word.count, decreasing=T)
head(word.order)

[1]  21 166 290 188  43  48

rownames(tdm.matrix)[word.order[1:20]]

 [1] "것입니다."   "여러분,"     "했습니다."   "우리의"      "김정은"     
 [6] "남녘의"      "있습니다."   "평화와"      "한반도"      "겨레의"     
[11] "금강산"      "나가기로"    "되었습니다." "미사일"      "번영의"     
[16] "북측은"      "비핵화의"    "빠르게"      "안에'라는"   "완전한"

#상위 20개 단어 빈도
freq.words <- tdm.matrix[word.order[1:20], ]
#상위 20개 단어에 대한 Co-occurence Matrix  생성
co.matrix <- freq.words %*% t(freq.words)
#사회관계망 생성 
qgraph(co.matrix,
       labels=rownames(co.matrix),
       diag=F,
       layout='spring',
       edge.color='blue',
       vsize=log(diag(co.matrix))*2)

nodes=data.frame(id=1:nrow(co.matrix),label=rownames(co.matrix),value=diag(co.matrix))

Warning messages:
1: In strsplit(x, "\n") : input string 1 is invalid in this locale
2: In strsplit(code, "\n", fixed = TRUE) :
  input string 1 is invalid in this locale

nodes

#Co-occurence Matrix 에 대해 연결 강도 생성
a=co.matrix/sum(co.matrix)*1000
diag(a)=0
edges=NULL
for(i in 1:nrow(a)){
  for(j in 1:ncol(a)){
    if(i<j){
      if(a[i,j]!=0)
      edges=rbind(edges,data.frame(from=i,to=j,length=a[i,j]))
    }
  }
}
edges

visNetwork(nodes, edges, width="100%", height="100%")

http://ducj2.iptime.org:3838/Competition1/

http://ducj2.iptime.org:3838/kma/

LS0tDQp0aXRsZTogIkFJIOyZgCBNYWNoaW5lIExlYXJuaW5n7J2EIOychO2VnCDruYXrjbDsnbTthLAg7Iuk7Iq1Ig0Kb3V0cHV0OiANCiAgaHRtbF9ub3RlYm9vazogDQogICAgdGhlbWU6IHNwYWNlbGFiDQotLS0NCg0KDQoqKioqDQoNCiMg66qp7LCoDQoNCisgWzIwMTktMDctMTcgKOyYpOyghCkgOiDrjbDsnbTthLDrp4jsnbTri50g6rCc7JqU7JmAIFIg6riw7LSIIOyCrOyaqeuylV0oaHR0cDovL3JwdWJzLmNvbS9xa2Ryazc3Nzc3Ny81MTE5NDIpDQorIFsyMDE5LTA3LTE3ICjsmKTtm4QpIDog6riw7LSIIO2GteqzhOu2hOyEnV0oaHR0cDovL3JwdWJzLmNvbS9xa2Ryazc3Nzc3Ny81MTE5NDEpDQorIFsyMDE5LTA3LTE4ICjsmKTsoIQpIDog7KCV7ZiV642w7J207YSw66eI7J2064udIC0g7KeA64+E7ZWZ7Iq1XShodHRwOi8vcnB1YnMuY29tL3FrZHJrNzc3Nzc3LzUxMTk0MCkNCisgWzIwMTktMDctMTggKOyYpO2bhCkgOiDsoJXtmJXrjbDsnbTthLDrp4jsnbTri50gLSDruYTsp4Drj4TtlZnsirVdKGh0dHA6Ly9ycHVicy5jb20vcWtkcms3Nzc3NzcvNTExOTM4KQ0KKyBbMjAxOS0wNy0xOSAo7Jik7KCEKSA6IOu5hOygle2YleuNsOydtO2EsOuniOydtOuLnS3snpDro4wg64uk66Oo6riwXShodHRwOi8vcnB1YnMuY29tL3FrZHJrNzc3Nzc3LzUxMTkzNykNCisgKipbMjAxOS0wNy0xOSAo7Jik7ZuEKSA6IOu5hOygle2YleuNsOydtO2EsOuniOydtOuLnS3thY3siqTtirjrp4jsnbTri51dKGh0dHA6Ly9ycHVicy5jb20vcWtkcms3Nzc3NzcvNTExMTk4KSoqDQoNCioqKg0KDQoj7YWN7Iqk7Yq466eI7J2064udICB7LnRhYnNldCAudGFic2V0LWZhZGUgLnRhYnNldC1waWxsc30NCg0KKipkYXRhIGxvYWQqKg0KDQrrjbDsnbTthLDripQg66y47J6s7J24IOuMgO2GteuguSDst6jsnoTsgqwg7J6Q66OM66W8IOqwgOyguOyYqCB0ZXh07YyM7J287J6F64uI64ukLg0KDQpb642w7J207YSwIOuLpOyatOuhnOuTnF0oZnRwOi8vZHVjajpoYW5hMDUwMUBkdWNqLmlwZGlzay5jby5rci9IREQxL2RhdGEvbW9vbi50eHQpDQoNCmBgYHtyLHdhcm5pbmc9RkFMU0UsbWVzc2FnZT1GQUxTRX0NCiPrjbDsnbTthLAg67aI65+s7Jik64qUIO2MqO2CpOyngA0KbGlicmFyeSgndGlkeXZlcnNlJykNCiPrqoXsgqzstpTstpzsl5Ag7IKs7Jqp65CY64qUIO2MqO2CpOyngA0KbGlicmFyeSgnS29OTFAnKQ0KbGlicmFyeSh0bSkNCiPsm4zrk5ztgbTrnbzsmrDrk5wg7Yyo7YKk7KeADQpsaWJyYXJ5KHdvcmRjbG91ZDIpDQoj7IKs7ZqM6rSA6rOE66edIO2MqO2CpOyngA0KbGlicmFyeShxZ3JhcGgpDQpsaWJyYXJ5KCJ2aXNOZXR3b3JrIikgDQoNCnNldHdkKCdYOi9kYXRhJykNCiMgTGluZXM9cmVhZExpbmVzKCdtb29uLnR4dCcsZW5jb2RpbmcgPSAnVVRGLTgnKQ0KTGluZXM9cmVhZF9saW5lcygnbW9vbi50eHQnKQ0KYGBgDQoNCiFbXShodHRwczovL2ltZzEuZGF1bWNkbi5uZXQvdGh1bWIvUjEyODB4MC8/c2NvZGU9bXRpc3RvcnkmZm5hbWU9aHR0cCUzQSUyRiUyRmNmaWxlMjMudWYudGlzdG9yeS5jb20lMkZpbWFnZSUyRjI1MEI5NDM4NTg0NjFFMUIyQTIxQjUpDQoNClNpbXBsZVBvczA5KCkgOiA56rCc7J2YIO2SiOyCrCDstpTstpwNCg0KYGBge3Isd2FybmluZz1GQUxTRSxtZXNzYWdlPUZBTFNFfQ0KI+uUleyFlOuEiOumrCDrtojrn6zsmKTquLANCnVzZU5JQURpYygpDQojOeqwnCDtkojsgqwg7LaU7LacDQpTaW1wbGVQb3MwOShjKCfstZzrjIDtlZwg7Lmc7KCI7ZWY6rKMIOyTtCBSJywn7LWc64yA7ZWcIOy5nOygiO2VmOqyjCDsk7QgUicpKQ0KIzIy6rCcIO2SiOyCrOuhnCDstpTstpwNCm1wIDwtIFNpbXBsZVBvczIyKExpbmVzKQ0KDQpgYGANCg0KIyMjIOygleq3nOyLneyXkOyEnCDstpTstpztlZjqs6Ag7Iu27J2AIOqwkuunjCAoKeulvCDsjajshJwg7LaU7LacDQoNCmBgYHtyLHdhcm5pbmc9RkFMU0UsbWVzc2FnZT1GQUxTRX0NCm1wIDwtIFNpbXBsZVBvczIyKExpbmVzKQ0KI+uqheyCrCDstpTstpwNCnRlbXA9c3RyX21hdGNoKG1wLCdb44SxLe2eo10rL04nKQ0KaGVhZCh0ZW1wKQ0KI+2SiOyCrOulvCDsoJzqsbDtlZwg7Iic7IiYIOuqheyCrCDstpTstpwNCnRlbXA9c3RyX21hdGNoKG1wLCcoW+OEsS3tnqNdKykvTicpDQpoZWFkKHRlbXApDQoNCmBgYA0KDQoNCmBgYHtyLHdhcm5pbmc9RkFMU0UsbWVzc2FnZT1GQUxTRX0NCiPrqoXsgqzstpTstpwNCmRvYz1zdHJfbWF0Y2gobXAsJyhb44SxLe2eo10rKS9OJykNCiPqsrDsuKHsuZgg7KCc6rGwDQpkb2MyPWRvY1ssMl0NCmRvYzI9ZG9jMlshaXMubmEoZG9jMildDQoj66as7Iqk7Yq4IO2VtOygnA0KdW5pcXVlKHVubGlzdChleHRyYWN0Tm91bihMaW5lcykpKQ0KYGBgDQoNCiMjIyB0ZXh0IG1haW5pbmcgYnkgdXNpbmcgdG0gcGFja2FnZSANCg0KY29ycHVz66eQ662J7LmYIDog7YWN7Iqk7Yq466W8IOuqqOyVhOuGk+ydgOqygw0KDQp0ZXJtIGRvY3VtZW50IG1hdHJpeCA6IOqwgSDrrLjshJzsl5Ag64KY7YOA64KcIOuLqOyWtOulvCDtkZzroZwg7KCV66as7ZWcIOqygw0KDQp0ZXJtRG9jdW1lbnRNYXRyaXjsl5DshJwgdG9rZW5pemXsl5AgZnVuY3Rpb27snYAgVGVybXPsl5Ag7ZW064u57ZWY64qUIGxpc3Trpbwg7IOd7ISx7ZWgIO2VqOyImA0KDQpyZW1vdmVOdW1iZXJz64qUIOyIq+yekOuqqeuhneydhOygnOqxsA0KDQpyZW1vdmVQdW5jdHVhdGlvbuuKlCDrqqjrk6Ag6rWs65GQ7KCQ7J2EIOygnOqxsA0KDQpzdHJpcFdoaXRlc3BhY2VzbXMg6rO167Cx7J2EIOygnOqxsO2VnOuLpC4NCg0Kd29yZExlbmd0aHMg64qUIOy1nOyGjCDrqofquIDsnpDrtoDthLAg7LWc64yAIOuqh+q4gOyekOq5jOyngCDtlaDsp4Ag7LWc64yA64qUIGluZiDsgqzsmqkg6rCA64qlIA0KDQpzdG9wd29yZHProZwg7Yq57KCVIOuLqOyWtCDsoJzqsbAg6rCA64qlDQoNCg0KYGBge3Isd2FybmluZz1GQUxTRSxtZXNzYWdlPUZBTFNFfQ0KdGV4dHMgPC0gYygnaGVsbG8gd29ybGQnLCAnaGVsbG8gdGV4dCcpDQojIGNvcnB1c+yXkOuMgO2VnCAg6rCd7LK066GcIOuzgO2ZmA0KY3BzIDwtIENvcnB1cyhWZWN0b3JTb3VyY2UodGV4dHMpKQ0KI2NvdXJwdXMg7ZmV7J24DQppbnNwZWN0KGNwc1tbMV1dKQ0KI1Rlcm1Eb2N1bWVudE1hdHJpeCDsg53shLENCnRkbSA8LSBUZXJtRG9jdW1lbnRNYXRyaXgoY3BzKQ0KYXMubWF0cml4KHRkbSkNCg0KI0VuY29kaW5nDQp0ZXh0cyA8LSBjKCdoZWxsbyB3b3JsZCcsICdoZWxsbyB0ZXh0JykNCiMgY29ycHVz7JeQ64yA7ZWcICDqsJ3ssrTroZwg67OA7ZmYDQoj7ZWc6riA66GcIOyCrOyaqe2VmOq4sOychO2VtCBWQ29ycHVzIOyCrOyaqQ0KY3BzIDwtIFZDb3JwdXMoVmVjdG9yU291cmNlKExpbmVzKSkNCiNUZXJtRG9jdW1lbnRNYXRyaXgg7IOd7ISxDQp0ZG0gPC0gVGVybURvY3VtZW50TWF0cml4KGNwcykNCmFzLm1hdHJpeCh0ZG0pDQoj66qF7IKsIOy2lOy2nA0KdGRtIDwtIFRlcm1Eb2N1bWVudE1hdHJpeChjcHMsY29udHJvbCA9IGxpc3QodG9rZW5pemU9ZnVuY3Rpb24oeCl1bmxpc3QoZXh0cmFjdE5vdW4oeCkpLHJlbW92ZU51bWJlcnM9VA0KKSkNCmFzLm1hdHJpeCh0ZG0pDQpgYGANCg0KQ28tb2NjdXJlbmNlIE1hdHJpeCA6IOuRkCDri6jslrTqsIAg7Ja866eI64KYIO2VqOq7mCDrgpjtg4DrgpjripTsp4Ag64KY7YOA64K4IOqygy4NCg0KYGBge3Isd2FybmluZz1GQUxTRSxtZXNzYWdlPUZBTFNFfQ0KDQoj64uo7Ja0IOu5iOuPhA0KdGRtLm1hdHJpeCA8LSBhcy5tYXRyaXgodGRtKQ0Kd29yZC5jb3VudCA8LSByb3dTdW1zKHRkbS5tYXRyaXgpDQp3b3JkLmNvdW50DQoNCndvcmQub3JkZXIgPC0gb3JkZXIod29yZC5jb3VudCwgZGVjcmVhc2luZz1UKQ0Kd29yZC5vcmRlcg0Kcm93bmFtZXModGRtLm1hdHJpeClbd29yZC5vcmRlclsxOjIwXV0NCiPsg4HsnIQgMjDqsJwg64uo7Ja0IOu5iOuPhA0KZnJlcS53b3JkcyA8LSB0ZG0ubWF0cml4W3dvcmQub3JkZXJbMToyMF0sIF0NCiPsg4HsnIQgMjDqsJwg64uo7Ja07JeQIOuMgO2VnCBDby1vY2N1cmVuY2UgTWF0cml4ICDsg53shLENCmNvLm1hdHJpeCA8LSBmcmVxLndvcmRzICUqJSB0KGZyZXEud29yZHMpDQoNCnRkbS5tYXRyaXglKiUgdCh0ZG0ubWF0cml4KQ0KYGBgDQoNCiMjIFdvcmRjbG91ZCDqt7jrpqzquLANCg0K66y47ISc7J2YIO2CpOybjOuTnOuCmCDqsJzrhZDsnYQg7KeB6rSA7KCB7Jy866GcIO2MjOyVhe2VoCDsiJgg7J6I64+E66GdIOyLnOqwge2ZlO2VmOuKlCDquLDrspUNCmBgYHtyLHdhcm5pbmc9RkFMU0UsbWVzc2FnZT1GQUxTRX0NCmNwcyA8LSBWQ29ycHVzKFZlY3RvclNvdXJjZShMaW5lcykpDQojVGVybURvY3VtZW50TWF0cml4IOyDneyEsQ0KdGRtIDwtIFRlcm1Eb2N1bWVudE1hdHJpeChjcHMpDQoj64uo7Ja0IOu5iOuPhA0KdGRtLm1hdHJpeCA8LSBhcy5tYXRyaXgodGRtKQ0Kd29yZC5jb3VudCA8LSByb3dTdW1zKHRkbS5tYXRyaXgpDQpoZWFkKHdvcmQuY291bnQpDQoj66qF7IKsIOy2lOy2nA0KdGRtIDwtIFRlcm1Eb2N1bWVudE1hdHJpeChjcHMsY29udHJvbCA9IGxpc3QodG9rZW5pemU9ZnVuY3Rpb24oeCl1bmxpc3QoZXh0cmFjdE5vdW4oeCkpLHJlbW92ZU51bWJlcnM9VA0KKSkNCmhlYWQobmFtZXMod29yZC5jb3VudCksMykNCmhlYWQod29yZC5jb3VudCwzKQ0KI+ybjOuTnO2BtOudvOyasOuTnCDsg53shLENCndvcmRjbG91ZDIoZGF0YS5mcmFtZShuYW1lcz1uYW1lcyh3b3JkLmNvdW50KSxmcmVxPXdvcmQuY291bnQpKQ0KYGBgDQoNCirssLjqs6A666el7J207Jqp7J6Q64qUIHBhcihmYW1pbHk9J0FwcGxlR290aGljJykg7ISk7KCVIO2VtOyVvO2VqeuLiOuLpC4qDQoNCiMjIOyCrO2ajOq0gOqzhOunnShTb2NpYWwgbmV0d29yayBBbmFseXNpcykg6re466as6riwIA0KDQrsgqztmowg7Jew6rKw66edIOuNsOydtO2EsOulvCDtmZzsmqntlZjsl6wg7IKs7ZqMIOyXsOqysOunneqzvCDsgqztmowg6rWs7KGw65Ox7J2EIOyCrO2ajOqzvO2VmeyggeycvOuhnCDrtoTshJ3tlZjripQg7ZWY64KY7J2YIOuwqeyLnQ0KDQpgYGB7cix3YXJuaW5nPUZBTFNFLG1lc3NhZ2U9RkFMU0V9DQpjcHMgPC0gVkNvcnB1cyhWZWN0b3JTb3VyY2UoTGluZXMpKQ0KI1Rlcm1Eb2N1bWVudE1hdHJpeCDsg53shLENCnRkbSA8LSBUZXJtRG9jdW1lbnRNYXRyaXgoY3BzKQ0KI+uLqOyWtCDruYjrj4QNCnRkbS5tYXRyaXggPC0gYXMubWF0cml4KHRkbSkNCndvcmQuY291bnQgPC0gcm93U3Vtcyh0ZG0ubWF0cml4KQ0KaGVhZCh3b3JkLmNvdW50KQ0KI+uqheyCrCDstpTstpwNCnRkbSA8LSBUZXJtRG9jdW1lbnRNYXRyaXgoY3BzLGNvbnRyb2wgPSBsaXN0KHRva2VuaXplPWZ1bmN0aW9uKHgpdW5saXN0KGV4dHJhY3ROb3VuKHgpKSxyZW1vdmVOdW1iZXJzPVQNCikpDQp3b3JkLm9yZGVyIDwtIG9yZGVyKHdvcmQuY291bnQsIGRlY3JlYXNpbmc9VCkNCmhlYWQod29yZC5vcmRlcikNCnJvd25hbWVzKHRkbS5tYXRyaXgpW3dvcmQub3JkZXJbMToyMF1dDQoj7IOB7JyEIDIw6rCcIOuLqOyWtCDruYjrj4QNCmZyZXEud29yZHMgPC0gdGRtLm1hdHJpeFt3b3JkLm9yZGVyWzE6MjBdLCBdDQoj7IOB7JyEIDIw6rCcIOuLqOyWtOyXkCDrjIDtlZwgQ28tb2NjdXJlbmNlIE1hdHJpeCAg7IOd7ISxDQpjby5tYXRyaXggPC0gZnJlcS53b3JkcyAlKiUgdChmcmVxLndvcmRzKQ0KDQoj7IKs7ZqM6rSA6rOE66edIOyDneyEsSANCnFncmFwaChjby5tYXRyaXgsDQogICAgICAgbGFiZWxzPXJvd25hbWVzKGNvLm1hdHJpeCksDQogICAgICAgZGlhZz1GLA0KICAgICAgIGxheW91dD0nc3ByaW5nJywNCiAgICAgICBlZGdlLmNvbG9yPSdibHVlJywNCiAgICAgICB2c2l6ZT1sb2coZGlhZyhjby5tYXRyaXgpKSoyKQ0KDQoNCmBgYA0KDQoNCmBgYHtyLHdhcm5pbmc9RkFMU0UsbWVzc2FnZT1GQUxTRX0NCg0Kbm9kZXM9ZGF0YS5mcmFtZShpZD0xOm5yb3coY28ubWF0cml4KSxsYWJlbD1yb3duYW1lcyhjby5tYXRyaXgpLHZhbHVlPWRpYWcoY28ubWF0cml4KSkNCm5vZGVzDQojQ28tb2NjdXJlbmNlIE1hdHJpeCDsl5Ag64yA7ZW0IOyXsOqysCDqsJXrj4Qg7IOd7ISxDQphPWNvLm1hdHJpeC9zdW0oY28ubWF0cml4KSoxMDAwDQpkaWFnKGEpPTANCg0KZWRnZXM9TlVMTA0KZm9yKGkgaW4gMTpucm93KGEpKXsNCiAgZm9yKGogaW4gMTpuY29sKGEpKXsNCiAgICBpZihpPGopew0KICAgICAgaWYoYVtpLGpdIT0wKQ0KICAgICAgZWRnZXM9cmJpbmQoZWRnZXMsZGF0YS5mcmFtZShmcm9tPWksdG89aixsZW5ndGg9YVtpLGpdKSkNCiAgICB9DQogIH0NCn0NCmVkZ2VzDQp2aXNOZXR3b3JrKG5vZGVzLCBlZGdlcywgd2lkdGg9IjEwMCUiLCBoZWlnaHQ9IjEwMCUiKQ0KDQpgYGANCiFbXShYOi/suqHsspgxNi5QTkcpDQoNClvsgqztmozqtIDqs4Trp50g7LaU7LKcIOunge2BrF0oaHR0cHM6Ly9rYXRldG8ubmV0L25ldHdvcmstdmlzdWFsaXphdGlvbikNCg0KaHR0cDovL2R1Y2oyLmlwdGltZS5vcmc6MzgzOC9Db21wZXRpdGlvbjIvDQoNCmh0dHA6Ly9kdWNqMi5pcHRpbWUub3JnOjM4MzgvQ29tcGV0aXRpb24xLw0KDQpodHRwOi8vZHVjajIuaXB0aW1lLm9yZzozODM4L2ttYS8=

AI 와 Machine Learning을 위한 빅데이터 실습

목차

텍스트마이닝

정규식에서 추출하고 싶은 값만 ()를 써서 추출

text maining by using tm package

Wordcloud 그리기