참고1. 비정형 데이터 관련 사이트

  1. 코난 테크놀로지
  2. 타파크로스
  3. 펜타 시스템
  4. 위버풀
  5. 위버풀 깃북
  6. saltlux

참고2. 데이터 관련 사이트

  1. 공공데이터포털
  2. 보건 의료 빅데이터 개방시스템

1. 트위터 데이터 수집

@ 사전 작업

1.1 twitteR 패키지 설치

if(!require(twitteR)) {install.packages("twitteR");library(twitteR)}
## Loading required package: twitteR

1.2 트위터 계정 연결

api_key <- ".."
api_secret <- ".."
access_token <- "..."
access_secret <- "..."

setup_twitter_oauth(api_key,api_secret,access_token,access_secret)
## [1] "Using direct authentication"

1.3 트윗 가져오기

keyword <- enc2utf8("아시아나")

tweets <- searchTwitter(keyword,n=10,lang="ko") 
## Warning in doRppAPICall("search/tweets", n, params = params,
## retryOnRateLimit = retryOnRateLimit, : 10 tweets were requested but the API
## can only return 0
length(tweets)
## [1] 0
tweets
## list()

1.4 내용 확인

temp <- tweets[[1]]
temp$getScreenName() # 사용자 이름 
temp$getText() # 화면상에 표시되는 아이디 

1.5 plyr:;tweets.text()

library(plyr)
## 
## Attaching package: 'plyr'
## The following object is masked from 'package:twitteR':
## 
##     id
class(tweets) # 리스트 형태 
## [1] "list"
tweets.text <- laply(tweets,function(t) t$getText())
length(tweets.text)
## [1] 0
head(tweets.text,3)
## logical(0)
str(tweets.text)
##  logi(0)

1.6 연습

keyword <- enc2utf8("캐리비안베이")

tweets <- searchTwitter(keyword,n=1000,lang="ko") 
## Warning in doRppAPICall("search/tweets", n, params = params,
## retryOnRateLimit = retryOnRateLimit, : 1000 tweets were requested but the
## API can only return 0
length(tweets)
## [1] 0
tweets.text <- laply(tweets,function(t) t$getText())
length(tweets.text)
## [1] 0
head(tweets.text,10)
## logical(0)