1. 네이버 뉴스 크롤러

참고 : Github - naverNewsparser

2. 영화 리뷰 (daum)

  1. 다음 영화 접속
  2. 특정 영화 접속
  3. 크롤링할 주소 확인

크롤러

url_base <- "https://movie.daum.net/moviedb/grade?movieId=99611&type=columnist&page="

library(rvest)
## Loading required package: xml2
all.reviews <- c()

for(page in 1:3)
{
  url <- paste(url_base,page,sep="")
  htxt <- read_html(url)
  table <- html_nodes(htxt,'.review_info')
  content <- html_nodes(table,'.desc_review')
  reviews <- html_text(content)
  
  if(length(reviews)==0){break}
  reviews <- gsub("\r","",reviews) # 리뷰가 길어서 다음 줄로 넘어가는 것 방지 
  reviews <- gsub("\t","",reviews) # 탭을 없앤다 
  all.reviews <- c(all.reviews,reviews) # 이번 페이지의 리뷰를 저장해 놓은 리뷰에 덧붙인다
  print(page) 
  Sys.sleep(0.7) # 다음 페이지를 지정하기 전에 잠시 쉰다
}
## [1] 1
write.csv(all.reviews,'data/mission.txt',row.names=F)
daum=read.csv("data/mission.txt")
daum
url_base <- "https://movie.daum.net/moviedb/grade?movieId=117020&type=netizen&page="

library(rvest)
all.reviews <- c()

for(page in 1:3)
{
  url <- paste(url_base,page,sep="")
  htxt <- read_html(url)
  table <- html_nodes(htxt,'.review_info')
  content <- html_nodes(table,'.desc_review')
  reviews <- html_text(content)
  
  if(length(reviews)==0){break}
  reviews <- gsub("\r","",reviews) # 리뷰가 길어서 다음 줄로 넘어가는 것 방지 
  reviews <- gsub("\t","",reviews) # 탭을 없앤다 
  all.reviews <- c(all.reviews,reviews) # 이번 페이지의 리뷰를 저장해 놓은 리뷰에 덧붙인다
  print(page) 
  Sys.sleep(0.7) # 다음 페이지를 지정하기 전에 잠시 쉰다
}
## [1] 1
## [1] 2
## [1] 3
write.csv(all.reviews,'data/incre.txt',row.names=F)
daum=read.csv("data/incre.txt")
daum

3. 웹사이트 데이터 수집

if(!require(RCurl)){install.packages("RCurl");library(Rcurl)}
## Loading required package: RCurl
## Loading required package: bitops
url <- "http://news.chosun.com/site/data/html_dir/2018/07/31/2018073101182.html"

page <- getURL(url, .encoding="euc-kr")
download.file(url,"data/page.txt")

3.1 HTML 태그 제거 rvest::

  • java의 jsoup / python의 BeautifulSoup 보다 성능은 떨어지지만 쓸만하다.
library(rvest)
page <- read_html(url,encoding = "UTF-8")
title <- page%>%html_node("title")%>%html_text()
title
## [1] "<U+CE5C><U+BC15><U+00B7><U+BC18><U+BC15> <U+CABC><U+AC1C><U+C84C><U+B2E4><U+2026>\n'<U+BC15><U+ACC4><U+B3D9> <U+D0DD><U+C2DC><U+C870><U+D569>'<U+C5D0><U+C11C> <U+BB34><U+C2A8> <U+C77C><U+C774>? - <U+C870><U+C120><U+B2F7><U+CEF4> - <U+C0AC><U+D68C> > <U+C0AC><U+D68C> <U+C77C><U+BC18>"

3.2 본문 추출

  • html_node : 한 개의 본문
  • html_nodes : 여러개로 나뉘어진 본문 추출
  • class는 .으로 접근
page <- read_html(url,encoding = "UTF-8")
partMain <- page %>% html_nodes(".par")%>%html_text()
Encoding(partMain) <- "UTF-8"
partMain
## [1] "<U+2018><U+C2A4><U+D0C0><U+C815><U+CE58><U+C778><U+2019><U+C774> <U+C138><U+C6B4> <U+AD6D><U+B0B4> <U+CD5C><U+CD08> <U+D0DD><U+C2DC><U+D611><U+B3D9><U+C870><U+D569><U+2018><U+CE5C><U+BC15>(<U+CE5C> <U+BC15><U+ACC4><U+B3D9><U+2019>) <U+2018><U+BC18><U+BC15><U+2019><U+C73C><U+B85C> <U+CABC><U+AC1C><U+C9C0><U+BA74><U+C11C> <U+B9E4><U+CD9C> <U+ACE4><U+B450><U+BC15><U+C9C8><U+BE44><U+B300><U+C704> <U+CE21> <U+201C><U+CE5C><U+C778><U+CC99><U+ACFC> <U+AE5C><U+AE5C><U+C774> <U+D68C><U+ACC4><U+2026><U+BE44><U+C704> <U+C788><U+B2E4><U+201D><U+C774><U+C0AC><U+C7A5> <U+D574><U+C784><U+B41C> <U+BC15><U+ACC4><U+B3D9> <U+201C><U+C2DC><U+C704><U+AFBC><U+B4E4><U+C758> <U+C870><U+D569> <U+D0C8><U+CDE8><U+C2DC><U+B3C4><U+201D> <U+C8FC><U+C7A5><U+201C><U+C7AC><U+C57C> 20<U+B144>, <U+C815><U+CE58> 20<U+B144>, <U+B0A8><U+C740> 20<U+B144><U+C740> <U+D0DD><U+C2DC><U+C5D0> <U+AC78><U+ACA0><U+B2E4>.<U+201D> <U+B178><U+D0DC><U+C6B0> <U+C804> <U+B300><U+D1B5><U+B839><U+C758> 4000<U+C5B5><U+C6D0> <U+BE44><U+C790><U+AE08> <U+C0AC><U+AC74><U+C744> <U+D3ED><U+B85C><U+D588><U+B358> <U+2018><U+C2A4><U+D0C0> <U+C815><U+CE58><U+C778><U+2019> <U+BC15><U+ACC4><U+B3D9>(66)<U+C740> <U+C9C0><U+B09C> 2015<U+B144> 7<U+C6D4> <U+C774> <U+D0DD><U+C2DC><U+D611><U+B3D9><U+C870><U+D569><U+C744> <U+CC28><U+B9AC><U+BA74><U+C11C> <U+C774><U+B807><U+AC8C> <U+D3EC><U+BD80><U+B97C> <U+BC1D><U+D614><U+B2E4>.  <U+CFF1><U+D0DD><U+C2DC>(<U+D55C><U+AD6D><U+D0DD><U+C2DC><U+D611><U+B3D9><U+C870><U+D569>)<U+B294> <U+C6B4><U+C601><U+BC29><U+C2DD><U+C774> <U+B3C5><U+D2B9><U+D588><U+B2E4>. <U+C77C><U+B2E8> <U+C0AC><U+B0A9><U+AE08>(<U+793E><U+7D0D><U+91D1>)<U+C774> <U+C5C6><U+B2E4>. <U+B300><U+C2E0> <U+AE30><U+C0AC><U+B4E4><U+C774> 2500<U+B9CC><U+C6D0><U+C758> <U+CD9C><U+C790><U+AE08><U+C744> <U+B0B8> <U+2018><U+C6B0><U+B9AC><U+C0AC><U+C8FC><U+D615><U+2019> <U+D68C><U+C0AC><U+B97C> <U+C138><U+C6E0><U+B2E4>. <U+C870><U+D569><U+C774> <U+BC84><U+B294> <U+B9CC><U+D07C> <U+AE30><U+C0AC><U+B4E4><U+C774> <U+B098><U+B220> <U+AC00><U+C9C0><U+B294> <U+BC29><U+C2DD><U+C774><U+B2E4>. <U+CD9C><U+BC94> <U+C774><U+D6C4> <U+CFF1><U+D0DD><U+C2DC><U+B294> <U+C131><U+ACF5> <U+AC00><U+B3C4><U+B97C> <U+B0B4><U+B2EC><U+B838><U+B2E4>. <U+C9C0><U+B09C><U+D574> <U+C11C><U+C6B8><U+C2DC> <U+D0DD><U+C2DC><U+C11C><U+BE44><U+C2A4><U+D3C9><U+AC00><U+C5D0><U+C11C> 4<U+C704>(<U+C804><U+CCB4> 255<U+AC1C> <U+D0DD><U+C2DC><U+C5C5><U+CCB4>)<U+B97C> <U+CC28><U+C9C0><U+D588><U+B2E4>. <U+AE30><U+C0AC> 1<U+C778><U+B2F9> <U+C6D4><U+AE09><U+C740> <U+C124><U+B9BD> <U+B2F9><U+C2DC> <U+BAA9><U+D45C><U+B85C> <U+C0BC><U+C558><U+B358> 214<U+B9CC><U+C6D0><U+C744> <U+D6CC><U+CA4D> <U+B118><U+C5B4>, <U+C9C0><U+B09C><U+D574><U+C5D0><U+B294> 265<U+B9CC><U+C6D0><U+C744> <U+B3CC><U+D30C><U+D588><U+B2E4>.<U+ADF8><U+B7F0> <U+CFF1><U+D0DD><U+C2DC><U+AC00> <U+B0B4><U+BD84><U+C5D0> <U+D729><U+C2F8><U+C600><U+B2E4>. <U+AD6D><U+D68C> <U+C0AC><U+BB34><U+CD1D><U+C7A5><U+AE4C><U+C9C0> <U+C9C0><U+B0B8> <U+BC15> <U+C804> <U+C758><U+C6D0><U+C774> <U+CE74><U+B9AC><U+C2A4><U+B9C8><U+B85C> <U+D718><U+C5B4><U+C7A1><U+C558><U+B358> <U+C870><U+D569><U+C740> <U+2018><U+BC18><U+BC15>(<U+BC18><U+BC15><U+ACC4><U+B3D9>)<U+2019> <U+2018><U+CE5C><U+BC15>(<U+CE5C><U+BC15><U+ACC4><U+B3D9>)<U+2019><U+D30C><U+B85C> <U+CABC><U+AC1C><U+C84C><U+B2E4>. <U+BC15> <U+C804> <U+C758><U+C6D0><U+C740> <U+C9C0><U+B09C> 4<U+C6D4> <U+C774><U+C0AC><U+C7A5><U+C9C1><U+C5D0><U+C11C> <U+D574><U+C784><U+B410><U+B2E4>. <U+B300><U+D55C><U+BBFC><U+AD6D> <U+CD5C><U+CD08><U+C758> <U+D0DD><U+C2DC><U+D611><U+B3D9><U+C870><U+D569><U+C5D0><U+C11C><U+B294> <U+BB34><U+C2A8> <U+C77C><U+C774> <U+C788><U+C5C8><U+B358> <U+AC78><U+AE4C>."                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         
## [2] "<U+25C7><U+2018><U+CE5C><U+BC15><U+2019> <U+2018><U+BC18><U+BC15><U+2019><U+C73C><U+B85C> <U+CABC><U+AC1C><U+C9C4> <U+AD6D><U+B0B4> <U+CD5C><U+CD08><U+C758> <U+D0DD><U+C2DC><U+D611><U+B3D9><U+C870><U+D569><U+B0B4><U+BD84><U+C740> <U+C870><U+D569><U+C774> <U+C798> <U+B098><U+AC00><U+B358> <U+C9C0><U+B09C><U+D574> 10<U+C6D4><U+BD80><U+D130> <U+BCF8><U+ACA9><U+D654><U+B410><U+B2E4>. <U+2018><U+BC18><U+BC15><U+D30C><U+2019><U+AC00> <U+2018><U+BE44><U+C0C1><U+B300><U+CC45><U+C704><U+C6D0><U+D68C><U+2019>(<U+C774><U+D558> <U+BE44><U+B300><U+C704>)<U+B97C> <U+B9CC><U+B4E0> <U+AC83>. <U+C9C8><U+C138><U+B77C> <U+2018><U+CE5C><U+BC15><U+D30C><U+2019><U+B3C4> <U+2018><U+C870><U+D569><U+C744> <U+C0AC><U+B791><U+D558><U+B294> <U+BAA8><U+C784><U+2019>(<U+C774><U+D558> <U+C870><U+C0AC><U+BAA8>)<U+C774><U+B77C><U+B294> <U+BAA8><U+C784><U+C744> <U+AFB8><U+B838><U+B2E4>. <U+ACE0><U+C18C><U+00B7><U+ACE0><U+BC1C><U+C804><U+C740> <U+C8FC><U+BA39><U+B2E4><U+C9D0><U+C73C><U+B85C> <U+C774><U+C5B4><U+C9C0><U+AE30><U+B3C4> <U+D588><U+B2E4>. <U+ACB0><U+AD6D> <U+C9C0><U+B09C> 4<U+C6D4> 20<U+C77C> <U+C804><U+CCB4> <U+C870><U+D569><U+C6D0> 159<U+BA85><U+C774> <U+C774><U+C0AC><U+C7A5> <U+C2E0><U+C784><U+C548><U+C744> <U+B193><U+ACE0> <U+D45C><U+ACB0><U+C5D0> <U+BD80><U+CE5C> <U+B05D><U+C5D0> <U+BC15> <U+C804> <U+C758><U+C6D0><U+C774> <U+D574><U+C784><U+B410><U+B2E4>. <U+ACB0><U+ACFC><U+B294> 85(53%) <U+B300> 74(47%). <U+BC18><U+BC15><U+D30C><U+C758> <U+C6B0><U+C138><U+C600><U+B2E4>.<U+BC18><U+BC15><U+D30C><U+B294> <U+BC15> <U+C804> <U+C758><U+C6D0><U+C774> <U+2018><U+BE44><U+C704><U+2019><U+B97C> <U+C800><U+C9C8><U+B800><U+B2E4><U+ACE0> <U+C8FC><U+C7A5><U+D558><U+ACE0> <U+C788><U+B2E4>. <U+D575><U+C2EC><U+C740> <U+B450> <U+AC00><U+C9C0><U+B2E4>. <U+CE5C><U+C778><U+CC99> <U+C784><U+C6A9><U+ACFC> <U+BD88><U+D22C><U+BA85><U+D55C> <U+D68C><U+ACC4>. <U+C2E4><U+C81C> <U+BC15> <U+C804> <U+C758><U+C6D0><U+C758> <U+CC98><U+C81C><U+AC00> <U+C870><U+D569><U+C758> <U+ACBD><U+B9AC><U+BD80><U+C7A5><U+C73C><U+B85C> <U+D65C><U+B3D9><U+D588><U+B2E4>. <U+CC98><U+C81C><U+AC00> <U+B3C8><U+C744> <U+B9CC><U+C9C0><U+B294> <U+C77C><U+C744> <U+D55C> <U+B9CC><U+D07C> <U+D68C><U+ACC4><U+BC95><U+C778> <U+AC10><U+C0AC><U+B3C4> <U+C2E0><U+B8B0><U+D560> <U+C218> <U+C5C6><U+B2E4><U+B294> <U+AC83><U+C774><U+B2E4>. <U+BE44><U+B300><U+C704> <U+AD00><U+ACC4><U+C790><U+B294> <U+201C><U+BC15> <U+C804> <U+C758><U+C6D0><U+C774> <U+BAA8><U+B4E0> <U+C870><U+D569> <U+B0B4> <U+ACB0><U+C815><U+C740> <U+C774><U+C0AC><U+D68C> <U+C758><U+ACB0><U+C744> <U+AC70><U+CCE4><U+B2E4><U+ACE0> <U+C8FC><U+C7A5><U+D558><U+C9C0><U+B9CC>, <U+C774><U+C0AC><U+C9C4><U+ACFC> <U+C870><U+D569> <U+AC04><U+BD80><U+B97C> <U+BC15> <U+C804> <U+C758><U+C6D0> <U+CE21><U+ADFC><U+B4E4><U+C774> <U+B3C4><U+B9E1><U+C544> <U+C804><U+D6A1><U+C744> <U+C77C><U+C0BC><U+C558><U+B2E4><U+201D><U+ACE0> <U+C8FC><U+C7A5><U+D588><U+B2E4>.<U+BC15> <U+C804> <U+C758><U+C6D0> <U+CC98><U+B0A8><U+C774> <U+ACBD><U+BD81> <U+AD6C><U+BBF8> <U+CFF1><U+D0DD><U+C2DC> <U+C774><U+C0AC><U+C7A5><U+C744> <U+B9E1><U+C740> <U+C810><U+B3C4> <U+B3C4><U+B9C8><U+C5D0> <U+C62C><U+B790><U+B2E4>. (<U+CFF1><U+D0DD><U+C2DC><U+B294> <U+C11C><U+C6B8>, <U+B300><U+AD6C>, <U+AD11><U+C8FC><U+AD11><U+C5ED><U+C2DC>, <U+D3EC><U+D56D>, <U+AD6C><U+BBF8>, <U+ACBD><U+C8FC><U+C5D0> <U+C870><U+D569><U+C744> <U+B450><U+ACE0> <U+C788><U+B2E4>.) <U+BE44><U+B300><U+C704> <U+AD00><U+ACC4><U+C790><U+B294> <U+201C><U+BC15> <U+C804> <U+C758><U+C6D0><U+C774> <U+CE5C><U+C778><U+CC99><U+ACFC> <U+D568><U+AED8>  <U+2018><U+AE5C><U+AE5C><U+C774> <U+C6B4><U+C601><U+2019><U+C744> <U+D574><U+C654><U+B2E4><U+201D><U+BA70> <U+201C><U+C2E4><U+C81C> <U+ADF8><U+B294> 2016<U+B144> <U+C808><U+CC28><U+B97C> <U+AC70><U+CE58><U+C9C0> <U+C54A><U+ACE0> (<U+BCF8><U+C778> <U+C784><U+C758><U+B85C>) <U+D0C8><U+D1F4> <U+C870><U+D569><U+C6D0><U+B4E4><U+C5D0><U+AC8C> <U+CD9C><U+C790><U+AE08><U+C744> <U+D658><U+AE09><U+D574><U+C8FC><U+AE30><U+B3C4> <U+D588><U+B2E4><U+201D><U+ACE0> <U+C8FC><U+C7A5><U+D588><U+B2E4>.<U+201C><U+C0AC><U+C5C5><U+CD08><U+AE30> <U+C77C> <U+D560> <U+C0AC><U+B78C><U+C744> <U+AD6C><U+D558><U+C9C0> <U+BABB><U+D574><U+C11C>, <U+CE5C><U+CC99><U+B4E4><U+C5D0><U+AC8C> <U+B9E1><U+ACBC><U+B2E4>. <U+CC98><U+B0A8><U+C774> <U+AD6C><U+BBF8> <U+C774><U+C0AC><U+C7A5><U+C744> <U+B9E1><U+C740> <U+AC83><U+B3C4> <U+BCF8><U+B798> <U+C774><U+C0AC><U+C7A5><U+C744> <U+D558><U+B358> <U+C0AC><U+B78C>(<U+C5EC><U+C815><U+D718> <U+C804> <U+C870><U+B2EC><U+CCAD> <U+CC28><U+C7A5>)<U+C774> <U+AC74><U+AC15><U+C774> <U+B098><U+BE60><U+C838><U+C11C> <U+C0AC><U+D1F4><U+D588><U+AE30> <U+B54C><U+BB38><U+C774><U+B2E4>. <U+B2F9><U+C2DC> <U+C774><U+C0AC><U+B85C> <U+C788><U+B358> <U+CC98><U+B0A8><U+C774> <U+C774><U+C0AC><U+C7A5><U+C744> <U+D558><U+AC8C> <U+B410><U+B2E4>.<U+201D> <U+BC15> <U+C804> <U+C758><U+C6D0><U+C740> <U+C774><U+B807><U+AC8C> <U+BC18><U+BC15><U+D588><U+B2E4>. <U+CFF1><U+D0DD><U+C2DC> <U+B0B4><U+BD80><U+B294> <U+C591><U+CE21> <U+ACC4><U+D30C><U+C758> <U+ACE0><U+C18C><U+00B7><U+ACE0><U+BC1C><U+B85C> <U+BA4D><U+B4E4><U+C5B4> <U+C788><U+B2E4>. <U+C870><U+C0AC><U+BAA8> <U+AD00><U+ACC4><U+C790><U+B294> <U+201C><U+BE44><U+B300><U+C704><U+AC00> <U+ACE0><U+C18C><U+00B7><U+ACE0><U+BC1C><U+C5D0> <U+B098><U+C11C><U+BA74><U+C11C> <U+BC15> <U+C804> <U+C758><U+C6D0> <U+CE5C><U+C778><U+CC99> 10<U+C5EC><U+BA85><U+C758> <U+ACC4><U+C88C> 29<U+AC1C><U+AC00> <U+C555><U+C218><U+C218><U+C0C9> <U+B2F9><U+D588><U+C9C0><U+B9CC> <U+B300><U+BD80><U+BD84> <U+C99D><U+AC70><U+BD88><U+CDA9><U+BD84><U+C73C><U+B85C> <U+BB34><U+D610><U+C758> <U+CC98><U+BD84><U+B418><U+AC70><U+B098> <U+AC01><U+D558><U+B410><U+B2E4><U+201D><U+BA70> <U+201C><U+BE44><U+B300><U+C704><U+AC00> <U+AC19><U+C740> <U+B0B4><U+C6A9><U+C73C><U+B85C> <U+ACC4><U+C18D> <U+ACE0><U+C18C><U+00B7><U+ACE0><U+BC1C><U+C744> <U+BC18><U+BCF5><U+D558><U+BA70> <U+2018><U+D751><U+C0C9><U+C120><U+C804><U+2019><U+C5D0> <U+B098><U+C11C><U+ACE0> <U+C788><U+B2E4><U+201D><U+ACE0> <U+C8FC><U+C7A5><U+D588><U+B2E4>. <U+25C7><U+201C><U+D68C><U+C0AC> <U+C798> <U+B098><U+AC00><U+C790> <U+C2DC><U+C704><U+AFBC><U+B4E4><U+C774> <U+C870><U+D569> <U+D0C8><U+CDE8><U+D558><U+B824><U+B294> <U+AC83><U+201D><U+BC15> <U+C804> <U+C758><U+C6D0><U+C740> <U+B0B4><U+BD84><U+C744> <U+2018><U+C815><U+CE58><U+C2F8><U+C6C0><U+2019><U+C73C><U+B85C> <U+BC14><U+B77C><U+BCF4><U+ACE0> <U+C788><U+B2E4>. <U+BA85><U+BAA9><U+C740> <U+2018><U+BC15><U+ACC4><U+B3D9> <U+BE44><U+C704><U+2019><U+B97C> <U+B0B4><U+AC78><U+C5C8><U+C9C0><U+B9CC>, <U+C2E4><U+C81C><U+B85C><U+B294> <U+C77C><U+BD80> <U+C138><U+B825><U+C774> <U+C870><U+D569><U+C744> <U+D0C8><U+CDE8><U+D560> <U+BAA9><U+C801><U+C744> <U+AC16><U+ACE0> <U+D754><U+B4E0><U+B2E4><U+B294> <U+AC83><U+C774><U+B2E4>. "
## [3] "<U+201C><U+C870><U+D569><U+C774> <U+C2E4><U+C801><U+C774> <U+C88B><U+C73C><U+B2C8><U+AE4C> <U+2018>1<U+C778> 1<U+D45C><U+2019><U+B77C><U+B294> <U+D611><U+B3D9><U+C870><U+D569> <U+D2B9><U+C131><U+C744> <U+D30C><U+ACE0><U+B4E4><U+C5C8><U+B2E4>. <U+BE44><U+B300><U+C704> <U+ACF5><U+B3D9><U+B300><U+D45C><U+AC00> 3<U+BA85><U+C778><U+B370> <U+BA74><U+BA74><U+C774> <U+B178><U+C870><U+C704><U+C6D0><U+C7A5><U+C744> <U+D558><U+BA74><U+C11C> <U+C9C1><U+C7A5><U+D3D0><U+C1C4><U+AE4C><U+C9C0> <U+C774><U+B048> <U+C0AC><U+B78C>, <U+D0DD><U+C2DC><U+B178><U+C870><U+C704><U+C6D0><U+C7A5> <U+C120><U+AC70><U+C5D0> 6<U+BC88><U+C774><U+B098> <U+B098><U+AC04> <U+C0AC><U+B78C><U+B4E4><U+C774><U+B2E4>. <U+C774><U+B7F0> <U+C0AC><U+B78C><U+B4E4><U+C774> 2016<U+B144> <U+C6B0><U+B9AC> <U+C870><U+D569><U+C5D0> <U+D758><U+B7EC> <U+B4E4><U+C5B4><U+C628> <U+B4A4> <U+2018><U+BC18><U+BC15><U+2019><U+C138><U+B825><U+C744> <U+ADDC><U+D569><U+D574><U+C11C> <U+C870><U+D569> <U+C7A5><U+C545><U+C5D0> <U+B098><U+C120> <U+AC83><U+C774><U+B2E4>. <U+D658><U+C0C1><U+C801><U+C778> <U+C6B0><U+B9AC><U+C0AC><U+C8FC><U+D615> <U+AE30><U+C5C5><U+C744> <U+B9CC><U+B4E4><U+C5B4> <U+BCF4><U+C600><U+B294><U+B370> <U+BC18><U+B144> <U+B9CC><U+C5D0> <U+BAA8><U+B4E0> <U+AC8C> <U+B9DD><U+AC00><U+C84C><U+B2E4>.<U+201D> <U+BC15> <U+C804> <U+C758><U+C6D0><U+C740> <U+C774><U+B807><U+AC8C> <U+C8FC><U+C7A5><U+D588><U+B2E4>. <U+BC15> <U+C804> <U+C758><U+C6D0><U+C774> <U+D0DD><U+C2DC><U+C640> <U+C778><U+C5F0><U+C744> <U+B9FA><U+C740> <U+AC74> 2000<U+B144><U+BD80><U+D130><U+B2E4>. 1996<U+B144> 15<U+B300> <U+CD1D><U+C120><U+C5D0><U+C11C> <U+B099><U+C120><U+D55C> <U+ADF8><U+B294> 1999<U+B144> <U+C120><U+AC70><U+BC95> <U+C704><U+BC18> <U+D610><U+C758><U+B85C> <U+D53C><U+C120><U+AC70><U+AD8C><U+B9C8><U+C800> <U+BC15><U+D0C8><U+B2F9><U+D558><U+C790> <U+C774><U+B4EC><U+D574> <U+D0DD><U+C2DC><U+AE30><U+C0AC><U+B85C> <U+BCC0><U+C2E0><U+D588><U+B2E4>. <U+201C><U+D3C9><U+BC94><U+D55C> <U+C2DC><U+BBFC><U+B4E4><U+C758> <U+C0B6><U+C744> <U+C54C><U+C544><U+BCF4><U+ACE0> <U+C2F6><U+ACE0> <U+AD50><U+D1B5> <U+BB38><U+C81C><U+B3C4> <U+C0B4><U+D3B4><U+BCF4><U+ACE0> <U+C2F6><U+C5C8><U+B2E4><U+201D><U+ACE0> <U+D588><U+C5C8><U+B2E4>. 11<U+AC1C><U+C6D4><U+AC04> <U+D0DD><U+C2DC> <U+C6B4><U+C804><U+B300><U+B97C> <U+C7A1><U+C558><U+B358> <U+ADF8><U+B294> 2004<U+B144> <U+CD1D><U+C120><U+C5D0><U+C11C> <U+D55C><U+B098><U+B77C><U+B2F9> <U+C7AC><U+C120> <U+C758><U+C6D0><U+C774> <U+B410><U+B2E4>. 2010<U+B144> <U+AD6D><U+D68C> <U+C0AC><U+BB34><U+CD1D><U+C7A5><U+C744> <U+B05D><U+C73C><U+B85C> <U+C815><U+CE58><U+AD8C><U+C744> <U+B5A0><U+B09C> <U+B4A4> <U+C790><U+C5F0><U+C2A4><U+B7FD><U+AC8C> <U+2018><U+D0DD><U+C2DC><U+2019><U+B85C> <U+B208><U+AE38><U+C744> <U+B3CC><U+B838><U+B2E4>.<U+ACC4><U+D30C><U+C2F8><U+C6C0><U+C774> <U+BC8C><U+C5B4><U+C9C0><U+BA74><U+C11C> <U+CFF1><U+D0DD><U+C2DC><U+C758> <U+C9C8><U+C8FC><U+B3C4> <U+BA48><U+CDC4><U+B2E4>. <U+D55C><U+B54C> <U+CFF1><U+D0DD><U+C2DC><U+C758> <U+CC28><U+B7C9> <U+AC00><U+B3D9><U+B960><U+C740> 94%<U+C5D0> <U+B2EC><U+D588><U+C9C0><U+B9CC>, <U+C62C><U+D574> <U+B4E4><U+C5B4><U+C11C> <U+AC00><U+B3D9><U+B960><U+C774> 60%<U+AE4C><U+C9C0> <U+ACE4><U+B450><U+BC15><U+C9C8><U+CCE4><U+B2E4>. <U+CD5C><U+ADFC> <U+B4E4><U+C5B4><U+C11C><U+B294> <U+B9E4><U+B2EC> <U+C801><U+C790><U+B97C> <U+AE30><U+B85D><U+D558><U+B294> <U+D615><U+D3B8><U+C774><U+B2E4>. <U+C9C0><U+B09C> 5<U+C6D4> <U+CFF1><U+D0DD><U+C2DC> <U+B9E4><U+CD9C><U+C774> <U+C804><U+C6D4><U+C758> <U+C808><U+BC18> <U+C218><U+C900><U+C73C><U+B85C> <U+B5A8><U+C5B4><U+C84C><U+B2E4>. "                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      
## [4] "<U+BC95><U+C6D0><U+C740> <U+C9C0><U+B09C> 5<U+C77C> <U+BC15> <U+C804> <U+C758><U+C6D0><U+C758> <U+C774><U+C0AC><U+C7A5> <U+C9C1><U+BB34><U+B97C> <U+C815><U+C9C0><U+D558><U+ACE0> <U+C9C1><U+BB34><U+B300><U+D589><U+C744> <U+D30C><U+ACAC><U+D588><U+B2E4>. <U+D558><U+C9C0><U+B9CC> <U+BE44><U+B300><U+C704><U+B294> <U+201C><U+CCAB> <U+C9C1><U+BB34><U+B300><U+D589><U+C73C><U+B85C> <U+D30C><U+ACAC><U+B41C> <U+D669><U+C6A9><U+D658> <U+BCC0><U+D638><U+C0AC>(<U+C804> <U+B300><U+D55C><U+BCC0><U+D638><U+C0AC><U+D611><U+D68C> <U+C0AC><U+BB34><U+CD1D><U+C7A5>)<U+B294> <U+2018><U+CE5C><U+BC15><U+D30C><U+2019><U+201D><U+B77C><U+BA70> <U+AC70><U+C138><U+AC8C> <U+BC18><U+BC1C><U+D588><U+B2E4>. <U+D669> <U+BCC0><U+D638><U+C0AC><U+B294> 2<U+C8FC><U+B3C4> <U+BABB> <U+CC44><U+C6B0><U+ACE0> <U+C9C1><U+BB34><U+B300><U+D589><U+C5D0><U+C11C> <U+BB3C><U+B7EC><U+B0AC><U+B2E4>.<U+BC95><U+C6D0><U+C774> <U+B450> <U+BC88><U+C9F8> <U+C9C1><U+BB34><U+B300><U+D589><U+C73C><U+B85C> <U+C120><U+C784><U+D55C> <U+C778><U+BB3C><U+C740> <U+C774><U+C131><U+D658> <U+BCC0><U+D638><U+C0AC><U+B2E4>. <U+D558><U+C9C0><U+B9CC> <U+BD84><U+B780><U+C740> <U+C5EC><U+C804><U+D558><U+B2E4>. <U+C9C0><U+B09C> 30<U+C77C> <U+C774> <U+BCC0><U+D638><U+C0AC><U+AC00> <U+CCAB> <U+CD9C><U+ADFC><U+D558><U+C790> <U+CE5C><U+BC15><U+D30C>(<U+C870><U+C0AC><U+BAA8>)<U+C640> <U+BC18><U+BC15><U+D30C>(<U+BE44><U+B300><U+C704>) <U+C77C><U+BD80> <U+C778><U+C0AC><U+B4E4><U+C774> <U+BAB8><U+C2F8><U+C6C0><U+C744> <U+BC8C><U+C774><U+AE30><U+B3C4> <U+D588><U+B2E4>.<U+C591> <U+ACC4><U+D30C><U+B294> <U+C870><U+B9CC><U+AC04> <U+C815><U+AE30><U+CD1D><U+D68C><U+B97C> <U+C5F4><U+ACE0> <U+2018><U+D45C> <U+B300><U+ACB0><U+2019><U+B85C> <U+B2F4><U+D310> <U+C9C0><U+C744> <U+C608><U+C815><U+C774><U+B2E4>. <U+BC15> <U+C804> <U+C758><U+C6D0><U+C740> <U+2018><U+CE5C><U+BC15><U+D30C><U+2019>  <U+C870><U+D569><U+C6D0> <U+C8FC><U+CD95><U+C73C><U+B85C> <U+C774><U+C0AC><U+C7A5> <U+BCF5><U+ADC0><U+B97C> <U+AFC8><U+AFB8><U+ACE0> <U+C788><U+B2E4>. <U+BC18><U+B300><U+B85C> <U+2018><U+BC18><U+BC15><U+D30C><U+2019><U+B294> <U+C815><U+AE30><U+CD1D><U+D68C><U+C5D0><U+C11C> <U+BE44><U+B300><U+C704> 3<U+C778><U+BC29><U+C744> <U+D611><U+B3D9><U+C870><U+D569> <U+C774><U+C0AC><U+B85C> <U+CD94><U+B300><U+D560> <U+AC83><U+C73C><U+B85C> <U+BCF4><U+C778><U+B2E4>."
write(unlist(partMain),"data/news.txt")

3.3 태그의 태그 추출

  • 태그의 태그는 띄어쓰기로 추출
writers <- page%>%html_nodes("div span")%>%html_text()
Encoding(writers) <- "UTF-8"
writers
## [1] "0"                                                                                                                                                                                                                          
## [2] "0"                                                                                                                                                                                                                          
## [3] "2010<U+B144> <U+AD6D><U+D68C> <U+C0AC><U+BB34><U+CD1D><U+C7A5><U+C744> <U+B05D><U+C73C><U+B85C> <U+C815><U+CE58><U+AD8C><U+C744> <U+B5A0><U+B09C> <U+B4A4> <U+C790><U+C5F0><U+C2A4><U+B7FD><U+AC8C> <U+2018><U+D0DD><U+C2DC><U+2019><U+B85C> <U+B208><U+AE38><U+C744> <U+B3CC><U+B838><U+B2E4>."
## [4] "0"                                                                                                                                                                                                                          
## [5] "Copyright <U+24D2> <U+C870><U+C120><U+C77C><U+BCF4> & Chosun.com"                                                                                                                                                           
## [6] "<U+C81C><U+D734><U+C548><U+B0B4><U+AD6C><U+B3C5><U+C2E0><U+CCAD>"                                                                                                                                                           
## [7] "<U+B0B4><U+AC00> <U+BCF8> <U+B274><U+C2A4>"                                                                                                                                                                                 
## [8] "<U+B9E8> <U+C704><U+B85C>"

3.4 본문추출 - id 검색

  • id= 부분은 #으로 접근 가능
main <- page%>%html_nodes("#news_title_text_id")%>%html_text()
Encoding(main) <- "UTF-8"
main
## [1] "<U+CE5C><U+BC15><U+00B7><U+BC18><U+BC15> <U+CABC><U+AC1C><U+C84C><U+B2E4><U+2026>\n'<U+BC15><U+ACC4><U+B3D9> <U+D0DD><U+C2DC><U+C870><U+D569>'<U+C5D0><U+C11C> <U+BB34><U+C2A8> <U+C77C><U+C774>?"

3.5 네이버 뮤직 top 100 추출 연습

url2="https://music.naver.com/listen/top100.nhn?domain=TOTAL"
page <- read_html(url2,encoding = "UTF-8")
title <- page%>%html_node("title")%>%html_text()
title
## [1] "TOP 100 <U+C885><U+D569> : <U+B124><U+C774><U+BC84> <U+BBA4><U+C9C1>"
singer <- page%>%html_nodes(".ellipsis")%>%html_text()
Encoding(singer) <- "UTF-8"

singer=gsub("[\r]|[\n]|[\t]","",singer)

class(singer)
## [1] "character"
song=singer[seq(1,99,by=2)]
singer=singer[seq(2,99,by=2)]
top100=as.matrix(cbind(song,singer))
## Warning in cbind(song, singer): number of rows of result is not a multiple
## of vector length (arg 2)
head(top100,3)
##      song                                 
## [1,] "SoulMate (Feat. <U+C544><U+C774><U+C720>)"
## [2,] "Way Back Home"                      
## [3,] "Dance The Night Away"               
##      singer                           
## [1,] "<U+C9C0><U+CF54>(ZICO)"         
## [2,] "<U+C200> (SHAUN)"               
## [3,] "TWICE(<U+D2B8><U+C640><U+C774><U+C2A4>)"