Mari kita mulai langkah paling awal adalah loading package yang akan kita gunakan, yaitu
library(rvest)
library(stringr)
library(purrr)
library(stringr)
library(openxlsx)
library(DT)
Sebagai langkah pertama, kita akan membaca laman web yang akan kita scrape, dalam hal ini adalah laman berita https://tribunnews.com/news
urltribun <- 'https://www.tribunnews.com/news'
Selanjutnya, kita ambil beberapa data penting, seperti judul berita dan sekilas isi berita. dimana data ini diambil dari kode tag class pada struktur html dengan membuat sebuah data frame berisikan data tersebut.
map_df(1:4, function(i) {
cat('.')
laman <- read_html(sprintf(urltribun, i))
data.frame(
#mengambil judul berita
JudulBerita = html_text(html_nodes(laman,'.f20.ln24.fbo.txt-oev-2')),
#mengambil sekilas isi berita
SekilasIsiBerita = html_text(html_nodes(laman,'.grey2.pt5.f13.ln18.txt-oev-3')),
stringsAsFactors = FALSE
)
}) -> BeritaTribunnewsCom
## .
## Warning in sprintf(urltribun, i): one argument not used by format 'https://
## www.tribunnews.com/news'
## .
## Warning in sprintf(urltribun, i): one argument not used by format 'https://
## www.tribunnews.com/news'
## .
## Warning in sprintf(urltribun, i): one argument not used by format 'https://
## www.tribunnews.com/news'
## .
## Warning in sprintf(urltribun, i): one argument not used by format 'https://
## www.tribunnews.com/news'
Melihat hasil scrapping
View(BeritaTribunnewsCom)
datatable(BeritaTribunnewsCom, caption = "Judul Berita & Sekilas isi berita Tribunnews.Com")
Langkah terakhir adalah membuat sebuah file berekstensi csv berisi data judul dan sekilas isi berita
write.xlsx(BeritaTribunnewsCom, "Berita Tribunnews.xlsx")
Daftar Pustaka : - https://rpubs.com/suhartono-uinmaliki/webtarget