Mari kita mulai langkah paling awal adalah loading package yang akan kita gunakan, yaitu

library(rvest)
library(stringr)
library(purrr)
library(stringr)
library(openxlsx)
library(DT)

Sebagai langkah pertama, kita akan membaca laman web yang akan kita scrape, dalam hal ini adalah laman berita https://tribunnews.com/news

urltribun <- 'https://www.tribunnews.com/news'

Selanjutnya, kita ambil beberapa data penting, seperti judul berita dan sekilas isi berita. dimana data ini diambil dari kode tag class pada struktur html dengan membuat sebuah data frame berisikan data tersebut.

map_df(1:4, function(i) {
  
  cat('.')
  laman <- read_html(sprintf(urltribun, i))
  
  data.frame(
    #mengambil judul berita
    JudulBerita = html_text(html_nodes(laman,'.f20.ln24.fbo.txt-oev-2')),
    #mengambil sekilas isi berita
     SekilasIsiBerita = html_text(html_nodes(laman,'.grey2.pt5.f13.ln18.txt-oev-3')),
    stringsAsFactors = FALSE
  )
}) -> BeritaTribunnewsCom
## .
## Warning in sprintf(urltribun, i): one argument not used by format 'https://
## www.tribunnews.com/news'
## .
## Warning in sprintf(urltribun, i): one argument not used by format 'https://
## www.tribunnews.com/news'
## .
## Warning in sprintf(urltribun, i): one argument not used by format 'https://
## www.tribunnews.com/news'
## .
## Warning in sprintf(urltribun, i): one argument not used by format 'https://
## www.tribunnews.com/news'

Melihat hasil scrapping

View(BeritaTribunnewsCom)
datatable(BeritaTribunnewsCom, caption = "Judul Berita & Sekilas isi berita Tribunnews.Com")

Langkah terakhir adalah membuat sebuah file berekstensi csv berisi data judul dan sekilas isi berita

write.xlsx(BeritaTribunnewsCom, "Berita Tribunnews.xlsx")

Daftar Pustaka : - https://rpubs.com/suhartono-uinmaliki/webtarget