
Penggunaan Web Scraping with R
1. Pengertian
Web scraping adalah teknik untuk mengambil data dari situs web secara
otomatis menggunakan program komputer. Teknik ini sangat berguna karena
banyak informasi di internet tidak tersedia dalam format yang mudah
diunduh, seperti file Excel atau CSV. Dengan web scraping, kita bisa
mengumpulkan data seperti teks, gambar, atau tabel dari halaman web
untuk keperluan analisis, penelitian, atau pengambilan keputusan. Bahasa
pemrograman R, yang sering digunakan untuk analisis data, menyediakan
alat seperti paket rvest dan httr yang memudahkan proses scraping. Dalam
tugas ini, kita akan belajar cara mengakses halaman web, mengambil data
yang dibutuhkan, dan menyimpannya dalam format yang siap digunakan.
Dengan menguasai web scraping, kita bisa memanfaatkan data online untuk
berbagai proyek secara efisien.
2. Alat Perangkat Lunak untuk Web Scaripng di
R
1. R dan RStudio
2. Paket R untuk Web Scraping:
-rvest: Paket utama untuk mengambil dan mengurai data dari halaman
web.
-httr: Digunakan untuk mengirim permintaan HTTP (seperti GET atau
POST) ke server web.
-XML atau xml2: Untuk mengurai dokumen HTML atau XML.
-jsonlite: Jika data yang diambil berbentuk JSON, paket ini membantu
mengurai dan mengolahnya.
-dplyr dan tidyverse: Untuk membersihkan dan memproses data setelah
di-scrape.
3. Web Browser or Developer Tools
4. Koneksi Internet
5.Text Editor (Opsional)
6.Pengetahuan Dasar HTML dan CSS
3. Metode Web Scaraping di R
3.1 Menggunakan Paket rvest
Metode: rvest adalah paket paling populer untuk web scraping di R.
Ini memungkinkan Anda mengambil data dari halaman web dengan mudah
menggunakan fungsi seperti read_html() untuk membaca halaman web,
html_nodes() untuk memilih elemen HTML, dan html_text() atau html_attr()
untuk mengekstrak teks atau atribut.
Kegunaan: Cocok untuk scraping halaman web statis dengan struktur
HTML yang jelas.
Contoh:
## Warning: package 'rvest' was built under R version 4.4.3
url <- "https://example.com"
page <- read_html(url)
data <- page %>% html_nodes("h1") %>% html_text()
print(data)
## [1] "Example Domain"
3.2 Menggunakan Paket xml2
Metode: xml2 adalah paket untuk mengurai dokumen HTML atau XML. Ini
mirip dengan rvest tetapi lebih fokus pada manipulasi struktur
XML/HTML.
Kegunaan: Cocok untuk scraping data dari dokumen XML atau HTML
kompleks.
Contoh:
## Warning: package 'xml2' was built under R version 4.4.3
url <- "https://example.com"
page <- read_html(url)
data <- xml_find_all(page, "//h1") %>% xml_text()
print(data)
## [1] "Example Domain"
4. contoh penggunaan web scraping di R
4.1.1 Mengambil Judul Berita dari Web BBC News
Bayangkan Anda ingin mengumpulkan judul-judul berita terbaru dari
halaman utama BBC News. Dengan bantuan R, Anda bisa melakukannya secara
otomatis menggunakan teknik web scraping. Berikut
langkah-langkahnya:
4.1.2 Persiapan
Pastikan Anda sudah menginstal paket rvest di R. Jika belum, jalankan
perintah berikut:
install.packages("rvest")
## Warning: package 'rvest' is in use and will not be installed
4.1.3 Mulai Scraping
Berikut adalah kode R untuk mengambil judul berita dari BBC News:
# Load paket rvest
library(rvest)
# Tentukan URL halaman BBC News
url <- "https://www.bbc.com/news"
# Baca halaman web
halaman_web <- read_html(url)
# Ambil judul artikel menggunakan selector CSS
judul_berita <- halaman_web %>%
html_nodes(".gs-c-promo-heading__title") %>% # Pilih elemen judul
html_text(trim = TRUE) # Ambil teks dan hilangkan spasi ekstra
# Tampilkan hasil
print(judul_berita)
## character(0)
4.1.4 Hasil
Setelah menjalankan kode di atas, Anda akan mendapatkan daftar judul
berita terbaru dari BBC News, seperti:
[1] “Judul Berita 1”
[2] “Judul Berita 2”
[3] “Judul Berita 3” …
Tantangan dan Solusi Web Scraping di R
Web scraping di R bisa menjadi tantangan karena berbagai faktor
teknis dan non-teknis. Berikut adalah Tabel beberapa tantangan umum
beserta solusinya:
# Membuat data frame untuk tabel
tantangan_solusi <- data.frame(
Tantangan = c(
"Halaman Dinamis (JavaScript)",
"Struktur HTML Rumit",
"Pemblokiran oleh Situs",
"Perubahan Struktur Website",
"Data dalam Format JSON/API"
),
Solusi = c(
"Gunakan **`RSelenium`** untuk render halaman lengkap.",
"Pakai **SelectorGadget** atau **Developer Tools** untuk identifikasi CSS.",
"Tambahkan header (seperti `User-Agent`) dan jeda waktu (`Sys.sleep()`).",
"Buat selector fleksibel dan pantau perubahan berkala.",
"Gunakan **`httr`** dan **`jsonlite`** untuk mengambil dan mengurai JSON."
)
)
# Menampilkan tabel
library(knitr)
## Warning: package 'knitr' was built under R version 4.4.2
kable(tantangan_solusi, align = "l", caption = "Tantangan dan Solusi Web Scraping di R")
Tantangan dan Solusi Web Scraping di R
Halaman Dinamis (JavaScript) |
Gunakan RSelenium untuk
render halaman lengkap. |
Struktur HTML Rumit |
Pakai SelectorGadget atau
Developer Tools untuk identifikasi CSS. |
Pemblokiran oleh Situs |
Tambahkan header (seperti User-Agent ) dan
jeda waktu (Sys.sleep() ). |
Perubahan Struktur Website |
Buat selector fleksibel dan pantau perubahan
berkala. |
Data dalam Format JSON/API |
Gunakan httr dan
jsonlite untuk mengambil dan mengurai
JSON. |
Kesimpulan
Kalo lo pengen ngumpulin data dari website pake R, rvest sama xml2
adalah duo jagoan yang bisa lo andelin! rvest itu simpel banget buat
pemula, cocok buat ngambil data dari halaman web statis. Sementara xml2
lebih fleksibel dan powerful, bisa handle struktur HTML/XML yang lebih
ribet. Pilih rvest kalo lo mau yang praktis, atau xml2 kalo lo butuh
kontrol lebih. Yang pasti, selalu cek kebijakan website biar gak kena
masalah. Jadi, siap jadi data hunter? Gaskeun aja! 😎🔥
