
Pendahuluan
Laporan ini membahas proses web scraping menggunakan bahasa
pemrograman R dengan bantuan paket rvest. Tujuan dari laporan ini adalah
memberikan panduan praktis bagi pengguna yang belum memiliki pengetahuan
mendalam tentang HTML namun ingin mengekstrak data dari situs web secara
efisien. Web scraping adalah teknik otomatisasi yang digunakan untuk
mengambil informasi dari halaman web dan mengubahnya menjadi data
terstruktur. Dengan menggunakan R, pengguna dapat dengan mudah mengakses
dan mengolah data yang terkandung dalam berbagai elemen HTML seperti
tabel, teks, gambar, dan lainnya. Dalam laporan ini, dibahas
langkah-langkah utama yang dilengkapi dengan contoh praktis untuk
memudahkan pemahaman.
1. Persiapan Lingkungan di R
Sebelum memulai proses web scraping di R, diperlukan instalasi
perangkat dan paket pendukung: - Instalasi R dan
RStudio: Pastikan Anda telah mengunduh dan menginstal R dan
RStudio di komputer Anda. R adalah bahasa pemrograman yang digunakan
untuk analisis data, sedangkan RStudio adalah lingkungan pengembangan
terintegrasi (IDE) yang mempermudah penulisan dan eksekusi kode R. -
Instalasi Paket: Paket dalam R adalah kumpulan fungsi
dan data yang digunakan untuk tugas tertentu. Untuk melakukan web
scraping, kita memerlukan paket rvest untuk mengambil dan
memproses HTML, serta dplyr untuk manipulasi data. Buka RStudio
dan jalankan perintah berikut untuk menginstal paket yang
dibutuhkan:
install.packages("rvest")
install.packages("dplyr")
- Pemanggilan Paket: Setelah instalasi, panggil
paket-paket tersebut dalam skrip R Anda untuk mulai menggunakannya:
library(rvest)
library(dplyr)
Memanggil paket berarti mengaktifkan fungsi-fungsi yang tersedia di
dalamnya sehingga dapat digunakan dalam skrip Anda.
2. Penggunaan Paket Datapasta untuk Manajemen Data di R
Paket datapasta memudahkan pemformatan dan pengelolaan data
di R. Paket ini sangat membantu ketika Anda perlu menyalin data dari
sumber eksternal seperti spreadsheet atau tabel web dan mengubahnya
menjadi kode R yang dapat langsung dieksekusi. - Instalasi
Paket: Jalankan perintah berikut untuk menginstal
datapasta:
install.packages("datapasta")
- Penggunaan Pintasan: Paket ini menyediakan pintasan
keyboard yang memungkinkan Anda dengan cepat mengonversi bingkai data
dan objek lainnya ke dalam kode R. Misalnya, Anda bisa menyalin data
dari Excel dan menggunakan pintasan untuk menempelkannya sebagai data
frame di R.
3. Pengikisan Tabel HTML di R
Salah satu tugas dasar dalam web scraping adalah mengekstrak data
dari tabel HTML, yang sering ditemukan di halaman web dalam bentuk tabel
statistik, daftar produk, atau informasi lainnya. - Identifikasi
Situs Web: Pilih situs web yang berisi tabel HTML yang ingin
dikumpulkan. Pastikan situs tersebut memiliki izin untuk melakukan web
scraping agar menghindari pelanggaran hukum. - Pembacaan
HTML: Gunakan kode berikut untuk membaca konten HTML halaman
web:
url <- 'http://example.com/table' # Ganti dengan URL yang relevan
webpage <- read_html(url)
Fungsi read_html() membaca seluruh struktur HTML dari
halaman web yang ditentukan. - Ekstraksi Tabel: Gunakan
fungsi html_table() untuk mengekstrak tabel dari halaman
tersebut:
table <- webpage %>% html_table(fill = TRUE)
Parameter fill = TRUE memastikan tabel tetap terisi
meskipun ada sel yang kosong. - Penampilan Tabel:
Tampilkan tabel yang telah diekstrak untuk memverifikasi hasilnya:
4. Melakukan Perulangan Melalui Beberapa URL
Sering kali data tersebar di beberapa halaman web. Untuk mengumpulkan
data dari halaman-halaman tersebut, Anda dapat menggunakan perulangan di
R. - Buat Vektor URL: Siapkan daftar URL yang ingin
Anda kunjungi:
urls <- c('http://example.com/page1', 'http://example.com/page2')
- Ulangi URL: Gunakan fungsi
lapply()
untuk membaca dan mengekstrak data dari masing-masing URL:
results <- lapply(urls, function(url) {
webpage <- read_html(url)
table <- webpage %>% html_table(fill = TRUE)
return(table)
})
Fungsi lapply() menerapkan fungsi yang sama ke setiap
elemen dalam vektor urls. - Gabungkan
Hasil: Jika diperlukan, gabungkan semua hasil menjadi satu data
frame menggunakan fungsi bind_rows() dari paket dplyr:
combined_results <- bind_rows(results)
5. Pemilihan Node HTML dengan Bantuan ChatGPT di R
Kadang-kadang data yang diinginkan tidak terletak dalam tabel
melainkan elemen HTML lainnya seperti paragraf, heading, atau div dengan
kelas tertentu. - Pemeriksaan HTML: Klik kanan pada
elemen yang ingin dikikis dan pilih “Periksa” (Inspect) untuk melihat
struktur HTML. - Konsultasi dengan ChatGPT: Anda dapat
meminta bantuan ChatGPT dalam mengidentifikasi node HTML dengan
menyajikan struktur HTML tersebut dan menjelaskan data apa yang ingin
Anda ambil. - Ekstraksi Node: Setelah mendapatkan node
yang sesuai, gunakan fungsi html_nodes() untuk mengekstrak
konten:
nodes <- webpage %>% html_nodes('your_css_selector') # Ganti dengan selector yang sesuai
6. Kesimpulan
Laporan ini telah menguraikan langkah-langkah penting dalam melakukan
web scraping di R menggunakan paket rvest. Dengan mempraktikkan
teknik-teknik ini, pengguna dapat mengumpulkan dan mengelola data dari
berbagai situs web secara efektif. Keterampilan web scraping sangat
berguna dalam analisis data, riset pasar, dan pengumpulan informasi dari
berbagai sumber. Sebagai langkah lanjutan, disarankan untuk berlatih
dengan berbagai situs web dan format data guna meningkatkan keterampilan
web scraping. Dengan pemahaman yang baik tentang struktur HTML dan
penerapan teknik yang tepat, Anda dapat mengotomatiskan proses
pengumpulan data dengan lebih efisien.
