SAMPLING & SURVEY TECHNIQUES

LAPORAN WEB SCRAPING MENGGUNAKAN R

Logo

Pendahuluan

Laporan ini membahas proses web scraping menggunakan bahasa pemrograman R dengan bantuan paket rvest. Tujuan dari laporan ini adalah memberikan panduan praktis bagi pengguna yang belum memiliki pengetahuan mendalam tentang HTML namun ingin mengekstrak data dari situs web secara efisien. Web scraping adalah teknik otomatisasi yang digunakan untuk mengambil informasi dari halaman web dan mengubahnya menjadi data terstruktur. Dengan menggunakan R, pengguna dapat dengan mudah mengakses dan mengolah data yang terkandung dalam berbagai elemen HTML seperti tabel, teks, gambar, dan lainnya. Dalam laporan ini, dibahas langkah-langkah utama yang dilengkapi dengan contoh praktis untuk memudahkan pemahaman.

1. Persiapan Lingkungan di R

Sebelum memulai proses web scraping di R, diperlukan instalasi perangkat dan paket pendukung: - Instalasi R dan RStudio: Pastikan Anda telah mengunduh dan menginstal R dan RStudio di komputer Anda. R adalah bahasa pemrograman yang digunakan untuk analisis data, sedangkan RStudio adalah lingkungan pengembangan terintegrasi (IDE) yang mempermudah penulisan dan eksekusi kode R. - Instalasi Paket: Paket dalam R adalah kumpulan fungsi dan data yang digunakan untuk tugas tertentu. Untuk melakukan web scraping, kita memerlukan paket rvest untuk mengambil dan memproses HTML, serta dplyr untuk manipulasi data. Buka RStudio dan jalankan perintah berikut untuk menginstal paket yang dibutuhkan:

install.packages("rvest")
install.packages("dplyr")
  • Pemanggilan Paket: Setelah instalasi, panggil paket-paket tersebut dalam skrip R Anda untuk mulai menggunakannya:
library(rvest)
library(dplyr)

Memanggil paket berarti mengaktifkan fungsi-fungsi yang tersedia di dalamnya sehingga dapat digunakan dalam skrip Anda.

2. Penggunaan Paket Datapasta untuk Manajemen Data di R

Paket datapasta memudahkan pemformatan dan pengelolaan data di R. Paket ini sangat membantu ketika Anda perlu menyalin data dari sumber eksternal seperti spreadsheet atau tabel web dan mengubahnya menjadi kode R yang dapat langsung dieksekusi. - Instalasi Paket: Jalankan perintah berikut untuk menginstal datapasta:

install.packages("datapasta")
  • Penggunaan Pintasan: Paket ini menyediakan pintasan keyboard yang memungkinkan Anda dengan cepat mengonversi bingkai data dan objek lainnya ke dalam kode R. Misalnya, Anda bisa menyalin data dari Excel dan menggunakan pintasan untuk menempelkannya sebagai data frame di R.

3. Pengikisan Tabel HTML di R

Salah satu tugas dasar dalam web scraping adalah mengekstrak data dari tabel HTML, yang sering ditemukan di halaman web dalam bentuk tabel statistik, daftar produk, atau informasi lainnya. - Identifikasi Situs Web: Pilih situs web yang berisi tabel HTML yang ingin dikumpulkan. Pastikan situs tersebut memiliki izin untuk melakukan web scraping agar menghindari pelanggaran hukum. - Pembacaan HTML: Gunakan kode berikut untuk membaca konten HTML halaman web:

url <- 'http://example.com/table'  # Ganti dengan URL yang relevan
webpage <- read_html(url)

Fungsi read_html() membaca seluruh struktur HTML dari halaman web yang ditentukan. - Ekstraksi Tabel: Gunakan fungsi html_table() untuk mengekstrak tabel dari halaman tersebut:

table <- webpage %>% html_table(fill = TRUE)

Parameter fill = TRUE memastikan tabel tetap terisi meskipun ada sel yang kosong. - Penampilan Tabel: Tampilkan tabel yang telah diekstrak untuk memverifikasi hasilnya:

print(table)

4. Melakukan Perulangan Melalui Beberapa URL

Sering kali data tersebar di beberapa halaman web. Untuk mengumpulkan data dari halaman-halaman tersebut, Anda dapat menggunakan perulangan di R. - Buat Vektor URL: Siapkan daftar URL yang ingin Anda kunjungi:

urls <- c('http://example.com/page1', 'http://example.com/page2')
  • Ulangi URL: Gunakan fungsi lapply() untuk membaca dan mengekstrak data dari masing-masing URL:
results <- lapply(urls, function(url) {
    webpage <- read_html(url)
    table <- webpage %>% html_table(fill = TRUE)
    return(table)
})

Fungsi lapply() menerapkan fungsi yang sama ke setiap elemen dalam vektor urls. - Gabungkan Hasil: Jika diperlukan, gabungkan semua hasil menjadi satu data frame menggunakan fungsi bind_rows() dari paket dplyr:

combined_results <- bind_rows(results)

5. Pemilihan Node HTML dengan Bantuan ChatGPT di R

Kadang-kadang data yang diinginkan tidak terletak dalam tabel melainkan elemen HTML lainnya seperti paragraf, heading, atau div dengan kelas tertentu. - Pemeriksaan HTML: Klik kanan pada elemen yang ingin dikikis dan pilih “Periksa” (Inspect) untuk melihat struktur HTML. - Konsultasi dengan ChatGPT: Anda dapat meminta bantuan ChatGPT dalam mengidentifikasi node HTML dengan menyajikan struktur HTML tersebut dan menjelaskan data apa yang ingin Anda ambil. - Ekstraksi Node: Setelah mendapatkan node yang sesuai, gunakan fungsi html_nodes() untuk mengekstrak konten:

nodes <- webpage %>% html_nodes('your_css_selector')  # Ganti dengan selector yang sesuai

6. Kesimpulan

Laporan ini telah menguraikan langkah-langkah penting dalam melakukan web scraping di R menggunakan paket rvest. Dengan mempraktikkan teknik-teknik ini, pengguna dapat mengumpulkan dan mengelola data dari berbagai situs web secara efektif. Keterampilan web scraping sangat berguna dalam analisis data, riset pasar, dan pengumpulan informasi dari berbagai sumber. Sebagai langkah lanjutan, disarankan untuk berlatih dengan berbagai situs web dan format data guna meningkatkan keterampilan web scraping. Dengan pemahaman yang baik tentang struktur HTML dan penerapan teknik yang tepat, Anda dapat mengotomatiskan proses pengumpulan data dengan lebih efisien.

