DATA COLLECTION

PRATIKUM 4 WEB SCRAPING DATA WITH R

Fikaaaa.jpg


Praktikum 4: Implementasi Web Scraping dalam Analisis Data

1. Latar Belakang

Dalam dunia digital saat ini, banyak informasi yang hanya tersedia di situs web dalam bentuk HTML dan tidak disediakan dalam format terstruktur seperti CSV atau API. Web scraping menjadi salah satu teknik yang memungkinkan pengambilan data secara otomatis, sehingga memudahkan proses analisis data.

Bahasa pemrograman R menyediakan berbagai alat yang dapat digunakan untuk scraping data dari situs web dengan lebih efisien. Praktikum ini bertujuan untuk mengeksplorasi berbagai metode web scraping menggunakan R, mulai dari teknik dasar hingga scraping data dari situs dengan struktur yang kompleks. Selain itu, penggunaan teknologi AI seperti ChatGPT juga akan dieksplorasi sebagai alat bantu dalam memahami elemen HTML dan optimasi kode scraping.


2. Perangkat dan Paket yang Digunakan

Untuk melaksanakan web scraping dalam R, beberapa perangkat dan pustaka berikut perlu dipersiapkan:

  1. R dan RStudio → Sebagai lingkungan pemrograman utama.
  2. Paket rvest → Digunakan untuk mengambil dan mengekstrak data dari halaman web.
  3. Paket tidyverse → Untuk manipulasi data setelah scraping.
  4. ChatGPT → Sebagai alat bantu untuk memahami struktur HTML dan menulis kode scraping secara lebih efisien.

Instalasi Paket

Sebelum melakukan scraping, pastikan semua paket telah diinstal di R dengan menjalankan perintah berikut:

install.packages("rvest")  # Paket utama untuk scraping
install.packages("tidyverse")  # Paket tambahan untuk manipulasi data

Kemudian, pustaka yang dibutuhkan dapat dipanggil dengan:

library(rvest)
library(tidyverse)

3. Teknik dan Metode Web Scraping

3.1 Ekstraksi Data dari Tabel Web

Banyak situs menyediakan informasi dalam bentuk tabel yang dapat langsung diambil menggunakan R tanpa perlu memahami struktur HTML secara mendalam.

Langkah-langkahnya:

  1. Buka situs web yang memiliki tabel data.
  2. Gunakan fitur Inspect Element untuk memastikan lokasi tabel dalam struktur HTML.
  3. Gunakan html_table() untuk mengekstrak data tabel ke dalam format data frame.

Contoh Kode:

url <- "https://www.worldometers.info/coronavirus/"
page <- read_html(url)

table <- page %>% html_node("table") %>% html_table(fill = TRUE)

head(table)  # Menampilkan beberapa baris pertama dari tabel

3.3 Scraping dari Banyak Halaman Secara Otomatis

Beberapa situs memiliki data yang tersebar di berbagai halaman. Untuk mengambil data dari beberapa halaman, kita bisa menggunakan loop dan menyusun dataset akhir secara otomatis.

Langkah-langkahnya:

  1. Tentukan pola URL yang digunakan untuk navigasi antar halaman.
  2. Gunakan loop for untuk mengakses setiap halaman dan mengambil data.
  3. Gabungkan hasil scraping dari semua halaman menjadi satu dataset besar.

Contoh Kode:

base_url <- "https://example.com/products?page="
all_data <- list()

for (i in 1:5) {
  page <- read_html(paste0(base_url, i))
  names <- page %>% html_nodes(".product-name") %>% html_text()
  prices <- page %>% html_nodes(".product-price") %>% html_text()
  
  all_data[[i]] <- data.frame(Name = names, Price = prices)
}

final_data <- bind_rows(all_data)

print(final_data)  # Menampilkan hasil scraping

3.4 Pemanfaatan ChatGPT dalam Web Scraping

Ketika menghadapi situs dengan struktur HTML yang kompleks atau sulit dipahami, ChatGPT dapat digunakan sebagai alat bantu untuk:

  • Memahami hierarki elemen HTML dalam sebuah halaman web.
  • Memberikan rekomendasi mengenai tag dan atribut yang relevan.
  • Menyusun kode scraping berdasarkan struktur HTML yang ada.

Cara Menggunakannya:

  1. Salin kode HTML dari elemen yang ingin diambil.
  2. Minta bantuan ChatGPT untuk menentukan cara scraping elemen tersebut.
  3. Gunakan rekomendasi yang diberikan untuk menulis kode scraping.

Contoh Kode dengan Bantuan ChatGPT:

Misalnya, jika struktur HTML suatu situs berisi:

html
<h2 class="news-title">Judul Berita</h2>

ChatGPT dapat menyarankan penggunaan:

titles <- page %>% html_nodes(".news-title") %>% html_text()

Cara ini memudahkan proses scraping tanpa harus memahami HTML secara mendalam.


4. Tantangan dalam Web Scraping dan Solusinya

Saat melakukan web scraping, ada beberapa kendala yang sering dihadapi:

  1. Pemblokiran oleh Situs Web
    • Beberapa situs mendeteksi aktivitas scraping dan membatasi akses.
    • Solusi: Gunakan Sys.sleep() untuk menambahkan jeda antar request atau ubah user-agent agar menyerupai browser biasa.
  2. Struktur HTML yang Kompleks
    • Data tersembunyi dalam elemen HTML yang sulit diakses.
    • Solusi: Gunakan Inspect Element atau minta bantuan ChatGPT untuk memahami pola HTML yang digunakan.
  3. Data yang Dimuat Secara Dinamis
    • Beberapa situs memuat data menggunakan JavaScript, sehingga tidak langsung tersedia dalam kode HTML.
    • Solusi: Gunakan Selenium atau cari tahu apakah situs memiliki API yang bisa digunakan.

5. Kesimpulan

Web scraping adalah teknik yang sangat berguna dalam pengumpulan data dari berbagai situs web. Dengan memanfaatkan paket rvest, kita dapat dengan mudah mengekstrak data dalam format tabel maupun non-tabel. Jika situs memiliki struktur HTML yang kompleks, ChatGPT dapat digunakan sebagai alat bantu untuk memahami dan menyusun kode scraping dengan lebih cepat.

Namun, perlu diingat bahwa web scraping harus dilakukan dengan etika yang baik, termasuk menghormati aturan yang ditetapkan oleh pemilik situs. Dengan pemahaman yang benar, web scraping dapat menjadi alat yang sangat bermanfaat dalam analisis data berbasis web.


Referensi

  1. Exsight. (2025, 1 Januari). Web Scraping dengan R: Tutorial Praktis. Diakses pada 12 Maret 2025, dari https://exsight.id/blog/2025/01/01/web-scraping-dengan-r-tutorial-praktis/

  2. Algoritma. (2024, 20 Desember). Panduan Lengkap Web Scraping: Teknik dan Implementasi. Diakses pada 12 Maret 2025, dari https://blog.algorit.ma/web-scraping-2/

  3. CapSolver. (2024, 15 November). Mengenal Web Scraping dengan R dan Cara Menghindari Blokir. Diakses pada 12 Maret 2025, dari https://www.capsolver.com/id/blog/All/scraping-r

