Pengantar Web Scraping dengan R dan Paket rvest

Profile

1. Pendahuluan

Web scraping adalah teknik pengambilan data dari situs web dan mengubahnya menjadi format yang dapat dianalisis lebih lanjut. Dalam R, kita dapat menggunakan paket rvest untuk mengotomatisasi proses ini tanpa perlu memahami HTML secara mendalam.

Laporan ini akan membahas bagaimana menggunakan rvest untuk mengambil data dari tabel yang tersedia di situs web serta bagaimana mengekstrak informasi dari elemen HTML tertentu.

2. Instalasi dan Persiapan

Sebelum melakukan web scraping, pastikan R dan paket yang diperlukan sudah terinstal.

Instalasi Paket:

install.packages("rvest") library(rvest)

Selain itu, kita juga dapat menggunakan paket tambahan seperti tidyverse untuk manipulasi data:

install.packages("tidyverse") library(tidyverse)

3. Contoh Web Scraping

3.1 Mangambil Data dari Tabel Web

Jika sebuah situs memiliki tabel yang ingin kita ekstrak, kita dapat menggunakan fungsi html_table(). Sebagai contoh, kita akan mengambil data medali Olimpiade dari sebuah situs web.

Langkah-langkah:

  1. Menentukan URL situs web.
  2. Menggunakan read_html() untuk membaca halaman web.
  3. Menemukan elemen tabel dan mengubahnya menjadi data frame.
# Load library yang dibutuhkan
library(rvest)
## Warning: package 'rvest' was built under R version 4.4.3
library(httr)

# URL yang akan di-scrape
url <- "https://example.com/olympic-medals"

# Gunakan GET dengan User-Agent agar tidak diblokir
response <- GET(url, user_agent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"))

# Cek apakah halaman dapat diakses
if (status_code(response) == 200) {
  # Baca HTML dari konten response
  page <- read_html(content(response, as = "text", encoding = "UTF-8"))
  
  # Ambil data dari tabel pertama
  data_medali <- page %>% html_node("table") %>% html_table(fill = TRUE)
  
  # Tampilkan 6 baris pertama
  head(data_medali)
} else {
  print(paste("Gagal mengakses halaman. Status code:", status_code(response)))
}
## [1] "Gagal mengakses halaman. Status code: 404"

3.2 Mengambil Data dari Elemen HTML Spesifik

Terkadang, data yang kita butuhkan tidak dalam bentuk tabel tetapi tersembunyi dalam elemen HTML tertentu. Kita bisa menggunakan html_nodes() untuk mengambil data dari elemen tersebut.

Sebagai contoh, kita akan mengambil daftar nama paket R dari situs web CRAN.

# Load library yang dibutuhkan
library(rvest)
library(httr)
library(dplyr)  
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
# URL halaman CRAN yang akan di-scrape
url <- "https://cran.r-project.org/web/packages/available_packages_by_name.html"

# Menggunakan GET dengan User-Agent agar tidak diblokir
response <- GET(url, user_agent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"))

# Cek apakah halaman dapat diakses
if (status_code(response) == 200) {
  # Baca HTML dari konten response
  page <- read_html(content(response, as = "text", encoding = "UTF-8"))
  
  # Mengambil tabel pertama dari halaman
  nama_paket <- page %>% html_nodes("table") %>% .[[1]] %>% html_table(fill = TRUE)
  
  # Memastikan hanya mengambil kolom pertama dan menghapus header yang salah
  nama_paket <- nama_paket[, 1, drop = FALSE]
  
  # Menghapus baris kosong atau tidak valid
  nama_paket <- nama_paket %>% 
    filter(nchar(X1) > 0) %>%  # Hapus string kosong
    filter(X1 != "X1")         # Hapus header duplikat (jika ada)
  
  # Menyimpan hasil tanpa mencetak langsung
  nama_paket <- head(nama_paket, -1)  # Menghapus baris terakhir dari output
} else {
  print(paste("Gagal mengakses halaman. Status code:", status_code(response)))
}

3.3 Web Scraping dengan Loop

Untuk mengambil data dari beberapa halaman web, kita bisa menggunakan loop. Sebagai contoh, kita akan mengambil data pemain dari beberapa tim sepak bola.

# Load library yang dibutuhkan
library(rvest)
library(httr)
library(dplyr)

# Daftar URL yang akan di-scrape
urls <- c("https://example.com/team1", 
          "https://example.com/team2", 
          "https://example.com/team3")

# Inisialisasi data frame kosong untuk menyimpan hasil
data_pemain <- data.frame()

# Loop melalui setiap URL
for (url in urls) {
  # Menggunakan GET dengan User-Agent agar tidak diblokir
  response <- GET(url, user_agent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"))
  
  # Periksa apakah halaman dapat diakses
  if (status_code(response) == 200) {
    # Baca HTML dari konten response
    page <- read_html(content(response, as = "text", encoding = "UTF-8"))
    
    # Mengambil tabel pertama dari halaman
    tabel <- page %>% html_node("table") %>% html_table(fill = TRUE)
    
    # Menambahkan kolom URL untuk identifikasi
    tabel$Source <- url
    
    # Menggabungkan data dengan data frame utama
    data_pemain <- bind_rows(data_pemain, tabel)
  } else {
    message(paste("Gagal mengakses:", url, "- Status:", status_code(response)))
  }
}
## Gagal mengakses: https://example.com/team1 - Status: 404
## Gagal mengakses: https://example.com/team2 - Status: 404
## Gagal mengakses: https://example.com/team3 - Status: 404
# Menampilkan beberapa baris pertama hasil scraping
head(data_pemain)

4. Tantangan dalam Web Scraping

  • Beberapa situs memiliki perlindungan anti-scraping yang dapat memblokir akses otomatis.
  • Struktur HTML dapat berubah dari waktu ke waktu, sehingga skrip harus diperbarui secara berkala.
  • Untuk scraping data dalam jumlah besar, sebaiknya batasi jumlah permintaan untuk menghindari pemblokiran.

5. Kesimpulan

Web scraping menggunakan rvest di R memungkinkan pengambilan data dari berbagai sumber web dengan mudah. Dengan memahami dasar-dasar rvest, kita dapat mengekstrak tabel, teks, dan elemen HTML lainnya untuk dianalisis lebih lanjut.

