
1. Pendahuluan
Web scraping adalah teknik pengambilan data dari situs web dan
mengubahnya menjadi format yang dapat dianalisis lebih lanjut. Dalam R,
kita dapat menggunakan paket rvest untuk mengotomatisasi
proses ini tanpa perlu memahami HTML secara mendalam.
Laporan ini akan membahas bagaimana menggunakan rvest
untuk mengambil data dari tabel yang tersedia di situs web serta
bagaimana mengekstrak informasi dari elemen HTML tertentu.
2. Instalasi dan Persiapan
Sebelum melakukan web scraping, pastikan R dan paket yang diperlukan
sudah terinstal.
Instalasi Paket:
install.packages("rvest") library(rvest)
Selain itu, kita juga dapat menggunakan paket tambahan seperti
tidyverse untuk manipulasi data:
install.packages("tidyverse") library(tidyverse)
3. Contoh Web Scraping
3.1 Mangambil Data dari Tabel Web
Jika sebuah situs memiliki tabel yang ingin kita ekstrak, kita dapat
menggunakan fungsi html_table(). Sebagai contoh, kita akan
mengambil data medali Olimpiade dari sebuah situs web.
Langkah-langkah:
- Menentukan URL situs web.
- Menggunakan
read_html() untuk membaca halaman web.
- Menemukan elemen tabel dan mengubahnya menjadi data frame.
# Load library yang dibutuhkan
library(rvest)
## Warning: package 'rvest' was built under R version 4.4.3
library(httr)
# URL yang akan di-scrape
url <- "https://example.com/olympic-medals"
# Gunakan GET dengan User-Agent agar tidak diblokir
response <- GET(url, user_agent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"))
# Cek apakah halaman dapat diakses
if (status_code(response) == 200) {
# Baca HTML dari konten response
page <- read_html(content(response, as = "text", encoding = "UTF-8"))
# Ambil data dari tabel pertama
data_medali <- page %>% html_node("table") %>% html_table(fill = TRUE)
# Tampilkan 6 baris pertama
head(data_medali)
} else {
print(paste("Gagal mengakses halaman. Status code:", status_code(response)))
}
## [1] "Gagal mengakses halaman. Status code: 404"
3.2 Mengambil Data dari Elemen HTML Spesifik
Terkadang, data yang kita butuhkan tidak dalam bentuk tabel tetapi
tersembunyi dalam elemen HTML tertentu. Kita bisa menggunakan
html_nodes() untuk mengambil data dari elemen tersebut.
Sebagai contoh, kita akan mengambil daftar nama paket R dari situs
web CRAN.
# Load library yang dibutuhkan
library(rvest)
library(httr)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
# URL halaman CRAN yang akan di-scrape
url <- "https://cran.r-project.org/web/packages/available_packages_by_name.html"
# Menggunakan GET dengan User-Agent agar tidak diblokir
response <- GET(url, user_agent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"))
# Cek apakah halaman dapat diakses
if (status_code(response) == 200) {
# Baca HTML dari konten response
page <- read_html(content(response, as = "text", encoding = "UTF-8"))
# Mengambil tabel pertama dari halaman
nama_paket <- page %>% html_nodes("table") %>% .[[1]] %>% html_table(fill = TRUE)
# Memastikan hanya mengambil kolom pertama dan menghapus header yang salah
nama_paket <- nama_paket[, 1, drop = FALSE]
# Menghapus baris kosong atau tidak valid
nama_paket <- nama_paket %>%
filter(nchar(X1) > 0) %>% # Hapus string kosong
filter(X1 != "X1") # Hapus header duplikat (jika ada)
# Menyimpan hasil tanpa mencetak langsung
nama_paket <- head(nama_paket, -1) # Menghapus baris terakhir dari output
} else {
print(paste("Gagal mengakses halaman. Status code:", status_code(response)))
}
3.3 Web Scraping dengan Loop
Untuk mengambil data dari beberapa halaman web, kita bisa menggunakan
loop. Sebagai contoh, kita akan mengambil data pemain dari beberapa tim
sepak bola.
# Load library yang dibutuhkan
library(rvest)
library(httr)
library(dplyr)
# Daftar URL yang akan di-scrape
urls <- c("https://example.com/team1",
"https://example.com/team2",
"https://example.com/team3")
# Inisialisasi data frame kosong untuk menyimpan hasil
data_pemain <- data.frame()
# Loop melalui setiap URL
for (url in urls) {
# Menggunakan GET dengan User-Agent agar tidak diblokir
response <- GET(url, user_agent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"))
# Periksa apakah halaman dapat diakses
if (status_code(response) == 200) {
# Baca HTML dari konten response
page <- read_html(content(response, as = "text", encoding = "UTF-8"))
# Mengambil tabel pertama dari halaman
tabel <- page %>% html_node("table") %>% html_table(fill = TRUE)
# Menambahkan kolom URL untuk identifikasi
tabel$Source <- url
# Menggabungkan data dengan data frame utama
data_pemain <- bind_rows(data_pemain, tabel)
} else {
message(paste("Gagal mengakses:", url, "- Status:", status_code(response)))
}
}
## Gagal mengakses: https://example.com/team1 - Status: 404
## Gagal mengakses: https://example.com/team2 - Status: 404
## Gagal mengakses: https://example.com/team3 - Status: 404
# Menampilkan beberapa baris pertama hasil scraping
head(data_pemain)
4. Tantangan dalam Web Scraping
- Beberapa situs memiliki perlindungan anti-scraping yang dapat
memblokir akses otomatis.
- Struktur HTML dapat berubah dari waktu ke waktu, sehingga skrip
harus diperbarui secara berkala.
- Untuk scraping data dalam jumlah besar, sebaiknya batasi jumlah
permintaan untuk menghindari pemblokiran.
5. Kesimpulan
Web scraping menggunakan rvest di R memungkinkan
pengambilan data dari berbagai sumber web dengan mudah. Dengan memahami
dasar-dasar rvest, kita dapat mengekstrak tabel, teks, dan
elemen HTML lainnya untuk dianalisis lebih lanjut.
