Code
Data Collection (Web Scraping)
Data Science Programming
Chello Frhino
Mike M (52240031)
March
13, 2025
Web Scraping di
R dengan ChatGPT
Tujuan
Setelah menyelesaikan panduan ini, Anda akan memiliki kemampuan
untuk:
Memahami konsep fundamental web scraping serta cara menerapkannya
dalam R.
Menggunakan paket rvest
untuk mengumpulkan data dari
halaman web.
Mengenali elemen HTML yang dibutuhkan dengan memanfaatkan
Developer Tools di peramban.
Mengambil data dari tabel maupun elemen non-tabel pada situs
web.
Menggunakan perulangan untuk mengotomatisasi pengambilan data dari
berbagai halaman.
Membersihkan dan mengelola data hasil scraping agar lebih
terstruktur di R.
Menghindari kendala umum serta mencegah pemblokiran saat melakukan
web scraping.
Pendahuluan
Web scraping merupakan teknik untuk mengekstrak data dari situs web
ketika informasi tersebut tidak tersedia dalam format terstruktur
seperti CSV atau Excel.
Dalam panduan ini, kita akan memakai paket rvest
di R
untuk mengambil data dari halaman web.
Cara Cepat:
Menyalin Data dari Tabel
Instal paket data.pasta
di R.
Salin tabel langsung dari situs web.
Gunakan fitur paste as data frame dari
data.pasta
untuk mengonversinya ke dalam format R.
Memulai Web
Scraping dengan rvest
Instal dan impor paket rvest
:
install.packages("rvest")
library(rvest)
Gunakan read_html("URL")
untuk mengambil konten
halaman web.
Gunakan html_node()
untuk menyeleksi elemen tertentu
seperti tabel.
Gunakan html_table()
untuk mengubah tabel menjadi
data frame yang dapat dianalisis di R.
Contoh
Scraping Tabel Data R Packages
Buka halaman web yang berisi tabel data.
Gunakan read_html()
untuk membaca halaman
tersebut:
url <- "https://example.com"
page <- read_html(url)
Gunakan html_node()
untuk memilih tabel:
table <- page %>% html_node("table")
Konversi ke format data frame :
data <- table %>% html_table()
Mengambil
Data dari Beberapa Halaman Web
Siapkan daftar URL dari berbagai halaman yang ingin
di-scrape.
Gunakan perulangan for
untuk membaca setiap halaman
secara otomatis:
urls <- c(
"https://www.transfermarkt.com/germany/kader/verein/3262/saison_id/2023/plus/1",
"https://www.transfermarkt.com/spain/kader/verein/3375/saison_id/2023/plus/1",
"https://www.transfermarkt.com/italy/kader/verein/3376/saison_id/2023/plus/1",
"https://www.transfermarkt.com/france/kader/verein/3374/saison_id/2023/plus/1"
)
for (url in urls) {
halaman <- read_html(url)
tabel <- halaman %>% html_node("table") %>% html_table()
print(tabel)
}
Gabungkan data dari berbagai halaman ke dalam satu dataset untuk
analisis lebih lanjut.
Mengambil
Data Non-Tabel dari Website
Gunakan Developer Tools (F12) untuk menemukan
elemen HTML yang menyimpan data yang dibutuhkan.
Gunakan html_nodes()
untuk mengekstrak informasi
spesifik seperti nama produk atau harga:
judul <- halaman %>% html_node(".title-class") %>% html_text()
harga <- halaman %>% html_node(".price-class") %>% html_text()
Simpan data ke dalam data frame agar lebih mudah
dianalisis:
data_produk <- data.frame(Judul = judul, Harga = harga)
Scraping
Banyak Halaman secara Otomatis
Identifikasi pola URL yang berubah di setiap halaman (misalnya,
perubahan nomor halaman).
Gunakan perulangan untuk membuat daftar URL dan mengambil data
secara otomatis:
base_url <- "https://www.transfermarkt.com/germany/kader/verein/3262/saison_id/2023/plus/"
semua_halaman <- list()
for (i in 1:5) {
url <- paste0(base_url, i)
halaman <- read_html(url)
tabel <- halaman %>% html_node("table") %>% html_table()
semua_halaman[[i]] <- tabel
}
data_final <- do.call(rbind, semua_halaman)
Gabungkan seluruh hasil scraping ke dalam satu dataset untuk
analisis lebih lanjut.
Membersihkan
Data Hasil Scraping
Periksa kembali data untuk memastikan tidak ada nilai yang hilang
atau format yang salah.
Jika ada data yang tidak sesuai format, gunakan
mutate()
atau case_when()
untuk
mengubahnya.
Gunakan separate()
untuk memecah informasi dalam satu
kolom menjadi beberapa kolom jika diperlukan.
Tips
Menghindari Pemblokiran Saat Scraping
Jangan mengakses terlalu banyak halaman dalam waktu singkat.
Tambahkan jeda antar permintaan menggunakan
Sys.sleep(2)
.
Hindari scraping situs yang memiliki perlindungan tinggi tanpa izin
eksplisit.
Kesimpulan
Dengan memanfaatkan paket rvest
di R, kita dapat
mengambil data dari berbagai website, baik dalam bentuk tabel maupun
elemen lain seperti teks dan harga. Memahami struktur HTML sangat
penting agar scraping berjalan dengan baik. Selain itu, pastikan untuk
menggunakan metode yang etis agar tidak melanggar kebijakan situs
web.
