Berdasarkan video yang saya tonton, saya mempelajari bahwa pengikisan
data menggunakan R dan paket rvest adalah proses yang efektif untuk
mengambil informasi dari situs web. Dalam video tersebut, dijelaskan
langkah-langkah mulai dari instalasi paket yang diperlukan, pengambilan
data dari halaman web, hingga penyimpanan data dalam format yang dapat
digunakan, seperti CSV atau Excel. Selain itu, video juga menyoroti
pentingnya memahami struktur HTML untuk mengekstrak data yang
diinginkan.
2. Mengapa Web Scraping Itu Penting?
✅ Menghemat waktu dibandingkan menyalin data manual.
✅ Bisa digunakan di berbagai keperluan, seperti analisis data, riset
pasar, atau pengambilan harga kompetitor.
✅ Dapat digunakan untuk mengumpulkan data dari berbagai sumber yang
tidak tersedia dalam format yang mudah diakses.
3. Bagaimana Cara Web Scraping Bekerja?
Proses scraping dilakukan dalam beberapa langkah utama:
1️⃣ Mengakses halaman web menggunakan fungsi read_html()
dari paket rvest.
2️⃣ Menganalisis struktur HTML untuk menemukan elemen yang
dibutuhkan.
3️⃣ Mengekstrak data dari elemen yang ditemukan.
4️⃣ Menyimpan hasil scraping ke dalam file Excel atau CSV.
Berikut adalah langkah-langkah yang disampaikan dalam video:
3.1. Instalasi Paket
Sebelum menjalankan kode, harus menginstal paket yang diperlukan.
Caranya, buka R atau RStudio lalu ketik:
Loop ini digunakan untuk mengakses beberapa URL dan mengekstrak
tabel dari setiap halaman.
3.5. Menyimpan Data ke Format yang Diinginkan
Setelah data dikumpulkan, kita dapat menyimpannya ke dalam format CSV
atau Excel:
write.csv(euro24, "euro24_data.csv")
4. Berikut ini adalah kode lengkapnya
# Instalasi dan pemanggilan paketinstall.packages("rvest")library(rvest)# Mengambil data dari URLurl <-"https://cran.r-project.org/web/pakages/available_packages_by_name.html"html_page <-read_html(x = url)CRAN_packages <- html_page %>%html_node(xpath ='//table') %>%html_table()# Menggunakan loop untuk mengambil data dari beberapa halamanreference_df <-data.frame(id =1:4,code =c("GER", "ESP", "ITA", "FRA"),country =c("Germany", "Spain", "Italy", "France"),url =c("https://www.transfermarkt.com/germany/kader/verein/3262/saison_id/2023/plus/1","https://www.transfermarkt.com/spain/kader/verein/3375/saison_id/2023/plus/1","https://www.transfermarkt.com/italy/kader/verein/3376/saison_id/2023/plus/1","https://www.transfermarkt.com/france/kader/verein/3377/saison_id/2023/plus/1"))for (i in1:nrow(reference_df)) { temp_url <- reference_df$url[i] temp_page <-read_html(temp_url) temp_table <- temp_page %>%html_node(xpath ='//*[@id="yw1"]/table') %>%html_table()# Proses pembersihan dan pengolahan data}# Menyimpan data ke CSVwrite.csv(euro24, "euro24_data.csv")
5. Kesimpulan
Web scraping adalah teknik otomatisasi yang memungkinkan kita
mengambil data dari situs web menggunakan R dan paket rvest. Proses ini
sangat berguna untuk berbagai keperluan, seperti analisis data, riset
pasar, dan pemantauan harga kompetitor. Dari tutorial yang diikuti,
langkah-langkah utama dalam web scraping meliputi:
Instalasi paket yang dibutuhkan.
Mengakses halaman web dengan read_html().
Menganalisis struktur HTML untuk menemukan elemen yang
dibutuhkan.
Mengekstrak data dari elemen yang ditemukan.
Menyimpan data ke format CSV atau Excel.
Dengan pemahaman yang baik tentang cara kerja web scraping, kita
dapat mengumpulkan data yang diperlukan untuk analisis lebih lanjut
dengan lebih efisien.