Data Collection (Web Scraping)

Data Science Programming

Chello Frhino Mike M (52240031)

March 13, 2025

foto

1 Web Scraping di R dengan ChatGPT

1.1 Tujuan

Setelah menyelesaikan panduan ini, Anda akan memiliki kemampuan untuk:

  • Memahami konsep fundamental web scraping serta cara menerapkannya dalam R.
  • Menggunakan paket rvest untuk mengumpulkan data dari halaman web.
  • Mengenali elemen HTML yang dibutuhkan dengan memanfaatkan Developer Tools di peramban.
  • Mengambil data dari tabel maupun elemen non-tabel pada situs web.
  • Menggunakan perulangan untuk mengotomatisasi pengambilan data dari berbagai halaman.
  • Membersihkan dan mengelola data hasil scraping agar lebih terstruktur di R.
  • Menghindari kendala umum serta mencegah pemblokiran saat melakukan web scraping.

1.2 Pendahuluan

  • Web scraping merupakan teknik untuk mengekstrak data dari situs web ketika informasi tersebut tidak tersedia dalam format terstruktur seperti CSV atau Excel.
  • Dalam panduan ini, kita akan memakai paket rvest di R untuk mengambil data dari halaman web.

1.3 Cara Cepat: Menyalin Data dari Tabel

  1. Instal paket data.pasta di R.
  2. Salin tabel langsung dari situs web.
  3. Gunakan fitur paste as data frame dari data.pasta untuk mengonversinya ke dalam format R.

1.4 Memulai Web Scraping dengan rvest

  1. Instal dan impor paket rvest:

    install.packages("rvest")  
    library(rvest)  
  2. Gunakan read_html("URL") untuk mengambil konten halaman web.

  3. Gunakan html_node() untuk menyeleksi elemen tertentu seperti tabel.

  4. Gunakan html_table() untuk mengubah tabel menjadi data frame yang dapat dianalisis di R.

1.5 Menemukan Elemen HTML dengan Developer Tools (F12)

  1. Tekan F12 di browser untuk membuka Developer Tools.
  2. Arahkan ke tab Elements.
  3. Gunakan Element Inspector untuk menyorot tabel atau elemen HTML lainnya.
  4. Identifikasi tag atau atribut yang berisi data yang akan diambil, seperti <table>, <div>, atau ID tertentu.

1.6 Contoh Scraping Tabel Data R Packages

  1. Buka halaman web yang berisi tabel data.

  2. Gunakan read_html() untuk membaca halaman tersebut:

    url <- "https://example.com"
    page <- read_html(url)
  3. Gunakan html_node() untuk memilih tabel:

    table <- page %>% html_node("table")
  4. Konversi ke format data frame:

    data <- table %>% html_table()

1.7 Mengambil Data dari Beberapa Halaman Web

  1. Siapkan daftar URL dari berbagai halaman yang ingin di-scrape.

  2. Gunakan perulangan for untuk membaca setiap halaman secara otomatis:

    urls <- c(
      "https://www.transfermarkt.com/germany/kader/verein/3262/saison_id/2023/plus/1",
      "https://www.transfermarkt.com/spain/kader/verein/3375/saison_id/2023/plus/1",
      "https://www.transfermarkt.com/italy/kader/verein/3376/saison_id/2023/plus/1",
      "https://www.transfermarkt.com/france/kader/verein/3374/saison_id/2023/plus/1"
    )
    
    for (url in urls) {
        halaman <- read_html(url)
        tabel <- halaman %>% html_node("table") %>% html_table()
        print(tabel)
    }
  3. Gabungkan data dari berbagai halaman ke dalam satu dataset untuk analisis lebih lanjut.

1.8 Mengambil Data Non-Tabel dari Website

  1. Gunakan Developer Tools (F12) untuk menemukan elemen HTML yang menyimpan data yang dibutuhkan.

  2. Gunakan html_nodes() untuk mengekstrak informasi spesifik seperti nama produk atau harga:

    judul <- halaman %>% html_node(".title-class") %>% html_text()
    harga <- halaman %>% html_node(".price-class") %>% html_text()
  3. Simpan data ke dalam data frame agar lebih mudah dianalisis:

    data_produk <- data.frame(Judul = judul, Harga = harga)

1.9 Scraping Banyak Halaman secara Otomatis

  1. Identifikasi pola URL yang berubah di setiap halaman (misalnya, perubahan nomor halaman).

  2. Gunakan perulangan untuk membuat daftar URL dan mengambil data secara otomatis:

    base_url <- "https://www.transfermarkt.com/germany/kader/verein/3262/saison_id/2023/plus/"
    semua_halaman <- list()
    
    for (i in 1:5) {
        url <- paste0(base_url, i)
        halaman <- read_html(url)
        tabel <- halaman %>% html_node("table") %>% html_table()
        semua_halaman[[i]] <- tabel
    }
    
    data_final <- do.call(rbind, semua_halaman)
  3. Gabungkan seluruh hasil scraping ke dalam satu dataset untuk analisis lebih lanjut.

1.10 Membersihkan Data Hasil Scraping

  1. Periksa kembali data untuk memastikan tidak ada nilai yang hilang atau format yang salah.
  2. Jika ada data yang tidak sesuai format, gunakan mutate() atau case_when() untuk mengubahnya.
  3. Gunakan separate() untuk memecah informasi dalam satu kolom menjadi beberapa kolom jika diperlukan.

1.11 Tips Menghindari Pemblokiran Saat Scraping

  • Jangan mengakses terlalu banyak halaman dalam waktu singkat.
  • Tambahkan jeda antar permintaan menggunakan Sys.sleep(2).
  • Hindari scraping situs yang memiliki perlindungan tinggi tanpa izin eksplisit.

2 Kesimpulan

Dengan memanfaatkan paket rvest di R, kita dapat mengambil data dari berbagai website, baik dalam bentuk tabel maupun elemen lain seperti teks dan harga. Memahami struktur HTML sangat penting agar scraping berjalan dengan baik. Selain itu, pastikan untuk menggunakan metode yang etis agar tidak melanggar kebijakan situs web.

---
title: "Data Collection (Web Scraping)"
subtitle: "Data Science Programming"
author: 
  - "Chello Frhino Mike M (52240031)"
date:  "`r format(Sys.Date(), '%B %d, %Y')`"
output:
  rmdformats::downcute:   # https://github.com/juba/rmdformats
    self_contained: true
    thumbnails: true
    lightbox: true
    gallery: true
    number_sections: true
    lib_dir: libs
    df_print: "paged"
    code_folding: "show"
    code_download: yes
    
---

<style>
  body {
    text-align: justify;
    background-color: white;
    overflow-x: auto;
    font-family: cursive;
  }
</style>

<img id="foto-author" src="C:/Users/USER/Documents/RBoxplot/img/WhatsApp Image 2024-11-24 at 3.29.41 PM.jpeg" alt="foto" style="width:300px; display: block; margin: auto;">

# **Web Scraping di R dengan ChatGPT**

## **Tujuan**  
Setelah menyelesaikan panduan ini, Anda akan memiliki kemampuan untuk:  

- Memahami konsep fundamental web scraping serta cara menerapkannya dalam R.  
- Menggunakan paket `rvest` untuk mengumpulkan data dari halaman web.  
- Mengenali elemen HTML yang dibutuhkan dengan memanfaatkan *Developer Tools* di peramban.  
- Mengambil data dari tabel maupun elemen non-tabel pada situs web.  
- Menggunakan perulangan untuk mengotomatisasi pengambilan data dari berbagai halaman.  
- Membersihkan dan mengelola data hasil scraping agar lebih terstruktur di R.  
- Menghindari kendala umum serta mencegah pemblokiran saat melakukan web scraping.

## **Pendahuluan**  
- Web scraping merupakan teknik untuk mengekstrak data dari situs web ketika informasi tersebut tidak tersedia dalam format terstruktur seperti CSV atau Excel.  
- Dalam panduan ini, kita akan memakai paket `rvest` di R untuk mengambil data dari halaman web.

## **Cara Cepat: Menyalin Data dari Tabel**  
1. Instal paket `data.pasta` di R.  
2. Salin tabel langsung dari situs web.  
3. Gunakan fitur *paste as data frame* dari `data.pasta` untuk mengonversinya ke dalam format R.  

## **Memulai Web Scraping dengan `rvest`**  
1. Instal dan impor paket `rvest`:  
   ```r
   install.packages("rvest")  
   library(rvest)  
   ```  
2. Gunakan `read_html("URL")` untuk mengambil konten halaman web.  
3. Gunakan `html_node()` untuk menyeleksi elemen tertentu seperti tabel.  
4. Gunakan `html_table()` untuk mengubah tabel menjadi *data frame* yang dapat dianalisis di R.  

## **Menemukan Elemen HTML dengan Developer Tools (F12)**  
1. Tekan **F12** di browser untuk membuka *Developer Tools*.  
2. Arahkan ke tab **Elements**.  
3. Gunakan **Element Inspector** untuk menyorot tabel atau elemen HTML lainnya.  
4. Identifikasi tag atau atribut yang berisi data yang akan diambil, seperti `<table>`, `<div>`, atau ID tertentu.

## **Contoh Scraping Tabel Data R Packages**
1. Buka halaman web yang berisi tabel data.
2. Gunakan `read_html()` untuk membaca halaman tersebut:
   ```r
   url <- "https://example.com"
   page <- read_html(url)
   ```
3. Gunakan `html_node()` untuk memilih tabel:
   ```r
   table <- page %>% html_node("table")
   ```
4. Konversi ke format *data frame*:
   ```r
   data <- table %>% html_table()
   ```

## **Mengambil Data dari Beberapa Halaman Web**  
1. Siapkan daftar URL dari berbagai halaman yang ingin di-scrape.  
2. Gunakan perulangan `for` untuk membaca setiap halaman secara otomatis:  

   ```r
   urls <- c(
     "https://www.transfermarkt.com/germany/kader/verein/3262/saison_id/2023/plus/1",
     "https://www.transfermarkt.com/spain/kader/verein/3375/saison_id/2023/plus/1",
     "https://www.transfermarkt.com/italy/kader/verein/3376/saison_id/2023/plus/1",
     "https://www.transfermarkt.com/france/kader/verein/3374/saison_id/2023/plus/1"
   )

   for (url in urls) {
       halaman <- read_html(url)
       tabel <- halaman %>% html_node("table") %>% html_table()
       print(tabel)
   }
   ```
3. Gabungkan data dari berbagai halaman ke dalam satu dataset untuk analisis lebih lanjut.  

## **Mengambil Data Non-Tabel dari Website**  
1. Gunakan **Developer Tools (F12)** untuk menemukan elemen HTML yang menyimpan data yang dibutuhkan.  
2. Gunakan `html_nodes()` untuk mengekstrak informasi spesifik seperti nama produk atau harga:  

   ```r
   judul <- halaman %>% html_node(".title-class") %>% html_text()
   harga <- halaman %>% html_node(".price-class") %>% html_text()
   ```

3. Simpan data ke dalam *data frame* agar lebih mudah dianalisis:  

   ```r
   data_produk <- data.frame(Judul = judul, Harga = harga)
   ```

## **Scraping Banyak Halaman secara Otomatis**  
1. Identifikasi pola URL yang berubah di setiap halaman (misalnya, perubahan nomor halaman).  
2. Gunakan perulangan untuk membuat daftar URL dan mengambil data secara otomatis:  

   ```r
   base_url <- "https://www.transfermarkt.com/germany/kader/verein/3262/saison_id/2023/plus/"
   semua_halaman <- list()

   for (i in 1:5) {
       url <- paste0(base_url, i)
       halaman <- read_html(url)
       tabel <- halaman %>% html_node("table") %>% html_table()
       semua_halaman[[i]] <- tabel
   }

   data_final <- do.call(rbind, semua_halaman)
   ```
3. Gabungkan seluruh hasil scraping ke dalam satu dataset untuk analisis lebih lanjut.  

## **Membersihkan Data Hasil Scraping**  
1. Periksa kembali data untuk memastikan tidak ada nilai yang hilang atau format yang salah.  
2. Jika ada data yang tidak sesuai format, gunakan `mutate()` atau `case_when()` untuk mengubahnya.  
3. Gunakan `separate()` untuk memecah informasi dalam satu kolom menjadi beberapa kolom jika diperlukan.  

## **Tips Menghindari Pemblokiran Saat Scraping**  
- Jangan mengakses terlalu banyak halaman dalam waktu singkat.  
- Tambahkan jeda antar permintaan menggunakan `Sys.sleep(2)`.  
- Hindari scraping situs yang memiliki perlindungan tinggi tanpa izin eksplisit.  

# **Kesimpulan**  
Dengan memanfaatkan paket `rvest` di R, kita dapat mengambil data dari berbagai website, baik dalam bentuk tabel maupun elemen lain seperti teks dan harga. Memahami struktur HTML sangat penting agar scraping berjalan dengan baik. Selain itu, pastikan untuk menggunakan metode yang etis agar tidak melanggar kebijakan situs web.

# **Refrensi**
- https://bookdown.org/dsciencelabs/data_science_programming/04-Data_Collection.html
- https://www.youtube.com/watch?v=MHdMFxUyGdk




