Tugas Individu

Web Scraping: Mengambil Data dari Website Secara Otomatis

Foto Diri

Web Scraping: Mengambil Data dari Website Secara Otomatis (Menggunakan R dan Paket rvest)

Link Percobaan saya: https://ae34e25d5a3a4a3991996a3c98aa4d3f.app.posit.cloud/?view=source_window_wwgvmxwiyfud4


1. Pendahuluan

Berdasarkan video yang saya tonton, saya mempelajari bahwa pengikisan data menggunakan R dan paket rvest adalah proses yang efektif untuk mengambil informasi dari situs web. Dalam video tersebut, dijelaskan langkah-langkah mulai dari instalasi paket yang diperlukan, pengambilan data dari halaman web, hingga penyimpanan data dalam format yang dapat digunakan, seperti CSV atau Excel. Selain itu, video juga menyoroti pentingnya memahami struktur HTML untuk mengekstrak data yang diinginkan.


2. Mengapa Web Scraping Itu Penting?

✅ Menghemat waktu dibandingkan menyalin data manual.
✅ Bisa digunakan di berbagai keperluan, seperti analisis data, riset pasar, atau pengambilan harga kompetitor.
✅ Dapat digunakan untuk mengumpulkan data dari berbagai sumber yang tidak tersedia dalam format yang mudah diakses.


3. Bagaimana Cara Web Scraping Bekerja?

Proses scraping dilakukan dalam beberapa langkah utama:
1️⃣ Mengakses halaman web menggunakan fungsi read_html() dari paket rvest.
2️⃣ Menganalisis struktur HTML untuk menemukan elemen yang dibutuhkan.
3️⃣ Mengekstrak data dari elemen yang ditemukan.
4️⃣ Menyimpan hasil scraping ke dalam file Excel atau CSV.

Berikut adalah langkah-langkah yang disampaikan dalam video:

3.1. Instalasi Paket

Sebelum menjalankan kode, harus menginstal paket yang diperlukan. Caranya, buka R atau RStudio lalu ketik:

install.packages("rvest")
install.packages("datapasta")
  • rvest: Untuk melakukan web scraping.
  • datapasta: Untuk mempermudah proses menempelkan data ke dalam R.

3.2. Mengimpor Paket

library(rvest)
library(datapasta)

Kode ini memasukkan (import) paket yang sudah kita instal tadi ke dalam program supaya bisa digunakan.


3.3. Mengambil Data dari Tabel

url <- "https://cran.r-project.org/web/pakages/available_packages_by_name.html"
html_page <- read_html(x = url)
CRAN_packages <- html_page %>% html_node(xpath = '//table') %>% html_table()
  • read_html(): Mengambil halaman web.
  • html_node(): Mencari elemen tabel menggunakan XPath.
  • html_table(): Mengonversi elemen tabel menjadi data frame.

3.4. Menggunakan Loop untuk Mengambil Data dari Beberapa Halaman

reference_df <- data.frame(
  id = 1:4,
  code = c("GER", "ESP", "ITA", "FRA"),
  country = c("Germany", "Spain", "Italy", "France"),
  url = c("https://www.transfermarkt.com/germany/kader/verein/3262/saison_id/2023/plus/1",
           "https://www.transfermarkt.com/spain/kader/verein/3375/saison_id/2023/plus/1",
           "https://www.transfermarkt.com/italy/kader/verein/3376/saison_id/2023/plus/1",
           "https://www.transfermarkt.com/france/kader/verein/3377/saison_id/2023/plus/1")
)

for (i in 1:nrow(reference_df)) {
  temp_url <- reference_df$url[i]
  temp_page <- read_html(temp_url)
  temp_table <- temp_page %>% html_node(xpath = '//*[@id="yw1"]/table') %>% html_table()
  # Proses pembersihan dan pengolahan data
}
  • Loop ini digunakan untuk mengakses beberapa URL dan mengekstrak tabel dari setiap halaman.

3.5. Menyimpan Data ke Format yang Diinginkan

Setelah data dikumpulkan, kita dapat menyimpannya ke dalam format CSV atau Excel:

write.csv(euro24, "euro24_data.csv")

4. Berikut ini adalah kode lengkapnya

# Instalasi dan pemanggilan paket
install.packages("rvest")
library(rvest)

# Mengambil data dari URL
url <- "https://cran.r-project.org/web/pakages/available_packages_by_name.html"
html_page <- read_html(x = url)
CRAN_packages <- html_page %>% html_node(xpath = '//table') %>% html_table()

# Menggunakan loop untuk mengambil data dari beberapa halaman
reference_df <- data.frame(
  id = 1:4,
  code = c("GER", "ESP", "ITA", "FRA"),
  country = c("Germany", "Spain", "Italy", "France"),
  url = c("https://www.transfermarkt.com/germany/kader/verein/3262/saison_id/2023/plus/1",
           "https://www.transfermarkt.com/spain/kader/verein/3375/saison_id/2023/plus/1",
           "https://www.transfermarkt.com/italy/kader/verein/3376/saison_id/2023/plus/1",
           "https://www.transfermarkt.com/france/kader/verein/3377/saison_id/2023/plus/1")
)

for (i in 1:nrow(reference_df)) {
  temp_url <- reference_df$url[i]
  temp_page <- read_html(temp_url)
  temp_table <- temp_page %>% html_node(xpath = '//*[@id="yw1"]/table') %>% html_table()
  # Proses pembersihan dan pengolahan data
}

# Menyimpan data ke CSV
write.csv(euro24, "euro24_data.csv")

5. Kesimpulan

Web scraping adalah teknik otomatisasi yang memungkinkan kita mengambil data dari situs web menggunakan R dan paket rvest. Proses ini sangat berguna untuk berbagai keperluan, seperti analisis data, riset pasar, dan pemantauan harga kompetitor. Dari tutorial yang diikuti, langkah-langkah utama dalam web scraping meliputi:

  1. Instalasi paket yang dibutuhkan.
  2. Mengakses halaman web dengan read_html().
  3. Menganalisis struktur HTML untuk menemukan elemen yang dibutuhkan.
  4. Mengekstrak data dari elemen yang ditemukan.
  5. Menyimpan data ke format CSV atau Excel.

Dengan pemahaman yang baik tentang cara kerja web scraping, kita dapat mengumpulkan data yang diperlukan untuk analisis lebih lanjut dengan lebih efisien.

---
title: "Tugas Individu "
subtitle: "Web Scraping: Mengambil Data dari Website Secara Otomatis"
author: "Olivia Meilinda Davtin Pesireron"
date: "`r format(Sys.Date(), '%B %d, %Y')`"
output:
  rmdformats::readthedown:   # https://github.com/juba/rmdformats
    self_contained: true
    thumbnails: true
    lightbox: true
    gallery: true
    lib_dir: libs
    df_print: "paged"
    code_folding: "show"
    code_download: yes 
    css: "style.css"
---

<img src="IMG-20250212-WA0006.jpg" width="300" style="display: block; margin: auto;" alt="Foto Diri">
---

# **Web Scraping: Mengambil Data dari Website Secara Otomatis (Menggunakan R dan Paket rvest)**

Link Percobaan saya: https://ae34e25d5a3a4a3991996a3c98aa4d3f.app.posit.cloud/?view=source_window_wwgvmxwiyfud4

---

## 1. Pendahuluan

Berdasarkan video yang saya tonton, saya mempelajari bahwa pengikisan data menggunakan R dan paket rvest adalah proses yang efektif untuk mengambil informasi dari situs web. Dalam video tersebut, dijelaskan langkah-langkah mulai dari instalasi paket yang diperlukan, pengambilan data dari halaman web, hingga penyimpanan data dalam format yang dapat digunakan, seperti CSV atau Excel. Selain itu, video juga menyoroti pentingnya memahami struktur HTML untuk mengekstrak data yang diinginkan.

---

## 2. Mengapa Web Scraping Itu Penting?

✅ Menghemat waktu dibandingkan menyalin data manual.  
✅ Bisa digunakan di berbagai keperluan, seperti analisis data, riset pasar, atau pengambilan harga kompetitor.  
✅ Dapat digunakan untuk mengumpulkan data dari berbagai sumber yang tidak tersedia dalam format yang mudah diakses.

---

## 3. Bagaimana Cara Web Scraping Bekerja?

Proses scraping dilakukan dalam beberapa langkah utama:  
1️⃣ Mengakses halaman web menggunakan fungsi `read_html()` dari paket rvest.  
2️⃣ Menganalisis struktur HTML untuk menemukan elemen yang dibutuhkan.  
3️⃣ Mengekstrak data dari elemen yang ditemukan.  
4️⃣ Menyimpan hasil scraping ke dalam file Excel atau CSV.  

Berikut adalah langkah-langkah yang disampaikan dalam video:

### 3.1. Instalasi Paket

Sebelum menjalankan kode, harus menginstal paket yang diperlukan. Caranya, buka R atau RStudio lalu ketik:

```R
install.packages("rvest")
install.packages("datapasta")
```

- `rvest`: Untuk melakukan web scraping.
- `datapasta`: Untuk mempermudah proses menempelkan data ke dalam R.

---

### 3.2. Mengimpor Paket

```R
library(rvest)
library(datapasta)
```

Kode ini memasukkan (import) paket yang sudah kita instal tadi ke dalam program supaya bisa digunakan.

---

### 3.3. Mengambil Data dari Tabel

```R
url <- "https://cran.r-project.org/web/pakages/available_packages_by_name.html"
html_page <- read_html(x = url)
CRAN_packages <- html_page %>% html_node(xpath = '//table') %>% html_table()
```

- `read_html()`: Mengambil halaman web.
- `html_node()`: Mencari elemen tabel menggunakan XPath.
- `html_table()`: Mengonversi elemen tabel menjadi data frame.

---

### 3.4. Menggunakan Loop untuk Mengambil Data dari Beberapa Halaman

```R
reference_df <- data.frame(
  id = 1:4,
  code = c("GER", "ESP", "ITA", "FRA"),
  country = c("Germany", "Spain", "Italy", "France"),
  url = c("https://www.transfermarkt.com/germany/kader/verein/3262/saison_id/2023/plus/1",
           "https://www.transfermarkt.com/spain/kader/verein/3375/saison_id/2023/plus/1",
           "https://www.transfermarkt.com/italy/kader/verein/3376/saison_id/2023/plus/1",
           "https://www.transfermarkt.com/france/kader/verein/3377/saison_id/2023/plus/1")
)

for (i in 1:nrow(reference_df)) {
  temp_url <- reference_df$url[i]
  temp_page <- read_html(temp_url)
  temp_table <- temp_page %>% html_node(xpath = '//*[@id="yw1"]/table') %>% html_table()
  # Proses pembersihan dan pengolahan data
}
```

- Loop ini digunakan untuk mengakses beberapa URL dan mengekstrak tabel dari setiap halaman.

---

### 3.5. Menyimpan Data ke Format yang Diinginkan

Setelah data dikumpulkan, kita dapat menyimpannya ke dalam format CSV atau Excel:

```R
write.csv(euro24, "euro24_data.csv")
```

---

## 4. Berikut ini adalah kode lengkapnya

```R
# Instalasi dan pemanggilan paket
install.packages("rvest")
library(rvest)

# Mengambil data dari URL
url <- "https://cran.r-project.org/web/pakages/available_packages_by_name.html"
html_page <- read_html(x = url)
CRAN_packages <- html_page %>% html_node(xpath = '//table') %>% html_table()

# Menggunakan loop untuk mengambil data dari beberapa halaman
reference_df <- data.frame(
  id = 1:4,
  code = c("GER", "ESP", "ITA", "FRA"),
  country = c("Germany", "Spain", "Italy", "France"),
  url = c("https://www.transfermarkt.com/germany/kader/verein/3262/saison_id/2023/plus/1",
           "https://www.transfermarkt.com/spain/kader/verein/3375/saison_id/2023/plus/1",
           "https://www.transfermarkt.com/italy/kader/verein/3376/saison_id/2023/plus/1",
           "https://www.transfermarkt.com/france/kader/verein/3377/saison_id/2023/plus/1")
)

for (i in 1:nrow(reference_df)) {
  temp_url <- reference_df$url[i]
  temp_page <- read_html(temp_url)
  temp_table <- temp_page %>% html_node(xpath = '//*[@id="yw1"]/table') %>% html_table()
  # Proses pembersihan dan pengolahan data
}

# Menyimpan data ke CSV
write.csv(euro24, "euro24_data.csv")
```

---

## 5. Kesimpulan

Web scraping adalah teknik otomatisasi yang memungkinkan kita mengambil data dari situs web menggunakan R dan paket rvest. Proses ini sangat berguna untuk berbagai keperluan, seperti analisis data, riset pasar, dan pemantauan harga kompetitor. Dari tutorial yang diikuti, langkah-langkah utama dalam web scraping meliputi:

1. Instalasi paket yang dibutuhkan.
2. Mengakses halaman web dengan `read_html()`.
3. Menganalisis struktur HTML untuk menemukan elemen yang dibutuhkan.
4. Mengekstrak data dari elemen yang ditemukan.
5. Menyimpan data ke format CSV atau Excel.

Dengan pemahaman yang baik tentang cara kerja web scraping, kita dapat mengumpulkan data yang diperlukan untuk analisis lebih lanjut dengan lebih efisien.

## Referensi

1. https://youtu.be/MHdMFxUyGdk?si=gl3UJeOT3bqJCJhD

2. https://bookdown.org/dsciencelabs/data_science_programming/04-Data_Collection.html