Web Scraping Sekolah Jawa Timur dengan R

Scaping adalah proses pengambilan data, kali ini kita akan mencoba menggambil data dari website sekolah di jawa timur. didalam R, ada beberapa package yang dapat digunakan untuk memudahkan dara scraping. yaitu

library(tidyverse)
library(rvest)
library(stringr)
library(lubridate)
library(rebus)

Langkah Selanjutnya, kita akan melakukan pengambilan informasi dari salah satu website sekolah di malang, sebagai contoh sekolah Sabilillah. Yang perlu kita butuhkan untuk mengambil informasi dari suatu website adalah dengan menggunakan URL pada website tersebut. URL yang kita miliki itu nantinya akan kita simpan sebagai objek.

url<-'https://sekolahsabilillah.sch.id/'

untuk mendapatkan data dari sebuah website, kita perlu menggunakan fungsi dari package rvest. untuk mengubah website menjadi objec XML kita dapat menggunakan fungsi read.html(). dan yang paling penting, kita sediakan URL Target yang akan kita gunakan untuk mengumpulkan data, memanggil server web, dan memparsing data dari web tersebut. Untuk melakukan ekstraksi node dari XML objek kita gunakan html_nodes().

Berikut ini function yang dapat digunakan untuk beberapa tag diatas.

last.page <- function(html){
  pages.data <- html %>% 
    html_nodes('.pagination-page') %>%
    html_text()
  pages.data[(length(pages.data)-1)] %>% 
   unname() %>% 
  as.numeric()
}

Web Scraping Sekolah Jawa Timur dengan R

Prof Dr Suhartono M.Kom & Aang Kunaefi. Magister Informatika UIN Maulana Malik Ibrahim Malang

12/3/2021