2016 年初,現在用 R 做爬蟲大概都會從 rvest 這個套件開始。

這篇主要的對象是給:

如果有困難可在本篇下面留言,或是發訊息到 Taiwan R User Group 粉絲團

安裝 rvest 套件

我假設讀者已經從其他來源知道怎麼安裝 R核心 還有 Rstudio 。我們只要安裝 rvest 套件。

install.packages("rvest")

需求簡介

以下程式碼以公視新聞的政治新聞為例。最常見的爬蟲需求大概是這種列表頁:列表頁提供所有內容頁的連結,一般使用者需要所有內容頁的內容。然後再去爬列表頁裡面所有的內容頁的內容。

列表頁圖示