Web scraping

Web scraping é uma técnica de extração de dados utilizada para coletar dados de sites. Por meio de processos automatizados, implementados usando um rastreador bot, esse tipo de ‘raspagem’ é uma forma de realizar cópias de dados em que informações específicas são coletadas e copiadas da web.

Maiores detalhes em: <ahref=‘https://blogbrasil.westcon.com/o-que-e-web-scraping’>https://blogbrasil.westcon.com/o-que-e-web-scraping - Blog Brasil Westcon.

Principais pacotes

Os principais pacotes que podemos utilizar para trabalhar com web scraping são: xml2, httr e rvest.

O pacote xml2 tem a finalidade de estruturar arquivos HTML ou XML de forma eficiente, tornando possível a obtenção de tags e seus atributos dentro de um arquivo.

O pacote httr é responsável por realizar requisições web para obtenção das páginas de interesse, buscando reduzir ao máximo a complexidade da programação.

Por último, o pacote rvest é escrito sobre os dois anteriores e por isso eleva ainda mais o nível de especialização para raspagem de dados.

Para trabalhar com páginas simples, basta carregar o rvest e utilizar suas funcionalidades. Caso o acesso à página exija ações mais complexas e/ou artifícios de ferramentas web, será necessário utilizar o httr. O xml2 só será usado explicitamente nos casos raros em que a página está em XML, que pode ser visto como uma generalização do HTML.

Maiores detalhes em: