Según Wikipedia, el ‘’web scraping o raspado web, es una técnica utilizada… para extraer información de sitios web’’. Estos datos nos son útiles para muchos tipos de análisis, incluyendo el enriquecimiento de información.
En la siguiente gráfica podemos observar que el web scrapping consta de dos tareas principales: acceder a la data cruda y analizarla y extraer la información de interés. Esto, dentro de un proyecto de análisis de datos se realiza durante la etapa de adquisición de datos.
En este sentido, el web scrapping puede ser realizado en 3 pasos:
Para lograrlo existen dos librerías principalmente utilizadas en R para la obtención de datos a través de web scrapping: rvest y RSelenium. A través de éstas, y en conjunto con librerías como tidyverse, tidymodels y shiny podremos crear poderosas herramientas de información y análisis de datos.