1. Introducción al Web Scrapping

Según Wikipedia, el ‘’web scraping o raspado web, es una técnica utilizada… para extraer información de sitios web’’. Estos datos nos son útiles para muchos tipos de análisis, incluyendo el enriquecimiento de información.

En la siguiente gráfica podemos observar que el web scrapping consta de dos tareas principales: acceder a la data cruda y analizarla y extraer la información de interés. Esto, dentro de un proyecto de análisis de datos se realiza durante la etapa de adquisición de datos.

2. Proceso de Web Scrapping

En este sentido, el web scrapping puede ser realizado en 3 pasos:

Inspeccionar la fuente de datos
- Explorar el sitio web
- Decifrar la información en las URLs
- Inspeccionar el sitio web usando herramientas de desarrollador
Obtener el contenido HTML de la página
- Sitios WEB estáticos
- Sitios WEB escondidos
- Sitios WEB dinámicos
Obtener la información del sitio
- Encontrar objetos por ID
- Encontrar objetos por clase
- Obtener el atributo del elemento rastreado (texto, tablas, links, etc.)

Para lograrlo existen dos librerías principalmente utilizadas en R para la obtención de datos a través de web scrapping: rvest y RSelenium. A través de éstas, y en conjunto con librerías como tidyverse, tidymodels y shiny podremos crear poderosas herramientas de información y análisis de datos.

3. ¿Dónde podemos utilizarlo?

Obtención de datos de franquicias: http://www.100franquicias.com.co/
Obtención de datos inmobiliarios: https://www.properati.com.ec/
Obtención de datos de investigaciones: https://www.ncbi.nlm.nih.gov/home/download/
Obtención de datos del SRI: https://www.sri.gob.ec/catastros

Web Scrapping con R

Capítulo 1: Conociendo el sitio que vamos a investigar

Hugo Porras

1. Introducción al Web Scrapping

2. Proceso de Web Scrapping

3. ¿Dónde podemos utilizarlo?