1. Reglas básicas de la navegación HTML

En este capítulo analizaremos algunas reglas de navegación en HTML y cómo scrapear una tabla.

  • HTML funciona como un árbol: Dada su naturaleza jerárquica, la forma en que se ubican los datos dentro del código HTML, es en la de un árbol invertido. El nodo raíz de este árbol siempre es la etiqueta HTML y de allí saldran ramas que nos dirigen a otros nodos, conocidos en HTML como hijos o children.

  • Las etiquetas que se encuentran al mismo nivel y que son hijas de la misma etiqueta son parientes o siblings.
  • El hijo de la etiqueta TITLE es un texto: Google. Esta se denomina como hoja, nodo de text o leaf, dado que no es etiqueta y tiene texto. STYLE es técnicamente su hermana, pero no es una hoja, dado que dentro de sí tiene etiquetas.

3. Extracción de tablas con rvest

Hasta ahora sabemos cómo obtener la gran mayoría de elementos que se encuentran en un documento HTML. Así, veremos a continuación un caso especial: tablas.

En su forma más sencilla, una tabla consiste de tres etiquetas HTML distintas: table, tr y td. La etiqueta table designa una tabla, la etiqueta tr designa filas y encierras varias etiquetas td, las cuales designan celdas. Normalmente el número de td dentro de las tr debe ser el mismo; sin embargo, puede utilizarse el atributo colspan en las etiquetas td, permitiendo que una celda se extienda por varias columnas.

Como se puede notar en la gráfica, existen varias otras etiquetas que se pueden utilizar para estructurar una tabla, tal como la etiqueta th, la cual nos permite colocar una fila como encabezado. Tablas que tienen esta fila son más fáciles de scrapear.

Para scrapear una tabla usando rvest, usaremos la función html_table (apoyándonos en la herramienta inspeccionar), tomando como ejemplo la página de wikipedia que nos muestra la discografía de la banda de rock alternativo Muse:

Como se puede notar, esta función transforma a los datos en un tibble (objeto que almacena una tabla de datos, propia del tidyverse). Por otro lado, dicha función tendrá un mejor resultado a medida que mejor estructurados estén los datos. La función html_table tiene los argumentos header y fill que nos sirven para especificar que la primera fila es un encabezado (si no existen etiquetas th) y para rellenar celdas vacías.

En el siguiente capítulo veremos los tipos de selectores existentes y algunas de sus utilidades.

