1. Introducción al YAML.
En esta sección se presenta una breve introducción al lenguaje del YAML (Yet Another Markdown Language), con el que se configuran las características generales que se arrojarán en el documento de salida o output, una vez que el documento en formato Markdown haya sido renderizado (con el comando knitr()).
Es importante tener en cuenta que un documento en formato .Rmd (o de R Markdown) se integra por 3 partes:
- El texto o cuerpo del documento, que se redacta con la sintaxis de Markdown,
- Los trozos de código o chunks que contienen los códigos en lenguaje de R, y
- El YAML o los metadatos y características de formato del documento general.
En este documento se trabajarán varios elementos para configurar el YAML, los que se considera que son de interés para la elaboración de documentos y reportes de investigación especialmente dirigidos al ámbito de las Ciencias Sociales. Para ello se abordan:
- Características generales del YAML.
- Características del YAML para un documento de salida en formato .html.
- Características del YAML para un documento de salida en formato .pdf.
- Add-in de la paquetería
ymlthis() para diseñar YAML.
- Insertar referencias bibliográficas en el texto e integración del listado bibliográfico.
- Uso de plantillas de artículos para la elaboración de artículos científicos con
distill(), rticles() y papaja().
2. Características generales del YAML.
El YAML se usualmente se encuentra ubicado en la parte superior del documento de R Markdown, pues así lo posiciona por defecto el sistema. Este apartado es identificable ya que se encuentra separado por tres guiones en la parte superior y tres en la parte inferior. Sin embargo, los documentos Markdown puede indentificar más características del YAML en el resto del documento si es que vuelven a encontrar una sección que se encuentre separada del resto mediante la misma instrucción de guiones superiores e inferiores. Al final, al renderizar el documento de salida, lo que ocurre es que el sistema lee como una sola sección a todas las partes enmarcadas por los guiones.
Las características generales o básicas del YAML contienen la información siguiente: título (“title”), autor (“author”), fecha (“date”) y formato de salida (“output”). La manera más común de configurar estas características es mediante la ventada de diálogo que se despliega al momento de selección la apertura de un nuevo documento de R Markdown.
Tras seleccionar y rellenar las opciones básicas con el texto deseado, se observará que el YAML se ubicará en la parte superior de la nueva hoja de R Markdown y, además, estará delimitada del resto del documento por los tres guiones intermedios en la parte superior e inferior. Y en su interior se encontrarán los elementos básicos de los metadatos. También es posible observar que el texto rellenado previamente aparecerá entrecomillado en el YAML.
---
title: "Diseño de YAML"
author: "Gustavo Martínez Valdes"
date: "3/3/2022"
output: html_document
---
Una vez renderizado el documento de salida se observará que, en un primer momento, el título del documento aparecerá en la parte superior del texto y se mostrarán en un tamaño de fuente mayor al resto del documento. En el caso de esta sección es posible, también, añadir un subtítulo mediante el comando subtitle: "texto del subtítulo".
---
title: "Diseño de YAML"
subtitle: "este es mi primer borrador"
---
Una vez renderizado, el texto del subtítulo aparecerá debajo del título general, pero en un tamaño de letra menor.
Por otro lado, el nombre del autor aparecerá debajo del título, y será renderizado en un tamaño de fuente menor. En dicho renglón es posible incluir a más de un autor a partir de separar los nombres mediante una coma, por ejemplo: author: "nombre apellido1, nombre apellido2".
---
author: "nombre apellido 1, nombre apellido 2"
---
En el caso del elemento de la fecha, por defecto este dato suele ser rellenado por el sistema y para ello recupera la información del sistema. En base a ello, el documento retoma la fecha en que el documento fue elaborado originalmente, pero esto puede ser modificado manualmente en la sección de YAML para ajustarlo a las necesidades del autor o, también se puede configurar para que se actualice a los momentos en que el documento de R Markdown es renderizado. En este último caso, se puede usar el comando r date: r Sys.Date().
---
date: "Sys.Date()"
---
La característica general final del YAML consiste en definir el formato de salida en que será renderizado el resto de los elementos del documento R Markdown. Los formatos básicos que se pueden seleccionar en la ventaja de diálogo (presentada arriba) son: .doc, .pdf o .html.
Esto se define en la opción output: html_document, por ejemplo para un documento en formato “.html”, output: pdf_document en el caso de uno en formato “.pdf” o output: word_document en caso de solicitar un documento de salida en formato “.doc”.
Además es posible solicitar la renderización de más de un formato de salida desde un mismo YAML, para ello es debe especificar en el argumento del output: los formatos de salida que se desean generar. Por ejemplo si se desean producir dos formatos de un mismo documento R Markdown, uno en “.html” y otro en “.pdf”, se realiza especifica lo siguiente:
---
output:
html_document: default
pdf_document: defaul
---
3. Características del YAML para distintos “outputs”.
Es importante tener en cuenta que las características básicas revisadas anteriormente aplican para todos los documentos R Markdown en general, independientemente del tipo de formato de salida. Sin embargo, también se debe considerar que existen características o elementos particulares según el output solicitado. Esto es, no necesariamente las características de un YAML para un formato .html aplican igualmente para un documento en formato .pdf. Para distinguir estas diferencias es muy útil consultar la guía de referencia de R Markdown diseñada por R Studio.
3.2. Elementos básicos del YAML para el formato “.pdf”.
En el caso de un documento de salida en formato .pdf, otros son los parámetros que se pueden modificar. En este caso es importante recordar que el formato de salida se asemejará a un documento escrito en páginas blancas ya sea de tamaño “carta” o “A4” u otro, según así se defina.
Aquí se debe tener en cuenta que al renderizar un documento “.Rmd” en un formato de salida en formato .pdf, este es transformado en un proceso intermedio bajo el leguanje “LaTex”, y para ello se utiliza un programa denominado Pandoc. En la página web de Pandoc se pueden revisar de manera completa las variables a incluir en este tipo de documentos. Sin embargo, aquí solo se revisarán algunas de las características más usuales a incluir en el YAML consisten en:
- Tipo de documento: Aquí se puede definir, inicialmente, el tipo de documento que se elaborará, para lo que se usa el comando:
documentclass:, y las opciones de respuesta disponibles son: book, article o report. Por ejemplo:
---
title: "Diseño de YAML"
author: "Gustavo Martínez Valdes"
date: "3/3/2022"
output: pdf_document
documentclass: article #aquí se define que el documento a elaborar es un "artículo".
---
- Organización del texto. Con esta opción se puede especificar la manera en que se presentará el texto visualmente. Para ello se utiliza el comando:
classoption:, y las opciones de respuesta posibles son: twocolumn, landscape o portrait. Esta última es la opción por defecto. Por ejemplo:
---
title: "Diseño de YAML"
author: "Gustavo Martínez Valdes"
date: "3/3/2022"
output: pdf_document
documentclass: article
classoption:
- twocolumns #aquí se define que el texto en cada cuartilla se distribuya en dos columnas.
---
- Tamaño de la hoja de impresión. A partir del comando
papersize:, entre cuyas opciones de respuesta se encuentran a4 o letter, se define el tamaño de la hoja de impresión. Por ejemplo:
---
title: "Diseño de YAML"
author: "Gustavo Martínez Valdes"
date: "3/3/2022"
output: pdf_document
documentclass: article
classoption:
- twocolumns
papersize: letter #aquí se define el tamaño de la hoja de impresión sea de tamaño "carta".
---
- Interlineado. Mediante el comando
linestretch:, y cuyos valores son un vector numérico, se define el tamaño del salto de renglón dentro del documento. Por ejemplo:
---
title: "Diseño de YAML"
author: "Gustavo Martínez Valdes"
date: "3/3/2022"
output: pdf_document
documentclass: article
classoption:
- twocolumns
papersize: letter
linestretch: 1.5 #Aquí se define que el interlineado o el salto entre renglones sea de 1.5.
---
- Tamaño de fuente. El tamaño de la fuente del texto en general puede ser modificada utilizando el comando
fontsize:, y cuyos valores se definen en unidades de “puntos”, por ejemplo: 10pt, 11pt o 12pt.
---
title: "Diseño de YAML"
author: "Gustavo Martínez Valdes"
date: "3/3/2022"
output: pdf_document
documentclass: article
classoption:
- twocolumns
papersize: letter
linestretch: 1.5
fontsize: 12pt #Aquí se define el tamaño de la fuente a uno de 12 puntos.
---
- Márgenes o geometría del texto dentro del documento. Mediante el comando
geometry: se pueden definir el tamaño de los márgenes del texto dentro del documento. Los valores de respuesta de este comando consisten en un vector numérico, a la vez que se puede definir manualmente la unidad métrica en que se desea especificar su tamaño, como pueden ser in (pulgadas), cm(centímetros) o mm (milímetros). Asimismo se pueden utilizar los argumentos top=, bottom=, left= y right= para especificar los márgenes deseados. Por ejemplo:
---
title: "Diseño de YAML"
author: "Gustavo Martínez Valdes"
date: "3/3/2022"
output: pdf_document
documentclass: article
classoption:
- twocolumns
papersize: letter
linestretch: 1.5
fontsize: 12pt
geometry:
- top=3cm #Se define un márgen de 3cm en la parte superior del documento.
- left=2.5cm #Se define un márgen de 2.5cm en la parte izquierda del documento.
---
- Índice o tabla de contenido. En un documento en formato
.pdf también es posible incluir un listado o tabla de contenido así como la opción para solicitar que las secciones reconocidas en la tabla de contenido sean numeradas automáticamente. Para ello se utiliza el comando toc: TRUE así como number_sections: TRUE, por ejemplo:
---
title: "Diseño de YAML"
author: "Gustavo Martínez Valdes"
date: "3/3/2022"
output: pdf_document
documentclass: article
classoption:
- twocolumns
papersize: letter
linestretch: 1.5
fontsize: 12pt
geometry:
- top=3cm
- left=2.5cm
toc: TRUE
number_sections: TRUE
---
- Tipo de fuente. También es posible modificar el tipo de fuente tipográfica de los documentos de salida. Para ello se utiliza el comando
mainfont:, y como respuesta se debe especificar el nombre a alguna de las tipografías pre cargadas en la computadora en el listado tipográfico del disco duro. Se debe tener en cuenta que para que este comando aplique la solicitud de un tipo de fuente deseado, se debe acompañar de un comando adicional que consiste en definir el motor para transformar el documento “.Rmd” a formato “LaTex” y, posteriormente, a uno de tipo “.pdf”. Este comando es latex_engine:, y el motor de transformación debe ser la opción xelatex. De manera que la solicitud para configurar este cambio de fuente es de la siguiente forma:
---
title: "Diseño de YAML"
author: "Gustavo Martínez Valdes"
date: "3/3/2022"
output:
pdf_document:
latex_engine: xelatex #Aquí se define el motor de renderización a LaTex
documentclass: article
classoption:
- twocolumns
papersize: letter
linestretch: 1.5
fontsize: 12pt
geometry:
- top=3cm
- left=2.5cm
toc: TRUE
number_sections: TRUE
mainfont: Arial #Aquí se solicita el cambio del tipo de fuente, que previamente está cargada dentro del listado tipográfico de la computadora de trabajo.
---
4. Paquetería ymlthis() para diseñar YAML y su add-in.
La utilidad del YAML, además de definir los metadados del documento elaborado, así como configurar desde un inicio las características generales del documento, consiste en que una vez que se cuenta con una estructura preferida por el autor, esta puede ser copiada para diseñar otros documentos posteriores. Sin embargo también puede ser engorroso recordar la mayoría de los comandos dentro de un YAML, especialmente al comenzar a conocer y trabajar con el formato “.Rmd”.
Pero existe, adicionalmente, la paquetería ymlthis() que permite manipular de manera más “sencilla” las características del YAML, tomando en consideración el tipo de documento de salida deseado.
Primero se debe instalar dicha paquetería:
install.packages("ymlthis")
Tras activar dicha paquetería con library(ymlthis), el comando básico es yml(). Una vez que se “corre” dicho código, este arroja como resultado el contenido básico de un YAML.
library(ymlthis)
yml()
## ---
## author: Gustavo
## date: '`r format(Sys.Date())`'
## ---
Asimismo, el resultado del YAML a generar se puede adicionar con otros argumentos, como: yml_author(), yml_date(), o yml_output(), además de vincularlos mediante el uso de pipes (%>%), por ejemplo.
yml() %>%
yml_author(c("autor1", "autor2"), affiliation = "institución") %>%
yml_date(lubridate::today()) %>%
yml_output(
word_document(keep_md = TRUE),
bookdown::html_document2()
)
## ---
## author:
## - name: autor1
## affiliation: institución
## - name: autor2
## affiliation: institución
## date: '2022-03-08'
## output:
## word_document:
## keep_md: true
## bookdown::html_document2: default
## ---
4.1. Add-in de ymlthis().
Adicionalmente la paquetería de ymlthis() cuenta con una “add-in”, que se traduce en una ventana emergente que permite, a su vez, apoyar al usuario en la generación del YAML sin la necesidad de escribir código en un “chunk”.
Para activar dicho “add-in” se debe seguir la ruta “Tools” > “addins” > “browse addins” > “ymlthis”. En caso de no usar el mouse para seguir dicha ruta, el comando para activar el “add-in” es ymlthis:::launch_yaml_addin().
ymlthis:::launch_yaml_addin()
Una vez activado el “add-in”, después aparecerá una ventana emergente parecida a la siguiente:
En dicha ventana emergente, el autor tendrá la oportunidad de rellenar diversas opciones, tanto referentes al tipo de documento de salida (.pdf, .html, .doc u otro), así como las características particulares. Y el resultado generado se traduce en una esquela del YAML configurado a partir de las necesidades del autor.
5. Referencias y listado bibliográfico basado en Zotero.
Aquí se revisará el proceso de inserción de citaciones apoyándose en el gestor de referencias bibliográficas de Zotero, que es un software de código abierto.
5.1. Preparación de la base de datos de referencias bibliográficas (“.bib”).
Inicialmente se requiere contar con un archivo con extensión .bib en el que se encuentren enlistadas todas las referencias bibliográficas que se utilizarán en el documento.
Este tipo de archivos consiste en un listado de las referencias bibliográficas que se utilizarán como recursos de un documento, donde cada una de dichas referencias son archivadas bajo un formato especial denominado BibTex, con la siguiente estructura por ejemplo:
@Key{R-base,
title = {R: A Language and Environment for Statistical
Computing},
author = {{R Core Team}},
organization = {R Foundation for Statistical Computing},
address = {Vienna, Austria},
year = {2019},
url = {https://www.R-project.org},
}
Manualmente se puede crear un listado de todas las obras a referenciar en un archivo de texto plano, el que, finalmente, deberá ser guardado con la extensión .bib, y que será necesario para el proceso de insertar citaciones en R Markdown, así como para generar el listado bibliográfico a incluir en el documento de salida.
Crear dicho archivo con extensión .bib es un proceso engorroso, actualmente el gestor bibliográfico de Zotero también permite generar dicho archivo de manera más sencilla.
Desde Zotero se pueden seleccionar las referencias que deberán ser exportadas en formato .bib (apoyado en el plug-in de Better Bib Tex). Esto se traduce en un nuevo archivo con extensión .bib.
Para ello, primero se debe seleccionar la colección de obras seleccionadas en Zotero.
Posteriormente se debe seleccionar el formato de BetterBibTex para su exportación, así como también se recomienda seleccionar la casilla que permite mantener actualizada dicha colección exportada.
Al crear el archivo, es importante seleccionar la opción de Zotero que permite actualizar constantemente al archivo .bib. Esto permitirá incluir en éste último las referencias que sean guardadas en Zotero posteriormente a la creación del archivo .bib.
Una vez creado el archivo de las referencias bibliográficas, debe guardarse en la misma carpeta en la que se encuentra el documento .Rmd.
Posteriormente, el archivo .bib debe ser llamado desde el YAML de R Markdown para que esté disponible y se puedan utilizar las referencias contenidas. El script dentro del YAML para llamar al listado de referencias es bibliography: nombre.bib. Por ejemplo:
---
output: html_document
bibliography: metodologia.bib
---
5.2. Definición del estilo de citación (archivo “.csl”).
Para darle formato a las referencias insertadas en el documento requiere utilizar un archivo con extensión .csl, que contiene la información necesaria para cada uno de los estilos de citación.
Estos archvios .csl pueden ser creados por el autor o también pueden ser importados. Ésta última opción es la más “fácil” de llevar a cabo.
Zotero cuenta con un repositorio de archivos .csl que se pueden importar. Este se encuentra en https://www.zotero.org/styles.
Por ejemplo, en el caso de desear trabajar con el estilo de la American Psychology Association (APA), se debe importar el archivo apa.csl.
Es importante que el archivo se encuentre ubicado en la misma carpeta donde se encuentra guardado el documento .Rmd, Posteriormente, el archivo apa.csl se manda a llamar desde el YAML con el script csl: apa.csl.
---
output: html_document
bibliography: references.bib
csl: apa.csl
---
Una vez que se cuenta con el archivo en formato .bib con el listado de las obras a referencias, así como con el archivo en formato .csl, que contiene la estructura del estilo de citación a utilizar, ya se está listo para comenzar la inserción de referencias bibliográficas así como para integrar el listado bibliográficos en el output.
5.3. Inserción de referencias en el texto.
Para insertar una referencia se utiliza el símbolo @key y se escribe el nombre que el sistema le asignó a cada referencia. El @key se refiere al nombre que le asigna automáticamente el listado de BibTex.
Existen varias maneras de insertar una referencia bibliográfica en el texto:
Insertar una sola obra en una referencia. En caso de insertar una referencia con un solo autor, entre paréntesis: [@key]
Insertar más de una obra en una referencia. En caso de insertar una referencia con más de un autor, entre paréntesis: [@key1; @key2]
Insertar nombre de autor en texto y año entre paréntesis. En caso de insertar el apellido del autor en el texto, el año de la obra aparecerá entre paréntesis: @key
Insertar año entre paréntesis y excluir nombre de autor. En caso de insertar el año de la obra en la referencia entre paréntesis y excluir el nombre del autor: [-@key]
Insertar una obra y definir las páginas consultadas. [@key, pág. 123]
5.4. Incluir sección del listado bibliográfico
Tras insertar las referencias, R Markdown construye el listado bibliográfico ordenado alfabéticamente. Sin embargo se requiere crear una sección específica para ello pues el programa no distingue por sí solo el espacio en el documento para incluirlo.
Para ello es necesario incluir un subapartado (mediante el uso de ##) al final del documento, partir de añadir los signos de numerales pertinentes así como el título “bibliográfía” o correspondiente. Y dicha sección debe estar vacía. De esta manera R Markdown identificará que ese es el espacio donde incluirá la información del listado bibliográfico de la obra.
Final del texto.
## Bibliografía
(espacio vacío)
6. Plantillas de artículos científicos con distill(), rticles() y papaja().
Con el fortalecimiento del criterio de “ciencia abierta” y el aumento de recursos tecnológicos para compartir los elementos de la investigación científica, hoy en día se cuenta con la posibilidad de hacer públicos ya no solo los resultados de un análisis, sino también los datos utilizados así como los códigos de R elaborados y, además, el contenido de los textos. En este sentido, el formato de .Rmd se ha vuelto muy útil para permitir que todos estos elementos de un documento de análisis de datos se pueda compartir de manera abierta al público.
Para ello se cuenta, además, con varias librerías que permiten sistematizar las estructuras de los documentos de .Rmd, en donde un autor solo debe ajustar su contenido a dichas plantillas y, de esa manera, su preocupación se centre en la redacción del texto y en la elaboración de códigos y resultados del análisis de los datos.
Entre las librerías que se revisarán a continuación se encuentran las de ’distill(),rticlesypapaja()`. Las primeras dos librerías se pueden instalar desde el CRAN de R y R Studio:
install.packages("distill")
install.packages("rticles")
En el caso de la librería de papaja(), su instalación se debe realizar directamente desde el repositorio del diseñador. Este proceso requiere apoyarse en otra paquetería denominada devtools().
En caso de no contar previamente con devtools(), una manera para instalarlo es:
if(!"devtools" %in% rownames(installed.packages())) install.packages("devtools")
Posteriormente se puede instalar papaja() desde GitHub de la siguiente manera:
devtools::install_github("crsh/papaja")
6.2. Artículos científicos con distill().
La paquetería distill() consiste en una plantilla básica para la construcción de un artículo científico. Este formato permite integrar tanto texto, signos matemáticos desde “LaTex”, citaciones y pies de página, gráficos y tablas de contenido, entre otros elementos que les son característicos. En la página web de distill() se pueden revisar con detalles todos los elementos que se pueden configurar.
La manera de abrir una plantilla desde distill() consiste en seleccionar este tipo de documento desde la ventana emergente donde se abren los nuevos documentos .Rmd, de la siguiente manera:
A partir de esta platilla de artículo científico, se abre una nueva ventana de un archivo en formato .Rmd que estructura tanto el contenido del texto, así como de los “chunks”. Mientras que la estructura del YAML será la siguiente:
---
title: "Distill for R Markdown"
description: |
Scientific and technical writing, native to the web
date: May 4, 2018
author:
- first_name: "Yihui"
last_name: "Xie"
url: https://github.com/yihui
affiliation: RStudio
affiliation_url: https://www.rstudio.com
orcid_id: 0000-0003-0645-5666
- name: "JJ Allaire"
url: https://github.com/jjallaire
affiliation: RStudio
affiliation_url: https://www.rstudio.com
- name: "Rich Iannone"
url: https://github.com/rich-iannone
affiliation: RStudio
affiliation_url: https://www.rstudio.com
bibliography: biblio.bib
output: distill::distill_article
---
6.3. Artículos científicos para diversas editoriales desde rticles().
Finalmente, la paquetería rticles() se ha vuelto muy útil para la producción de artículos que se ajusten directamente a las necesidades de diversas editoriales, como por ejemplo: Elsevier, Oxford University Press, PLOS, SAGE, Taylos & Francis, entre otras publicaciones específicas. De manera más detallada se puede revisar este listado en la página de la librería.
La manera para revisar y seleccionar la plantilla del artículo a construir es mediante la apertura de la ventana emergente para solicitar un nuevo archivo en formato .Rmd desde R Studio. Tras seleccionar la apertura de una plantilla (“From Template”), se puede observar el listado de todos los formatos de artículos incluidos en la librería rticles(), de la siguiente forma:
El resultado de la selección de la plantilla será variado según el tipo de artículo solicitado, y de esa manera variará, por ejemplo, la estructura del YAML. (por ello ahora no se presenta un resultado particular)
