Presentación del curso

Docente

Samuel Enrique Calderon Serrano:

  • Politólogo de la Universidad Antonio Ruiz de Montoya.
  • Actualmente trabaja en la Superintendencia Nacional de Educación Universitaria - SUNEDU como miembro del Equipo Técnico Normativo de la Dirección de Licenciamiento.
  • Miembro de la organización DecideBien. Colabora ocasionalmente en iniciativas de código abierto.
  • Proviene de Lima, Perú.
  • Otros canales:

Contenido del curso

  • Público objetivo:
    • Estudiantes o egresados de carreras de ciencias sociales, periodismo o educación con interés en aprender herramientas de análisis y visualización de datos.
  • Aprendizajes esperados:
    • Elementos básicos del análisis de datos usando R a través de RStudio
      • Importación de datos
      • Limpieza y ordenamiento de datos
      • Análisis exploratorio de datos ordenados (tidy data)
    • Elaboración de reportes de análisis de datos usando R Markdown

Este curso NO enseñará:

  • Estadística
  • Programación
  • Excel, SPSS, Stata, etc

Producto final esperado

Cada participante elaborará un reporte que incluirá:

  • Descripción de los conjuntos de datos utilizados
  • Explicación de metodología utilizada
  • Productos de análisis (ránkings, tablas de frecuencia, gráficos, etc)
  • Interpretación de resultados

El reporte usará conjuntos de datos abiertos y será publicado vía web en formato bookdown.

Software requerido

Para la presente edición del taller es necesario contar con el siguiente software instalado:

  1. R programming language (versión 4.0.0 o superior)
  2. RStudio IDE (versión 1.4.0 o superior)

También se necesitan los siguientes paquetes de R:

  1. tidyverse
  2. rmarkdown

Inscripción a Rpubs.com

Adicionalmente, se requiere que los participantes cuenten con una cuenta en el servicio Rpubs para poder subir a la web los trabajos realizados.

La inscripción es sumamente sencilla y rápida

¿Qué es Rpubs.com?

  1. Seleccionar “Register”

  1. Ingresar los datos solicitados.

Con esto es suficiente.

En el futuro, puedes acceder con tu nombre de usuario (o email) y contraseña.

Por seguridad, puedes guardar esos datos en un gestor de contraseñas, como el de Google.

R a través de los años

R en la terminal

R es un lenguaje de programación. Como todo lo que ocurre en una computadora, puede ejecutarse en una ventana de terminal. En Windows la conocemos como la ventana de comandos.

Es posible acceder a la consola de R desde una terminal.

  • Windows: escribir la ubicación del ejecutable de R
  • Mac o Linux: escribir R

El Rgui como editor

En los años 2000, se elaboró una interfaz más amigable y dedicada a trabajar con R llamada “R Graphic User Interface” (Rgui).

Esta interfaz nos conecta directamente a la consola y nos brinda la opción de tener un editor de scripts, previsualizar nuestros gráficos, entre otras cosas.

RStudio

En la década de los 2010 aparece el proyecto RStudio, gracias al trabajo de J.J. Allaire.

Su desarrollo inició en diciembre de 2010 y su primera versión oficial se lanzó en noviembre de 2016. Es el editor con el que trabajaremos en estas sesiones.

El editor de código RStudio

Generalmente, no será necesario acceder a R a través de una terminal ni del Rgui, porque lo haremos utilizando el entorno de programación RStudio, que nos brinda una consola de R automáticamente.

Rstudio nos brinda varios paneles que cumplen distintas funciones. Es importante mencionar que el siguiente listado toma en cuenta la ubicación por defecto de los paneles, ya que se pueden modificar según el gusto de cada usuario.

El panel de edición

En este panel aparecerán todos los archivos editables. RStudio nos brinda la opción de utilizar múltiples tipos de archivo y de tener varios abiertos al mismo tiempo.

Entre los formatos que se pueden abrir y editar en este panel encontramos:

  • .R: Scripts de R
  • .Rmd: Archivos R Markdown
  • .py: Scripts de Python
  • .html: Documentos en formato HTML
  • .css: Hojas de estilo de cascada
  • .txt: Documentos de texto sin enriquecer
  • .csv: Archivos de valores separados por comas
  • etc

En el panel de edición también podremos obtener un visor de datos cada vez que lo solicitemos.

El panel de consola

En el panel de consola encontramos directamente la consola de R lista para ser usada.

Generalmente, este panel es usado directamente en ocasionas muy puntuales, ya que la mayor parte del tiempo se trabajará con código en el panel de edición.

Cabe mencionar que este panel también brinda acceso a una ventana de Terminal y a una ventana de ejecución de trabajos en paralelo (Jobs).

El panel de environment

Desde este panel tenemos acceso a todos los environment de nuestra sesión de R. Cuando creemos un objeto, nos aparecerá listado en este panel.

Cuando trabajemos en otros tipos de proyectos, como la creación de paquetes, conexión remota a bases de datos, creación de páginas web, uso de sistemas de control de versiones, etc, este panel tendrá otras ventanas para mostrar el estado de esos trabajos.

El panel de apoyo

Este panel nos permitirá previsualizar el resultado de nuestro trabajo. Cuenta con lo siguiente:

  • Explorador de archivos (Files)
  • Ventana de gráficos (Plots)
  • Explorador de paquetes instalados (Packages)
  • Ventana de ayuda (Help)
  • Visualizador de contenido Web (View)

El directorio de trabajo

El directorio de trabajo es donde R busca los archivos que le pides cargar, y donde pondrá los archivos que le pidas guardar. RStudio muestra el directorio de trabajo en la parte superior de la consola.

En muchas ocasiones existe la tentación de trabajar con archivos que están fuera de nuestro directorio de trabajo. Es recomendable evitar este comportamiento porque suele ser la raíz de muchos problemas.

Para ello, RStudio cuenta con los Proyectos, una manera sencilla de organizar nuestro trabajo. Mi mayor recomendación para usuarios de RStudio iniciantes y especialistas es trabajar siempre con proyectos dentro de RStudio.

Asignar directorio de trabajo por defecto

El directorio de trabajo por defecto es la carpeta en la que R usará cada vez que no estemos dentro de un proyecto. Por defecto, es la carpeta de “Documentos” del usuario de la computadora.

RStudio cuenta con un explorador de archivos para revisar el contenido de nuestros directorios.

Mi recomendación personal es utilizar como directorio general la carpeta llamada “R” dentro de “Documentos”.

  1. Acceder a “Global options” dentro del Menú “Tools”.
  2. En las opciones generales, elegir la carpeta “R” como Default working directory.

Proyectos

Crear proyectos

Puedes crear un proyecto siguiendo la siguiente ruta:

  1. Ir al menú “File”
  2. Hacer click en “New Project”
  3. Elegir “New directory”
  4. Elegir “New project” (las demás opciones son plantillas para proyectos típicos con los que te podrás familiarizar más adelante)
  5. Indicar el nombre del proyecto
  6. Elegir la carpeta en la que se guardará el proyecto. (Recomiendo que sea la carpeta “R”)
  7. Hacer click en “Create project”

Si estás usando el servicio https://www.rstudio.cloud puedes crear nuevos proyectos en tu espacio de trabajo (Your workspace).

  1. Ir al menú file

  1. Hacer click en “New Project”

  1. Elegir “New directory”

  1. Elegir “New project”
  2. Las demás opciones son plantillas para proyectos típicos con los que te podrás familiarizar más adelante

  1. Indicar el nombre del proyecto

  1. Elegir la carpeta en la que se guardará el proyecto
  2. Recomiendo que sea la carpeta “R”

  1. Hacer click en “Create project”

RStudio te dará varias señales de que creaste exitosamente tu proyecto. También, te indicará cuál es el directorio de trabajo de tu proyecto.

Usar un proyecto

Al crear un nuevo proyecto, RStudio crea para ti una carpeta con un archivo que lleva un nombre tipo “*.Rproj”.

Cuando estés fuera del proyecto bastará con hacer doble click en ese archivo para que RStudio abra una sesión de trabajo usando la ubicación del proyecto.

Si deseas cerrar el proyecto actual para trabajar en otro, puedes hacerlo desde el menú “File” haciendo click en “Close Project”.

Trabajo 1: Crea tu primer proyecto

  1. Crea un nuevo proyecto llamado: mi_primer_proyecto

  2. Una vez creado el proyecto, en la consola ejecuta el siguiente código:

  3. Copia y pega el resultado de ese código en el chat de la llamada grupal.

Descanso de 15 minutos

Elementos básicos de Rmarkdown

¿Qué es?

R Markdown nos provee de un marco de trabajo unificado para la ciencia de datos y el análisis de datos, combinando código, sus resultados, y los comentarios escritos por el autor. Los documentos R Markdown son totalmente reproducibles y soportan docenas de formatos de salida como PDFs, archivos Word, diapositivas, y más.

Uno de los objetivos de este taller es que los participantes aprendan a usar R Markdown y puedan encontrar la forma en que puede ayudarles a potenciar su trabajo.

Esta sección hace uso de la traducción al español del capítulo R Markdown de “R for Data Science”.

Los archivos R Markdown están diseñados para ser usados de tres maneras:

  • Para comunicarte con los tomadores de decisiones, que quieren enfocarse en las conclusiones, no en el código detrás del análisis
  • Para colaborar con otros analistas de datos (incluyendo a tu futuro yo), quienes están interesados tanto en tus conclusiones como en la manera en que llegaste a ellas (el código)
  • Como un entorno en el que realizar ciencia de datos, como un cuaderno de trabajo moderno en el que puedes capturar no sólo lo que hiciste sino también en lo que estabas pensando.

Instrucción: Abrir el archivo “ejemplo01.Rmd” y guardarlo en el proyecto actual.

Típicamente, un archivo R Markdown contiene tres tipos de contenido importantes

  • Un encabezado YAML (opcional) rodeado por — (tres guiones seguidos)
  • Bloques de código rodeados de ``` (acentos graves)
  • Texto mezclado con formato simple como # encabezados, cursivas o negritas

Cuando abres un archivo .Rmd, se te muestra una interfaz de bloc de notas donde el código y sus resultados se intercalan. Puedes ejecutar cada bloque de código haciendo click en el botón “Run” (luce como un botón de play en la parte superior del bloque), o presionando Cmd/Ctrl + Shift + Enter. RStudio ejecuta el código y muestra los resultados seguidamente.

Para producir un reporte completo conteniendo todo el texto, código y resultados, haz click en “Knit” o presiona Cmd/Ctrl + Shift + K. Esto mostrará el reporte en un panel de Vista previa, y creará un archivo HTML que puedes compartir con otras personas.

Cuando haces knit el documento (knit significa tejer en inglés), R Markdown envía el .Rmd a knitr (http://yihui.name/knitr/) que ejecuta todos los bloques de código y crea un nuevo documento markdown (.md) que incluye el código y su output.

El archivo markdown generado por knitr es procesado entonces por pandoc (http://pandoc.org/) que es el responsable de crear el archivo terminado. La ventaja de este flujo de trabajo en dos pasos es que puedes crear un muy amplio rango de formatos de salida, que conocerás más adelante.

Trabajo 2: Publica tu primer archivo en Rpubs.com

Una vez renderizado el archivo en formato HTML, súbelo a la plataforma Rpubs.com

No olvides cambiar el nombre de autor en el YAML.

Una vez publicado, comparte el enlace de tu publicación en el chat de la llamada grupal.

Trabajo 3: Crea tu propio archivo R Markdown

Para comenzar con tu propio archivo .Rmd, selecciona File > New File > R Markdown… en la barra de menú. RStudio iniciará un asistente que puedes usar para pre-rellenar tu archivo con contenido útil que te recuerda cómo funcionan las principales características de R Markdown.

Todo el contenido después del YAML debe ser eliminado antes de continuar con el trabajo.

El objetivo es poder replicar este artículo de la BBC acerca del coronavirus. Lo haremos usando la Guía de Referencia de R Markdown para saber cómo escribir.

R Markdown: Reference Guide (descarga)

Recuerda cambiar el título del Una vez finalizado el artículo, deberá ser subido a Rpubs.com

Una vez publicado, comparte el enlace de tu publicación en el chat de la llamada grupal.