1 Introducción

  • R es un excelente lenguaje de programación para visualización de datos e implementación de métodos estadísticos y, por lo tanto, es ideal para cualquier tipo de análisis de datos.

  • R tiene muchas ventajas que lo hacen una excelente opción para usarlo en estadística:

    • Hace parte de una iniciativa de software libre
    • Dada su popularidad, existe una gran comunidad on-line junto con literatura muy extensa que le dan al usuario muchísimas opciones de consulta y aprendizaje.
  • A diferencia de otros lenguajes de uso común como Python, R fue concebido desde sus orígenes para hacer estadística:

    • Facilita la implementación de herramientas estadísticas de todo tipo. - Muchas rutinas de uso frecuente, ofrecen los resultados directamente, sin necesidad de hacer esfuerzos adicionales.
    • En términos gráficos, R es superior a muchos otros lenguajes; las visualizaciones que son posibles de lograr con R son increíblemente poderosas para expresar ideas claras y contundentes.
  • Dado que R es un lenguaje de programación orientado a objetos que no necesita compilar rutinas, le da al usuario mucha versatilidad única para probar sus comandos en tiempo real directamente en la consola (línea de comandos) del programa:

    • Esta característica es fundamental ya que proporciona una forma interactiva, rápida, y llamativa para probar y aprender el lenguaje.
    • El lenguaje de programación es sencillo de interpretar y manipular, así que desde la primera sesión, es posible implementar rutinas básicas.
  • Gracias a su éxito tanto en industria como academia, hay disponibles miles de paquetes o librerías (módulos de acceso libre con funciones completamente listas para su uso) de todo tipo que le dan al usuario muchas opciones para llevar a cabo sus análisis sin necesidad de elaborarlos desde cero. Por ejemplo:

    • ggplot2 ofrece un sin fin de herramientas gráficas para hacer visualización de datos.
    • shiny permite hacer aplicaciones interactivas de todo tipo.
    • e1071 contiene variadas rutinas de aprendizaje automático.
    • dplyr ofrece una sintaxis muy sencilla y fácil de usar para el manejo de bases de datos.
    • sp es especialmente útil para hacer mapas y llevar a cabo análisis espaciales o geo-referenciados.
    • epiR érmite hacer uso de análisis estadísticos aplicados a diferentes tipos de estudios epidemiológicos.

    El siguiente link https://www.rstudio.com/products/rpackages/ ofrece una lista detallada de paquetes de uso frecuente.

Una sesión típica de R se ve de la siguiente manera:

  • Finalmente, en un mundo sistematizado con un sin fin de alternativas de software de todo tipo, R permite interactuar fácilmente con otros lenguajes de programación para explotar las virtudes de otros programas; por ejemplo:
    • rPython permite ejecutar código de Python directamente desde R.
    • Rcpp permite elaborar y compilar código de C++ y ejecutarlo desde R.
    • SparkR permite interactuar con Spark para llevar a cabo análisis con Big Data.

1.1 RStudio

  • La iniciativa de RStudio (plataforma interactiva para ejecutar R) proporciona una forma muy didáctica de realizar todo tipo de actividades. Rstudio, al igual que muchos otros entornos de desarrollo integrado (IDE, integrated development environments).

  • Comprende, entre otros, editores de código y herramientas de depuración para ayudar a los desarrolladores a escribir scripts (en un script se escriben todos los comandos que se ejecutan en la consola).

  • RStudio se convirtió rápidamente en la alternativa número uno para interactuar directamente con R; toda la información al respecto se puede encontrar en https://www.rstudio.com/ o trabajar “online” desde https://rstudio.cloud

  • Desde la implementación de rutinas básicas, hasta la creación de paquetes y proyectos completos, RStudio ofrece un sin fin de ayudas y atajos que hacen la programación aún más sencilla; por ejemplo:

    • Autocompletado de instrucciones.
    • Comprobación de errores.
    • Interface gráfica amigable y fácil de usar.
  • RStudio permite acceder a muchas otras aplicaciones que se han popularizado recientemente; por ejemplo, es posible hacer documentos y presentaciones interactivos por medio de Swave y RMardown, que permiten elaborar textos en diversos formatos (pdf, html, xdoc) vinculados directamente con el código, y que a su vez, se actualizan automáticamente siguiendo las especificaciones del usuario.

Una sesión típica de RStudio se ve de la siguiente manera: Como se ve en la imagen, RStudio tiene 4 componentes importantes:

  1. Consola: Es donde se dan instrucciones a R y, en ocasiones, se muestran los resultados de estas instrucciones.
  2. Fuente: Es otro lugar en donde se dan instrucciones a R mediante scripts y otro tipo de archivos.
  3. Espacio de Trabajo: 3.1. Environment: También se conoce como espacio de trabajo y es donde se van colocando los objetos, como las bases de datos, que importo o creo en R. 3.2. History: Es donde queda el registro de cada una de las acciones que he ejecutado en la consola directamente, o que he enviado a la consola desde la fuente.
  4. Archivos, Gráficas y Paquetes: 4.1. Files: Permite ver las carpetas o archivos que están el directorio de trabajo o en otras carpetas del computador. 4.2. Plots: Permite ver las gráficas creadas usando R y exportarlas. 4.3. Packages: Contiene un listado de todos los paquetes instalados en R. Los paquetes marcados son paquetes que están activos. 4.4. Help: Muestra las páginas de ayuda de las funciones en R.

2 Instalación

Esta sección presenta una guía detallada para instalar R y RStudio. En la primera parte están las instrucciones de instalación para Windows y en la segunda están las instrucciones para Mac.

Si ya tienen instalado R y RStudio, les sugiero que se aseguren de que ambos estén actualizados.

2.1 Windows

Para instalar R en Windows se debe descargar e instalar la aplicación de https://cran.r-project.org/bin/windows/base/

Una vez ha sido descargado el archivo de instalación, se debe ejecutar la instalación como con cualquier otro programa o aplicación en Windows. Cuando haya terminado esta instalación, se procede con la instalación de RStudio.

Cuando R esté instalado deberá aparecer un ícono en la carpeta de aplicaciones o en el menú de inicio:

Para instalar RStudio en Windows se debe descargar e instalar la aplicación de https://rstudio.com/products/rstudio/download/

Una vez ha sido descargado el archivo de instalación, se debe ejecutar la instalación como con cualquier otro programa o aplicación en Windows.

Cuando RStudio esté instalado deberá aparecer un ícono en la carpeta de aplicaciones o en el menú de inicio:

2.2 Mac

Para instalar R en Mac se debe descargar e instalar la aplicación de https://cran.r-project.org/bin/macosx/

Una vez ha sido descargado el archivo de instalación, se debe ejecutar la instalación como con cualquier otro programa o aplicación en Mac. Cuando haya terminado esta instalación, se procede con la instalación de RStudio.

Cuando R esté instalado deberá aparecer un ícono en la carpeta de aplicaciones.

Para instalar RStudio en Windows se debe descargar e instalar la aplicación de https://rstudio.com/products/rstudio/download/

Una vez ha sido descargado el archivo de instalación, se debe ejecutar la instalación como con cualquier otro programa o aplicación en Mac.

Cuando RStudio esté instalado deberá aparecer un ícono en la carpeta de aplicaciones.

3 Operaciones básicas

Realizar en la consola (i.e., donde encuentran el símbolo > azul) las siguientes operaciones:

5 + 7
## [1] 12
25 / 5
## [1] 5
10 * 55
## [1] 550
5 - 1
## [1] 4
x <- 25
y <- 10
w <- x*y
w / 5
## [1] 50

4 Algunos ejemplos avanzados

Así como R permite hacer operaciones básicas como las anteriores, también permite hacer operaciones avanzadas. A continuación se presentan algunos ejemplos de gráficas que podrían hacerse con R:

5 Paquetes

R funciona con base en paquetes. Cada operación estadística o función que se ejecute en R hace parte de un paquete (sea instalado por defecto o no).

5.1 Instalación de paquetes

  • La instalación de R viene con un grupo de paquetes instalados.
  • Para ver qué paquetes tiene instalados, se usa la función library()
  • Para instalar paquetes se debe usar la función: install.packages("Nombre del Paquete")
  • Por ejemplo, para instalar el paquete descr debe escribir: install.packages("descr")
  • Para verificar que el paquete fue instalado correctamente se usa nuevamente la función library()
  • La instalación solo se debe hacer una vez.

5.2 Activación o carga de paquetes

  • R no carga todos los paquetes instalados cuando inicia.
  • Si el paquete no se ha cargado, las funciones del paquete no se pueden utilizar.
  • Para ver qué paquetes están activos o cargados en la memoria use la función: search( )
  • Para cargar los paquetes en la memoria se debe utilizar la función: library("nombre del paquete")
  • Por ejemplo, para cargar el paquete descr se debe escribir: library("descr")
  • Para verificar que los paquetes fueron cargados correctamente se utiliza nuevamente la función search()
  • La carga o activación de estos paquetes se debe hacer cada vez que se inicia R.

6 Buscar Ayuda

  • Para obtener ayuda de una función en particular puede usarse el comando: help("nombre función"), el cual brinda una breve descripción de la función, la forma de utilizarla y los argumentos que pueden utilizarse en esta. Otra alternativa es utilizar el comando ?nombre_función, el cual brinda la misma información.
  • Para obtener ayuda sobre R puede utilizarse el comando help.start( )

También existen diversas páginas web para buscar ayuda. Algunas de ellas son:

¿En qué consiste programar? https://www.linkedin.com/feed/update/urn:li:ugcPost:6466357719396872192/

7 Directorio de trabajo

  • Es la carpeta del computador de la que R saca los archivos que se utilicen y en la que guarda los archivos que se creen.
  • Cada vez que R inicia, utiliza como directorio de trabajo la carpeta “madre” de su computador.
  • Esta carpeta se puede verificar con la función getwd()
  • Use las funciones dir() o list.files() para ver qué archivos y carpetas hay en esa carpeta.
  • No es una carpeta ideal para tenerla como directorio de trabajo.

Se puede fijar un directorio de trabajo de diversas maneras:

  • Utilizando los menús de RStudio.
  • Utilizando el atajo Ctrl + Shift + H
  • Utilizando la función setwd("ruta carpeta")
    • En Windows: Abrir la carpeta en el explorador de archivos, hacer click sobre la barra de dirección y copiar la ruta. R en Windows requiere que en lugar de un backslash  se incluyan dos backslash \ o simplemente un slash entre las ubicaciones de la ruta.
    • En Mac: Hacer click derecho sobre la carpeta, presionar la tecla alt, y seleccionar la opción “Copiar R como ruta de acceso”.
  • La fijación del directorio de trabajo se debe hacer cada vez que se inicia R.

8 Proyectos

  • Una mejor alternativa a fijar el directorio de trabajo es crear un proyecto en RStudio, para cada actividad que se realice.
  • Por ejemplo, es posible crear un proyecto que se llame “estadistica” para las actividades que se realicen en este curso.
  • Para crear el grupo solo se sebe hacer click en el ícono de un cubo azul claro con una letra R dentro del cubo y un signo +, ubicado en la parte superior izquierda de RStudio, y seguir las instrucciones.
  • En el proyecto y su carpeta queda guardado todo lo que se haga, incluyendo gráficos y datos creados.

9 Funciones

R es controlado por funciones. Para hacer cualquier operación o estimación de R se “llama” la función, la cual está conformada por argumentos. Las funciones se controlan colocando valores a los argumentos de la función, los cuales son listados en paréntesis y se separan con comas. Usualmente, el primer argumento es el objeto sobre el que se va a hacer la operación o la estimación.

Algunos ejemplos:

# crear conjunto de datos
x <- c(20, 21, 23, 19, 18)

# llamar la función mean para calcular el promedio
mean(x)
## [1] 20.2
# crear un nuevo conjunto de datos con datos faltantes:
y <- c(18, NA, 20, 19, 21, 23, 19, 21, NA)

# llamar la función mean para calcular el promedio
mean(y)
## [1] NA
# incluir el argumento na.rm = TRUE para que efectivamente calcule el promedio de los datos observados
mean(y, na.rm = TRUE)
## [1] 20.14286

Observe que el hashtag (#) se utiliza para escribir “comentarios” en R. Cualquier cosa que se escriba después de este símbolo no será tenido en cuenta en la ejecución del programa.

Para ejecutar estos comandos desde un script y no desde la consola, solo hay que copiar estos comandos en un script y ejecutar cada línea oprimiendo el botón Run que se encuentra en la parte superior del script.

10 Scripts

  • Los scripts proveen una manera sencilla de “programar” tareas sencillas que se repiten con frecuencia en R.
  • También son útiles para incluir todas las tareas y funciones que se utilizaron para realizar cualquier análisis, de manera que se pueda replicar fácilmente y hacer cambios.
  • Para abrir un script deben hacer click en el ícono con un documento blanco y un signo + ubicado en la parte superior izquierda de RStudio.

11 Otras cosas útiles

¿Cómo puedo ver las funciones que están contenidas en un paquete?

library(help = "nombre paquete")

Para mirar el contenido de una función, se pone el nombre de la función sin los paréntesis:

sd 
## function (x, na.rm = FALSE) 
## sqrt(var(if (is.vector(x) || is.factor(x)) x else as.double(x), 
##     na.rm = na.rm))
## <bytecode: 0x00000248210add88>
## <environment: namespace:stats>

Si se quiere listar los elementos en el espacio de trabajo se usa la función ls().

Para borrar un elemento del espacio de trabajo se usa la función rm:

rm(x)

Si se quiere borrar por completo el espacio de trabajo se usa la siguiente función:

rm(list = ls())

12 Algunos atajos

  • Ctrl + L borra todo lo que este definido en la consola.
  • La flecha hacía arriba en el teclado muestra en la consola las últimas funciones usadas.
  • Command + flecha arriba en Mac o Ctrl + flecha arriba en Windows muestra en la consola un listado completo de las últimas funciones usadas.
  • En un script Command + enter en Mac o Ctrl + enter en Windows ejecuta o “corre” la línea actual del script correspondiente.
  • En un script Alt + Command + R en Mac o Alt + Control + R en Windows ejecuta todo un script.