Este es un curso de introducción a R.
Al final deberían ser capaces de utilizar R para cargar datos, arreglarlos, hacer gráficos, tablas e informes reproducibles en Rmarkdown.
Intentaremos que el curso sea fundamentalmente práctico, PERO se necesita un mínimo de conocimiento de como funcionan algunas cosas, además, hay que conocer un poco la jerga que se utiliza en la comunidad R.
En lugar de presentar todos los pormenores de R de manera lineal, se irán presentando distintos aspectos de R conforme se vayan necesitando; es decir, no vamos a presentar R como un lenguaje de programación sino como una herramienta para hacer análisis estadísticos.
Curso de introducción a R.
En el curso se trabajará con R a través de RStudio y utilizando Rprojects.
Se presentarán las principales funciones de R-base.
Se enfatizará la importancia de la investigación reproducible, para lo cual los informes de resultados se generarán con Rmarkdown.
En la introducción han aparecido unas cuantas palabras nuevas. Así todas ellas empiezan con la letra R:
R vs. RStudio
R-base vs. packages vs. tidyverse
Reproducible Research: Rprojects y Rmarkdown
Antes de empezar el curso tenemos que tener una idea de qué significan. Vamos a ello:
R es un lenguaje de programación y un entorno para el análisis estadístico y gráfico.
R es parte del sistema GNU y se distribuye bajo la licencia GNU GPL; es decir, es software libre y gratuito.
Es multiplataforma: está disponible para Windows, Macintosh y GNU/Linux.
R fue inicialmente creado por R. Ihaka y R.Gentleman de la Universidad de Auckland en 1993, pero actualmente, el entorno R es el resultado de la colaboración de toda una comunidad de usuarios.
A partir de 1997 el desarrollo del código fuente (o base-R) de R es llevado por un grupo de programadores conocido como “The R-core team”.
La página web oficial de R se llama: The R Project for Statistical Computing. Allí podrás encontrar toda la información oficial acerca de R.
Puedes ver la documentación oficial de R con help.start(). ¿Hace falta leerla? No
Creemos que es el mejor programa para hacer análisis de datos. Si no nos acabas de creer, o quieres leer algo sobre la importancia y capacidades de R puedes hacerlo aquí o aquí, o aquí
R es ampliamente extensible mediante funciones y paquetes
R forma parte de un proyecto colaborativo y abierto. Sus usuarios pueden publicar paquetes que extienden su configuración básica. Existe un repositorio oficial de paquetes: Comprehensive R Archive Network o CRAN
R (junto con sus paquetes) puede implementar una gran variedad de técnicas estadísticas y gráficas.
La comunidad R es muy prolífica y colaborativa: R-bloggers
Precisamente estos 2 aspectos (abundancia de paquetes y comunidad de usuarios) son claves en el éxito de R
Piensa que R se usa hasta para salvar a los bañistas en las playas de Chicago. No sabía que Chicago tuviera playas!!! Ahora en serio, R es cada vez más usado, no sólo en la universidad y la docencia, sino también en el mundo de la empresa, puedes verlo aquí o aquí. Una de las conferencias más importantes sobre el uso comercial de R es The Enterprise Applications of the R Language Conference (EARL).
Entre las empresas que usan R están: Google, Facebook, Twitter, Microsoft, IBM, Uber, Ford, Airbnb, American Express, Barclays Bank, Bank of America… Aquí puedes encontrar un listado más completo.
Sólo tienes que ir a CRAN y descargar la distribución de R adecuada para tu sistema operativo.
La interfaz de usuario (GUI, Graphical User Interface) de R no es muy amigable ni versátil, así que interactuaremos con R a través de RStudio.
RStudio es un programa que nos permitirá interactuar con R de forma más amigable, además de facilitar muchas de las tareas de programación y análisis de datos en R; es decir, RStudio es una GUI (Graphical User Interface)
En términos más técnicos, RStudio es más que una GUI, es un entorno de desarrollo integrado para R, en inglés ‘integrated development environment’ o IDE.
El actual científico jefe de RStudio es Hadley Wickham. Wickham es uno de los más prolíficos desarrollador de paquetes para R y creador de un nuevo estilo de programar y analizar datos en R conocido como ‘tidyverse’. Muchos de los packages que utilizaremos en el curso han sido desarrollados por él.
La versión de escritorio de RStudio también es libre y gratuita. Se puede descargar aquí. Tienes que descargarte el ‘installer’ adecuado para tu sistema operativo.
Al abrir RStudio verás que tiene 4 paneles: la consola es lo más parecido a R y allí se pueden ejecutar instrucciones de R directamente. Para acostumbrase a R y RStudio lo mejor es la práctica, pero aquí teneis un fantástico libro.
Todas las funciones, datos y utilidades de R disponibles para ser utilizadas están almacenados en paquetes (packages en inglés).
Un paquete es simplemente un conjunto de funciones, datos y documentación; por ejemplo el paquete vars sirve para estimar modelos VAR.
Cuando abrimos RStudio, se cargan automáticamente 7 paquetes: son los paquetes de R-base. Puedes ver sus nombres tecleando en la consola loadedNamespaces()
loadedNamespaces()
Con los 7 packages de R-base se pueden hacer análisis estadísticos completos; sin embargo, la comunidad de usuarios de R publica constantemente nuevos paquetes que extienden los métodos y capacidades de R
La gran cantidad de paquetes disponibles es una de las claves del éxito de R. Ya aprenderemos a instalar paquetes.
Podemos ver los paquetes que tenemos instalados con library().
library()
El repositorio oficial de packages de R está en The Comprehensive R Archive Network o CRAN
En enero de de 2017 se superaron los 10.000 pkgs en CRAN. Puedes ver un listado agrupado por temas aquí. Aunque quizás sea más útil para bucear entre los +10.000 packages este buscador de R-documentation
Puedes ver una lista con los packages más populares aquí
Si quieres ver una AWESOME lista de recursos de R pincha aquí