Sobre mí

Mi nombre es Linda Cabrera Orellana

Ingeniera en Auditoría (ESPOL)

Máster en Investigación Matemática (UPV)

Temas de interés: trading automático y minería de textos

Profesora universitaria

Co-organizadora de RLadies Guayaquil

Software Carpentry Instructor

Acerca del curso

Del 16 de mayo al 27 de mayo del 2022.

De 19h00 a 21h30.

* Taller: 19h00 - 20h10 
* Break: 20h10 - 20h20
* Taller: 20h20 - 21h30

40 horas en total: 20 horas sincrónicas y 20 asincrónicas.

Para aprobar el curso debe entregar la actividad que se envíe al final de la capacitación.

Contenido:

  • Instalación de R y RStudio.
  • Importar datos de diferentes fuentes (csv, excel, spss).
  • Tipos de datos y operaciones básicas.
  • Data manipulation y Data wrangling: preparar y manejar datos para análisis y reportes con tidyverse (cadenas de caracteres, fechas, horas, factores, etc.).
  • Construyendo funciones y modelos simples.
  • Bases de ggplot2 para creación de gráficos estáticos.
  • Visualización univariada de variables numéricas, nominales, ordinales, series temporales, redes, etc.
  • Explorar interacciones entre variables del mismo o diferente tipo de datos.
  • Gráficos dinámicos con plotly.
  • Escribir documentos con formato en R usando RMarkdown.
  • Generar Reportes desde R a html, Word y power point.
  • Conectar RStudio y GitHub para controlar versiones de análisis y reportes.

Introducción

¿Qué es R?

Algunos datos importantes que debes conocer acerca de :

  • Fue desarrollado inicialmente por Robert Gentleman y Ross Ihaka del Departamento de Estadística de la Universidad de Auckland en 19931. La sintaxis es similar al lenguaje S, pero la semántica, que aparentemente es parecida a la de S, en realidad es sensiblemente diferente, sobre todo en los detalles un poco más profundos de la programación (Santana, 2014).

  • Es un lenguaje de programación de análisis de datos. Algunos ejemplos de lo que puedo hacer con R

¿How often do you use the following languages?. Fuente: https://www.anaconda.com/state-of-data-science-2021

¿How often do you use the following languages?. Fuente: https://www.anaconda.com/state-of-data-science-2021

  • Es un entorno de software libre y tiene licencia GNU GLP (Licencia Pública General de GNU o más conocida por su nombre en inglés GPL General Public License).

  • Es uno de los lenguajes de programación más utilizados en investigación científica.

Cantidad de artículos académicos encontrados en Google Scholar, para software de ciencia de datos - 2018. Fuente: https://r4stats.com/2019/04/01/scholarly-datasci-popularity-2019/

Cantidad de artículos académicos encontrados en Google Scholar, para software de ciencia de datos - 2018. Fuente: https://r4stats.com/2019/04/01/scholarly-datasci-popularity-2019/

  • Integra multitud de paquetes cuya continua incorporación al entorno R incrementan su capacidad y versatilidad.

  • Capacidad gráfica permite generar gráficos de alta calidad2.

  • GUI disponibles gratuitas para R, como Rcmdr excepcionalmente beneficioso para los principiantes y Rattle abordada por su amplio uso de minería de datos.

  • Existen varias comunidades en el mundo para fomentar el avance del conocimiento y el uso del lenguaje de programación en R3.

Comunidades de R. Fuente: [Global R Community Explorer Dashboard](https://benubah.github.io/r-community-explorer/index.html)

Comunidades de R. Fuente: Global R Community Explorer Dashboard


“Si viajas solo llegarás más rápido, si viajas acompañado llegarás más lejos” (Anónimo)


The R community is one of R's best features

The R community is one of R’s best features



“Cuando comienzas a programar, es fácil sentirte realmente frustrado y pensar:”Oh, soy yo, soy realmente estúpido” o “No estoy hecho para programar”. Pero, ese no es el caso en absoluto. Todo el mundo se frustra. Todavía me frustro ocasionalmente cuando escribo código R. Es solo una parte natural de la programación. Entonces, le sucede a todos y se vuelve cada vez menos con el tiempo. No te culpes. Solo tómate un descanso, haz algo divertido y luego regresa e inténtalo de nuevo más tarde.” (Hadley Wickham)



Instalación de R y RStudio



  1. Descargar R desde CRAN4 e instalarlo en el computador. Al ejecutar el instalador seguir los pasos que indica.
Pantalla CRAN - RStudio

Pantalla CRAN - RStudio

Pantalla de instalador de R para Windows

Pantalla de instalador de R para Windows

  1. Para confirmar que la instalación se hizo correctamente nos dirigimos a las aplicaciones y hacemos clic en Inicio -> Todas las aplicaciones -> R -> R X64 4.2.0 y se debe abrir la siguiente pantalla:
Consola RGui

Consola RGui

  1. Con R instalado, descargar RStudio desde https://www.rstudio.com/products/rstudio/download/ según el sistema operativo.
Pantalla de RStudio/products

Pantalla de RStudio/products

RStudio Cloud

La plataforma se encuentra en internet y no necesitamos instalar ningún IDE, ni ninguna herramienta como R. Fue liberada en el 2019 por RStudio.

  1. Ingresar a RStudio Cloud.

  2. Crear una cuenta en RStudio Cloud.

Espacio de trabajo de RStudio Cloud

Espacio de trabajo de RStudio Cloud

Entendiendo RStudio

La consola de RStudio es donde sucede toda la acción. Hay cuatro ventanas fundamentales en la consola, cada una con su propio propósito (Boehmke, 2016).

4 Paneles fundamentales de la Consola de RStudio

4 Paneles fundamentales de la Consola de RStudio

En la CONSOLA puede codificar directamente, pero no guardará el código. Por ejemplo puedo ingresar operaciones matemáticas directamente a la consola:

8*4
## [1] 32

Si deseo conocer el directorio en el que me encuentro ahora, lo puedo hacer con la función getwd():

getwd()
## [1] "C:/Users/linda/Documents/UTMACH/CURSOS/MANEJO_DATOS_R_CERO_A_NINJA/Reporte_Curso_R"

En el panel de ARCHIVOS DE COMANDOS se mostrarán los archivos de script. Existen múltiples formas de archivos de secuencias de comandos, pero la básica para comenzar es el archivo R5.

RStudio admite la ejecución directa de código desde el editor de código fuente (los comandos ejecutados se insertan en la consola donde también aparece su salida). Hay varias opciones:

  1. Para ejecutar la línea de código fuente donde reside actualmente el cursor, presione la tecla Ctrl+Enter (o use el botón Run de la barra de herramientas).

  2. Si desea ejecutar varias líneas a la vez desde el editor seleccione las líneas y presione la tecla Ctrl+Enter

  3. Para ejecutar todo el documento, presione la tecla Ctrl+Shift+Enter (o use el botón de la barra de herramientas Source).

Puede comentar y descomentar selecciones completas de código de un script mediante el elemento de menú Código -> Comentar/Descommentar líneas (también puede hacerlo mediante el atajo de teclado Comando+Mayús+C) o escribiendo el signo numeral.

## una operación matemática
4*8
## [1] 32
## imprimir un texto
print("mi nombre es Linda")
## [1] "mi nombre es Linda"

El ENTORNO DEL ESPACIO DE TRABAJO incluye cualquier objeto definido por el usuario (vectores, matrices, marcos de datos, listas, funciones).

El panel inferior derecho contiene PANTALLAS VARIAS. La pestaña Archivos le permite ver qué archivos están disponibles en su directorio de trabajo. La pestaña Gráficos mostrará cualquier visualización que produzca su código. La pestaña Paquetes mostrará una lista de todos los paquetes descargados a su computadora y también los que están cargados. Y la pestaña Ayuda le permite buscar temas sobre los que necesita ayuda y también mostrará las respuestas de ayuda.

Obteniendo ayuda

Algunas fuentes de donde se puede obtener ayuda son:

  1. Directamente desde la consola
## proporciona enlaces de ayuda general
help.start()

## busca en el sistema de ayuda la documentación que coincida con un carácter dado.
## introducir cadena de texto.
help.search("time series")

## proporciona detalles para una función específica instalada en tu pc
help("unique")

## busca la frase clave en manuales de ayuda y listas de correo archivadas en el 
## sitio web de R Project en http://search.r-project.org/
RSiteSearch("string")
  1. Desde la Web:

Trabajando con paquetes

En R, la unidad fundamental del código compartible es el paquete. Un paquete agrupa código, datos, documentación y pruebas y proporciona un método fácil para compartir con otros.

## Para instalar paquetes desde CRAN
install.packages("tidyverse")

Una vez que el paquete se descarga en su computadora, puede acceder a las funciones y recursos proporcionados por el paquete de dos maneras diferentes:

# carga el paquete para usar en la sesión actual de R
library(tidyverse)

# usar una función particular dentro de un paquete sin cargar el paquete 
dplyr::filter()

RStudio compiló una guía con algunos de los mejores paquetes para cargar, manipular, visualizar, analizar e informar datos, que la puedes encontrar en https://support.rstudio.com/hc/en-us/articles/201057987-Quick-list-of-useful-R-packages.

Referencias

Boehmke, B. (2016). Data wrangling with R. Springer Science+Business Media.
Santana, M. (2014). El arte de programar en R. Instituto Mexicano de Tecnología del Agua.

  1. A Brief History R: Past and Future History, Ross Ihaka, Departmento de Estadística, Universidad de Auckland, Auckland, Nueva Zelanda, disponible en el sitio web CRAN.↩︎

  2. #30díasdegráficos y #30DayMapChallenge por Stephanie Orellana Bello.↩︎

  3. The R community is one of R’s best features, Milestones in AI, Machine Learning, Data Science, and visualization with R and Python since 2008, revolutionanalytics.com.↩︎

  4. CRAN es un acrónimo Comprehensive R Archive Network (Red integral de archivos R) para el lenguaje de programación R.↩︎

  5. Editing and Executing Code in the RStudio IDE, RStudio Support, 28 Diciembre 2021.↩︎