Antes de comenzar, haremos un repaso sobre algunas técnicas y herramientas que utilizaremos y que serán de ayuda en la elaboración de sus actividades.

R Markdown

Utilizaremos R Markdown como herramienta principal para programación, análisis y presentación de datos.

Markdown es un complemento para la elaboración de archivos HTML, PDF o Word, que incluye texto, código y gráficas en un solo documento.

Mayor referencia:

http://rmarkdown.rstudio.com

El documento markdown es el documento origen con extensión .Rmd, de donde se se obtendrán los documentos presentables con otra extensión (.html, .pdf, doc)

Podemos dar formato al texto para resaltar ideas, palabras, cambiar tamaño de letra, definir una entrada y salida de código. Pueden referirse al siguiente cheat sheet para que experimenten en un nuevo documento las variaciones de formato que pueden encontrar.

https://www.rstudio.com/wp-content/uploads/2015/02/rmarkdown-cheatsheet.pdf

Lo siguiente es un cuadro de código, o chunk. Este recuadro nos permitirá ingresar código que puede ser ejecutado cuando generemos el documento final

# Comentario en código, esto no se ejecuta 
print("Hola Mundo")
## [1] "Hola Mundo"

# nos sirve para incluir comentarios (no ejecutables) dentro de las líneas de código.

Dentro de las llaves {}, podemos incluir opciones como

  • include = FALSE, el código se ejecuta pero no se muestran los resultados
  • eval = FALSE, el código no se ejecuta
  • message = FALSE, evista que aparezcan mensajes producidos por el código
  • warning = FLASE, evita que aparezcan los warnings dentro de los resultados

RPubs será la herramienta que utilizaremos para publicar el markdown en cuanto se encuentre listo.

Paquetes en R - Studio

Descarga e instalación

Para los siguientes ejercicios, utilizaremos la librería dplyr, la cual es una librería que nos falicita la manipulación de un conjunto de información para adaptarlo a los propósitos de nuestros análisis.

Desde la ventana de control

-> Packages
-> Install (abre un recuadro de búsqueda)
-> (Buscamos el paquete que queremos descargar, por ej: dplyr) dplyr
-> Presionamos Install en el recuadro

O bien, podemos instalar el paquete a través de código:

# Con la siguiente línea instalamos el paquete 
install.packages('dplyr')
# Con esta línea conocemos una breve descripción del paquete 
packageDescription('dplyr')$Description
## [1] "A fast, consistent tool for working with data frame\n    like objects, both in memory and out of memory."
# Activamos la librería para que esté disponible en el entorno de desarrollo 
library('dplyr')

Big Data

¿Qué es big data?

Big data es un término que refiere a un análisis de datos cuyo volumen es significativo, de tal forma que los métodos tradicionales de análisis e incluso tecnológicos se ven limitados.

Los datos pueden ser:

  • Estructurados: Tienen un formato o tratamiento de modo que se puede analizar.
  • No estructurados: El dato en su forma original, susceptible a errores en su análisis.
  • Semiestructurados: El dato cuenta con patrones de estructura pero no es regular.

Cuando consideramos que es big data

No existe una línea que determine a partir de qué momento hablamos de big data, sin embargo, cuando observamos que nuestros procesos de análisis de datos se ven interrumpidos debido al tamaño y forma de los datos, entonces hay que pensar en una solución alternativa.

Ejemplos y solución de problemas usando big data

  • Análisis técnico y de microtendencias con información tick by tick
  • Market Sentiment (redes sociales) -> The Great Hack
  • Análisis de datos de UBER para fines mercadológicos
  • Machine Learning

Recursos sugeridos

Repaso de R

Recomendable, crear un archivo con extensión .R y experimentar la creación de variables de diferentes tipos.

Data types

  • Vectors
  • Lists
  • Matrices
  • Arreglos
  • Data Frames (importante)

https://www.tutorialspoint.com/r/r_data_types.htm

Estructuras repetitivas -> For loop

https://www.tutorialspoint.com/r/r_loops.htm
https://www.tutorialspoint.com/r/r_for_loop.htm

Estructuras selectivas If, else if, else

https://www.tutorialspoint.com/r/r_decision_making.htm