Antes de comenzar, haremos un repaso sobre algunas técnicas y herramientas que utilizaremos y que serán de ayuda en la elaboración de sus actividades.
Utilizaremos R Markdown como herramienta principal para programación, análisis y presentación de datos.
Markdown es un complemento para la elaboración de archivos HTML, PDF o Word, que incluye texto, código y gráficas en un solo documento.
Mayor referencia:
El documento markdown es el documento origen con extensión .Rmd, de donde se se obtendrán los documentos presentables con otra extensión (.html, .pdf, doc)
Podemos dar formato al texto para resaltar ideas, palabras, cambiar tamaño de letra, definir una entrada y salida de código. Pueden referirse al siguiente cheat sheet para que experimenten en un nuevo documento las variaciones de formato que pueden encontrar.
https://www.rstudio.com/wp-content/uploads/2015/02/rmarkdown-cheatsheet.pdf
Lo siguiente es un cuadro de código, o chunk. Este recuadro nos permitirá ingresar código que puede ser ejecutado cuando generemos el documento final
# Comentario en código, esto no se ejecuta
print("Hola Mundo")
## [1] "Hola Mundo"
# nos sirve para incluir comentarios (no ejecutables) dentro de las líneas de código.
Dentro de las llaves {}, podemos incluir opciones como
RPubs será la herramienta que utilizaremos para publicar el markdown en cuanto se encuentre listo.
Para los siguientes ejercicios, utilizaremos la librería dplyr, la cual es una librería que nos falicita la manipulación de un conjunto de información para adaptarlo a los propósitos de nuestros análisis.
Desde la ventana de control
-> Packages
-> Install (abre un recuadro de búsqueda)
-> (Buscamos el paquete que queremos descargar, por ej: dplyr) dplyr
-> Presionamos Install en el recuadro
O bien, podemos instalar el paquete a través de código:
# Con la siguiente línea instalamos el paquete
install.packages('dplyr')
# Con esta línea conocemos una breve descripción del paquete
packageDescription('dplyr')$Description
## [1] "A fast, consistent tool for working with data frame\n like objects, both in memory and out of memory."
# Activamos la librería para que esté disponible en el entorno de desarrollo
library('dplyr')
Big data es un término que refiere a un análisis de datos cuyo volumen es significativo, de tal forma que los métodos tradicionales de análisis e incluso tecnológicos se ven limitados.
Los datos pueden ser:
No existe una línea que determine a partir de qué momento hablamos de big data, sin embargo, cuando observamos que nuestros procesos de análisis de datos se ven interrumpidos debido al tamaño y forma de los datos, entonces hay que pensar en una solución alternativa.
Recomendable, crear un archivo con extensión .R y experimentar la creación de variables de diferentes tipos.
Data types
Estructuras repetitivas -> For loop
https://www.tutorialspoint.com/r/r_loops.htm
https://www.tutorialspoint.com/r/r_for_loop.htm
Estructuras selectivas If, else if, else