Según la definición de Gartner (2001) el Big Data son activos de información de gran volumen, alta velocidad y/o gran variedad, que exigen formas rentables e innovadoras de procesamiento de información que permitan una mejor comprensión, toma de decisiones y automatización de procesos. Es por ésto que comunmente se asocia el Big Data a tres uves: volumen, velocidad y variedad.
Os comparto un par de videos que pueden ser de vuestro interés:
Los dos pilares principales que sustentan el Big Data son una parte técnica (basada en conocimientos de matemáticas, estadística, informática, programación y bases de datos) y otra parte de negocios (orientada al conocimiento de las necesidades de las empresas para la aplicación de lo anterior).
Algunas de las competencias básicas del Big Data que trabajaremos durante la asignatura son:
Según el Foro Económico Mundial, de los 10 trabajos que más crecerán en el mundo durante el periodo 2018-2022, tres están directamente vinculados con el ámbito del Big Data:
Y otros cuatro, relacionados con las posibilidades que ofrece este campo:
Objetivo general:
Hacer uso de las posibilidades que ofrece la estadística, mediante el software de código abierto R, en el ámbito del análisis descriptivo de los datos.
Objetivos específicos:
- Identificar los principales conceptos y fundamentos de la estadística descriptiva e inferencial.
- Descubrir el lenguaje y entorno de programación R.
- Testear las principales técnicas estadísticas para el análisis descriptivo de datos en el ámbito empresarial, de investigación, desarrollo e innovación.
- Desarrollar actitudes colaborativas, de debate y de trabajo en equipos multidisciplinares y multiculturales.
The R Project for Statistical Computing o R, es un lenguaje de programación y entorno orientado a objetos, para el análisis estadístico y gráfico. Está disponible como software libre bajo los términos de la Licencia pública general GNU de la Free Software Foundation en forma de código fuente. Compila y se ejecuta en una amplia variedad de plataformas UNIX y sistemas similares (incluidos FreeBSD y Linux), Windows y MacOS. Creado en sus inicios por John Chambers en los Laboratoiros Bell (AT&T, ahora Lucent Technologies), ahora es el resultado de la colaboración de una gran comunidad de usuarios.
R es una suite o paquete informático que incluye:
Además, es gratis y ampliamente extensible y está siempre actualizado con funciones y paquetes/librerías desde el repositorio oficial Comprehensive R Archive Network (CRAN) y permite producir trazados bien diseñados con calidad de publicación, incluyendo su propio formato de documentación similar a LaTeX.
Una librería o paquete de R es un conjunto de funciones, datos y documentación que facilitan el manejo de la herramienta. R-base tiene cargados algunos paquetes por defecto y con ellos se pueden hacer análisis estadísticos completos. Podemos ver sus nombres mediante la función loadedNamespaces(). Sin embargo, el éxito de R es la gran variedad y constante actualización1 de paquetes que extienden los métodos y capacidades de la herramienta. Como ya hemos comentado, están disponibles a través del repositorio oficial de paquetes de R.
En definitiva, R es una de las herramientas más utilizadas en el ámbito del análisis de datos a nivel empresarial (Google, Facebook, Twitter, Microsoft, IBM, Uber, Airbnb, etc.)2 debido a la gran cantidad de técnicas estadísticas, opciones de cálculo, de manipulación de datos y de visualización gráfica que incluye. Os adjunto algunas lecturas interesantes que pueden resultar de vuestro interés sobre la herramienta:
Para empezar, vamos a descargar R-base desde su página web. La última versión disponibles es la 4.1.1 (octubre de 2021):
Elegimos la versión que se ajuste a nuestro sistema operativo y la instalamos. Si ejecutais el programa R base veréis que se trata de una interfaz gráfica muy simple. Viene a ser una copia de la terminal de Linux:
Se puede trabajar perfectamente con ella, sin embargo, existe un entorno de desarrollo integrado (IDE) para R denominado RStudio.
RStudio es un entorno de desarrollo integrado para R que mejora la interfaz de usuario (GUI, Graphical User Interface). Incluye la consola de R, un editor de resaltado de sintaxis que admite la ejecución directa de código, así como herramientas para el trazado, el historial, la depuración y la gestión del espacio de trabajo. RStudio permite trabajar con R de forma más sencilla. Descargaremos RStudio en su versión de escritorio (desktop) de su página web.
Una vez instalado, siempre trabajaremos con RStudio porque, entre otras cosas:
En el campus virtual tenéis una guía sobre la apariencia y los distintos menús y opciones que ofrece RStudio pero, resumiendo, se compone de cuatro ventanas con las que trabajeremos a partir de ahora:
La ventana de Código/Script, donde trabajaremos de forma habitual. La de Objetos Guardados, donde se van almacenando los objetos, funciones y variables creadas en cada ambiente, además del historial de comandos. La ventana de la Consola, que permite ejecutar código y observar resultados y, por último, la ventana Interactiva, que permite explorar archivos, visualizar gráficos, gestionar paquetes, ver la ayuda, etc.
Como el resto de R, RMarkdown es gratuito y de código abierto y se instala mediante el paquete “rmarkdown” del CRAN (Comprehensive R Archive Network).
#install.packages("rmarkdown")
Este es un ejemplo de archivo RMarkdown, un archivo de texto sin formato que tiene la extensión .Rmd:
El archivo contiene tres tipos de contenido:
Cuando abrimos un archivo .Rmd en el IDE de RStudio, se convierte en una interfaz de bloc de notas para R, donde se puede ejecutar cada fragmento de código haciendo clic en el icono de la derecha (play). RStudio ejecuta el código y muestra los resultados en línea con su archivo:
Para generar un informe a partir del archivo, usaremos el botón “Knit” para renderizar el archivo y obtener una vista previa de la salida con un solo clic. RMarkdown genera un nuevo archivo que contiene texto, código y resultados seleccionados del archivo .Rmd. El nuevo archivo puede ser una página web terminada, PDF o documento de MS Word, entre otros.
Cuando se ejecuta “Knit”, RMarkdown alimenta el archivo .Rmd a knitr, que ejecuta todos los fragmentos de código y crea un nuevo documento (.md) que incluye el código y su salida. El archivo d generado por knitr es luego procesado por pandoc, que es responsable de crear el formato terminado. RMarkdown encapsula todo el procesamiento en una sola función de renderizado:
Podéis encontrar una guía rápida de utilización, la R Markdown Cheatsheet en el Campus virtual de Next Educación, así como un archivo .pdf sobre la generación de informes, como éste, con RStudio y Rmarkdown.
Se puede seguir a la comunidad R a través de r-bloggers.com, en Twitter (@Rbloggers) o a través de rweekly.org.↩︎
The Enterprise Applications of the R Language Conference (EARL).↩︎
Formato de serialización de datos amigable para los humanos y estándar para todos los lenguajes de programación.↩︎