Big Data aplicado a finanzas

Profesor Alberto Bernat (abernat@uemc.es)

TEORIA (1 HORA Y 15 MINUTOS)

¿Qué estudia la ciencia de la estadística?

Spiegel, (1991) dice: “La estadística estudia los métodos científicos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones …”

La Estadística es una “ciencia matemática que usa la matemática pero ha llegado a ser”una disciplina diferente

¿Que se estudia en Big Data?

Big Data es la búsqueda, gestión, procesamiento y análisis de grandes volúmenes de datos para convertirlos en datos útiles que ayuden al desarrollo del negocio.

La estadística en el Big Data se basa en entender las variables de la información y la relación entre las variables que se encuentran en ella.

¿Pero, qué es un dato?

El dato es una información concreta sobre hechos, elementos, etc., que permite estudiarlos, analizarlos o conocerlos. Así, los datos describen hechos empíricos.

Una variable estadística es una característica de una muestra o población de datos que puede adoptar diferentes valores.

Estos valores puede ser cuantitativos o cualitativos e indican el valor que se le asigna representado a través de una secuencia de símbolos, números o letras.

¿Porqué tiene relevancia el dato en la toma de decisiones?

En la toma de decisiones estratégicas y operativas dentro de la empresa deseamos reducir la incertidumbre, el riesgo.

La cantidad es el camino más directo a la calidad. La relación no es inversa, sino directa.

El análisis de datos de gran volumen, por tanto, se ha convertido en una valiosa fuente de información para la toma de decisiones en las organizaciones de todos los tamaños.

¿Cuales son los tipos de variables estadísticas?

pueden ser de dos tipos:

  • Cualitativas: son aquellas en la que los resultados posibles no son valores numéricos.

  • Cuantitativas: aquellas cuyo resultado es un número. A su vez, las hay de dos tipos:

  1. Cuantitativas discretas: cuando se toman valores aislados.

  2. Cuantitativas continuas: cuando, entre dos valores cualesquiera, puede haber valores intermedios.

Los datos de la información Económico-Financiera

El indicador económico es un tipo de dato de carácter estadístico sobre la economía que permite realizar un análisis de la situación y del rendimiento de la economía tanto pasada como presente, y en muchos casos sirve para realizar previsiones sobre la futura evolución de la economía.

La información financiera es la que emana de la contabilidad, es información cuantitativa expresada en unidades monetarias.

Los datos de los mercados financieros

La información del mercado la sintetizamos en datos que se obtienen de la cotización diaria de los activos, como por ejemplo,

  • el precio de cierre, que es la última cotización que registró durante el día en el mercado bursátil en un determinado título financiero.

  • el volumen,

  • o el precio de apertura.

Características de los datos en los mercados financieros

La hipótesis del “random walk” implica es un modelo financiero que asume que el mercado de valores se mueve de una manera completamente impredecible

Cantidad ingente de información y flujo continuo

Mercados financieros globales

Acceso a la información por exigencias de los mercados regulados, avance en las TIC´s

¿Cómo generamos los datos económicos?

  • análisis de hechos pasado como las transacciones de activos realizadas, que nos ofrecen información cuantitativa expresada en unidades monetarias (precio de cierre, volumen de negociación, …)

  • expectativas futuras, que definen las creencias que tienen los individuos sobre el valor futuro de las variables económicas y financieras (previsión del PIB o de inflación, precio de un contrato de Futuro cotizado en un mercado financiero)

Series de datos históricos

  • ¿muestra o población?

  • ¿qué periodicidad: día, mes, año?

  • precios ¿…de cierre, de apertura, precio medio?

  • representatividad a efectos del análisis (letra del Tesoro, Bono, Obligaciones, Alemán, EE.UU)

¿Qué es una base de datos?

Una base de datos es una herramienta para recopilar y organizar información. Y, nos permiten la creación, modificación y depuración de los datos una vez dentro de ellas.

Las bases de datos pueden almacenar información (estructurada, o no) sobre precios, riesgos (betas), ratios sectoriales u otras variables que nos resulten útiles para su estudio.

¿Qué tipo de base de datos?

Bases de datos locales, infraestructura y la gestión de dicha base de datos se realiza en la propia organización

Bases de datos en la nube, existen dos tipos:

  • el modelo tradicional y,
  • el de base de datos como servicios (database as a service, DBaaS). Con DBaaS, un proveedor de servicios realiza las tareas administrativas y el mantenimiento.

Bases de datos estructuradas

los datos estructurados están ordenados en registros (filas) y columnas (atributos), por ejemplo:

  • Hoja de Excel

  • Bases de datos relacionales o SQL

  • Formularios web

  • Fichas de clientes estandarizadas

Bases de datos no estructuradas

los datos no se pueden almacenar en una base de datos tradicional, si no que requieren bases de datos no relacionales o NoSQL. Estos datos pueden ser textuales o no, además, pueden estar generados tanto por humanos como por máquinas. Como por ejemplo:

  • Los archivos de imágenes, archivos de audio, Los PDF

  • Los datos de redes sociales, mensajería instantánea, de geolocalización

Bases de datos semiestructurados

los datos semiestructurados son un punto intermedio entre los datos estructurados y los no estructurados, carecen de un esquema fijo y su gestión y automatización no es tan sencilla como con los datos estructurados. Son ejemplos de datos semiestructuturados:

  1. Los correos electrónicos.

  2. El lenguaje XML o cualquier lenguaje de etiquetado o marcado.

  3. Los ejecutables binarios

DESCANSO (20 MINUTOS)

PRÁCTICA (1 HORA Y 15 MINUTOS)

¿Qué es R?

R es un lenguaje de programación que permite realizar análisis de datos escribiendo scripts y funciones.

R es un lenguaje interactivo orientado a objetos, este ha sido diseñado por estadísticos y para los estadísticos …dedicados a la computación estadística y la creación de gráficos.

¿Qué es Python?

Python es un lenguaje de programación ampliamente utilizado en las aplicaciones web, el desarrollo de software, la ciencia de datos y el machine learning (ML). Los desarrolladores utilizan Python porque es eficiente y fácil de aprender, además de que se puede ejecutar en muchas plataformas diferentes.

Uso de R en Big Data

En el ámbito del Big Data se utiliza para la manipulación, procesamiento y visualización gráfica de los datos.

R nos permite:

  • Establecer visualizaciones de datos de alta calidad

  • Crear dashboards para visualizar y analizar datos

Uso de Python en Big Data

Una de las principales ventajas de trabajar el Big Data con Python es que se trata de una solución con un código simple, que permite desarrollar soluciones usando menos líneas de código que otros lenguajes de programación.

Diferencias entre R y Python

Las principales diferencias son:

  • R es un lenguaje orientado al análisis estadístico que se utiliza ampliamente en el campo de la ciencia de datos,

  • mientras que Python es un lenguaje de alto nivel multipropósito utilizado además en otros campos (desarrollo web, scripting, etc.)

¿Qué es RStudio?

R Studio es un IDE o entorno de desarrollo integrado.

En español, eso significa que RStudio es un programa para manejar R y utilizarlo de manera más cómoda en algunos aspectos.

RStudio ahora es Posit

RStudio el pasado mes de octubre de 2022 pasó a llamarse Posit

Ciencia de datos con R y Python

El paquete reticulate para RStudio, nos proporciona un conjunto completo de herramientas para la interoperabilidad entre Python y R.

Lo más interesante de este paquete quizás sea que nos permite seguir usando todas las ventajas (y conocimientos) de R y, también podamos añadirle todas las características del lenguaje Python, lo que hará aún más potente el código que se desarrolle.

Descargar e instalar R

Para instalar R en nuestro ordenador vamos a la página web de R project:

Descargar el IDE de RStudio

El IDE (entorno de desarrollo integrado) de RStudio es un conjunto de herramientas creadas para ayudarlo a ser más productivo con R y Python.

Para instalar RStudio en nuestro ordenador vamos a la página web de Posit:

Bases de datos en RStudio

RStudio permite cargar datos a través de menús ( File > Import Dataset ). Por menús se pueden cargar datos CSV, EXCEL, SPSS, SAS y STATA.

Fuentes de información financiera

Internet (gratis)

  • Yahoo Finance, Oanda, Google Finance o FRED

Vendors (de pago)

  • Bloomberg (Terminal)

  • Reuters

  • Factsheet

  • otras…

Herramientas para extraer datos en RStudio

quantmod, este paquete permite acceder a datos desde Yahoo Finance, Oanda, Google Finance o FRED

Quandl (Nasdaq Data Link R) este paquete hace que sea increíblemente fácil obtener datos financieros del Nasdaq.

Ambos están diseñados para ayudar al trader o analista en finanzas cuantitativas.

Herramientas para extraer datos en RStudio

Si queremos acceder a datos del Banco Mundial,

wbstats, el cual permite buscar y descargar datos estadísticos desde la API:

WDI, que realiza una labor similar:

Instalar paquetes en RStudio

#install.packages("reticulate")
library(reticulate)
#install.packages("quantmod")
library(quantmod)
#install.packages("wbstats")
library(wbstats)
#install.packages('WDI')
library(WDI)
#install.packages("Quandl")
library(Quandl)

Analizar un activo financiero cotizado

  1. extraer la serie histórica de precios (periodicidad)

  2. rentabilidad (histórica y esperada)

  3. varianza y volatilidad (riesgo financiero)

  4. covarianza y correlación (grado de diversificación)

  5. optimización de la cartera (máxima rentabilidad/menor riesgo)

PREGUNTAS TEST (10 MINUTOS)

  1. ¿Cuántos tipos de datos podemos obtener para hacer un análisis de Big Data en el sector financiero?

A. Datos estructurados, semiestructurados y no estructurados.

B. Solamente datos estructurados.

C. Datos estructurados y semiestructurados.

  1. Cuál de las siguientes afirmaciones consideras cierta a la hora de combinar estos dos lenguajes:

A. El paquete reticulate para RStudio (RStudio en octubre de 2022 pasó a llamarse Posit), nos proporciona un conjunto completo de herramientas para la interoperabilidad entre Python y R.

B. El paquete reticulate para RStudio (RStudio en octubre de 2022 pasó a llamarse Posit), nos permite seguir usando todos los conocimientos de R y además pueda añadirle todas las características del lenguaje Python, lo que hará aún más potente el código que desarrolle.

C. Las respuestas A y C son correctas.

  1. El primer paso, antes de analizar un activo financiero cotizado, sería obtener los datos históricos desde alguna fuente de información financiera (o directamente del propio mercado en el que se cotiza). Para ello, existen herramientas con las que podemos extraer datos como, el precio de apertura, el precio máximo durante la sesión, el precio mínimo y el volumen. Algunos de los paquetes que nos permite importar este tipo de datos en RStudio (RStudio en octubre de 2022 pasó a llamarse Posit), son:

A. quantmod, fImport y wbstats.

B. Yahoo Finance, Oanda, Google Finance o FRED

C. Ninguna de las anteriores respuestas es correcta.

¿Cuáles son las respuestas correctas?

  1. A

  2. C

  3. A