Spiegel, (1991) dice: “La estadística estudia los métodos científicos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones …”
La Estadística es una “ciencia matemática que usa la matemática pero ha llegado a ser”una disciplina diferente”
Big Data es la búsqueda, gestión, procesamiento y análisis de grandes volúmenes de datos para convertirlos en datos útiles que ayuden al desarrollo del negocio.
La estadística en el Big Data se basa en entender las variables de la información y la relación entre las variables que se encuentran en ella.
El dato es una información concreta sobre hechos, elementos, etc., que permite estudiarlos, analizarlos o conocerlos. Así, los datos describen hechos empíricos.
Una variable estadística es una característica de una muestra o población de datos que puede adoptar diferentes valores.
Estos valores puede ser cuantitativos o cualitativos e indican el valor que se le asigna representado a través de una secuencia de símbolos, números o letras.
En la toma de decisiones estratégicas y operativas dentro de la empresa deseamos reducir la incertidumbre, el riesgo.
La cantidad es el camino más directo a la calidad. La relación no es inversa, sino directa.
El análisis de datos de gran volumen, por tanto, se ha convertido en una valiosa fuente de información para la toma de decisiones en las organizaciones de todos los tamaños.
pueden ser de dos tipos:
Cualitativas: son aquellas en la que los resultados posibles no son valores numéricos.
Cuantitativas: aquellas cuyo resultado es un número. A su vez, las hay de dos tipos:
Cuantitativas discretas: cuando se toman valores aislados.
Cuantitativas continuas: cuando, entre dos valores cualesquiera, puede haber valores intermedios.
El indicador económico es un tipo de dato de carácter estadístico sobre la economía que permite realizar un análisis de la situación y del rendimiento de la economía tanto pasada como presente, y en muchos casos sirve para realizar previsiones sobre la futura evolución de la economía.
La información financiera es la que emana de la contabilidad, es información cuantitativa expresada en unidades monetarias.
La información del mercado la sintetizamos en datos que se obtienen de la cotización diaria de los activos, como por ejemplo,
el precio de cierre, que es la última cotización que registró durante el día en el mercado bursátil en un determinado título financiero.
el volumen,
o el precio de apertura.
La hipótesis del “random walk” implica es un modelo financiero que asume que el mercado de valores se mueve de una manera completamente impredecible
Cantidad ingente de información y flujo continuo
Mercados financieros globales
Acceso a la información por exigencias de los mercados regulados, avance en las TIC´s
análisis de hechos pasado como las transacciones de activos realizadas, que nos ofrecen información cuantitativa expresada en unidades monetarias (precio de cierre, volumen de negociación, …)
expectativas futuras, que definen las creencias que tienen los individuos sobre el valor futuro de las variables económicas y financieras (previsión del PIB o de inflación, precio de un contrato de Futuro cotizado en un mercado financiero)
¿muestra o población?
¿qué periodicidad: día, mes, año?
precios ¿…de cierre, de apertura, precio medio?
representatividad a efectos del análisis (letra del Tesoro, Bono, Obligaciones, Alemán, EE.UU)
Una base de datos es una herramienta para recopilar y organizar información. Y, nos permiten la creación, modificación y depuración de los datos una vez dentro de ellas.
Las bases de datos pueden almacenar información (estructurada, o no) sobre precios, riesgos (betas), ratios sectoriales u otras variables que nos resulten útiles para su estudio.
Bases de datos locales, infraestructura y la gestión de dicha base de datos se realiza en la propia organización
Bases de datos en la nube, existen dos tipos:
los datos estructurados están ordenados en registros (filas) y columnas (atributos), por ejemplo:
Hoja de Excel
Bases de datos relacionales o SQL
Formularios web
Fichas de clientes estandarizadas
los datos no se pueden almacenar en una base de datos tradicional, si no que requieren bases de datos no relacionales o NoSQL. Estos datos pueden ser textuales o no, además, pueden estar generados tanto por humanos como por máquinas. Como por ejemplo:
Los archivos de imágenes, archivos de audio, Los PDF
Los datos de redes sociales, mensajería instantánea, de geolocalización
los datos semiestructurados son un punto intermedio entre los datos estructurados y los no estructurados, carecen de un esquema fijo y su gestión y automatización no es tan sencilla como con los datos estructurados. Son ejemplos de datos semiestructuturados:
Los correos electrónicos.
El lenguaje XML o cualquier lenguaje de etiquetado o marcado.
Los ejecutables binarios
R es un lenguaje de programación que permite realizar análisis de datos escribiendo scripts y funciones.
R es un lenguaje interactivo orientado a objetos, este ha sido diseñado por estadísticos y para los estadísticos …dedicados a la computación estadística y la creación de gráficos.
Python es un lenguaje de programación ampliamente utilizado en las aplicaciones web, el desarrollo de software, la ciencia de datos y el machine learning (ML). Los desarrolladores utilizan Python porque es eficiente y fácil de aprender, además de que se puede ejecutar en muchas plataformas diferentes.
En el ámbito del Big Data se utiliza para la manipulación, procesamiento y visualización gráfica de los datos.
R nos permite:
Establecer visualizaciones de datos de alta calidad
Crear dashboards para visualizar y analizar datos
Una de las principales ventajas de trabajar el Big Data con Python es que se trata de una solución con un código simple, que permite desarrollar soluciones usando menos líneas de código que otros lenguajes de programación.
Las principales diferencias son:
R es un lenguaje orientado al análisis estadístico que se utiliza ampliamente en el campo de la ciencia de datos,
mientras que Python es un lenguaje de alto nivel multipropósito utilizado además en otros campos (desarrollo web, scripting, etc.)
R Studio es un IDE o entorno de desarrollo integrado.
En español, eso significa que RStudio es un programa para manejar R y utilizarlo de manera más cómoda en algunos aspectos.
RStudio el pasado mes de octubre de 2022 pasó a llamarse Posit
El paquete reticulate para RStudio, nos proporciona un conjunto completo de herramientas para la interoperabilidad entre Python y R.
Lo más interesante de este paquete quizás sea que nos permite seguir usando todas las ventajas (y conocimientos) de R y, también podamos añadirle todas las características del lenguaje Python, lo que hará aún más potente el código que se desarrolle.
Para instalar R en nuestro ordenador vamos a la página web de R project:
El IDE (entorno de desarrollo integrado) de RStudio es un conjunto de herramientas creadas para ayudarlo a ser más productivo con R y Python.
Para instalar RStudio en nuestro ordenador vamos a la página web de Posit:
RStudio permite cargar datos a través de menús ( File > Import Dataset ). Por menús se pueden cargar datos CSV, EXCEL, SPSS, SAS y STATA.
Internet (gratis)
Vendors (de pago)
Bloomberg (Terminal)
Reuters
Factsheet
otras…
quantmod, este paquete permite acceder a datos desde Yahoo Finance, Oanda, Google Finance o FRED
Quandl (Nasdaq Data Link R) este paquete hace que sea increíblemente fácil obtener datos financieros del Nasdaq.
Ambos están diseñados para ayudar al trader o analista en finanzas cuantitativas.
Si queremos acceder a datos del Banco Mundial,
wbstats, el cual permite buscar y descargar datos estadísticos desde la API:
WDI, que realiza una labor similar:
extraer la serie histórica de precios (periodicidad)
rentabilidad (histórica y esperada)
varianza y volatilidad (riesgo financiero)
covarianza y correlación (grado de diversificación)
optimización de la cartera (máxima rentabilidad/menor riesgo)
A. Datos estructurados, semiestructurados y no estructurados.
B. Solamente datos estructurados.
C. Datos estructurados y semiestructurados.
A. El paquete reticulate para RStudio (RStudio en octubre de 2022 pasó a llamarse Posit), nos proporciona un conjunto completo de herramientas para la interoperabilidad entre Python y R.
B. El paquete reticulate para RStudio (RStudio en octubre de 2022 pasó a llamarse Posit), nos permite seguir usando todos los conocimientos de R y además pueda añadirle todas las características del lenguaje Python, lo que hará aún más potente el código que desarrolle.
C. Las respuestas A y C son correctas.
A. quantmod, fImport y wbstats.
B. Yahoo Finance, Oanda, Google Finance o FRED
C. Ninguna de las anteriores respuestas es correcta.
A
C
A