Segmentación de activos financieros en R

Clase 2: Técnico en Finanzas Cuantitativas

Author

Prof: Máster Esteban Sandoval L.

Published

March 22, 2025

Análisis exploratorio de activos financieros

R ofrece varios tipos de funciones gráficas para realizar un análisis exploratorio rápido y eficiente de datos de activos financieros. Entre ellas se incluyen gráficos de series temporales financieras para precios/índices, rendimientos y sus valores acumulados, y gráficos para mostrar sus propiedades de distribución: gráficos de caja, histogramas, gráficos de densidad y gráficos cuantil-cuantil.

La función plot() es una función genérica para representar gráficamente objetos de series temporales univariadas y multivariadas. Además, las dos funciones genéricas lines() y points() permiten agregar líneas y puntos a un gráfico ya existente. La función plot() se implementa con el mismo espíritu que la función plot.ts() para objetos de series temporales regulares, ts, en el paquete base de R, stats.

La función lowess() es un suavizador basado en regresión local ponderada robusta (Cleveland, 1979, 1981), utilizando la función setMethod() del paquete methods de R, podemos crear y guardar un método formal para lowess().

Así mismo, los diagramas de caja (box plots) son una herramienta excelente para representar información sobre la ubicación y variabilidad en conjuntos de datos, especialmente útiles para detectar e ilustrar cambios en la ubicación y la dispersión entre distintos grupos de datos (Chambers, Cleveland, Kleiner y Tukey, 1983).

Para mostrar un histograma o un gráfico de densidad se dispone de funciones histPlot(), densityPlot() y logDensityPlot(), las cuales permiten visualizar la función de densidad desde diferentes perspectivas.

Modelo de Modelo de Valoración de activos de capital (CAPM)

Este modelo desarrollado por William Sharpe, John Lintner y Jan Mossin, es una extensión de la Teoría Moderna de Portafolio (TMP) de Harry Markowitz. Este modelo incorpora un activo libre de riesgo y establece una relación lineal entre el riesgo sistemático de un activo y su retorno esperado.

A diferencia de la TMP, que requiere una matriz completa de covarianzas entre todos los activos, el CAPM simplifica la valoración al reducir el riesgo a una sola fuente la exposición al portafolio de mercado.

[1] "AAPL" "SPY" 

Call:
lm(formula = exceso_AAPL ~ exceso_SPY)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.046517 -0.005284 -0.000081  0.005225  0.055774 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 0.0001587  0.0003805   0.417    0.677    
exceso_SPY  1.2614620  0.0341864  36.900   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.01043 on 750 degrees of freedom
Multiple R-squared:  0.6448,    Adjusted R-squared:  0.6443 
F-statistic:  1362 on 1 and 750 DF,  p-value: < 2.2e-16

Agrupación de los retornos por Clúster Jerárquico

En muchos casos, queremos seleccionar en un paso de pre procesamiento de datos los activos más diferentes en un gran conjunto de datos de activos para reducir la cantidad de activos en el diseño de la cartera.

Esto se puede hacer utilizando enfoques estadísticos que clasifican los activos en grupos con comportamiento similar y propiedades similares. A estos enfoques pertenecen los algoritmos de agrupamiento, como el agrupamiento jerárquico o el agrupamiento k-means, que agrupan activos similares y separan los diferentes (Kaufman y Rousseeuw, 1990). Otro enfoque popular utiliza el análisis de valores propios.

Se pueden proporcionar varios métodos de agrupamiento diferentes a través del argumento de puntos. El método de varianza mínima de Ward tiene como objetivo encontrar agrupamientos compactos y esféricos. El método de enlace completo encuentra agrupamientos similares. El método de enlace simple (que está estrechamente relacionado con el árbol de expansión mínimo) adopta una estrategia de agrupamiento de amigos de amigos.

Los otros métodos pueden considerarse como que apuntan a agrupamientos con características intermedias entre los métodos de enlace simple y completo. Sin embargo, tenga en cuenta que los métodos “mediana” y “centroide” no conducen a una medida de distancia monótona, o equivalentemente los dendrogramas resultantes pueden tener las llamadas inversiones (que son difíciles de interpretar). Para obtener más detalles, consulte la página de ayuda de la función hclust().

Ahora es un buen momento para profundizar sobre el uso de la matriz de correlación ordenada, que es aquella en la que las filas y columnas han sido reorganizadas para que los activos más correlacionados entre sí estén más cerca unos de otros visualmente esto mediante la construcción de grupos naturales (clústeres) de activos con comportamientos similares se hagan visibles.

Este reordenamiento se logra típicamente mediante la técnica anterior que facilita ver qué activos se mueven de forma parecida y permite identificar grupos de activos correlacionados, lo cual es útil para fortalecer la diversificación entre los activos, además de simplifica decisiones de inversión.

Agrupación de los retornos mediante K-Means

Los datos transpuestos t(x) de la serie temporal x se agrupan mediante el método k-means, con el objetivo de dividir los puntos en k grupos de modo que se minimice la suma de cuadrados de los puntos a los centros de agrupamiento asignados. Como mínimo, todos los centros de los grupos están en la media de sus conjuntos de Voronoi, es decir, el conjunto de puntos de datos que están más cerca del centro del grupo.

El algoritmo de Hartigan y Wong (1979) se utiliza por defecto, algunos autores utilizan k-means para referirse a un algoritmo específico en lugar del método general, más comúnmente el algoritmo dado por MacQueen (1967) pero a veces el dado por Lloyd (1982) y Forgy (1965). El algoritmo Hartigan-Wong (Hartigan y Wong, 1979) generalmente hace un mejor trabajo que cualquiera de estos, pero a menudo se recomienda probar varios inicios aleatorios.

A excepción del método Lloyd-Forgy, siempre se devolverán k clústeres, si se especifica un número. Si se proporciona una matriz inicial de centros, es posible que ningún punto esté más cerca de uno o más centros, lo que actualmente es un error en el método Hartigan-Wong.

Este gráfico bivariado de los componentes principales de la cartera de activos financieros pueden ser agrupados en al menos dos segmentos con características distintas de correlación o comportamiento estadístico. Esto respalda la validez de aplicar algoritmos de segmentación como K-Means, posiblemente con 2 o 3 clústeres, y además muestra que hay diferenciación estructural en la forma en que algunos activos se relacionan entre sí.

Correlaciones de los retornos de los activos financieros

Para mostrar dependencias, similitudes o correlaciones entre activos financieros individuales, se utilizan gráficos personalizados para proporcionar diferentes vistas de la cartera de activos, esto permite juzgar sobre diferentes aspectos de las correlaciones y dependencias.

En el siguiente ejemplo, creamos un diagrama de dispersión simple para todos los retornos de activos por pares utilizando la función assetsPairsPlot().

El siguiente gráfico de correlaciones assetsCorImagePlot() puede utilizarse para un mayor número de activos en conjuntos de datos, principalmente de rentabilidad financiera. Ofrece otra vista alternativa.

Estadísticas multivariadas de rendimiento y riesgo

Los gráficos de estrella y segmento fueron introducidos por Chambers et al. (1983), estos permiten analizar conjuntos de datos multivariados, estos se utilizan para examinar los valores relativos de un único punto de datos y para localizar puntos similares o diferentes.

Para la investigación de activos financieros, estos gráficos se pueden utilizar para responder las siguientes preguntas: ¿Qué activos son dominantes para una observación dada? ¿Qué observaciones son más similares, es decir, hay grupos de observaciones?, ¿Hay valores atípicos en el conjunto de datos de activos?

Consideremos los retornos del índice suizo de fondos de pensiones LPP2005.RET y calculemos las estadísticas básicas utilizando la función assetsBasicStatsPlot(). Las estadísticas consideradas incluyen: valores mínimo y máximo, primer y tercer cuartil, media y mediana, suma, error estándar de la media (SE mean), límites inferior y superior del intervalo de confianza de la media (LCL mean y UCL mean), varianza, desviación estándar, asimetría (skewness) y curtosis.

En este caso, la pregunta es: ¿Qué activos se parecen entre sí y cuáles son claramente distintos? Esta cuestión se aborda en la figura anterior,el SBI y el LMI presentan comportamientos similares entre sí, al igual que SPI, MPI y ALT. El SII no parece tener similitud ni con los instrumentos de renta fija ni con los de renta variable.

Puede interpretarse que el LPP25 como representativo de los activos de renta fija (bonos), mientras que LPP60 puede entenderse como un indicador de los activos de renta variable y de la clase de activos de inversión alternativa.

El gráfico anterior de segmentos muestra cuatro estimaciones muestrales de la distribución empírica de los retornos de los activos: la media, la desviación estándar, la asimetría (skewness) y la curtosis, cuando es suficiente caracterizar una distribución mediante sus primeros cuatro momentos, este gráfico permite realizar una comparación simple entre los activos.

Este gráfico por segmentos permite comparar los activos desde la perspectiva de las estadísticas del diagrama de caja (box plot), el cual se observan similitudes evidentes entre los bonos suizos y extranjeros, así como entre las acciones suizas y extranjeras junto con las inversiones alternativas. El índice suizo de fondos inmobiliarios se encuentra en una posición intermedia.

El índice de referencia LPP25 está más cerca del grupo de los bonos, mientras que el LPP60 se aproxima más al grupo de las acciones y de las inversiones alternativas.