El análisis de componentes principales (ACP), es una técnica muy utilizada en varias ramas de la ciencia, como las mátematicas, informática, medicina, entre otras. Su utilidad radica en que se puede obtener un resumen de múltiples variables, en una menor cantida de dimenciones, siempre y cuando exista la correlación suficiente entre las variables, para que no se pierda una excesiva cantidad de información.
El objetivo del presente análisis, es evidenciar en la práctica cual es el correcto uso e interpretación del ACP; para este ejemplo se utiliza la información publicada mensualmente sobre los indicadores financieros bancarios, a través de la página oficial de la Super Intendencia de Bancos del Ecuador.
El ACP es una técnica exploratoria, que puede ser utilizada para tener un primer panorama sobre un fenómeno poco estudiado; una de las principales restricciones de esta técnica, es que solo se puede utilizar cuando todas las variables son de carácter cuantitativo. Además, la calidad en los resultados dependerán de la correlación que exista entre las varaibles; mientras más correlacionadas estén, el análisis será más exacto.
Por lo general las escaldas de medición de un gran conjunto de datos no son homogéneas; el ACP tiene la cualidad de trabajar con datos ya sean homogéneos o heterogéneos.
El ACP trabaja con una fuerte fundamentación de algebra lineal, y por este motivo, resulta simple dar solución a este tipo de inconvenientes.
\[S=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline{x} )(x_{i}-\overline{x} )^{t}\]
\[R=\frac{1}{n}\sum_{i=1}^{n}\left ( \frac{x_{i}-\overline{x} }{\sigma } \right )\left ( \frac{x_{i}-\overline{x}}{\sigma } \right )^{t}\]
Una vez seleccionada ya sea la matriz de correlaciones o de varianzas y covarianzas, se procede a obtener los valores y vectores propios, esto se lo realiza en base a la teoría del álgebra lineal, sin embargo, en este documento no se abarca la explicación matemática de dicho cálculo.
El análisis financiero de una entidad, generalmente lo realizan expertos en esta rama, sin embargo, matématicamente se puede llegar a las mismas concluciones, sin la necesidad de conocer toda la teoría contable. En el presente ejemplo, se busca identificar cuales son los indicadores financieros que están estrechamente relacionados, y posteriormente agruparlos en Clusters.
El primer paso es seleccionar solo los indicadores que pertencen al Banco del Pichincha
library("readxl")
datos <- readxl::read_xlsx(path="BBDD_SuperdeBancos.xlsx", sheet=1)
datos<- datos[datos[,"banco"]=="BP_PICHINCHA",c(4:24)]
head(datos)
Para mejorar la visualización de los gráficos descriptivos, se realiza un diccionario de variables en el cual se asigna un código a cada indicador.
Nombre_indicador | |
---|---|
PA1 | ( PATRIMONIO + RESULTADOS ) / ACTIVOS INMOVILIZADOS NETOS |
AC2 | ACTIVOS IMPRODUCTIVOS NETOS / TOTAL ACTIVOS |
AC3 | ACTIVOS PRODUCTIVOS / TOTAL ACTIVOS |
AC4 | ACTIVOS PRODUCTIVOS / PASIVOS CON COSTO |
MT | MOROSIDAD DE LA CARTERA TOTAL |
COBP | COBERTURA DE LA CARTERA PROBLEMÁTICA |
GA37 | GASTOS DE OPERACION ESTIMADOS / TOTAL ACTIVO PROMEDIO |
GA38 | GASTOS DE OPERACION / MARGEN FINANCIERO |
GA39 | GASTOS DE PERSONAL ESTIMADOS / ACTIVO PROMEDIO |
RE40 | RESULTADOS DEL EJERCICIO / PATRIMONIO PROMEDIO |
RE41 | RESULTADOS DEL EJERCICIO / ACTIVO PROMEDIO |
CA42 | CARTERA BRUTA / (DEPOSITOS A LA VISTA + DEPOSITOS A PLAZO) |
MA43 | MARGEN DE INTERMEDIACIÓN ESTIMADO / PATRIMONIO PROMEDIO |
MA44 | MARGEN DE INTERMEDIACIÓN ESTIMADO / ACTIVO PROMEDIO |
CT | CARTERA POR VENCER TOTAL |
FOD | FONDOS DISPONIBLES / TOTAL DEPOSITOS A CORTO PLAZO |
CA65 | CARTERA IMPRODUCTIVA DESCUBIERTA / (PATRIMONIO + RESULTADOS) |
CA66 | CARTERA IMPRODUCTIVA / PATRIMONIO |
FK67 | FK = (PATRIMONIO + RESULTADOS - INGRESOS EXTRAORDINARIOS) / ACTIVOS TOTALES |
FI68 | FI = 1 + (ACTIVOS IMPRODUCTIVOS / ACTIVOS TOTALES) |
IN69 | INDICE DE CAPITALIZACION NETO: FK / FI |
A continuación, se muestra un resumen estadístico de los indicadores presentes en la base de datos, donde se puede evidenciar medidas de tendencia central como la media y la mediana, de posición como los cuartiles y de dispersión.
En base a este análisis, se puede tener una primer impresión de cual es la distribución de las variables, no obstante, el ACP al ser una técnica exploratoria de datos, no necesita el cumplimiento de ningún supuesto.
summary(datos)
## PA1 AC2 AC3 AC4
## Min. :-231.95 Min. :0.09458 Min. :0.8046 Min. :1.270
## 1st Qu.: -24.50 1st Qu.:0.11146 1st Qu.:0.8495 1st Qu.:1.386
## Median : 12.01 Median :0.12769 Median :0.8723 Median :1.444
## Mean : 22.32 Mean :0.13240 Mean :0.8676 Mean :1.423
## 3rd Qu.: 18.93 3rd Qu.:0.15051 3rd Qu.:0.8885 3rd Qu.:1.467
## Max. : 657.08 Max. :0.19541 Max. :0.9054 Max. :1.518
## MT COBP GA37 GA38
## Min. :0.03103 Min. :1.871 Min. :0.04868 Min. :0.8107
## 1st Qu.:0.03673 1st Qu.:2.773 1st Qu.:0.05262 1st Qu.:0.8271
## Median :0.03943 Median :2.906 Median :0.05379 Median :0.8597
## Mean :0.04084 Mean :2.901 Mean :0.05462 Mean :0.8906
## 3rd Qu.:0.04205 3rd Qu.:3.040 3rd Qu.:0.05685 3rd Qu.:0.9354
## Max. :0.06823 Max. :3.883 Max. :0.06272 Max. :1.1582
## GA39 RE40 RE41 CA42
## Min. :0.01159 Min. :0.03891 Min. :0.003970 Min. :0.7355
## 1st Qu.:0.01209 1st Qu.:0.06693 1st Qu.:0.006951 1st Qu.:0.8276
## Median :0.01249 Median :0.09904 Median :0.010590 Median :0.8850
## Mean :0.01256 Mean :0.09040 Mean :0.009456 Mean :0.8658
## 3rd Qu.:0.01293 3rd Qu.:0.11284 3rd Qu.:0.011420 3rd Qu.:0.9027
## Max. :0.01412 Max. :0.11644 Max. :0.012481 Max. :0.9583
## MA43 MA44 CT FOD
## Min. :-0.06586 Min. :-0.006649 Min. :0.1099 Min. :0.1621
## 1st Qu.: 0.03253 1st Qu.: 0.003580 1st Qu.:0.1152 1st Qu.:0.1974
## Median : 0.08899 Median : 0.009209 Median :0.1195 Median :0.2285
## Mean : 0.06999 Mean : 0.007387 Mean :0.1195 Mean :0.2308
## 3rd Qu.: 0.11089 3rd Qu.: 0.011956 3rd Qu.:0.1223 3rd Qu.:0.2623
## Max. : 0.12856 Max. : 0.014186 Max. :0.1326 Max. :0.3312
## CA65 CA66 FK67 FI68
## Min. :-0.5573 Min. :0.1879 Min. :0.09454 Min. :1.095
## 1st Qu.:-0.4792 1st Qu.:0.2374 1st Qu.:0.10255 1st Qu.:1.111
## Median :-0.4669 Median :0.2533 Median :0.10620 Median :1.128
## Mean :-0.4609 Mean :0.2583 Mean :0.10575 Mean :1.132
## 3rd Qu.:-0.4467 3rd Qu.:0.2786 3rd Qu.:0.10913 3rd Qu.:1.151
## Max. :-0.3332 Max. :0.3781 Max. :0.11174 Max. :1.195
## IN69
## Min. :0.07943
## 1st Qu.:0.09098
## Median :0.09374
## Mean :0.09349
## 3rd Qu.:0.09861
## Max. :0.10172
Con el propósito de poder visualizar y medir las correlaciones presentes en el conjunto de datos, se realiza un gráfico de correlaciones, el cual es muy intuitivo; mientras más pintada de azul la intersección de dos variables, existe mayor correlación positiva, y lo contrario con las intersecciones más rojas. Como resulta evidente, en la diagonal principal de esta matriz, todos los datos son totalmente azules.
(acp.cov <- prcomp(datos))
diag(1/sqrt(diag(cov(datos)))) %*% acp.cov$rotation %*% diag(acp.cov$sdev)
acp <- prcomp(datos, scale = TRUE)
G_d=as.data.frame(acp$rotation)
G_d=as.data.frame(G_d[,c(0:2)])
knitr::kable(G_d)
PC1 | PC2 | |
---|---|---|
PA1 | 0.0395538 | -0.1525870 |
AC2 | 0.2681988 | 0.0813028 |
AC3 | -0.2681988 | -0.0813028 |
AC4 | -0.2790198 | 0.0228155 |
MT | 0.1580572 | -0.4115686 |
COBP | -0.0630123 | 0.4558090 |
GA37 | -0.2364719 | 0.0220763 |
GA38 | 0.2643897 | 0.0743435 |
GA39 | -0.1290694 | 0.1469328 |
RE40 | -0.2600761 | 0.1207791 |
RE41 | -0.2728505 | 0.0841181 |
CA42 | -0.2850058 | -0.0535487 |
MA43 | -0.2689934 | -0.0324016 |
MA44 | -0.2695808 | -0.0406604 |
CT | 0.1548663 | -0.0134355 |
FOD | 0.2597370 | 0.0585064 |
CA65 | 0.0259929 | -0.4664488 |
CA66 | 0.0722190 | -0.4075220 |
FK67 | -0.1549294 | -0.2890620 |
FI68 | 0.2681988 | 0.0813028 |
IN69 | -0.2089772 | -0.2314499 |
Despues de realizar el análisis se puede identificar que hay variables que tienen fuertes correlaciones, y por esto motivo, resulta de gran utilidad realizar el ACP, para aná lizar agrupacmientos.
Al realizar el Cluster análisis No Jerarquico utilizando k-means como metodo de agrupamiento, se puede evidenciar la precensia de 8 grupos bien delimitados.