¿Que es el ACP?

El análisis de componentes principales (ACP), es una técnica muy utilizada en varias ramas de la ciencia, como las mátematicas, informática, medicina, entre otras. Su utilidad radica en que se puede obtener un resumen de múltiples variables, en una menor cantida de dimenciones, siempre y cuando exista la correlación suficiente entre las variables, para que no se pierda una excesiva cantidad de información.

El objetivo del presente análisis, es evidenciar en la práctica cual es el correcto uso e interpretación del ACP; para este ejemplo se utiliza la información publicada mensualmente sobre los indicadores financieros bancarios, a través de la página oficial de la Super Intendencia de Bancos del Ecuador.

¿Cuando es oportuno utilizar el ACP?

El ACP es una técnica exploratoria, que puede ser utilizada para tener un primer panorama sobre un fenómeno poco estudiado; una de las principales restricciones de esta técnica, es que solo se puede utilizar cuando todas las variables son de carácter cuantitativo. Además, la calidad en los resultados dependerán de la correlación que exista entre las varaibles; mientras más correlacionadas estén, el análisis será más exacto.

¿Se necesita que todas las variables estén en la misma escala de medición?

Por lo general las escaldas de medición de un gran conjunto de datos no son homogéneas; el ACP tiene la cualidad de trabajar con datos ya sean homogéneos o heterogéneos.

El ACP trabaja con una fuerte fundamentación de algebra lineal, y por este motivo, resulta simple dar solución a este tipo de inconvenientes.

\[S=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline{x} )(x_{i}-\overline{x} )^{t}\]

\[R=\frac{1}{n}\sum_{i=1}^{n}\left ( \frac{x_{i}-\overline{x} }{\sigma } \right )\left ( \frac{x_{i}-\overline{x}}{\sigma } \right )^{t}\]

Una vez seleccionada ya sea la matriz de correlaciones o de varianzas y covarianzas, se procede a obtener los valores y vectores propios, esto se lo realiza en base a la teoría del álgebra lineal, sin embargo, en este documento no se abarca la explicación matemática de dicho cálculo.

Análisis de los indicadores financieros del Banco del Pichincha

El análisis financiero de una entidad, generalmente lo realizan expertos en esta rama, sin embargo, matématicamente se puede llegar a las mismas concluciones, sin la necesidad de conocer toda la teoría contable. En el presente ejemplo, se busca identificar cuales son los indicadores financieros que están estrechamente relacionados, y posteriormente agruparlos en Clusters.

El primer paso es seleccionar solo los indicadores que pertencen al Banco del Pichincha

library("readxl")
datos <- readxl::read_xlsx(path="BBDD_SuperdeBancos.xlsx", sheet=1)
datos<- datos[datos[,"banco"]=="BP_PICHINCHA",c(4:24)]
head(datos)

Para mejorar la visualización de los gráficos descriptivos, se realiza un diccionario de variables en el cual se asigna un código a cada indicador.

Diccionario de indicadores
Nombre_indicador
PA1 ( PATRIMONIO + RESULTADOS ) / ACTIVOS INMOVILIZADOS NETOS
AC2 ACTIVOS IMPRODUCTIVOS NETOS / TOTAL ACTIVOS
AC3 ACTIVOS PRODUCTIVOS / TOTAL ACTIVOS
AC4 ACTIVOS PRODUCTIVOS / PASIVOS CON COSTO
MT MOROSIDAD DE LA CARTERA TOTAL
COBP COBERTURA DE LA CARTERA PROBLEMÁTICA
GA37 GASTOS DE OPERACION ESTIMADOS / TOTAL ACTIVO PROMEDIO
GA38 GASTOS DE OPERACION / MARGEN FINANCIERO
GA39 GASTOS DE PERSONAL ESTIMADOS / ACTIVO PROMEDIO
RE40 RESULTADOS DEL EJERCICIO / PATRIMONIO PROMEDIO
RE41 RESULTADOS DEL EJERCICIO / ACTIVO PROMEDIO
CA42 CARTERA BRUTA / (DEPOSITOS A LA VISTA + DEPOSITOS A PLAZO)
MA43 MARGEN DE INTERMEDIACIÓN ESTIMADO / PATRIMONIO PROMEDIO
MA44 MARGEN DE INTERMEDIACIÓN ESTIMADO / ACTIVO PROMEDIO
CT CARTERA POR VENCER TOTAL
FOD FONDOS DISPONIBLES / TOTAL DEPOSITOS A CORTO PLAZO
CA65 CARTERA IMPRODUCTIVA DESCUBIERTA / (PATRIMONIO + RESULTADOS)
CA66 CARTERA IMPRODUCTIVA / PATRIMONIO
FK67 FK = (PATRIMONIO + RESULTADOS - INGRESOS EXTRAORDINARIOS) / ACTIVOS TOTALES
FI68 FI = 1 + (ACTIVOS IMPRODUCTIVOS / ACTIVOS TOTALES)
IN69 INDICE DE CAPITALIZACION NETO: FK / FI

A continuación, se muestra un resumen estadístico de los indicadores presentes en la base de datos, donde se puede evidenciar medidas de tendencia central como la media y la mediana, de posición como los cuartiles y de dispersión.

En base a este análisis, se puede tener una primer impresión de cual es la distribución de las variables, no obstante, el ACP al ser una técnica exploratoria de datos, no necesita el cumplimiento de ningún supuesto.

summary(datos)
##       PA1               AC2               AC3              AC4       
##  Min.   :-231.95   Min.   :0.09458   Min.   :0.8046   Min.   :1.270  
##  1st Qu.: -24.50   1st Qu.:0.11146   1st Qu.:0.8495   1st Qu.:1.386  
##  Median :  12.01   Median :0.12769   Median :0.8723   Median :1.444  
##  Mean   :  22.32   Mean   :0.13240   Mean   :0.8676   Mean   :1.423  
##  3rd Qu.:  18.93   3rd Qu.:0.15051   3rd Qu.:0.8885   3rd Qu.:1.467  
##  Max.   : 657.08   Max.   :0.19541   Max.   :0.9054   Max.   :1.518  
##        MT               COBP            GA37              GA38       
##  Min.   :0.03103   Min.   :1.871   Min.   :0.04868   Min.   :0.8107  
##  1st Qu.:0.03673   1st Qu.:2.773   1st Qu.:0.05262   1st Qu.:0.8271  
##  Median :0.03943   Median :2.906   Median :0.05379   Median :0.8597  
##  Mean   :0.04084   Mean   :2.901   Mean   :0.05462   Mean   :0.8906  
##  3rd Qu.:0.04205   3rd Qu.:3.040   3rd Qu.:0.05685   3rd Qu.:0.9354  
##  Max.   :0.06823   Max.   :3.883   Max.   :0.06272   Max.   :1.1582  
##       GA39              RE40              RE41               CA42       
##  Min.   :0.01159   Min.   :0.03891   Min.   :0.003970   Min.   :0.7355  
##  1st Qu.:0.01209   1st Qu.:0.06693   1st Qu.:0.006951   1st Qu.:0.8276  
##  Median :0.01249   Median :0.09904   Median :0.010590   Median :0.8850  
##  Mean   :0.01256   Mean   :0.09040   Mean   :0.009456   Mean   :0.8658  
##  3rd Qu.:0.01293   3rd Qu.:0.11284   3rd Qu.:0.011420   3rd Qu.:0.9027  
##  Max.   :0.01412   Max.   :0.11644   Max.   :0.012481   Max.   :0.9583  
##       MA43               MA44                 CT              FOD        
##  Min.   :-0.06586   Min.   :-0.006649   Min.   :0.1099   Min.   :0.1621  
##  1st Qu.: 0.03253   1st Qu.: 0.003580   1st Qu.:0.1152   1st Qu.:0.1974  
##  Median : 0.08899   Median : 0.009209   Median :0.1195   Median :0.2285  
##  Mean   : 0.06999   Mean   : 0.007387   Mean   :0.1195   Mean   :0.2308  
##  3rd Qu.: 0.11089   3rd Qu.: 0.011956   3rd Qu.:0.1223   3rd Qu.:0.2623  
##  Max.   : 0.12856   Max.   : 0.014186   Max.   :0.1326   Max.   :0.3312  
##       CA65              CA66             FK67              FI68      
##  Min.   :-0.5573   Min.   :0.1879   Min.   :0.09454   Min.   :1.095  
##  1st Qu.:-0.4792   1st Qu.:0.2374   1st Qu.:0.10255   1st Qu.:1.111  
##  Median :-0.4669   Median :0.2533   Median :0.10620   Median :1.128  
##  Mean   :-0.4609   Mean   :0.2583   Mean   :0.10575   Mean   :1.132  
##  3rd Qu.:-0.4467   3rd Qu.:0.2786   3rd Qu.:0.10913   3rd Qu.:1.151  
##  Max.   :-0.3332   Max.   :0.3781   Max.   :0.11174   Max.   :1.195  
##       IN69        
##  Min.   :0.07943  
##  1st Qu.:0.09098  
##  Median :0.09374  
##  Mean   :0.09349  
##  3rd Qu.:0.09861  
##  Max.   :0.10172

Cálculo de la matriz de correlaciones

Con el propósito de poder visualizar y medir las correlaciones presentes en el conjunto de datos, se realiza un gráfico de correlaciones, el cual es muy intuitivo; mientras más pintada de azul la intersección de dos variables, existe mayor correlación positiva, y lo contrario con las intersecciones más rojas. Como resulta evidente, en la diagonal principal de esta matriz, todos los datos son totalmente azules.

Obtención de las componentes principales

(acp.cov <- prcomp(datos))
diag(1/sqrt(diag(cov(datos)))) %*% acp.cov$rotation %*% diag(acp.cov$sdev)
acp <- prcomp(datos, scale = TRUE)
G_d=as.data.frame(acp$rotation)
G_d=as.data.frame(G_d[,c(0:2)])
knitr::kable(G_d)
PC1 PC2
PA1 0.0395538 -0.1525870
AC2 0.2681988 0.0813028
AC3 -0.2681988 -0.0813028
AC4 -0.2790198 0.0228155
MT 0.1580572 -0.4115686
COBP -0.0630123 0.4558090
GA37 -0.2364719 0.0220763
GA38 0.2643897 0.0743435
GA39 -0.1290694 0.1469328
RE40 -0.2600761 0.1207791
RE41 -0.2728505 0.0841181
CA42 -0.2850058 -0.0535487
MA43 -0.2689934 -0.0324016
MA44 -0.2695808 -0.0406604
CT 0.1548663 -0.0134355
FOD 0.2597370 0.0585064
CA65 0.0259929 -0.4664488
CA66 0.0722190 -0.4075220
FK67 -0.1549294 -0.2890620
FI68 0.2681988 0.0813028
IN69 -0.2089772 -0.2314499

Círculo de correlaciones

Cluster análisis

Concluciones