Acontinuación se realizará un análisis de las posible anomalias que pueda presentar la base con la que vamos a trabajar.

Descripción de la Base

La base de datos está realciona con información de clientes de una entidad financiera, la cual cuenta con 17 variables que representan características tanto personales como económicas de cada cliente de dicho banco, con el propósito de determinar cuales de esos clientes se los puede considerar como buenos o malos dadad las caracteísticas mencionadas nateriorment, y así poder evaluar a los posibles clientes al momento de otorgarle un crédito.

Diagramas de Caja

Para conocer si existen datos atípicos en las variables se procederá a realizar los diagramas de caja para cada una de dichas variables.

Como se puede observar para los Ingresos Promedios se tienen datos atípicas hacia arriba, es decir valores maximos, mientras que para la Puntuación se tiene voleres atipicos relacionados con los mínimos de dicha variable.

Para ambos casos se observa datos atípicos, sin embargo para la variable Endeudamiento promedio se observa una cantidad mayor de dichos valores.

Univariantes

Para la detección de anomalías uivariantes se utilizara los datos de la variable Antiguedad, que representa el tiempo que los clientes tienen en el mercado laboral.

Normalidad

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  Creditos$Edad
## D = 0.092756, p-value < 2.2e-16

Los resultados que se presentan reflejan que la variable no sigue una distribución normal debido a que el p-valor es cercano a cero, por lo cual se rechaza la hipótesis nula de seguir distribución normal.
Entonces la aplicación del test de grubbs se utilizará para detectar valores atípcos en la variable que este alejados de la media.

## 
##  Grubbs test for one outlier
## 
## data:  Creditos$Edad
## G = 3.56980, U = 0.99516, p-value = 0.4639
## alternative hypothesis: highest value 75 is an outlier

Como se refleja el test sugiere que el valor 75 de la variable puede ser un outlier.

MULTIVARIANTES

K vecino más cercanos

Para el siguiente análisis se utilizará las variables Ingresos mensuales con la Edad, ya que se esperará a que las personas que tienen más edad son las que tienen un mayor poder adquisitivo, los cuales se pueden dar por muchos factores. Otra relación que haremos es la de Endeudamiento Promedio con Score(Puntuación), ya que las personas que tienen mayores puntuaciones son las que tienen buena capacidad de pago, por lo cual están en la capacidad de adquirir créditos de mayores cantidades.

A continuación se refleja dichas relaciones:

KNN k=5

Matriz de Distancias

##          [,1]     [,2]     [,3]     [,4]     [,5]
## [1,] 2.000000 3.605551 5.099020 5.656854 6.082763
## [2,] 0.000000 1.000000 2.000000 3.000000 3.605551
## [3,] 1.000000 3.605551 3.605551 4.123106 4.123106
## [4,] 3.162278 3.162278 3.162278 4.000000 4.123106
## [5,] 5.099020 6.324555 6.403124 6.708204 6.708204
## [6,] 0.000000 0.000000 1.000000 1.000000 1.000000
##           [,1]      [,2]      [,3]      [,4]     [,5]
## [1,]  7.288409  8.091082  8.316255  8.429496  8.88000
## [2,]  2.510000  6.190517  8.360000  9.956510 10.78000
## [3,] 43.388663 60.185051 65.114368 68.041237 69.04001
## [4,] 20.220940 39.030656 41.659208 57.443221 75.12832
## [5,]  7.946326 15.972980 16.445939 16.483022 21.78890
## [6,]  0.000000  7.121524  9.950000 10.505637 11.13059

Estandarización

Para seguir con el proceso se procederá a estandarizar a las variables, tales que puedan tener una misma escala.

Matriz de Distancia

##             [,1]        [,2]        [,3]       [,4]       [,5]
## [1,] 0.009724569 0.015127108 0.020529646 0.02052965 0.02052965
## [2,] 0.000000000 0.097472969 0.098194943 0.09833158 0.14471909
## [3,] 0.001080508 0.006483046 0.006483046 0.01188558 0.01836863
## [4,] 0.005402538 0.010805077 0.010805077 0.01188558 0.01188558
## [5,] 0.120140143 0.150396058 0.173961737 0.17720326 0.18360336
## [6,] 0.000000000 0.000000000 0.097472969 0.09747297 0.09747297
##              [,1]         [,2]        [,3]        [,4]        [,5]
## [1,] 0.0009918550 0.0012431696 0.001684366 0.001743565 0.003109599
## [2,] 0.0002803554 0.0009337734 0.001204076 0.001408479 0.001468794
## [3,] 0.0372133413 0.0452358131 0.062265739 0.067371413 0.070873258
## [4,] 0.0565461780 0.0662872594 0.069235660 0.092941575 0.101873246
## [5,] 0.0060147963 0.0124684382 0.014785207 0.015147060 0.019771711
## [6,] 0.0000000000 0.0011113691 0.004112624 0.006489502 0.009085815

Una vez calculada la matriz de distancias calculamos el score (puntuación) para cada onservación a través dela media de las distancias hacia los 5 vecinos más próximos.

Puntuación de kNN

Como se puede observar para el primer gráfico los datos atípicos se encuentran ubicada en la parte superior, teniendo los puntos mas oscuros como dichos valores. Mientras que para el segundo gráfico los datos anómalos se encuentran ubicados en la parte superior derecha, es decir en aquellos clientes que tienen alta puntuacón y han adquirir una cantidad mayor en préstamos en relación a los otros clientes.

Factor atípico local LOF

Anomalias locales vs Globales

Visualización LOF

Finalmente en estos gráficos se puede observar, que para los datos que están un poco alejados se pueden agrupar en una vencidad, sin embargo para los valores más lejanos, como por ejemplo para las personas que tienen más de 50 años y que poseen ingresos mensuales mayores a 8000 dólares, ya que se diferencia de manera notable para las otras observaciones.

En cuanto al segundo gráfico para los clientes que tienen una menor puntuación y que tienen un endeudamiento promedio mayor se los considera como atípicos, puesto a que si nos ponemos a pensar por ejemplo las personas con una calificación E correspondiente a menores de 100 puntos tienen una menor capacidad de pago, seá¡ raro que obtuviera un préstamo alto, sin embargo se debería evaluar las circunstancia por la cual se otorga el crédito.

Remover Outlier

Acontinuación se removeran los outlier de las variables con la finanlidad de tener una base de datos mas eficiente.

Verificación

Como se puede observar ya no existen anomalías en las variables analizadas, teniendo como resultados una base sin datos atípicos, con la cual se va a poder realizar la inferencia de manera adecuada.

Conclusión

El análisis de los datos atípicos ayuda a tener un mejor resultado al memento de realizar inferencia, sería interesante realizar un análisis con y sin dichos datos para ver los cambios que generan dichos cliente al momento de obtener un modelo para evaluar el otrogamiento de créditos.

LINK https://rpubs.com/DiegoAndres97/635694