Considerando, que o Banco Paulista é um fundo cessionário das operações CLT realizadas pela V8;
Considerando, a existência de regras pré-estabelecidas pelo BP, para a análise de crédito dos contratos realizados (elegibilidade);
Considerando, a aparente descricionariedade na mencionada análise; viu-se a necessidade de entender investigar eventual padrão nos dados que se relacione com a decisão do BP a respeito da elegibilidade (aceito/rejeitado).
Portanto, temos como objetivo:
1 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável valor_base?
2 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável renda_mensal?
3 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável prazo?
4 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável idade_trabalhador?
5 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável tempo_ctps?
6 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável idade_empresa?
7 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável cbo?
8 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável cnae?
9 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a combinação entre cbo+cnae?
10 - A combinação linear das features transformadas via WoE poderia demonstrar relacionamento não visualizado, sem a transformção?
Features des contratos submetidos à análise de elegibilidade do Banco Paulista, com a flag de retorno TRUE/FALSE para o status de elegibilidade.
DBs: motor_credito e private_model
| ATRIBUTO | TIPO | DADO | DESCRIÇÃO |
|---|---|---|---|
| valor_base | numeric | Valor nominal do crédito contratado | |
| renda_mensal | numeric | Valor da renda do trabalhador | |
| idade_trabalhador | numeric | Idade do trabalhador em anos | |
| prazo | integer | Prazo do contrato em meses | |
| tempo_ctps | integer | Tempo do contrato ativo em meses | |
| idade_empresa | integer | Idade da empresa em anos | |
| cbo | fator N | Classificação brasileiro de ocupação | |
| cnae | fator N | Classificação de atividades econômicas |
As features acima foram priorizadas em detrimento das demais, dado o conjunto de regras pré-definidas pelo Banco Paulista.
| TERMINOLOGIAS | SIGNIFICADO |
|---|---|
| provider | Empresa terceirizada bancarizadora da CCB emitida |
| crédito CLT | Modalidade de crédito consignada na folha do trabalhado |
| elegibilidade | Processo de avaliação do BP, para cessão de contratos |
Empregou-se, na presente análise, fundamentos e técnicas relativas às análises descritivas (medidas de centralidade e dispersão compatíveis com o tipo de dado) e inferencial (testes de hipótese para avaliar semelhanças e diferenças estatisticamente significantes).
Para variáveis contínuas, serão aplicados o t.test de Student e teste de Wilcoxon (para distribuições normais e não-normais, despectivamente), bem como inferência através de gráficos estatísticos.
Para variáveis discretas, serão aplicados o teste de teste de Wilcoxon, teste de Kolmogorov-Smirnov (KS) e Cumulative Density Funcion (CDF) (com adaptações necessárias para a interpretação).
As regras de negócio descritas no script Inserir URL foram aplicadas aos dados.
| TESTE | FONTE |
|---|---|
| t de Student | Estatística Básica. Pedro A. Morettin, Wilton O.Bussab. – 9. ed. – São Paulo: Saraiva, 2017. págs 304-334 |
| Wilcoxon | Estatística Básica. Pedro A. Morettin, Wilton O.Bussab. – 9. ed. – São Paulo: Saraiva, 2017. págs 304-334 |
| ks.test | Estatística Básica. Pedro A. Morettin, Wilton O.Bussab. – 9. ed. – São Paulo: Saraiva, 2017. págs 304-334 |
| CDF | https://www.probabilitycourse.com/chapter3/3_2_1_cdf.php |
| WoE | https://medium.com/@Mamdouh.Refaat/data-science-basics-7-the-weight-of-evidence-woe-transformation-f2ca7bac5703 |
| GML | https://cran.r-project.org/web/packages/glmm/index.html |
Os resultados foram obtidos após a análise descritiva, testes de significância estatística, análise dos resídios entre os grupos aprovados/rejeitados, bem como, da combinação linear das variáveis após aplciar transformação de WoE.
## ✔ Binning on 5594 rows and 8 columns in 00:00:13
## ✔ Woe transformating on 5594 rows and 7 columns in 00:00:11
Abaixo, amostra dos dados utilizados no trabalho.
knitr::kable(data_EDA[1:5, ], caption = 'Amostra da base analisada.', booktabs = TRUE)
| prazo | idade_trabalhador_anos | renda_mensal | tempo_ctps_meses | cbo | cnae | idade_empresa_meses | valor_base | status_elegibility | cbo_reduzido | divisao_codigo | cnae_label | cnae_label_refat | pk |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 12 | 31 | 4229.22 | 8 | 848510 | 4712100 | 8 | 2384.45 | TRUE | producao_bens_servicos_industriais | 47 | Varejo | Comercio | producao_bens_servicos_industriais+Comercio |
| 6 | 29 | 7142.09 | 9 | 411010 | 8630504 | 7 | 1129.13 | TRUE | servicos_adm | 86 | Saude Humana | Saude_Educacao | servicos_adm+Saude_Educacao |
| 12 | 35 | 2185.92 | 9 | 783225 | 4789004 | 2 | 1404.15 | TRUE | producao_bens_servicos_industriais | 47 | Varejo | Comercio | producao_bens_servicos_industriais+Comercio |
| 24 | 47 | 6455.03 | 11 | 724315 | 4663000 | 1 | 3110.47 | TRUE | producao_bens_servicos_industriais | 46 | Atacado | Comercio | producao_bens_servicos_industriais+Comercio |
| 12 | 38 | 3036.00 | 8 | 413105 | 4221905 | 5 | 2778.27 | TRUE | servicos_adm | 42 | Obras Infra-Estrut | Infra_Logistica | servicos_adm+Infra_Logistica |
1 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável valor_base?
Será aplicado o t.test de Student, à feature analisada, após o slicing por status de elegibilidade (elegível/não elegível).
As suposições foram devidamente analisadas e validadas conforme documentação.
H0: A diferença entre as médias dos grupos é igual a 0. Ou seja, não havendo diferenças, as amostras são semelhantes.
message("O p-valor do t.test de Student foi de ", t_test_result_valor_base$p.value, ". O que significa que não se rejeita a H0. Abaixo a interpretação gerencial.")
## O p-valor do t.test de Student foi de 0.318305335036087. O que significa que não se rejeita a H0. Abaixo a interpretação gerencial.
Para que a feature valor_base representasse algum impacto na análise realizada pelo Paulista, teríamos que ter constatado diferenças entre os grupos. Vale dizer, que o grupo de ‘elegíveis’ tem diferenças em relação ao grupo de ‘não elegíveis’, e.g. a sua média.
Não é o caso!
Através do teste de hipótese, camparando as 2 amostras, podemos concluir quando comparados, o valor_base das ‘elegíveis’ não apresenta diferenças em relação às ‘não-eleg;iveis’.
Conclusão
Assim sendo, podemos afirmar, com 95% de certeza, que o valor da operação não influenciará na decisão final do Paulista.
2 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável renda_mensal?
Será aplicado o t.test de Student, à feature analisada, após o slicing por status de elegibilidade (elegível/não elegível).
As suposições foram devidamente analisadas e validadas conforme documentação.
H0: A diferença entre as médias dos grupos é igual a 0. Ou seja, não havendo diferenças, as amostras são semelhantes.
message("O p-valor do t.test de Student foi de ", t_test_result_renda$p.value, ". O que significa rejeição da H0. Abaixo a interpretação gerencial.")
## O p-valor do t.test de Student foi de 0.000859379095400061. O que significa rejeição da H0. Abaixo a interpretação gerencial.
Para que a feature renda_mensal representasse algum impacto na análise realizada pelo Paulista, temos que ter constatar diferenças entre os grupos. Vale dizer, que o grupo de ‘elegíveis’ tem diferenças em relação ao grupo de ‘não elegíveis’, e.g. a sua média.
É o caso!
Através do teste de hipótese, camparando as 2 amostras, podemos concluir quando comparados, a feature renda_mensal das ‘elegíveis’ apresenta diferenças em relação às ‘não-eleg;iveis’.
Interpretação:
A análise do histrograma evidenciará se os 2 grupos se distribuiem em pontos diferentes. Ainda, há que se investigar se a renda_mensal é influenciada por outra feature, por exemplo, se houver preferência por CNAES específicos, pode haver influência na renda.
Interpretação:
O t.test apontou que existem diferenças nas massas dos grupos aprovadas/rejeitadas. Também é possível ver que não há interseção entre o erro-padrão das médias (no gráfico acima); contudo, o histograma demonstra que não há separação linear (ponto de corte teórica).
Existe um apetite de risco maior para a base da renda_mensal (onde é possível ver uma maior proporção de aprovadas), do que para os valores a partir da moda (onde é possível ver que há uma proporção maior de rejeitadas). Assim, sendo, deve-se prosseguir com a análise, considerando-se a variável renda_mensal, a fim de modelá-la.
valor_base: os testes de hipótese demonstraram que não existe diferença, consideradas estatisticamente significantes - ou seja, mais do que meramente aleatórias -, entre os grupos aprovados/rejeitados para esta variável.
Assim sendo, a conclusão inicial é: a variável valor_base não é importante para a análise realizada pelo Banco Paulista.
renda_mensal: o teste de hipótese demonstrou que existe uma diferença evidente das características (dos 2 grupos), sendo uma das condições analisadas pelo modelo do Paulista. O gráfico acima demonstra o posicionamento da média e do erro padrão, para os 2 grupos, embora, não haja uma separação linear.
Assim sendo, prosseguiremos com esta variável dentre as analisadas, a fim de modelar sua atuação.
3 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável prazo?
Será aplicado o teste de Wilcoxon, à feature analisada, após o slicing por status de elegibilidade (elegível/não elegível).
Este é um teste de hipótese não paramétrico, por isso, não há suposição quando a distribuição de probabilidades dos dados, conforme documentação.
H0: A mediana das diferenças entre as amostras é igual a zero. Explicando, se a diferença entre as observações é 0, significa que os 2 grupos são iguais (estatisticamente); assim sendo, uma variável não possui relação de dependência com a outra.
## O p-value do teste de Wolcoxon foi de: 4.01881526535612e-15. Rejeita-se a H0, assumindo-se a possibilidade de que o prazo pode ser significante para a análise.
Interpretação:
Utilizando o algoritmo CDF, podemos calcular e visualizar a probabilidade, para cada grupo de prazo, de assumir um determinado valor.
O teste de hipótese aplicado (KS), é utilizado em conjunto com o cálculo das densidades cumuladas, com a finalidade de ratificar o resultado (haja vista as possíveis limitações para valores discretos, conforme exposto na documentação).
A estatística do mencionado teste ajudará, ainda, a dimensionar a distãncia das probabilidades.
Para problemas de crédito, adotadoremos o limiter de 0.30.
Aplicaresmos o teste KS para comparar 2 amostras independentes.
Como H0 do teste KS: As densidades são idênticas (as duas amostras vêm da mesma distribuição).
Interpretação:
A CDF demonstra que no bloco de 12 parcelas, a probabilidade acumulada do grupo de aprovadas é maior do que a de rejeitadas, seguindo, após o mesmo padrão. Isto sugere que, pode haver preferência, no nomento da análise, pelo prazo de 12 (doze) meses.
O p-value do teste de hipótese aplicado (KS) corrobora com o CEF, e rejeita a H0, também sugerindo tratar-se de 2 duas distribuições. Entretanto, a estatística resultante demonstrou que a maior diferença encontrada foi de 0.13, abaixo do limiar usual para problemas de análise de crédito (0.30). Isto determina que, mesmo se tratando de 2 distribuições, a contribuição para um modelo pode ser marginal. Vamos seguir com esta variável na análise, e ver como se comportar em conjunto com as demais.
4 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável idade_trabalhador?
Será aplicado o teste de Wilcoxon.
As explicações sobre o teste aplicado, do item Quesito 3 - teste de Wilconxon podem ser compartilhadas.
H0: A mediana das diferenças entre as amostras é igual a zero. Explicando, se a diferença entre as observações é 0, significa que os 2 grupos são iguais (estatisticamente); assim sendo, uma variável não possui relação de dependência com a outra.
## O p-value do teste de Wilcoxon foi de: 0.847081688096461. Não se rejeita-se a H0, assumindo-se a afirmação de que a idade_trabalhador_anos não é significante para a análise.
Interpretação:
Aplicaremos o cálculo CDF e o teste ks.test.
As explicações do item Quesito 3 - Cumulative Density Funcion (CDF) e teste de Kolmogorov-Smirnov (KS) podem ser compartilhadas.
Interpretação:
A CDF demonstra as probablidades acumuladas são as mesmas para ambos os grupos, em toddos os blocos de valores. Assim sendo, podemos afirmar que não houve uma (ou mais) idades que tiveram mais chances de ser aprovadas.
O p-value do teste de hipótese aplicado (KS) corrobora com o CDF, e não rejeita a H0, também sugerindo que os grupos vem da mesma distribuição (uma únca populaçõa) Por fim, a estatística KS confirma os resultados anteriores. A conclusão para esta variável é de que a idade do trabalhador não é usada como critério para decisão quando da análise do Paulista.
5 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável tempo_ctps?
Será aplicado o teste de Wilcoxon.
As explicações sobre o teste aplicado, do item Quesito 3 - teste de Wilconxon podem ser compartilhadas.
H0: A mediana das diferenças entre as amostras é igual a zero. Explicando, se a diferença entre as observações é 0, significa que os 2 grupos são iguais (estatisticamente); assim sendo, uma variável não possui relação de dependência com a outra.
## O p-value do teste de Wilcoxon foi de: 0.697818924686462. Não se rejeita-se a H0, assumindo-se a afirmação de que a tempo_ctps não é significante para a análise.
Interpretação:
Aplicaremos o cálculo CDF e o teste ks.test.
As explicações do item Quesito 3 - Cumulative Density Funcion (CDF) e teste de Kolmogorov-Smirnov (KS) podem ser compartilhadas.
Interpretação:
A CDF demonstra sultis diferenças em alguns blocos. Nos iniciais, a probabilidade de maior incidência de reprovação, e, após 8 meses, maior incidência de aprovação. Isto sugere que, pode haver preferência, no nomento da análise, por prazos superiores a 8. Mas, as diferenças são quase irrelevantes, o teste seguinte ajudará na interpretação.
O p-value do teste de hipótese aplicado (KS) está no limite de determinar que a diferença seja fruto da aleatoriedade, entretanto, conforme já informado na documentação, quando aplicados a dados discretos, podemos esperar que este resultado seja inflado, ou seja, há a possibilidade de que o p-value seja menos, indicando tratar-se de 2 populações. A estatística resultante, por outro lado, demonstrou que a maior diferença encontrada foi de 0.04, muito abaixo do limiar usual para problemas de análise de crédito (0.30). Isto determina que, ainda que se admita a Ha (hipótese alternativa), a contribuição para um modelo pode ser marginal. Vamos seguir com esta variável na análise, e ver como se comportar em conjunto com as demais.
6 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável idade_empresa?
Será aplicado o teste de Wilcoxon.
As explicações sobre o teste aplicado, do item Quesito 3 - teste de Wilconxon podem ser compartilhadas.
H0: A mediana das diferenças entre as amostras é igual a zero. Explicando, se a diferença entre as observações é 0, significa que os 2 grupos são iguais (estatisticamente); assim sendo, uma variável não possui relação de dependência com a outra.
## O p-value do teste de Wilcoxon foi de: 0.341481596932173. Não se rejeita-se a H0, assumindo-se a afirmação de que a idade_empresa_meses não é significante para a análise.
Interpretação:
Aplicaremos o cálculo CDF e o teste ks.test.
As explicações do item Quesito 3 - Cumulative Density Funcion (CDF) e teste de Kolmogorov-Smirnov (KS) podem ser compartilhadas.
Interpretação:
A CDF demonstra as probablidades acumuladas são as mesmas para ambos os grupos, em toddos os blocos de valores. Assim sendo, podemos afirmar que não houve uma (ou mais) idades para empresa que tiveram mais chances de ser aprovadas.
O p-value do teste de hipótese aplicado (KS) corrobora com o CDF, e não rejeita a H0, também sugerindo que os grupos vem da mesma distribuição (uma únca população) Por fim, a estatística KS confirma os resultados anteriores. A conclusão para esta variável é de que a idade da empresa (tempo de vida da empresa) não é usada como critério para decisão quando da análise do Paulista.
prazo: os testes de hipótese (Wincoxcon, o cálculo da CDF e o test KS) demonstraram haver probabilidades diferentes para o prazo de 12 meses (trata-se de diferentes distribuições). Contudo, interpretados sistematicamente com a estatística KS, demonstrou não haver grande potencial preditivo, e, possivelmente, marginal.
Assim sendo, a conclusão inicial para a variável prazo é: é seguir com esta variável para os próximos teste, e, verificar seu comportamento em conjunto com as demais variáveis.
idade_trabalhador_anos: os testes de hipótese (Wincoxcon, o cálculo da CDF e o test KS) demonstraram que eventuais diferenças entre os grupos de aceitas e rejeitadas, para esta variáveis, são mero acaso (na verdade, a intensidade dos resultados) evidencia que quase não há diferenças.
Assim sendo, a conclusão inicial para a variável idade_trabalhador_anos é: de que esta variável não é usada na análise do Banco Paulista. O estudo seguirá sem esta variável.
tempo_ctps_meses: os testes de hipótese (Wincoxcon, o cálculo da CDF e o test KS) demonstraram não haver diferenças entre os grupos de propostas aceitas e rejeitadas. Os testes de hipótese apontam que o tempo de CTPS assinada pelo tomador do crédito não tem influência na decisão do Banco Paulista.
Assim sendo, a conclusão inicial para a variável tempo_ctps_meses é: de que esta variável não é usada na análise do Banco Paulista. O estudo seguirá sem esta variável.
idade_empresa_meses: os testes de hipótese (Wincoxcon, o cálculo da CDF e o test KS), bem como a estatística KS se complementam para a conclusão de que esta variável não influencia a decisão tomara pelo Banco Paulista.
Assim sendo, a conclusão inicial para a variável idade_empresa_meses é: de que esta variável não é usada na análise do Banco Paulista. O estudo seguirá sem esta variável.
7 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável cbo?
Abaixo, o gráfico contabiliza a frequência total de propostas por CBO, independente do resultado final (aprovados/rejeitados).
Interpretação:
Será aplicado o teste Qui-quadrado, às features analisadas, verificando se a ocorrência da feature status (reprovado/aprovado) independe da ocorrência do CBO analisado, comparando a frequência observada com a esperada (no caso de não haver correlação).
Junto com o testo, analisaremos os resíduos de Pearson, para entender como se comportam as categorias do CBO em relação ao status.
H0: São independentes. Assim, a H0 afirma que se a ocorrência de uma variáveis não é influênciada pela outra, não há associação.
Interpretação:
Leia as diretrizes para interpretação na documentação
O qui-quadrado apontou haver diferenças entre as associações (calculadas vs esperadas), rejeitando-se a H0, conforme o p-valor.
Quanto à análise dos resíduos (determinando como, e quais classes causaram impacto e com qual força): temos apenas agravantes de risco os CBOs ligados à agropecuários_florestais, e, producao_bens_servicos_industriais; há uma associação acima do esperado para estas classes, mas, são oriundas de propostas rejeitadas, com intensidade alta. Este detalhe merece investigação, haja vista que esta última categoria é a moda (classe mais digitada) entre os CBOs, ou seja, as propostas que mais são digitadas, são umas das que mais são rejeitadas. Os demais são estatisticamente neutros.
8 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável cnae?
Abaixo, o gráfico contabiliza a frequência total de propostas por cnae, independente do resultado final (aprovados/rejeitados).
Interpretação:
Será aplicado o teste Qui-quadrado, em conjunto com análise dos resíduos de Pearson.
A explicação do item Quesito 7 (cbo) pode ser compartilhada para este item.
Interpretação:
O qui-quadrado apontou haver diferenças entre as associações (calculadas vs esperadas), rejeitando-se a H0, conforme o p-valor.
Quanto à análise dos resíduos (determinando como, e quais classes causaram impacto e com qual força): temos como Agravantes de risco os CNAEs ligados à ‘Insdustria_Transformacao’, e, ‘Infra_Logistica’; há uma associação acima do esperado para estas classes, esta diferença se dá pela proporção de rejeitados maior do que o esperado. Estas associações devem ser melhor investigadas, pois são as subsequêntes à moda de propostas digitadas, por CNAE. Como Atenuantes de risco os CNAEs ligados ao ‘Comércio’ apresentam associações maior do que o esperado, sendo impulsionado por propostas aceitas. Os demais são estatisticamente neutros.
9 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a combinação entre cbo+cnae?
O testes e análises aplicadas de forma unitária às variáveis ‘cbo’ e ‘cnae’ demonstram que algumas das classes que apresentam a maior frequência de digitação estão entre as mais associadas ao status rejeição.
Assim, diante deste fato, e da hipótese de as variáveis possuiem algum nível de dependência (cbo vs cnae), será iniciada a análise bivariada das features categóricas.
Interpretação:
Percebe-se que, na verdade, os CNAEs ‘Industria_Transformacao’, e ‘Infra_logistica’ somados, são os responsáveis por elevarem os CBOs ligados à ‘producao_bens_servicos_industriais’ à classe mais frequente. Podemos entender também, porque o CBO demonstrou maior associação do que o esperado no qui-quadrado para a reprovação. O movimento oposto ocorre com os CBOs relacionados aos CNAEs de ‘comercio’.
Isto indica que o CNAE pode ter alto valor explicativo sobre o resultado da análise do paulista.
Será aplicado o teste Qui-quadrado, em conjunto com análise dos resíduos de Pearson.
A explicação do item Quesito 7 (cbo) pode ser compartilhada para este item.
Interpretação:
10 - A combinação linear das features transformadas via WoE poderia demonstrar relacionamento não visualizado, sem a transformção?
Observação importante: é possível calcular o impacto na probabilidade do contrato ser elegível, de cada variável, a partir dos log-odds, entretanto, a modalgem demandaria mais tempo.
Abaixo, portanto, avaliaremos apenas a significância estatística das variáveis, quando linearmente combinadas.
| Significancia | P_valor | |
|---|---|---|
| (Intercept) | Significante | 0.0000000 |
| renda_mensal_woe | Significante | 0.0000000 |
| prazo_woe | Significante | 0.0000000 |
| idade_trabalhador_anos_woe | Não-significante | 0.0633467 |
| tempo_ctps_meses_woe | Não-significante | 0.0474901 |
| idade_empresa_meses_woe | Não-significante | 0.0759599 |
| cbo_reduzido_woe | Não-significante | 0.1361846 |
| cnae_label_refat_woe | Significante | 0.0000000 |
Interpretação dos coeficientes:
A análise das features demonstra que, com exceção da ‘prazo’, ‘renda_mensal’ e ‘cnae’, as demais não possuem associação com o status final (aceito/rejeitado). Significa dizer que, não existe um sistema que funcione de forma linear (padrão) com bases nestas features.
Assim, rejeitamos a hipótese de que é possível modelar um processo para se identificar o padrão de decisão do Banco Paulista.
As hipóteses alternativas são:
As features são utilizadas, mas, para um processo totalmente descricionário.
Existe um processo aplicado, mas, com features diferentes das analisadas.
Abaixo, a conclusão para cada um dos quesitos, conforme hipóteses elaboradas inicialmente.
1 - Exite diferença estatisticamente significante entre os grupos ‘aceito’ e ‘rejeitados’ para a variável valor_base?
Não. Os testes aplicados demonstram que esta variável não está associada ao status da análise. Vide
2 - Exite diferença estatisticamente significante entre os grupos ‘aceito’ e ‘rejeitados’ para a variável renda_mensal?
Sim. Os testes demonstram que esta variável possui relacionamento com o status final, e utilizada no processo. Existem evidências de preferência pode faixas de rendas baixas, em detrimento das maiores, embora não exista uma regra de separação linear (uma linha de corte). Vide
3 - Exite diferença estatisticamente significante entre os grupos ‘aceito’ e ‘rejeitados’ para a variável prazo?
Sim. Os testes de hipótese aplicados apontaram para aceitação da hipótese de que existe difenrenças, influenciando o status final. Mesmo que a estatística KS esteja abaixo do indicado, a regressão logística demonstrou que a variável, após transformação e combinação linear com as demais, tem poder preditivo. Vide
4 - Exite diferença estatisticamente significante entre os grupos ‘aceito’ e ‘rejeitados’ para a variável idade_trabalhador?
Não. Os testes aplicados demonstram que esta variável não está associada ao status da análise. Vide
5 - Exite diferença estatisticamente significante entre os grupos ‘aceito’ e ‘rejeitados’ para a variável tempo_ctps?
Não. Os testes aplicados demonstram que esta variável não está associada ao status da análise. Vide
6 - Exite diferença estatisticamente significante entre os grupos ‘aceito’ e ‘rejeitados’ para a variável idade_empresa?
Não. Os testes aplicados demonstram que esta variável não está associada ao status da análise. Vide
7 - Exite diferença estatisticamente significante entre os grupos ‘aceito’ e ‘rejeitados’ para a variável cbo?
Não. Os testes aplicados, bem como os cruzamentos realizados com CNAE demonstram que esta variável tem seu comportamento refletido pelo CNAE. Assim sendo, isoladamente, não está associada ao status da análise. Vide
8 - Exite diferença estatisticamente significante entre os grupos ‘aceito’ e ‘rejeitados’ para a variável cnae?
Sim. O qui-quadrado apontou haver associações acima do esperado, havendo dependência. A análise dos resíduos encontrou evidências de que os CNAEs ‘Insdustria_Transformacao’, ‘Infra_Logistica’ e ‘Comércio’ causam impacto, negativo e positivo, respectivamente. De fato, a análise em conjuntos das frequências e resíduos dos CNAEs e CBOs levanta a hipótese de que o relacionamento entre ambas pode evidenciar que alguns CNAEs combinados com CBOs são os grandes responsáveis pelas diferenças. Vide
9 - Exite diferença estatisticamente significante entre os grupos ‘aceito’ e ‘rejeitados’ para a combinação entre cbo+cnae?
Sim. Os resíduos confirmam os indícios colhidos na análise anterior, sendo que os CNAEs ligados ao comércio tem as associações duplamente positivas; sendo o contrário para CNAEs ‘Infra_Logística’ e ‘Industria_Transformacao’. Os demais são neutros. Conclu-se, em conjunto com a frequeência relativa, que o CNAE pode tem alto valor explicativo sobre o resultado da análise do paulista.Vide
10 - A combinação linear das features transformadas via WoE poderia demonstrar relacionamento não visualizado, sem a transformção?
Vimos que as variáveis que têm potencial para causar algum impacto na análise do Banco Paulista são:
1 - Prazo
Dar preferência para contratos com prazos acima de 12 meses.
2 - Renda mensal
Não há como traçar uma regra. De acordo com a análise, sugere-se não utilizar esta feature como filtro.
3 - CNAE
Existe clara preferência, do Banco Paulista, por CNAES relacionados a atividades de ‘comércio’ e ‘serviços operacionais’ (reforçar campanhas). Os CNAEs relacionados à ‘indústia de transformação’ e ‘infra e logística’ são fortemente rejeitados (não é o público alvo do BP).
OBS: a lista completa de CNAES pode ser enviada para a área técnica, caso seja necessário.
As demais features não causam impacto na análise do Banco Paulista. Significa que, qualquer filtro sobre eles não teria o resultado de potencializar as aprovações, mas, apenas limitar de forma geral a produção, mantendo a mesma proporção de aprovados/rejeitados.
Diante da conclusão anterior, a indicação da área de dados é de que não se deve seguir os passos do Banco Paulista, seja por inexistir um processo para análise de crédito, seja por desconhecermos. Este desconhecimento sobre os métodos aplicados pelo Banco Paulista tratá insegurança sobre a qualidade do crédito concedido, bem como impossibilitará o restreamento futuro de informações para investigar as causas de eventuais inadimplência.
Aconselha-se preparar o próprio sistema de análise de crédito.