Definição do problema

Considerando, que o Banco Paulista é um fundo cessionário das operações CLT realizadas pela V8;

Considerando, a existência de regras pré-estabelecidas pelo BP, para a análise de crédito dos contratos realizados (elegibilidade);

Considerando, a aparente descricionariedade na mencionada análise; viu-se a necessidade de entender investigar eventual padrão nos dados que se relacione com a decisão do BP a respeito da elegibilidade (aceito/rejeitado).

Objetivo Geral

Portanto, temos como objetivo:

Investigar, evidenciar e explicar eventuais padrões entre os dados e análise de crédito realizada pelo BP.

Objetivos Específicos

Responder às seguintes hipóteses

1 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável valor_base?

2 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável renda_mensal?

3 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável prazo?

4 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável idade_trabalhador?

5 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável tempo_ctps?

6 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável idade_empresa?

7 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável cbo?

8 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável cnae?

9 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a combinação entre cbo+cnae?

10 - A combinação linear das features transformadas via WoE poderia demonstrar relacionamento não visualizado, sem a transformção?

Dados

Features des contratos submetidos à análise de elegibilidade do Banco Paulista, com a flag de retorno TRUE/FALSE para o status de elegibilidade.

Fonte

DBs: motor_credito e private_model

Dicionário de features

ATRIBUTO	TIPO	DESCRIÇÃO
valor_base	numeric	Valor nominal do crédito contratado
renda_mensal	numeric	Valor da renda do trabalhador
idade_trabalhador	numeric	Idade do trabalhador em anos
prazo	integer	Prazo do contrato em meses
tempo_ctps	integer	Tempo do contrato ativo em meses
idade_empresa	integer	Idade da empresa em anos
cbo	fator N	Classificação brasileiro de ocupação
cnae	fator N	Classificação de atividades econômicas

As features acima foram priorizadas em detrimento das demais, dado o conjunto de regras pré-definidas pelo Banco Paulista.

Terminologias gerenciais

TERMINOLOGIAS	SIGNIFICADO
provider	Empresa terceirizada bancarizadora da CCB emitida
crédito CLT	Modalidade de crédito consignada na folha do trabalhado
elegibilidade	Processo de avaliação do BP, para cessão de contratos

Metodologia

Metodologia analítica

Empregou-se, na presente análise, fundamentos e técnicas relativas às análises descritivas (medidas de centralidade e dispersão compatíveis com o tipo de dado) e inferencial (testes de hipótese para avaliar semelhanças e diferenças estatisticamente significantes).

Para variáveis contínuas, serão aplicados o t.test de Student e teste de Wilcoxon (para distribuições normais e não-normais, despectivamente), bem como inferência através de gráficos estatísticos.

Para variáveis discretas, serão aplicados o teste de teste de Wilcoxon, teste de Kolmogorov-Smirnov (KS) e Cumulative Density Funcion (CDF) (com adaptações necessárias para a interpretação).

Suposições

As regras de negócio descritas no script Inserir URL foram aplicadas aos dados.

Testes de hipóteses e transformações aplicados

TESTE	FONTE
t de Student	Estatística Básica. Pedro A. Morettin, Wilton O.Bussab. – 9. ed. – São Paulo: Saraiva, 2017. págs 304-334
Wilcoxon	Estatística Básica. Pedro A. Morettin, Wilton O.Bussab. – 9. ed. – São Paulo: Saraiva, 2017. págs 304-334
ks.test	Estatística Básica. Pedro A. Morettin, Wilton O.Bussab. – 9. ed. – São Paulo: Saraiva, 2017. págs 304-334
CDF	https://www.probabilitycourse.com/chapter3/3_2_1_cdf.php
WoE	https://medium.com/@Mamdouh.Refaat/data-science-basics-7-the-weight-of-evidence-woe-transformation-f2ca7bac5703
GML	https://cran.r-project.org/web/packages/glmm/index.html

Critérios para avaliação final

Os resultados foram obtidos após a análise descritiva, testes de significância estatística, análise dos resídios entre os grupos aprovados/rejeitados, bem como, da combinação linear das variáveis após aplciar transformação de WoE.

Análise

## ✔ Binning on 5594 rows and 8 columns in 00:00:13

## ✔ Woe transformating on 5594 rows and 7 columns in 00:00:11

Amostra dos dados

Abaixo, amostra dos dados utilizados no trabalho.

knitr::kable(data_EDA[1:5, ], caption = 'Amostra da base analisada.', booktabs = TRUE)

Amostra da base analisada.
prazo	idade_trabalhador_anos	renda_mensal	tempo_ctps_meses	cbo	cnae	idade_empresa_meses	valor_base	status_elegibility	cbo_reduzido	divisao_codigo	cnae_label	cnae_label_refat	pk
12	31	4229.22	8	848510	4712100	8	2384.45	TRUE	producao_bens_servicos_industriais	47	Varejo	Comercio	producao_bens_servicos_industriais+Comercio
6	29	7142.09	9	411010	8630504	7	1129.13	TRUE	servicos_adm	86	Saude Humana	Saude_Educacao	servicos_adm+Saude_Educacao
12	35	2185.92	9	783225	4789004	2	1404.15	TRUE	producao_bens_servicos_industriais	47	Varejo	Comercio	producao_bens_servicos_industriais+Comercio
24	47	6455.03	11	724315	4663000	1	3110.47	TRUE	producao_bens_servicos_industriais	46	Atacado	Comercio	producao_bens_servicos_industriais+Comercio
12	38	3036.00	8	413105	4221905	5	2778.27	TRUE	servicos_adm	42	Obras Infra-Estrut	Infra_Logistica	servicos_adm+Infra_Logistica

Quesito 1 (valor base)

1 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável valor_base?

Será aplicado o t.test de Student, à feature analisada, após o slicing por status de elegibilidade (elegível/não elegível).

As suposições foram devidamente analisadas e validadas conforme documentação.

H0: A diferença entre as médias dos grupos é igual a 0. Ou seja, não havendo diferenças, as amostras são semelhantes.

message("O p-valor do t.test de Student foi de ", t_test_result_valor_base$p.value, ". O que significa que não se rejeita a H0. Abaixo a interpretação gerencial.")

## O p-valor do t.test de Student foi de 0.318305335036087. O que significa que não se rejeita a H0. Abaixo a interpretação gerencial.

Para que a feature valor_base representasse algum impacto na análise realizada pelo Paulista, teríamos que ter constatado diferenças entre os grupos. Vale dizer, que o grupo de ‘elegíveis’ tem diferenças em relação ao grupo de ‘não elegíveis’, e.g. a sua média.

Não é o caso!

Através do teste de hipótese, camparando as 2 amostras, podemos concluir quando comparados, o valor_base das ‘elegíveis’ não apresenta diferenças em relação às ‘não-eleg;iveis’.

Conclusão

Assim sendo, podemos afirmar, com 95% de certeza, que o valor da operação não influenciará na decisão final do Paulista.

Quesito 2 (renda mensal)

2 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável renda_mensal?

Será aplicado o t.test de Student, à feature analisada, após o slicing por status de elegibilidade (elegível/não elegível).

As suposições foram devidamente analisadas e validadas conforme documentação.

H0: A diferença entre as médias dos grupos é igual a 0. Ou seja, não havendo diferenças, as amostras são semelhantes.

message("O p-valor do t.test de Student foi de ", t_test_result_renda$p.value, ". O que significa rejeição da H0. Abaixo a interpretação gerencial.")

## O p-valor do t.test de Student foi de 0.000859379095400061. O que significa rejeição da H0. Abaixo a interpretação gerencial.

Para que a feature renda_mensal representasse algum impacto na análise realizada pelo Paulista, temos que ter constatar diferenças entre os grupos. Vale dizer, que o grupo de ‘elegíveis’ tem diferenças em relação ao grupo de ‘não elegíveis’, e.g. a sua média.

É o caso!

Através do teste de hipótese, camparando as 2 amostras, podemos concluir quando comparados, a feature renda_mensal das ‘elegíveis’ apresenta diferenças em relação às ‘não-eleg;iveis’.

Posicionando a média e IC

Interpretação:

A visualização das médias e seus respectivos intervalos de confiança, de fato, demonstram que há distincão entre os grupos. Observa-se ainda, no caso das ‘elegíveis’, uma leve preferência por valores menores.

A análise do histrograma evidenciará se os 2 grupos se distribuiem em pontos diferentes. Ainda, há que se investigar se a renda_mensal é influenciada por outra feature, por exemplo, se houver preferência por CNAES específicos, pode haver influência na renda.

Histograma sobrepostos

Interpretação:

O t.test apontou que existem diferenças nas massas dos grupos aprovadas/rejeitadas. Também é possível ver que não há interseção entre o erro-padrão das médias (no gráfico acima); contudo, o histograma demonstra que não há separação linear (ponto de corte teórica).
Existe um apetite de risco maior para a base da renda_mensal (onde é possível ver uma maior proporção de aprovadas), do que para os valores a partir da moda (onde é possível ver que há uma proporção maior de rejeitadas). Assim, sendo, deve-se prosseguir com a análise, considerando-se a variável renda_mensal, a fim de modelá-la.

Conclusão sobre os quesitos 1 e 2 (variáveis contínuas)

valor_base: os testes de hipótese demonstraram que não existe diferença, consideradas estatisticamente significantes - ou seja, mais do que meramente aleatórias -, entre os grupos aprovados/rejeitados para esta variável.

Assim sendo, a conclusão inicial é: a variável valor_base não é importante para a análise realizada pelo Banco Paulista.

renda_mensal: o teste de hipótese demonstrou que existe uma diferença evidente das características (dos 2 grupos), sendo uma das condições analisadas pelo modelo do Paulista. O gráfico acima demonstra o posicionamento da média e do erro padrão, para os 2 grupos, embora, não haja uma separação linear.

Assim sendo, prosseguiremos com esta variável dentre as analisadas, a fim de modelar sua atuação.

Quesito 3 (prazo)

3 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável prazo?

Teste de Wilcoxon

Será aplicado o teste de Wilcoxon, à feature analisada, após o slicing por status de elegibilidade (elegível/não elegível).

Este é um teste de hipótese não paramétrico, por isso, não há suposição quando a distribuição de probabilidades dos dados, conforme documentação.

H0: A mediana das diferenças entre as amostras é igual a zero. Explicando, se a diferença entre as observações é 0, significa que os 2 grupos são iguais (estatisticamente); assim sendo, uma variável não possui relação de dependência com a outra.

## O p-value do teste de Wolcoxon foi de: 4.01881526535612e-15. Rejeita-se a H0, assumindo-se a possibilidade de que o prazo pode ser significante para a análise.

Interpretação:

O teste de Wilcoxon apontou que, ao comparar a mediana do prazo dos contratos aceitos com a mesma métrica do grupo de rejeitados, encontrou diferenças; assim, pode existir um relacionamento entre o prazo do contrato, e o status final de análise.

Cumulative Density Funcion (CDF) e teste de Kolmogorov-Smirnov (KS)

Utilizando o algoritmo CDF, podemos calcular e visualizar a probabilidade, para cada grupo de prazo, de assumir um determinado valor.

O teste de hipótese aplicado (KS), é utilizado em conjunto com o cálculo das densidades cumuladas, com a finalidade de ratificar o resultado (haja vista as possíveis limitações para valores discretos, conforme exposto na documentação).

A estatística do mencionado teste ajudará, ainda, a dimensionar a distãncia das probabilidades.

Para problemas de crédito, adotadoremos o limiter de 0.30.

Aplicaresmos o teste KS para comparar 2 amostras independentes.

Como H0 do teste KS: As densidades são idênticas (as duas amostras vêm da mesma distribuição).

Interpretação:

A CDF demonstra que no bloco de 12 parcelas, a probabilidade acumulada do grupo de aprovadas é maior do que a de rejeitadas, seguindo, após o mesmo padrão. Isto sugere que, pode haver preferência, no nomento da análise, pelo prazo de 12 (doze) meses.
O p-value do teste de hipótese aplicado (KS) corrobora com o CEF, e rejeita a H0, também sugerindo tratar-se de 2 duas distribuições. Entretanto, a estatística resultante demonstrou que a maior diferença encontrada foi de 0.13, abaixo do limiar usual para problemas de análise de crédito (0.30). Isto determina que, mesmo se tratando de 2 distribuições, a contribuição para um modelo pode ser marginal. Vamos seguir com esta variável na análise, e ver como se comportar em conjunto com as demais.

Quesito 4 (idade_trabalhador)

4 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável idade_trabalhador?

Teste de Wilcoxon

Será aplicado o teste de Wilcoxon.

As explicações sobre o teste aplicado, do item Quesito 3 - teste de Wilconxon podem ser compartilhadas.

## O p-value do teste de Wilcoxon foi de: 0.847081688096461. Não se rejeita-se a H0, assumindo-se a afirmação de que a idade_trabalhador_anos não é significante para a análise.

Interpretação:

O teste de Wilcoxon apontou que, ao comparar a mediana da variável ‘idade_trabalhador_anos’ dos contratos aceitos com a mesma métrica do grupo de rejeitados, não encontrou diferenças; assim, não existe um relacionamento estatisticamente significantes entre a idade_trabalhador_anos e o status final de análise.

Cumulative Density Funcion (CDF) e teste de Kolmogorov-Smirnov (KS)

Aplicaremos o cálculo CDF e o teste ks.test.

As explicações do item Quesito 3 - Cumulative Density Funcion (CDF) e teste de Kolmogorov-Smirnov (KS) podem ser compartilhadas.

Interpretação:

A CDF demonstra as probablidades acumuladas são as mesmas para ambos os grupos, em toddos os blocos de valores. Assim sendo, podemos afirmar que não houve uma (ou mais) idades que tiveram mais chances de ser aprovadas.
O p-value do teste de hipótese aplicado (KS) corrobora com o CDF, e não rejeita a H0, também sugerindo que os grupos vem da mesma distribuição (uma únca populaçõa) Por fim, a estatística KS confirma os resultados anteriores. A conclusão para esta variável é de que a idade do trabalhador não é usada como critério para decisão quando da análise do Paulista.

Quesito 5 (tempo_ctps)

5 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável tempo_ctps?

Teste de Wilcoxon

Será aplicado o teste de Wilcoxon.

As explicações sobre o teste aplicado, do item Quesito 3 - teste de Wilconxon podem ser compartilhadas.

## O p-value do teste de Wilcoxon foi de: 0.697818924686462. Não se rejeita-se a H0, assumindo-se a afirmação de que a tempo_ctps não é significante para a análise.

Interpretação:

O teste de Wilcoxon apontou que, ao comparar a mediana da variável ‘tempo_ctps_meses’ dos contratos aceitos com a mesma métrica do grupo de rejeitados, não encontrou diferenças; assim, não existe um relacionamento estatisticamente significante entre a tempo_ctps_meses e o status final de análise.

Cumulative Density Funcion (CDF) e teste de Kolmogorov-Smirnov (KS)

Aplicaremos o cálculo CDF e o teste ks.test.

As explicações do item Quesito 3 - Cumulative Density Funcion (CDF) e teste de Kolmogorov-Smirnov (KS) podem ser compartilhadas.

Interpretação:

A CDF demonstra sultis diferenças em alguns blocos. Nos iniciais, a probabilidade de maior incidência de reprovação, e, após 8 meses, maior incidência de aprovação. Isto sugere que, pode haver preferência, no nomento da análise, por prazos superiores a 8. Mas, as diferenças são quase irrelevantes, o teste seguinte ajudará na interpretação.
O p-value do teste de hipótese aplicado (KS) está no limite de determinar que a diferença seja fruto da aleatoriedade, entretanto, conforme já informado na documentação, quando aplicados a dados discretos, podemos esperar que este resultado seja inflado, ou seja, há a possibilidade de que o p-value seja menos, indicando tratar-se de 2 populações. A estatística resultante, por outro lado, demonstrou que a maior diferença encontrada foi de 0.04, muito abaixo do limiar usual para problemas de análise de crédito (0.30). Isto determina que, ainda que se admita a Ha (hipótese alternativa), a contribuição para um modelo pode ser marginal. Vamos seguir com esta variável na análise, e ver como se comportar em conjunto com as demais.

Quesito 6 (idade_empresa_meses)

6 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável idade_empresa?

Teste de Wilcoxon

Será aplicado o teste de Wilcoxon.

As explicações sobre o teste aplicado, do item Quesito 3 - teste de Wilconxon podem ser compartilhadas.

## O p-value do teste de Wilcoxon foi de: 0.341481596932173. Não se rejeita-se a H0, assumindo-se a afirmação de que a idade_empresa_meses não é significante para a análise.

Interpretação:

O teste de Wilcoxon apontou que, ao comparar a mediana da variável ‘idade_empresa_meses’ dos contratos aceitos com a mesma métrica do grupo de rejeitados, não encontrou diferenças; assim, não existe um relacionamento estatisticamente significante entre a idade_empresa_meses e o status final de análise.

Cumulative Density Funcion (CDF) e teste de Kolmogorov-Smirnov (KS)

Aplicaremos o cálculo CDF e o teste ks.test.

As explicações do item Quesito 3 - Cumulative Density Funcion (CDF) e teste de Kolmogorov-Smirnov (KS) podem ser compartilhadas.

Interpretação:

A CDF demonstra as probablidades acumuladas são as mesmas para ambos os grupos, em toddos os blocos de valores. Assim sendo, podemos afirmar que não houve uma (ou mais) idades para empresa que tiveram mais chances de ser aprovadas.
O p-value do teste de hipótese aplicado (KS) corrobora com o CDF, e não rejeita a H0, também sugerindo que os grupos vem da mesma distribuição (uma únca população) Por fim, a estatística KS confirma os resultados anteriores. A conclusão para esta variável é de que a idade da empresa (tempo de vida da empresa) não é usada como critério para decisão quando da análise do Paulista.

Conclusão sobre os quesitos 3 a 6 (variáveis discretas)

prazo: os testes de hipótese (Wincoxcon, o cálculo da CDF e o test KS) demonstraram haver probabilidades diferentes para o prazo de 12 meses (trata-se de diferentes distribuições). Contudo, interpretados sistematicamente com a estatística KS, demonstrou não haver grande potencial preditivo, e, possivelmente, marginal.

Assim sendo, a conclusão inicial para a variável prazo é: é seguir com esta variável para os próximos teste, e, verificar seu comportamento em conjunto com as demais variáveis.

idade_trabalhador_anos: os testes de hipótese (Wincoxcon, o cálculo da CDF e o test KS) demonstraram que eventuais diferenças entre os grupos de aceitas e rejeitadas, para esta variáveis, são mero acaso (na verdade, a intensidade dos resultados) evidencia que quase não há diferenças.

Assim sendo, a conclusão inicial para a variável idade_trabalhador_anos é: de que esta variável não é usada na análise do Banco Paulista. O estudo seguirá sem esta variável.

tempo_ctps_meses: os testes de hipótese (Wincoxcon, o cálculo da CDF e o test KS) demonstraram não haver diferenças entre os grupos de propostas aceitas e rejeitadas. Os testes de hipótese apontam que o tempo de CTPS assinada pelo tomador do crédito não tem influência na decisão do Banco Paulista.

Assim sendo, a conclusão inicial para a variável tempo_ctps_meses é: de que esta variável não é usada na análise do Banco Paulista. O estudo seguirá sem esta variável.

idade_empresa_meses: os testes de hipótese (Wincoxcon, o cálculo da CDF e o test KS), bem como a estatística KS se complementam para a conclusão de que esta variável não influencia a decisão tomara pelo Banco Paulista.

Assim sendo, a conclusão inicial para a variável idade_empresa_meses é: de que esta variável não é usada na análise do Banco Paulista. O estudo seguirá sem esta variável.

Quesito 7 (cbo)

7 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável cbo?

Abaixo, o gráfico contabiliza a frequência total de propostas por CBO, independente do resultado final (aprovados/rejeitados).

Interpretação:

Podemos ver que a categoria mais frequênte é a ‘producao_bens_servicos_industriais’, seguida por ‘serviços_comercio_mercado’ e ‘servicos_adm’.

Qui-quadrado (de independência - status x CBO) e análise dos resíduos de Pearson.

Será aplicado o teste Qui-quadrado, às features analisadas, verificando se a ocorrência da feature status (reprovado/aprovado) independe da ocorrência do CBO analisado, comparando a frequência observada com a esperada (no caso de não haver correlação).

Junto com o testo, analisaremos os resíduos de Pearson, para entender como se comportam as categorias do CBO em relação ao status.

H0: São independentes. Assim, a H0 afirma que se a ocorrência de uma variáveis não é influênciada pela outra, não há associação.

Interpretação:

Leia as diretrizes para interpretação na documentação

O qui-quadrado apontou haver diferenças entre as associações (calculadas vs esperadas), rejeitando-se a H0, conforme o p-valor.
Quanto à análise dos resíduos (determinando como, e quais classes causaram impacto e com qual força): temos apenas agravantes de risco os CBOs ligados à agropecuários_florestais, e, producao_bens_servicos_industriais; há uma associação acima do esperado para estas classes, mas, são oriundas de propostas rejeitadas, com intensidade alta. Este detalhe merece investigação, haja vista que esta última categoria é a moda (classe mais digitada) entre os CBOs, ou seja, as propostas que mais são digitadas, são umas das que mais são rejeitadas. Os demais são estatisticamente neutros.

Quesito 8 (cnae)

8 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a variável cnae?

Abaixo, o gráfico contabiliza a frequência total de propostas por cnae, independente do resultado final (aprovados/rejeitados).

Interpretação:

Podemos ver que as categorias mais frequêntes são as ligadas ao ‘comércio’, seguida por ‘Industria_Transformacao’ e ‘Infra_Logistica’.

Qui-quadrado (de independência - status x CNAE) e análise dos resíduos de Pearson.

Será aplicado o teste Qui-quadrado, em conjunto com análise dos resíduos de Pearson.

A explicação do item Quesito 7 (cbo) pode ser compartilhada para este item.

Interpretação:

O qui-quadrado apontou haver diferenças entre as associações (calculadas vs esperadas), rejeitando-se a H0, conforme o p-valor.
Quanto à análise dos resíduos (determinando como, e quais classes causaram impacto e com qual força): temos como Agravantes de risco os CNAEs ligados à ‘Insdustria_Transformacao’, e, ‘Infra_Logistica’; há uma associação acima do esperado para estas classes, esta diferença se dá pela proporção de rejeitados maior do que o esperado. Estas associações devem ser melhor investigadas, pois são as subsequêntes à moda de propostas digitadas, por CNAE. Como Atenuantes de risco os CNAEs ligados ao ‘Comércio’ apresentam associações maior do que o esperado, sendo impulsionado por propostas aceitas. Os demais são estatisticamente neutros.

Quesito 9 (cnae + cbo)

9 - Exite diferença estatisticamente significantes entre os grupos ‘aceito’ e ‘rejeitados’ para a combinação entre cbo+cnae?

O testes e análises aplicadas de forma unitária às variáveis ‘cbo’ e ‘cnae’ demonstram que algumas das classes que apresentam a maior frequência de digitação estão entre as mais associadas ao status rejeição.

Assim, diante deste fato, e da hipótese de as variáveis possuiem algum nível de dependência (cbo vs cnae), será iniciada a análise bivariada das features categóricas.

Interpretação:

Percebe-se que, na verdade, os CNAEs ‘Industria_Transformacao’, e ‘Infra_logistica’ somados, são os responsáveis por elevarem os CBOs ligados à ‘producao_bens_servicos_industriais’ à classe mais frequente. Podemos entender também, porque o CBO demonstrou maior associação do que o esperado no qui-quadrado para a reprovação. O movimento oposto ocorre com os CBOs relacionados aos CNAEs de ‘comercio’.
Isto indica que o CNAE pode ter alto valor explicativo sobre o resultado da análise do paulista.

Qui-quadrado (de independência - status vs CBO+CNAE) e análise dos resíduos de Pearson.

Será aplicado o teste Qui-quadrado, em conjunto com análise dos resíduos de Pearson.

A explicação do item Quesito 7 (cbo) pode ser compartilhada para este item.

Interpretação:

Os resíduos confirmam os indícios colhidos na análise anterior, sendo que os CNAEs ligados ao comércio tem as associações duplamente positivas; sendo o contrário para CNAEs ‘Infra_Logística’ e ‘Industria_Transformacao’. Os demais são neutros.

Quesito 10 (transformação e combinação linear)

10 - A combinação linear das features transformadas via WoE poderia demonstrar relacionamento não visualizado, sem a transformção?

Aplicando Regressão Logística à features transformadas com WoE

Observação importante: é possível calcular o impacto na probabilidade do contrato ser elegível, de cada variável, a partir dos log-odds, entretanto, a modalgem demandaria mais tempo.

Abaixo, portanto, avaliaremos apenas a significância estatística das variáveis, quando linearmente combinadas.

Análise de signficância após transformação de WoE
	Significancia	P_valor
(Intercept)	Significante	0.0000000
renda_mensal_woe	Significante	0.0000000
prazo_woe	Significante	0.0000000
idade_trabalhador_anos_woe	Não-significante	0.0633467
tempo_ctps_meses_woe	Não-significante	0.0474901
idade_empresa_meses_woe	Não-significante	0.0759599
cbo_reduzido_woe	Não-significante	0.1361846
cnae_label_refat_woe	Significante	0.0000000

Interpretação dos coeficientes:

A análise de significância das features, ndo modelo linear treinado, confirmam os indícios colhidos na análise anterior, sendo ‘renda_mensal’, ‘prazo’ e ‘cnae’ bastante relevantes para a análise do Banco Paulista. Os demais são neutros.

Conclusões

A análise das features demonstra que, com exceção da ‘prazo’, ‘renda_mensal’ e ‘cnae’, as demais não possuem associação com o status final (aceito/rejeitado). Significa dizer que, não existe um sistema que funcione de forma linear (padrão) com bases nestas features.

Assim, rejeitamos a hipótese de que é possível modelar um processo para se identificar o padrão de decisão do Banco Paulista.

As hipóteses alternativas são:

As features são utilizadas, mas, para um processo totalmente descricionário.
Existe um processo aplicado, mas, com features diferentes das analisadas.

Abaixo, a conclusão para cada um dos quesitos, conforme hipóteses elaboradas inicialmente.

1 - Exite diferença estatisticamente significante entre os grupos ‘aceito’ e ‘rejeitados’ para a variável valor_base?

Não. Os testes aplicados demonstram que esta variável não está associada ao status da análise. Vide

2 - Exite diferença estatisticamente significante entre os grupos ‘aceito’ e ‘rejeitados’ para a variável renda_mensal?

Sim. Os testes demonstram que esta variável possui relacionamento com o status final, e utilizada no processo. Existem evidências de preferência pode faixas de rendas baixas, em detrimento das maiores, embora não exista uma regra de separação linear (uma linha de corte). Vide

3 - Exite diferença estatisticamente significante entre os grupos ‘aceito’ e ‘rejeitados’ para a variável prazo?

Sim. Os testes de hipótese aplicados apontaram para aceitação da hipótese de que existe difenrenças, influenciando o status final. Mesmo que a estatística KS esteja abaixo do indicado, a regressão logística demonstrou que a variável, após transformação e combinação linear com as demais, tem poder preditivo. Vide

4 - Exite diferença estatisticamente significante entre os grupos ‘aceito’ e ‘rejeitados’ para a variável idade_trabalhador?

Não. Os testes aplicados demonstram que esta variável não está associada ao status da análise. Vide

5 - Exite diferença estatisticamente significante entre os grupos ‘aceito’ e ‘rejeitados’ para a variável tempo_ctps?

Não. Os testes aplicados demonstram que esta variável não está associada ao status da análise. Vide

6 - Exite diferença estatisticamente significante entre os grupos ‘aceito’ e ‘rejeitados’ para a variável idade_empresa?

Não. Os testes aplicados demonstram que esta variável não está associada ao status da análise. Vide

7 - Exite diferença estatisticamente significante entre os grupos ‘aceito’ e ‘rejeitados’ para a variável cbo?

Não. Os testes aplicados, bem como os cruzamentos realizados com CNAE demonstram que esta variável tem seu comportamento refletido pelo CNAE. Assim sendo, isoladamente, não está associada ao status da análise. Vide

8 - Exite diferença estatisticamente significante entre os grupos ‘aceito’ e ‘rejeitados’ para a variável cnae?

Sim. O qui-quadrado apontou haver associações acima do esperado, havendo dependência. A análise dos resíduos encontrou evidências de que os CNAEs ‘Insdustria_Transformacao’, ‘Infra_Logistica’ e ‘Comércio’ causam impacto, negativo e positivo, respectivamente. De fato, a análise em conjuntos das frequências e resíduos dos CNAEs e CBOs levanta a hipótese de que o relacionamento entre ambas pode evidenciar que alguns CNAEs combinados com CBOs são os grandes responsáveis pelas diferenças. Vide

9 - Exite diferença estatisticamente significante entre os grupos ‘aceito’ e ‘rejeitados’ para a combinação entre cbo+cnae?

Sim. Os resíduos confirmam os indícios colhidos na análise anterior, sendo que os CNAEs ligados ao comércio tem as associações duplamente positivas; sendo o contrário para CNAEs ‘Infra_Logística’ e ‘Industria_Transformacao’. Os demais são neutros. Conclu-se, em conjunto com a frequeência relativa, que o CNAE pode tem alto valor explicativo sobre o resultado da análise do paulista.Vide

10 - A combinação linear das features transformadas via WoE poderia demonstrar relacionamento não visualizado, sem a transformção?

A análise de significância das features, ndo modelo linear treinado, confirmam os indícios colhidos na análise anterior, sendo ‘renda_mensal’, ‘prazo’ e ‘cnae’ bastante relevantes para a análise do Banco Paulista. Os demais são neutros. Vide

Sugestão

Variáveis úteis para filtros

Vimos que as variáveis que têm potencial para causar algum impacto na análise do Banco Paulista são:

1 - Prazo

Dar preferência para contratos com prazos acima de 12 meses.

2 - Renda mensal

Não há como traçar uma regra. De acordo com a análise, sugere-se não utilizar esta feature como filtro.

3 - CNAE

Existe clara preferência, do Banco Paulista, por CNAES relacionados a atividades de ‘comércio’ e ‘serviços operacionais’ (reforçar campanhas). Os CNAEs relacionados à ‘indústia de transformação’ e ‘infra e logística’ são fortemente rejeitados (não é o público alvo do BP).

OBS: a lista completa de CNAES pode ser enviada para a área técnica, caso seja necessário.

As demais features não causam impacto na análise do Banco Paulista. Significa que, qualquer filtro sobre eles não teria o resultado de potencializar as aprovações, mas, apenas limitar de forma geral a produção, mantendo a mesma proporção de aprovados/rejeitados.

Geral

Diante da conclusão anterior, a indicação da área de dados é de que não se deve seguir os passos do Banco Paulista, seja por inexistir um processo para análise de crédito, seja por desconhecermos. Este desconhecimento sobre os métodos aplicados pelo Banco Paulista tratá insegurança sobre a qualidade do crédito concedido, bem como impossibilitará o restreamento futuro de informações para investigar as causas de eventuais inadimplência.

Aconselha-se preparar o próprio sistema de análise de crédito.

Força das features para análise de elegibilidade

Fagner F. Farias

2026-02-23

Definição do problema

Objetivo Geral

Objetivos Específicos

Responder às seguintes hipóteses

Dados

Fonte

Dicionário de features

Terminologias gerenciais

Metodologia

Metodologia analítica

Suposições

Testes de hipóteses e transformações aplicados

Critérios para avaliação final

Análise

Amostra dos dados

Quesito 1 (valor base)

Quesito 2 (renda mensal)

Posicionando a média e IC

Histograma sobrepostos

Conclusão sobre os quesitos 1 e 2 (variáveis contínuas)

Quesito 3 (prazo)

Teste de Wilcoxon

Cumulative Density Funcion (CDF) e teste de Kolmogorov-Smirnov (KS)

Quesito 4 (idade_trabalhador)

Teste de Wilcoxon

Cumulative Density Funcion (CDF) e teste de Kolmogorov-Smirnov (KS)

Quesito 5 (tempo_ctps)

Teste de Wilcoxon

Cumulative Density Funcion (CDF) e teste de Kolmogorov-Smirnov (KS)

Quesito 6 (idade_empresa_meses)

Teste de Wilcoxon

Cumulative Density Funcion (CDF) e teste de Kolmogorov-Smirnov (KS)

Conclusão sobre os quesitos 3 a 6 (variáveis discretas)

Quesito 7 (cbo)

Qui-quadrado (de independência - status x CBO) e análise dos resíduos de Pearson.

Quesito 8 (cnae)

Qui-quadrado (de independência - status x CNAE) e análise dos resíduos de Pearson.

Quesito 9 (cnae + cbo)

Qui-quadrado (de independência - status vs CBO+CNAE) e análise dos resíduos de Pearson.

Quesito 10 (transformação e combinação linear)

Aplicando Regressão Logística à features transformadas com WoE

Conclusões

Sugestão

Variáveis úteis para filtros

Geral