Os dados para realização desse projeto foram obtidos através deste link: Base de dados
Introdução: Explorando a Distribuição das Finalidades de Empréstimo no Lending Club Loan Data
O Lending Club é uma plataforma de empréstimo peer-to-peer que conecta mutuários que precisam de financiamento com investidores dispostos a emprestar dinheiro. Com uma vasta quantidade de dados disponíveis sobre os empréstimos facilitados pela plataforma, surge uma oportunidade única para analisar os padrões de empréstimo e entender as tendências de financiamento dos mutuários.
Neste projeto, irei focar em explorar a distribuição das finalidades de empréstimo no conjunto de dados do Lending Club Loan Data. Compreender as diferentes razões pelas quais os mutuários solicitam empréstimos pode fornecer insights valiosos sobre as necessidades financeiras dos clientes e as preferências de empréstimo.
Nosso objetivo é realizar uma análise abrangente das finalidades de empréstimo, identificando as categorias mais comuns e menos comuns, visualizando a distribuição por meio de gráficos informativos e explorando possíveis variações demográficas e temporais. Ao fazer isso, esperamos ganhar uma compreensão mais profunda dos padrões de empréstimo dos clientes do Lending Club e das tendências subjacentes que podem influenciar as estratégias de financiamento futuras.
Esta análise não apenas nos permitirá entender melhor as preferências dos mutuários, mas também pode fornecer insights úteis para investidores, instituições financeiras e outros stakeholders interessados no mercado de empréstimos peer-to-peer e nas dinâmicas que o impulsionam.
library(rmdformats)
library(readr)
library(dplyr)
library(ggplot2)
library(knitr)
library(kableExtra)
library(htmltools)
Para tratar os dados do conjunto fornecido do Lending Club, precisaremos selecionar as variáveis relevantes para nossa análise da distribuição das finalidades de empréstimo. Aqui estão as variáveis que serão úteis para o nosso objetivo:
addrState: Estado fornecido pelo mutuário no pedido de empréstimo.
anualInc: A renda anual autodeclarada fornecida pelo mutuário durante o registro.
addr_state : O estado fornecido pelo mutuário no pedido de empréstimo
emp_length: Duração do emprego em anos. Os valores possíveis estão entre 0 e 10, onde 0 significa menos de um ano e 10 significa dez ou mais anos.
emp_title: O cargo fornecido pelo Mutuário ao solicitar o empréstimo.
grade: LC atribuído grau de empréstimo
home_ownership: status de propriedade de casa fornecido pelo mutuário durante o registro. Nossos valores são: ALUGUEL, PRÓPRIO, HIPOTECA, OUTROS.
intRate: Taxa de juros do empréstimo
loan_amnt: O valor listado do empréstimo solicitado pelo mutuário. Se em algum momento o departamento de crédito reduzir o valor do empréstimo, isso será refletido nesse valor.
purpose: Uma categoria fornecida pelo mutuário para a solicitação de empréstimo.
term: O número de pagamentos do empréstimo. Os valores estão em meses e podem ser 36 ou 60.
verification_status: Indica se a renda conjunta dos co-mutuários foi verificada pelo LC, não verificada, ou se a fonte de renda foi verificada.
Para fazer essa análise é ideal filtrar esses dados e trabalhar apenas com os dados necessários para melhor compreensão do conteúdo que pretendo analisar, por isso tratei os dados desse banco e identifiquei as variáveis que serão úteis para o nosso objetivo.
#Carregar o conjunto de dados
df <- read_csv("C:\\Users\\consenso\\Desktop\\loan.csv")
#Verificar os nomes das colunas
colnames(df)
#Selecionar apenas as colunas relevantes
df_selected <- select(df, loan_amnt, term, int_rate, grade, emp_title, emp_length, home_ownership, annual_inc, verification_status, purpose, addr_state)
Inicialmente optei por trazer dados relevantes baseado nesse banco, e decidi analistar qual a finalidade que os clientes desse banco fazem empréstimo, é algo relevante para mim observar o comportamento das pessoas em relação a utilização desses empréstimos. Segue abaixo como realizei esse processo:
# Contar o número de empréstimos para cada finalidade
contagem_purpose<- df_selected %>%
count(purpose) %>%
arrange(desc(n))
# Visualizar as contagens
contagem_purpose
Após obervar essa contagem representei em gráfico os resultados que obtive:
# Criar o gráfico de barras
ggplot(contagem_purpose, aes(x = reorder(purpose, -n), y = n)) +
geom_bar(stat = "identity", fill = "skyblue") +
labs(title = "Contagem de Empréstimos por Finalidade",
x = "Finalidade",
y = "Número de Empréstimos") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Para esta análise, precisaremos calcular a taxa de inadimplência para cada finalidade. A taxa de inadimplência pode ser calculada dividindo o número de empréstimos inadimplentes pelo número total de empréstimos para cada finalidade.
# Filtrar empréstimos inadimplentes
df_default <- df %>%
filter(loan_status %in% c("Charged Off", "Default"))
# Calcular o número de empréstimos inadimplentes por finalidade
default_counts <- df_default %>%
group_by(purpose) %>%
summarise(default_loans = n())
# Calcular o número total de empréstimos por finalidade
total_counts <- df %>%
group_by(purpose) %>%
summarise(total_loans = n())
# Juntar os dois conjuntos de dados
default_rate_data <- merge(default_counts, total_counts, by = "purpose")
# Calcular a taxa de inadimplência
default_rate_data$default_rate <- default_rate_data$default_loans / default_rate_data$total_loans
# Ordenar os resultados pela taxa de inadimplência
default_rate_data <- default_rate_data %>%
arrange(desc(default_rate))
# Exibir os resultados
print(default_rate_data)
Agora temos a taxa de inadimplência para cada finalidade de empréstimo, ordenada da maior para a menor taxa. Isso nos dá uma ideia clara de quais finalidades têm maior probabilidade de resultar em inadimplência.Agora para melhor visualização dos resultados representarei em gráfico
# Criar o gráfico de barras
ggplot(default_rate_data, aes(x = reorder(purpose, -default_rate), y = default_rate)) +
geom_bar(stat = "identity", fill = "skyblue") +
labs(title = "Taxa de Inadimplência por Finalidade de Empréstimo",
x = "Finalidade de Empréstimo",
y = "Taxa de Inadimplência") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Para analisar o montante médio do empréstimo por finalidade, podemos calcular a média do valor do empréstimo para cada categoria de finalidade. Em seguida, irei representar visualmente os resultados em um gráfico de barras ou em outro tipo de gráfico de sua preferência.
# Calcular o montante médio do empréstimo por finalidade
average_loan_amount_by_purpose <- df %>%
group_by(purpose) %>%
summarize(average_loan_amount = mean(loan_amnt))
# Visualizar os resultados
print(average_loan_amount_by_purpose)
Esses valores representam o montante médio do empréstimo em dólares para cada finalidade listada. Podemos criar um gráfico de barras para visualizar o montante médio do empréstimo por finalidade.
# Criando um dataframe de exemplo para demonstração
average_loan_by_purpose <- data.frame(
purpose = c("car", "credit_card", "debt_consolidation", "educational", "home_improvement", "house", "major_purchase", "medical", "moving", "other", "renewable_energy", "small_business", "vacation", "wedding"),
average_loan_amount = c(9394, 15320, 15967, 6615, 14666, 15704, 12682, 9474, 8391, 10481, 10757, 16443, 6358, 10476)
)
# Criando o gráfico de barras
ggplot(average_loan_by_purpose, aes(x = reorder(purpose, -average_loan_amount), y = average_loan_amount)) +
geom_bar(stat = "identity", fill = "skyblue") +
labs(title = "Montante Médio do Empréstimo por Finalidade",
x = "Finalidade do Empréstimo",
y = "Montante Médio do Empréstimo") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))