DQLab Finance merupakan perusahaan finance yang sudah mempunyai banyak cabang tersebar dimana-mana. Sejak berdiri pada Januari 2020, DQLab Finance konsisten menyalurkan pembiayaan untuk masyarakat dan semakin berkembang setiap bulannya dengan membuka cabang baru.
Walaupun berumur kurang dari 1 tahun, DQLab Finance sudah mempunyai banyak cabang, oleh karena itu perlu dipantau bagaimana performa dari cabang - cabang tersebut.
Pada masing-masing cabang, terdapat agen-agen yang bertugas mencari dan mendata calon mitra yang akan mengajukan pinjaman kepada DQLab Finance. Lalu jika sudah disetujui, agen juga yang akan memberikan uang tersebut kepada mitra.
Pada tugas kali ini, saya akan menganalisis bagaimana performa cabang pada bulan lalu, yakni Mei 2020.
df_loan <- read.csv('https://storage.googleapis.com/dqlab-dataset/loan_disbursement.csv', stringsAsFactors = F)
dplyr::glimpse(df_loan)
## Rows: 9,754
## Columns: 5
## $ loan_id <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17~
## $ tanggal_cair <chr> "2020-01-06", "2020-01-06", "2020-01-06", "2020-01-06", "~
## $ cabang <chr> "AA", "AA", "AA", "AA", "AA", "AA", "AB", "AB", "AB", "AB~
## $ agen <chr> "AA-1", "AA-1", "AA-1", "AA-2", "AA-2", "AA-2", "AB-1", "~
## $ amount <int> 320000, 440000, 200000, 430000, 360000, 220000, 320000, 4~
Terlihat bahwa ada 9,754 baris data (Observations) dan ada 5 kolom (Variables), 1. loan_id : unik ID dari data ini 2. tanggal_cair : tanggal uang diberikan kepada mitra 3. cabang : lokasi agen bekerja dan tempat mitra terdaftar 4. agen : petugas lapangan yang melakukan pencairan 5. amount : jumlah uang yang dicairkan
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
df_loan_mei <- df_loan %>%
filter(tanggal_cair >= '2020-05-01', tanggal_cair <= '2020-05-31') %>%
group_by(cabang) %>%
summarise(total_amount = sum(amount))
df_loan_mei
## # A tibble: 22 x 2
## cabang total_amount
## <chr> <int>
## 1 AA 75710000
## 2 AB 81440000
## 3 AC 83990000
## 4 AD 76080000
## 5 AE 54200000
## 6 AF 68040000
## 7 AG 74080000
## 8 AH 73840000
## 9 AI 46640000
## 10 AJ 43580000
## # ... with 12 more rows
library(dplyr)
library(scales)
df_loan_mei %>%
arrange(desc(total_amount)) %>%
mutate(total_amount = comma(total_amount)) %>%
head(5)
## # A tibble: 5 x 2
## cabang total_amount
## <chr> <chr>
## 1 AC 83,990,000
## 2 AB 81,440,000
## 3 AD 76,080,000
## 4 AA 75,710,000
## 5 AG 74,080,000
library(dplyr)
library(scales)
df_loan_mei %>%
arrange(total_amount) %>%
mutate(total_amount = comma(total_amount)) %>%
head(5)
## # A tibble: 5 x 2
## cabang total_amount
## <chr> <chr>
## 1 AV 30,280,000
## 2 AS 31,740,000
## 3 AT 34,840,000
## 4 AU 35,610,000
## 5 AO 39,120,000
Terjadi perbedaan yang sangat signifikan antara top 5 dengan bottom 5. Hal ini mungkin karena umur cabang yang berbeda beda karena ada pertumbuhan cabang baru setiap bulannya.
Selanjutnya perlu dicek apakah ada perbedaan total amount untuk umur cabang yang berbeda - beda.
Karena tidak tersedia data umur cabang, maka perlu dihitung terlebih dahulu, yakni dengan menghitung sudah berapa lama sejak tanggal cair pertama sampai dengan bulan Mei.
Untuk memudahkan cara perhitungan umur dengan membagi jumlah selisih hari dengan 30, karena itu tanggal batas nya menggunakan tanggal tengah bulan (2020-05-15), agar tidak terlalu mempengaruhi presisi perhitungan.
library(dplyr)
df_cabang_umur <- df_loan %>%
group_by(cabang) %>%
summarise(pertama_cair = min(tanggal_cair)) %>%
mutate(umur = as.numeric(as.Date('2020-05-15') - as.Date(pertama_cair)) %/% 30)
df_cabang_umur
## # A tibble: 22 x 3
## cabang pertama_cair umur
## <chr> <chr> <dbl>
## 1 AA 2020-01-06 4
## 2 AB 2020-01-06 4
## 3 AC 2020-01-06 4
## 4 AD 2020-01-06 4
## 5 AE 2020-02-03 3
## 6 AF 2020-02-03 3
## 7 AG 2020-02-03 3
## 8 AH 2020-02-03 3
## 9 AI 2020-03-02 2
## 10 AJ 2020-03-02 2
## # ... with 12 more rows
Selanjutnya untuk membandingkan data umur dan performa di bulan mei, terlebih dahulu perlu digabungkan dulu data-data yang sudah dibuat sebelumnya dengan menggunakan fungsi inner_join, lalu simpan sebagai df_loan_mei_umur.
library(dplyr)
df_loan_mei_umur <- df_cabang_umur %>%
inner_join(df_loan_mei, by = 'cabang')
df_loan_mei_umur
## # A tibble: 22 x 4
## cabang pertama_cair umur total_amount
## <chr> <chr> <dbl> <int>
## 1 AA 2020-01-06 4 75710000
## 2 AB 2020-01-06 4 81440000
## 3 AC 2020-01-06 4 83990000
## 4 AD 2020-01-06 4 76080000
## 5 AE 2020-02-03 3 54200000
## 6 AF 2020-02-03 3 68040000
## 7 AG 2020-02-03 3 74080000
## 8 AH 2020-02-03 3 73840000
## 9 AI 2020-03-02 2 46640000
## 10 AJ 2020-03-02 2 43580000
## # ... with 12 more rows
Untuk membuat plot, akan digunakan package ggplot2 agar script yang digunakan lebih konsisten ketika nanti ada perubahan dan supaya bisa lebih bisa dicustomisasi nantinya.
library(ggplot2)
ggplot(df_loan_mei_umur, aes(x = umur, y = total_amount)) +
geom_point() +
scale_y_continuous(labels = scales::comma) +
labs(title = "Semakin berumur, perfoma cabang akan semakin baik",
x = "Umur (bulan)",
y = "Total Amount")
Terlihat bahwa ada pola semakin tua cabang, maka performa nya semakin baik. Hal ini karena cabang tersebut masih berkembang sehingga belum sampai pada performa maksimal.
Akan tetapi pada masing - masing umur itu juga ada cabang yang performanya dibawah yang lain.
Selanjutnya akan dianalisis cabang yang performanya lebih rendah dari yang lain pada umur yang sama
Selanjutnya Untuk mencari cabang yang performanya rendah pada setiap kelompok umur, akan digunakan nilai Quartile dan Inter Quartile Range dari setiap umur. Dikatakan rendah jika performanya kurang dari (Q1 - IQR). Untuk itu perlu dicari dulu nilai Q1, Q3 dan IQR untuk setiap umur dengan menggunakan data df_loan_mei_umur. Untuk membuat variabel ini, gunakan group_by dan mutate karena variabel ini akan digunakan lagi oleh semua data.
Setelah itu buat variabel baru flag yang akan berisi ‘rendah’ jika performanya kurang dari (Q1 - IQR) dan ‘baik’ untuk selain itu dan simpan hasilnya sebagai df_loan_mei_flag.
library(dplyr)
library(scales)
df_loan_mei_flag <- df_loan_mei_umur %>%
group_by(umur) %>%
mutate(Q1 = quantile(total_amount, 0.25),
Q3 = quantile(total_amount, 0.75),
IQR = (Q3-Q1)) %>%
mutate(flag = ifelse(total_amount < (Q1 - IQR), 'rendah','baik'))
Untuk memperjelas bagaimana performa cabang yang rendah ini, plot lagi seperti sebelumnya. Sekarang menggunakan data yang baru, yakni df_loan_mei_flag. Lalu beri warna biru untuk cabang dengan flag ‘baik’ dan merah untuk yang ‘rendah’.
hasilnya akan menjadi seperti ini :
library(ggplot2)
ggplot(df_loan_mei_flag, aes(x = umur, y = total_amount)) +
geom_point(aes(color = flag)) +
scale_color_manual(breaks = c("baik", "rendah"),
values=c("blue", "red")) +
scale_y_continuous(labels = scales::comma) +
labs(title = "Ada cabang berpeforma rendah padahal tidak termasuk bottom 5 nasional",
color = "",
x = "Umur (bulan)",
y = "Total Amount")
Selanjutnya akan dianalisis lebih lanjut kenapa cabang itu bisa performanya rendah di mei
Untuk kali ini akan dilihat hanya untuk yang umur 3 bulan saja, dilihat detail performa pada bulan mei dengan mengihitung, - jumlah hari pencairan dalam 1 bulan, - jumlah agen yang aktif, - total loan yang cair, - rata - rata amount cair per loan.
dan ubah kolom numeric menjadi comma dengan fungsi mutate_if
library(dplyr)
library(scales)
df_loan_mei_flag %>%
filter(umur == 3) %>%
inner_join(df_loan, by = 'cabang') %>%
filter(tanggal_cair >= '2020-05-01', tanggal_cair <= '2020-05-31') %>%
group_by(cabang, flag) %>%
summarise(jumlah_hari = n_distinct(tanggal_cair),
agen_aktif = n_distinct(agen),
total_loan_cair = n_distinct(loan_id),
avg_amount = mean(amount),
total_amount = sum(amount)) %>%
arrange(total_amount) %>%
mutate_if(is.numeric, funs(comma))
## `summarise()` has grouped output by 'cabang'. You can override using the `.groups` argument.
## `mutate_if()` ignored the following grouping variables:
## Column `cabang`
## Warning: `funs()` was deprecated in dplyr 0.8.0.
## Please use a list of either functions or lambdas:
##
## # Simple named list:
## list(mean = mean, median = median)
##
## # Auto named with `tibble::lst()`:
## tibble::lst(mean, median)
##
## # Using lambdas
## list(~ mean(., trim = .2), ~ median(., na.rm = TRUE))
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was generated.
## # A tibble: 4 x 7
## # Groups: cabang [4]
## cabang flag jumlah_hari agen_aktif total_loan_cair avg_amount total_amount
## <chr> <chr> <chr> <chr> <chr> <chr> <chr>
## 1 AE rendah 21 3 175 309,714 54,200,000
## 2 AF baik 21 3 225 302,400 68,040,000
## 3 AH baik 21 3 241 306,390 73,840,000
## 4 AG baik 21 3 241 307,386 74,080,000
Cabang AE memiliki performa yang rendah karena pada bulan mei memiliki total loan cair yang paling sedikit dan total amount yang besar dibandingkan dengan cabang lainnya yang performanya baik.
Dari hasil eksplorasi sebelumnya, terlihat bahwa yang berbeda jauh hanya total_loan_cair saja. Jumlah hari dan jumlah agen dalam 1 bulan sama semua.
Selanjutnya perlu dilihat bagaimana perbandingan nya per agent.
Untuk melanjutkan tadi, dilihat untuk yang umur 3 bulan dan flag nya rendah dilihat detail performa pada bulan mei per agen dengan mengihitung,
library(dplyr)
library(scales)
df_loan_mei_flag %>%
filter(umur == 3, flag == 'rendah') %>%
inner_join(df_loan, by = 'cabang') %>%
filter(tanggal_cair >= '2020-05-01', tanggal_cair <= '2020-05-31') %>%
group_by(cabang, agen) %>%
summarise(jumlah_hari = n_distinct(tanggal_cair),
total_loan_cair = n_distinct(loan_id),
avg_amount = mean(amount),
total_amount = sum(amount)) %>%
arrange(total_amount) %>%
mutate_if(is.numeric, funs(comma))
## `summarise()` has grouped output by 'cabang'. You can override using the `.groups` argument.
## `mutate_if()` ignored the following grouping variables:
## Column `cabang`
## # A tibble: 3 x 6
## # Groups: cabang [1]
## cabang agen jumlah_hari total_loan_cair avg_amount total_amount
## <chr> <chr> <chr> <chr> <chr> <chr>
## 1 AE AE-3 4.0 16 310,625 4,970,000
## 2 AE AE-2 18.0 73 320,274 23,380,000
## 3 AE AE-1 21.0 86 300,581 25,850,000
Agen yang memiliki performa rendah pada cabang AE yaitu agen AE-3.
Pada tabel sebelumnya, terlihat pula bahwa ada cabang yang punya 3 agen, tapi performa nya jauh diatas cabang AE, bahkan yang paling tinggil diantara cabang lain pada umur tersebut, lebih tinggi dari yang mempunya 4 agen cabang tersebut adalah cabang AH.
Dengan cara yang hampir sama, akan dilihat bagaimana performa masing-masing agen dari cabang AH tersebut. Hanya saja untuk ini bisa langsung pakai data df_loan lalu filter nama cabang nya saja.
library(dplyr)
library(scales)
df_loan %>%
filter(cabang == 'AH') %>%
filter(tanggal_cair >= '2020-05-01', tanggal_cair <= '2020-05-31') %>%
group_by(cabang, agen) %>%
summarise(jumlah_hari = n_distinct(tanggal_cair),
total_loan_cair = n_distinct(loan_id),
avg_amount = mean(amount),
total_amount = sum(amount)) %>%
arrange(total_amount) %>%
mutate_if(is.numeric, funs(comma))
## `summarise()` has grouped output by 'cabang'. You can override using the `.groups` argument.
## `mutate_if()` ignored the following grouping variables:
## Column `cabang`
## # A tibble: 3 x 6
## # Groups: cabang [1]
## cabang agen jumlah_hari total_loan_cair avg_amount total_amount
## <chr> <chr> <chr> <chr> <chr> <chr>
## 1 AH AH-3 19.0 74.0 303,649 22,470,000
## 2 AH AH-1 21.0 81.0 301,358 24,410,000
## 3 AH AH-2 21.0 86.0 313,488 26,960,000
Cabang AH memiliki performa yang paling baik dan sudah berumur 3 bulan. Dari ketiga agen AH yang performanya paling baik adalah AH-2.
Berdasarkan analisis tersebut, dapat disimpulkan bahwa rendahnya performa dari cabang AE adalah karena salah satu agen yang melakukan pencairan hanya 4 hari dalam 1 bulan, padahal agen lain bisa aktif 21 hari.
Hal ini membuat total amount dari agen tersebut hanya 20% dibandingkan agen yang lainnya.
Sedangkan pada cabang AH, performanya sangat baik karena ketiga agen melakukan pencairan hampir / selalu setiap hari kerja. 2 orang full 21 hari 1 orang 19 hari. Sehingga performa nya terjaga dengan baik.
Untuk kedepannya setiap agen agar dipastikan untuk bisa aktif setiap hari nya, sehingga bisa menjaga performa cabang.
Thank you