lowye: prosper贷款数据EDA分析

互联网技术的发展,为金融创新提供了条件,并未不断涌现的金融创新在实践中的应用于推广奠定了坚实基础.其中,网络借贷就是资金借贷活动借助互联网平台而实现的一种去中介化的模式创新.作为网贷平台的主要形式,P2P平台通过直接撮合借贷双方,改变了传统商业银行作为资金融通中介的借贷模式,近年来发展迅速.2005年3月,英国Zopa的成立标志着P2P融资模式的形成,之后美国相继出现了Prosper和Lending Club等P2P平台公司.而Prosper作为此次研究的重点,本文选取了该公司自2006年至2014年总共11W的贷款数据,试图从EDA分析角度出发,分析Prosper贷款人质量,贷款资金价格界定规则等问题.

数据解释:

BorrowerRate:借款标利率,作为P2P平台资金借贷价格的代理变量,BorrowerRate不包含其他费用,是筹资者付给投资人的报酬,也是融资最直接和最重要的成本,其体现了资金供求双方在综合考虑各种因素情况下所认可的资金使用成本. Term:期限,筹资者通过网贷平台进行借款时所承诺的最终偿还期限,借款期限体现该资产的流动性,期限较长的资产应存在着流动性溢价(利率上涨). CreditGrade/ProsperRating(Alpha):信用等级,前者反映的是2009年7月1日前客户的信用等级,后者反映的是2009年7月1日后的信用等级.信用等级越高,其偿债能力越强. CreditScore:由消费信用公司提供的消费信用评分,同信用评级作用. StatedMonthlyIncome:客户月收入,月收入越高,投资者对该借款本息按时回流越有信心. DelinquenciesLast7Years:信用资料提交时借款人过去7年违约次数,该指标在一定程度上可以体现借款标发布者的信用状况 BankCarduse:信用资料提交时借款人信用卡使用额度和信用卡总透支额度的百分比,本文将这个数据分成四组(mild use;medium use;heavy use;super use) LoanOriginalAmount:借款人在借款时已经向prosper借入的资金,如果没有历史记录则为0,显然,借入本金越多,其还款压力越大,但是这项指标大的话也可能说明该客户对prosper依赖性较强. DebtToIncomeRatio:借款人的债务收入比,债务收入比越高说明筹资者财务状况越差,还款能力较低.其向P2P平台借款时,投资者应要求有更高的回报. Occupation:贷款人职业 IncomeRange:贷款人年收入范围 BorrowerState:贷款人借款地点

##                ListingKey ListingNumber           ListingCreationDate
## 1 1021339766868145413AB3B        193129 2007-08-26 19:09:29.263000000
## 2 10273602499503308B223C1       1209647 2014-02-27 08:28:07.900000000
## 3 0EE9337825851032864889A         81716 2007-01-05 15:00:47.090000000
## 4 0EF5356002482715299901A        658116 2012-10-22 11:02:35.010000000
## 5 0F023589499656230C5E3E2        909464 2013-09-14 18:38:39.097000000
## 6 0F05359734824199381F61D       1074836 2013-12-14 08:26:37.093000000
##   CreditGrade Term LoanStatus          ClosedDate BorrowerAPR BorrowerRate
## 1           C   36  Completed 2009-08-14 00:00:00     0.16516       0.1580
## 2               36    Current                         0.12016       0.0920
## 3          HR   36  Completed 2009-12-17 00:00:00     0.28269       0.2750
## 4               36    Current                         0.12528       0.0974
## 5               36    Current                         0.24614       0.2085
## 6               60    Current                         0.15425       0.1314
##   LenderYield EstimatedEffectiveYield EstimatedLoss EstimatedReturn
## 1      0.1380                      NA            NA              NA
## 2      0.0820                 0.07960        0.0249         0.05470
## 3      0.2400                      NA            NA              NA
## 4      0.0874                 0.08490        0.0249         0.06000
## 5      0.1985                 0.18316        0.0925         0.09066
## 6      0.1214                 0.11567        0.0449         0.07077
##   ProsperRating..numeric. ProsperRating..Alpha. ProsperScore
## 1                      NA                                 NA
## 2                       6                     A            7
## 3                      NA                                 NA
## 4                       6                     A            9
## 5                       3                     D            4
## 6                       5                     B           10
##   ListingCategory..numeric. BorrowerState    Occupation EmploymentStatus
## 1                         0            CO         Other    Self-employed
## 2                         2            CO  Professional         Employed
## 3                         0            GA         Other    Not available
## 4                        16            GA Skilled Labor         Employed
## 5                         2            MN     Executive         Employed
## 6                         1            NM  Professional         Employed
##   EmploymentStatusDuration IsBorrowerHomeowner CurrentlyInGroup
## 1                        2                True             True
## 2                       44               False            False
## 3                       NA               False             True
## 4                      113                True            False
## 5                       44                True            False
## 6                       82                True            False
##                  GroupKey              DateCreditPulled
## 1                         2007-08-26 18:41:46.780000000
## 2                                   2014-02-27 08:28:14
## 3 783C3371218786870A73D20 2007-01-02 14:09:10.060000000
## 4                                   2012-10-22 11:02:32
## 5                                   2013-09-14 18:38:44
## 6                                   2013-12-14 08:26:40
##   CreditScoreRangeLower CreditScoreRangeUpper FirstRecordedCreditLine
## 1                   640                   659     2001-10-11 00:00:00
## 2                   680                   699     1996-03-18 00:00:00
## 3                   480                   499     2002-07-27 00:00:00
## 4                   800                   819     1983-02-28 00:00:00
## 5                   680                   699     2004-02-20 00:00:00
## 6                   740                   759     1973-03-01 00:00:00
##   CurrentCreditLines OpenCreditLines TotalCreditLinespast7years
## 1                  5               4                         12
## 2                 14              14                         29
## 3                 NA              NA                          3
## 4                  5               5                         29
## 5                 19              19                         49
## 6                 21              17                         49
##   OpenRevolvingAccounts OpenRevolvingMonthlyPayment InquiriesLast6Months
## 1                     1                          24                    3
## 2                    13                         389                    3
## 3                     0                           0                    0
## 4                     7                         115                    0
## 5                     6                         220                    1
## 6                    13                        1410                    0
##   TotalInquiries CurrentDelinquencies AmountDelinquent
## 1              3                    2              472
## 2              5                    0                0
## 3              1                    1               NA
## 4              1                    4            10056
## 5              9                    0                0
## 6              2                    0                0
##   DelinquenciesLast7Years PublicRecordsLast10Years
## 1                       4                        0
## 2                       0                        1
## 3                       0                        0
## 4                      14                        0
## 5                       0                        0
## 6                       0                        0
##   PublicRecordsLast12Months RevolvingCreditBalance BankcardUtilization
## 1                         0                      0                0.00
## 2                         0                   3989                0.21
## 3                        NA                     NA                  NA
## 4                         0                   1444                0.04
## 5                         0                   6193                0.81
## 6                         0                  62999                0.39
##   AvailableBankcardCredit TotalTrades TradesNeverDelinquent..percentage.
## 1                    1500          11                               0.81
## 2                   10266          29                               1.00
## 3                      NA          NA                                 NA
## 4                   30754          26                               0.76
## 5                     695          39                               0.95
## 6                   86509          47                               1.00
##   TradesOpenedLast6Months DebtToIncomeRatio    IncomeRange
## 1                       0              0.17 $25,000-49,999
## 2                       2              0.18 $50,000-74,999
## 3                      NA              0.06  Not displayed
## 4                       0              0.15 $25,000-49,999
## 5                       2              0.26      $100,000+
## 6                       0              0.36      $100,000+
##   IncomeVerifiable StatedMonthlyIncome                 LoanKey
## 1             True            3083.333 E33A3400205839220442E84
## 2             True            6125.000 9E3B37071505919926B1D82
## 3             True            2083.333 6954337960046817851BCB2
## 4             True            2875.000 A0393664465886295619C51
## 5             True            9583.333 A180369302188889200689E
## 6             True            8333.333 C3D63702273952547E79520
##   TotalProsperLoans TotalProsperPaymentsBilled OnTimeProsperPayments
## 1                NA                         NA                    NA
## 2                NA                         NA                    NA
## 3                NA                         NA                    NA
## 4                NA                         NA                    NA
## 5                 1                         11                    11
## 6                NA                         NA                    NA
##   ProsperPaymentsLessThanOneMonthLate ProsperPaymentsOneMonthPlusLate
## 1                                  NA                              NA
## 2                                  NA                              NA
## 3                                  NA                              NA
## 4                                  NA                              NA
## 5                                   0                               0
## 6                                  NA                              NA
##   ProsperPrincipalBorrowed ProsperPrincipalOutstanding
## 1                       NA                          NA
## 2                       NA                          NA
## 3                       NA                          NA
## 4                       NA                          NA
## 5                    11000                      9947.9
## 6                       NA                          NA
##   ScorexChangeAtTimeOfListing LoanCurrentDaysDelinquent
## 1                          NA                         0
## 2                          NA                         0
## 3                          NA                         0
## 4                          NA                         0
## 5                          NA                         0
## 6                          NA                         0
##   LoanFirstDefaultedCycleNumber LoanMonthsSinceOrigination LoanNumber
## 1                            NA                         78      19141
## 2                            NA                          0     134815
## 3                            NA                         86       6466
## 4                            NA                         16      77296
## 5                            NA                          6     102670
## 6                            NA                          3     123257
##   LoanOriginalAmount LoanOriginationDate LoanOriginationQuarter
## 1               9425 2007-09-12 00:00:00                Q3 2007
## 2              10000 2014-03-03 00:00:00                Q1 2014
## 3               3001 2007-01-17 00:00:00                Q1 2007
## 4              10000 2012-11-01 00:00:00                Q4 2012
## 5              15000 2013-09-20 00:00:00                Q3 2013
## 6              15000 2013-12-24 00:00:00                Q4 2013
##                 MemberKey MonthlyLoanPayment LP_CustomerPayments
## 1 1F3E3376408759268057EDA             330.43            11396.14
## 2 1D13370546739025387B2F4             318.93                0.00
## 3 5F7033715035555618FA612             123.32             4186.63
## 4 9ADE356069835475068C6D2             321.45             5143.20
## 5 36CE356043264555721F06C             563.97             2819.85
## 6 874A3701157341738DE458F             342.37              679.34
##   LP_CustomerPrincipalPayments LP_InterestandFees LP_ServiceFees
## 1                      9425.00            1971.14        -133.18
## 2                         0.00               0.00           0.00
## 3                      3001.00            1185.63         -24.20
## 4                      4091.09            1052.11        -108.01
## 5                      1563.22            1256.63         -60.27
## 6                       351.89             327.45         -25.33
##   LP_CollectionFees LP_GrossPrincipalLoss LP_NetPrincipalLoss
## 1                 0                     0                   0
## 2                 0                     0                   0
## 3                 0                     0                   0
## 4                 0                     0                   0
## 5                 0                     0                   0
## 6                 0                     0                   0
##   LP_NonPrincipalRecoverypayments PercentFunded Recommendations
## 1                               0             1               0
## 2                               0             1               0
## 3                               0             1               0
## 4                               0             1               0
## 5                               0             1               0
## 6                               0             1               0
##   InvestmentFromFriendsCount InvestmentFromFriendsAmount Investors
## 1                          0                           0       258
## 2                          0                           0         1
## 3                          0                           0        41
## 4                          0                           0       158
## 5                          0                           0        20
## 6                          0                           0         1
## 'data.frame':    113937 obs. of  81 variables:
##  $ ListingKey                         : Factor w/ 113066 levels "00003546482094282EF90E5",..: 7180 7193 6647 6669 6686 6689 6699 6706 6687 6687 ...
##  $ ListingNumber                      : int  193129 1209647 81716 658116 909464 1074836 750899 768193 1023355 1023355 ...
##  $ ListingCreationDate                : Factor w/ 113064 levels "2005-11-09 20:44:28.847000000",..: 14184 111894 6429 64760 85967 100310 72556 74019 97834 97834 ...
##  $ CreditGrade                        : Factor w/ 9 levels "","A","AA","B",..: 5 1 8 1 1 1 1 1 1 1 ...
##  $ Term                               : int  36 36 36 36 36 60 36 36 36 36 ...
##  $ LoanStatus                         : Factor w/ 12 levels "Cancelled","Chargedoff",..: 3 4 3 4 4 4 4 4 4 4 ...
##  $ ClosedDate                         : Factor w/ 2803 levels "","2005-11-25 00:00:00",..: 1138 1 1263 1 1 1 1 1 1 1 ...
##  $ BorrowerAPR                        : num  0.165 0.12 0.283 0.125 0.246 ...
##  $ BorrowerRate                       : num  0.158 0.092 0.275 0.0974 0.2085 ...
##  $ LenderYield                        : num  0.138 0.082 0.24 0.0874 0.1985 ...
##  $ EstimatedEffectiveYield            : num  NA 0.0796 NA 0.0849 0.1832 ...
##  $ EstimatedLoss                      : num  NA 0.0249 NA 0.0249 0.0925 ...
##  $ EstimatedReturn                    : num  NA 0.0547 NA 0.06 0.0907 ...
##  $ ProsperRating..numeric.            : int  NA 6 NA 6 3 5 2 4 7 7 ...
##  $ ProsperRating..Alpha.              : Factor w/ 8 levels "","A","AA","B",..: 1 2 1 2 6 4 7 5 3 3 ...
##  $ ProsperScore                       : num  NA 7 NA 9 4 10 2 4 9 11 ...
##  $ ListingCategory..numeric.          : int  0 2 0 16 2 1 1 2 7 7 ...
##  $ BorrowerState                      : Factor w/ 52 levels "","AK","AL","AR",..: 7 7 12 12 25 34 18 6 16 16 ...
##  $ Occupation                         : Factor w/ 68 levels "","Accountant/CPA",..: 37 43 37 52 21 43 50 29 24 24 ...
##  $ EmploymentStatus                   : Factor w/ 9 levels "","Employed",..: 9 2 4 2 2 2 2 2 2 2 ...
##  $ EmploymentStatusDuration           : int  2 44 NA 113 44 82 172 103 269 269 ...
##  $ IsBorrowerHomeowner                : Factor w/ 2 levels "False","True": 2 1 1 2 2 2 1 1 2 2 ...
##  $ CurrentlyInGroup                   : Factor w/ 2 levels "False","True": 2 1 2 1 1 1 1 1 1 1 ...
##  $ GroupKey                           : Factor w/ 707 levels "","00343376901312423168731",..: 1 1 335 1 1 1 1 1 1 1 ...
##  $ DateCreditPulled                   : Factor w/ 112992 levels "2005-11-09 00:30:04.487000000",..: 14347 111883 6446 64724 85857 100382 72500 73937 97888 97888 ...
##  $ CreditScoreRangeLower              : int  640 680 480 800 680 740 680 700 820 820 ...
##  $ CreditScoreRangeUpper              : int  659 699 499 819 699 759 699 719 839 839 ...
##  $ FirstRecordedCreditLine            : Factor w/ 11586 levels "","1947-08-24 00:00:00",..: 8639 6617 8927 2247 9498 497 8265 7685 5543 5543 ...
##  $ CurrentCreditLines                 : int  5 14 NA 5 19 21 10 6 17 17 ...
##  $ OpenCreditLines                    : int  4 14 NA 5 19 17 7 6 16 16 ...
##  $ TotalCreditLinespast7years         : int  12 29 3 29 49 49 20 10 32 32 ...
##  $ OpenRevolvingAccounts              : int  1 13 0 7 6 13 6 5 12 12 ...
##  $ OpenRevolvingMonthlyPayment        : num  24 389 0 115 220 1410 214 101 219 219 ...
##  $ InquiriesLast6Months               : int  3 3 0 0 1 0 0 3 1 1 ...
##  $ TotalInquiries                     : num  3 5 1 1 9 2 0 16 6 6 ...
##  $ CurrentDelinquencies               : int  2 0 1 4 0 0 0 0 0 0 ...
##  $ AmountDelinquent                   : num  472 0 NA 10056 0 ...
##  $ DelinquenciesLast7Years            : int  4 0 0 14 0 0 0 0 0 0 ...
##  $ PublicRecordsLast10Years           : int  0 1 0 0 0 0 0 1 0 0 ...
##  $ PublicRecordsLast12Months          : int  0 0 NA 0 0 0 0 0 0 0 ...
##  $ RevolvingCreditBalance             : num  0 3989 NA 1444 6193 ...
##  $ BankcardUtilization                : num  0 0.21 NA 0.04 0.81 0.39 0.72 0.13 0.11 0.11 ...
##  $ AvailableBankcardCredit            : num  1500 10266 NA 30754 695 ...
##  $ TotalTrades                        : num  11 29 NA 26 39 47 16 10 29 29 ...
##  $ TradesNeverDelinquent..percentage. : num  0.81 1 NA 0.76 0.95 1 0.68 0.8 1 1 ...
##  $ TradesOpenedLast6Months            : num  0 2 NA 0 2 0 0 0 1 1 ...
##  $ DebtToIncomeRatio                  : num  0.17 0.18 0.06 0.15 0.26 0.36 0.27 0.24 0.25 0.25 ...
##  $ IncomeRange                        : Factor w/ 8 levels "$0","$1-24,999",..: 4 5 7 4 3 3 4 4 4 4 ...
##  $ IncomeVerifiable                   : Factor w/ 2 levels "False","True": 2 2 2 2 2 2 2 2 2 2 ...
##  $ StatedMonthlyIncome                : num  3083 6125 2083 2875 9583 ...
##  $ LoanKey                            : Factor w/ 113066 levels "00003683605746079487FF7",..: 100337 69837 46303 70776 71387 86505 91250 5425 908 908 ...
##  $ TotalProsperLoans                  : int  NA NA NA NA 1 NA NA NA NA NA ...
##  $ TotalProsperPaymentsBilled         : int  NA NA NA NA 11 NA NA NA NA NA ...
##  $ OnTimeProsperPayments              : int  NA NA NA NA 11 NA NA NA NA NA ...
##  $ ProsperPaymentsLessThanOneMonthLate: int  NA NA NA NA 0 NA NA NA NA NA ...
##  $ ProsperPaymentsOneMonthPlusLate    : int  NA NA NA NA 0 NA NA NA NA NA ...
##  $ ProsperPrincipalBorrowed           : num  NA NA NA NA 11000 NA NA NA NA NA ...
##  $ ProsperPrincipalOutstanding        : num  NA NA NA NA 9948 ...
##  $ ScorexChangeAtTimeOfListing        : int  NA NA NA NA NA NA NA NA NA NA ...
##  $ LoanCurrentDaysDelinquent          : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ LoanFirstDefaultedCycleNumber      : int  NA NA NA NA NA NA NA NA NA NA ...
##  $ LoanMonthsSinceOrigination         : int  78 0 86 16 6 3 11 10 3 3 ...
##  $ LoanNumber                         : int  19141 134815 6466 77296 102670 123257 88353 90051 121268 121268 ...
##  $ LoanOriginalAmount                 : int  9425 10000 3001 10000 15000 15000 3000 10000 10000 10000 ...
##  $ LoanOriginationDate                : Factor w/ 1873 levels "2005-11-15 00:00:00",..: 426 1866 260 1535 1757 1821 1649 1666 1813 1813 ...
##  $ LoanOriginationQuarter             : Factor w/ 33 levels "Q1 2006","Q1 2007",..: 18 8 2 32 24 33 16 16 33 33 ...
##  $ MemberKey                          : Factor w/ 90831 levels "00003397697413387CAF966",..: 11071 10302 33781 54939 19465 48037 60448 40951 26129 26129 ...
##  $ MonthlyLoanPayment                 : num  330 319 123 321 564 ...
##  $ LP_CustomerPayments                : num  11396 0 4187 5143 2820 ...
##  $ LP_CustomerPrincipalPayments       : num  9425 0 3001 4091 1563 ...
##  $ LP_InterestandFees                 : num  1971 0 1186 1052 1257 ...
##  $ LP_ServiceFees                     : num  -133.2 0 -24.2 -108 -60.3 ...
##  $ LP_CollectionFees                  : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ LP_GrossPrincipalLoss              : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ LP_NetPrincipalLoss                : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ LP_NonPrincipalRecoverypayments    : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ PercentFunded                      : num  1 1 1 1 1 1 1 1 1 1 ...
##  $ Recommendations                    : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ InvestmentFromFriendsCount         : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ InvestmentFromFriendsAmount        : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ Investors                          : int  258 1 41 158 20 1 1 1 1 1 ...

转换数据

## 
##           A    AA     B     C     D     E    HR 
## 29084 14551  5372 15581 18345 14274  9795  6935

借款人指标分析

从借款人分布来看,California借款人最多,由网上信息得知,prosper的总部位于旧金山, 那么加利福尼亚的客户最多这一点是有实际意义的.而其他几个周也有超过5000的用户,并且大部分是发达城市.

借款人收入

这一点很让人奇怪,借款人收入缺失的就有超过1W的数据,并且0收入群体以及没有工作的群体也占有一定的比例, 而其他大部分借款人的收入在$25000–$75000之间.

借款人的职业

这个数据大家几乎都没有认真填写,大部分写了other,因此这部分数据失真严重

借款人债务收入比:债务收入比越高说明筹资者财务状况越差,还款能力相应较低

从上图可以看到,债务收入比呈现左偏的形态,说明大部分借款人的债务收入比较低,这也有利于他们 偿还债务,维护平台稳定

信用卡使用比率

可以看到,大部分都是在使用信用卡的,甚至有些超过1,这意味着一部分客户信用卡已经逾期,这让 我很好奇,prosper给信用卡逾期的客户会借多少钱

客户信用等级

从图中可以看到,大部分人的消费信用评分都比较高,在700分左右集中,而根据时间划分的prosper信用评分(AA最高,HR最低)也比较均衡,在2009年之后的数据更偏向正态分布,这也跟数据量的扩充有关.

用户过去7年的违约次数

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   0.000   0.000   0.000   4.155   3.000  99.000     990

密度图中看到,大部分人在过去7年内的违约次数都为0,这也说明了借款人的资质比较好,至少在过去的违约次数较少,在一定程度上说明这些客户在未来违约的可能性会小一些.

总结:

1.大部分客户来源于加利福尼亚以及发达城市,说明网贷的分布集中在大城市中,这也许跟宣传,客户群体水平,客户推荐等有关系.

2.借款人收入大都在$25000-$75000之间,但是也不乏一些低收入群体和没有工作的人,但是占比较少

3.借款人的信用记录普遍较好,但是从信用卡使用角度来看,借款人的还款压力比较大.

资金借贷情况分析:

可以看到,借贷的利率大致是呈现正态分布的,在0.1-0.2的范围集中, 借贷利率体现的是资金供求双方在综合考虑各种因素情况下所认可的资金使用成本.

资金借贷期限

## 
##    12    36    60 
##  1614 87778 24545

资金借贷期限以36期最多,占到了总的数据的80%之多

资金价格与期限的关系

从箱线图中可以看到,中位数与均值很接近,并且异常值很少,可以看出,资金价格与资金借贷期限似乎没有什么明显的关系

资金价格和客户收入

从核密度图看出,月收入集中在$10000以下,但是没有看到资金价格与月收入有什么明显的关系

资金价格与消费信用评分的关系

这一点很有意思,在2009年前,prosper还借给评分给600分以下的客户,而在2009年之后,600分以下的 客户基本没有了,这似乎说明了prosper在2009年7月1日之后对其信贷模式进行了修改

资金价格与信用评级的关系(以2009年7月1日为时间节点

(图中的线是均值连线),两张图进行比较,可以清晰看到,后面那张图均线的斜率更大, 这说明了在2009年7月1日之后,prosper对借款人信用评级更加重视,评级决定资金价格的趋势更加明显,从另一方面说明了其贷款模型有所变化.

资金价格与贷款总额和信用评级的关系

从上面两个图形可以看到,在2009年7月1日前后,数据点有了很大的变化,从借贷资金来看,在时间节点之后,prosper开始借出一些超过25000的资金,并且由于2009年之后,prosper发展迅速,后图拥有更多的点,同时可以看出,随着借贷资金的增加,prosper逐渐降低了利率,这在2009年之前并未见到这种变化(当然也是由于2006年才建立,而大部分客户借的是36期有关)还有一点,后图图层的显示的更加分明,这也说明了proeper可能在2009年之后对贷款模型进行了修改,其资金价格与客户信用联系更加紧密了.

资金价格与贷款总额与信用卡使用的关系:

在信用卡使用程度来看,在时间节点前后似乎并没有什么变化,但是可以看出信用卡使用率低的用户得 到了更低的资金贷款价格,这似乎验证了我们的观点,信用卡使用率越低,贷款利率也会有所下降.

拟合函数,检验相关性

## 
## Calls:
## m1: lm(formula = I(BorrowerRate) ~ I(CreditScore), data = subset(loandata, 
##     LoanOriginationDate < "2009-07-01" & !is.na(CreditGrade) & 
##         !is.na(LoanOriginalAmount) & !is.na(BankCardUse) & !is.na(CreditScore)))
## m2: lm(formula = I(BorrowerRate) ~ I(CreditScore) + CreditGrade, 
##     data = subset(loandata, LoanOriginationDate < "2009-07-01" & 
##         !is.na(CreditGrade) & !is.na(LoanOriginalAmount) & !is.na(BankCardUse) & 
##         !is.na(CreditScore)))
## m3: lm(formula = I(BorrowerRate) ~ I(CreditScore) + CreditGrade + 
##     LoanOriginalAmount, data = subset(loandata, LoanOriginationDate < 
##     "2009-07-01" & !is.na(CreditGrade) & !is.na(LoanOriginalAmount) & 
##     !is.na(BankCardUse) & !is.na(CreditScore)))
## m4: lm(formula = I(BorrowerRate) ~ I(CreditScore) + CreditGrade + 
##     LoanOriginalAmount + BankCardUse, data = subset(loandata, 
##     LoanOriginationDate < "2009-07-01" & !is.na(CreditGrade) & 
##         !is.na(LoanOriginalAmount) & !is.na(BankCardUse) & !is.na(CreditScore)))
## 
## ================================================================================
##                                        m1         m2         m3         m4      
## --------------------------------------------------------------------------------
##   (Intercept)                        0.644***   0.332***   0.306***   0.306***  
##                                     (0.003)    (0.018)    (0.018)    (0.018)    
##   I(CreditScore)                    -0.001***  -0.000***  -0.000***  -0.000***  
##                                     (0.000)    (0.000)    (0.000)    (0.000)    
##   CreditGrade: .L                              -0.110***  -0.131***  -0.128***  
##                                                (0.006)    (0.006)    (0.006)    
##   CreditGrade: .Q                              -0.000      0.000     -0.001     
##                                                (0.001)    (0.001)    (0.001)    
##   CreditGrade: .C                               0.014***   0.017***   0.017***  
##                                                (0.001)    (0.001)    (0.001)    
##   CreditGrade: ^4                              -0.016***  -0.015***  -0.015***  
##                                                (0.001)    (0.001)    (0.001)    
##   CreditGrade: ^5                               0.011***   0.011***   0.010***  
##                                                (0.001)    (0.001)    (0.001)    
##   CreditGrade: ^6                              -0.002**   -0.003***  -0.003***  
##                                                (0.001)    (0.001)    (0.001)    
##   LoanOriginalAmount                                       0.000***   0.000***  
##                                                           (0.000)    (0.000)    
##   BankCardUse: Medium Use/Mild Use                                   -0.003*    
##                                                                      (0.001)    
##   BankCardUse: Heavy Use/Mild Use                                    -0.001     
##                                                                      (0.001)    
##   BankCardUse: Super Use/Mild Use                                     0.011***  
##                                                                      (0.002)    
## --------------------------------------------------------------------------------
##   R-squared                              0.5        0.5        0.5        0.5   
##   adj. R-squared                         0.5        0.5        0.5        0.5   
##   sigma                                  0.1        0.1        0.1        0.1   
##   F                                  19036.4     2929.9     2830.1     2071.4   
##   p                                      0.0        0.0        0.0        0.0   
##   Log-likelihood                     31472.5    31856.3    32386.9    32422.6   
##   Deviance                              65.5       63.2       60.1       59.9   
##   AIC                               -62938.9   -63694.6   -64753.8   -64819.1   
##   BIC                               -62915.0   -63622.9   -64674.2   -64715.5   
##   N                                  21349      21349      21349      21349     
## ================================================================================
## 
## Calls:
## m5: lm(formula = I(BorrowerRate) ~ I(CreditScore), data = subset(loandata, 
##     LoanOriginationDate > "2009-07-01" & !is.na(ProsperRating..Alpha.) & 
##         !is.na(LoanOriginalAmount) & !is.na(BankCardUse) & !is.na(CreditScore)))
## m6: lm(formula = I(BorrowerRate) ~ I(CreditScore) + ProsperRating..Alpha., 
##     data = subset(loandata, LoanOriginationDate > "2009-07-01" & 
##         !is.na(ProsperRating..Alpha.) & !is.na(LoanOriginalAmount) & 
##         !is.na(BankCardUse) & !is.na(CreditScore)))
## m7: lm(formula = I(BorrowerRate) ~ I(CreditScore) + ProsperRating..Alpha. + 
##     LoanOriginalAmount, data = subset(loandata, LoanOriginationDate > 
##     "2009-07-01" & !is.na(ProsperRating..Alpha.) & !is.na(LoanOriginalAmount) & 
##     !is.na(BankCardUse) & !is.na(CreditScore)))
## m8: lm(formula = I(BorrowerRate) ~ I(CreditScore) + ProsperRating..Alpha. + 
##     LoanOriginalAmount + BankCardUse, data = subset(loandata, 
##     LoanOriginationDate > "2009-07-01" & !is.na(ProsperRating..Alpha.) & 
##         !is.na(LoanOriginalAmount) & !is.na(BankCardUse) & !is.na(CreditScore)))
## 
## ================================================================================
##                                        m5         m6         m7         m8      
## --------------------------------------------------------------------------------
##   (Intercept)                        0.767***   0.174***   0.174***   0.178***  
##                                     (0.003)    (0.001)    (0.001)    (0.002)    
##   I(CreditScore)                    -0.001***   0.000***   0.000***   0.000***  
##                                     (0.000)    (0.000)    (0.000)    (0.000)    
##   ProsperRating..Alpha.: .L                    -0.224***  -0.224***  -0.224***  
##                                                (0.000)    (0.000)    (0.000)    
##   ProsperRating..Alpha.: .Q                    -0.001***  -0.001***  -0.001***  
##                                                (0.000)    (0.000)    (0.000)    
##   ProsperRating..Alpha.: .C                     0.014***   0.014***   0.014***  
##                                                (0.000)    (0.000)    (0.000)    
##   ProsperRating..Alpha.: ^4                    -0.007***  -0.007***  -0.007***  
##                                                (0.000)    (0.000)    (0.000)    
##   ProsperRating..Alpha.: ^5                     0.003***   0.003***   0.003***  
##                                                (0.000)    (0.000)    (0.000)    
##   ProsperRating..Alpha.: ^6                     0.003***   0.003***   0.003***  
##                                                (0.000)    (0.000)    (0.000)    
##   LoanOriginalAmount                                       0.000      0.000*    
##                                                           (0.000)    (0.000)    
##   BankCardUse: Medium Use/Mild Use                                   -0.001***  
##                                                                      (0.000)    
##   BankCardUse: Heavy Use/Mild Use                                    -0.002***  
##                                                                      (0.000)    
##   BankCardUse: Super Use/Mild Use                                     0.002*    
##                                                                      (0.001)    
## --------------------------------------------------------------------------------
##   R-squared                               0.3        0.9        0.9        0.9  
##   adj. R-squared                          0.3        0.9        0.9        0.9  
##   sigma                                   0.1        0.0        0.0        0.0  
##   F                                   29620.2   129092.7   112957.6    82229.7  
##   p                                       0.0        0.0        0.0        0.0  
##   Log-likelihood                     112513.2   203981.8   203982.7   204021.3  
##   Deviance                              350.3       40.6       40.6       40.5  
##   AIC                               -225020.4  -407945.6  -407945.5  -408016.5  
##   BIC                               -224992.4  -407861.4  -407852.0  -407895.0  
##   N                                   84853      84853      84853      84853    
## ================================================================================

两者拟合的函数P值都是0,说明函数拟合的较好,因此可以做比较.从R2出发,总体来看,2009年之后的R2(0.9)是明显大于2009年之前的(0.5),说明总体而言,prosper更加看中了几个信用评级的评分,从具体指标来看,prosper降低了对信用评分(creditscore)的比重,对信用评级和信用卡的使用的比重上升.

总结:

1.prosper的贷款利率分布均匀,但是在借款人中,借36期的人数比重最大.

2.贷款利率与月收入的关系不大

3.prosper在2009年之后对消费信用评分低于600的人不再发放贷款,这也许与他的贷款模型修改有关

4.prosper在2009年7月1日之后更加看重客户的信用评级和信用卡使用情况,但是对消费信用贷款的重视程度有所下降

背景资料:

prosper贷款条件:

贷款申请的合格标准为:1)在过去6个月内,少于7个信用局查询了申请人的信用信息;2)申请人自己声明有正的收入;3)债务收入比低于50%;4)在信用局报告上至少有3笔公开交易;5)在过去12个月内无申请破产。此外,第一次在平台出借的申请人需要有不低于640分的信用分数。

以上几点,我们验证的几个观点得到证实,债务比以及信用分数我们已经预测到.

事件:2008年11月24日,SEC判定Prosper违反了《1933年证券法》,要求Prosper暂定运营。经审查后,考虑P2P借贷模型的特性,SEC将所有P2P借贷定义为债券销售,要求所有P2P企业都在SEC登记注册。2008年11月26日,加州最高法院对Prosper提起集体诉讼,控告Prosper违反加州和联邦法律发行和出售未认证和注册的证券。诉讼寻求类认证、损害、撤销权和律师费。Prosper的保险商Greenwhich保险公司拒绝给予赔偿,表示这类事件不包含在保险政策中。2009年7月,Prosper的贷款在获得SEC的注册后,重新开发了网站。但重新开业后,竞标贷款限制在美国28个州和哥伦比亚地区的居民。有47个州的居民可以再Prosper上借款,另外三个州(Iowa、Maine、North Dakota)则不允许。

在我们的EDA分析中,也看到了居民的分布情况,这一点得到验证,并且2009年7月1日之后prosper重新开业,修改了其借贷模型,这也与我们的预测接近.

不足之处:

1.第一次写这么长的报告,语言很烂,总结观点不够精炼

2.数据分析的不够到位,没有对更多的指标进行更新

3.只用线性回归局限性较大,待学习了聚类,随机森林的算法再来做这个数据,用其制作评分卡模型,来验证模型的准确性.

总结图形: plot1:

这一点很有意思,在2009年前,prosper还借给评分给600分以下的客户,而在2009年之后, 640分以下的客户基本没有了,这似乎说明了prosper在2009年7月1日之后对其信贷模式进行了修改,对600分以下的客户不允许放贷了.

plot2:

(图中的线是均值连线),两张图进行比较,可以清晰看到,后面那张图均线的斜率更大, 这说明了在2009年7月1日之后,prosper对借款人信用评级更加重视,评级决定资金价格的趋势更加明显,从另一方面说明了其贷款模型有所变化.

plot3:

从上面两个图形可以看到,在2009年7月1日前后,数据点有了很大的变化,从借贷资金来看,在时间节点之后,prosper开始借出一些超过25000的资金,并且由于2009年之后,prosper发展迅速,后图拥有更多的点,同时可以看出,随着借贷资金的增加,prosper逐渐降低了利率,这在2009年之前并未见到这种变化(当然也是由于2006年才建立,而大部分客户借的是36期有关)还有一点,后图图层的显示的更加分明,这也说明了proeper可能在2009年之后对贷款模型进行了修改,其资金价格与客户信用联系更加紧密了.