一.数据的收集与处理

本文中的数据来自东方财富网choice客户端。通过查阅有关文献,找到了影响股票型开放基金的因素:单位净值、基金规模、持有人户数、基金份额、选股能力、团队稳定性、评级和基金管理人等。其中为了方便分析,对持有人户数用取对数处理,将基金规模和份额以十亿为单位,扩大了选股能力的倍数。

二.描述性统计

2.1变量代码

变量名称 代码
收益率 syl
费率 fl
单位净值 jz
基金规模 gm
持有人 cyr
基金份额 fe
选股能力 nl
稳定性 wdx
银河3年评级 pj
基金管理人 glr

下面看看前6行的数据

setwd("F:/商务统计")
load("a.RData")
syl<-a[,1]
fl<-a[,2]
jz<-a[,3]
gm<-a[,4]
cyr<-a[,5]
fe<-a[,6]
nl<-a[,7]
wdx<-a[,8]
pj<-a[,9]
glr<-a[,10]
head(a)
##   平均收益率 费率 单位净值 基金规模 持有人户数  基金份额 选股能力
## 1     0.1523 3.75    1.255   11.604   5.914378  9.284702     -0.9
## 2     0.3463 3.75    1.539    3.732   5.768946  2.459334      1.5
## 3     0.0898 4.30    0.866   11.043   6.079582 12.876877     -1.2
## 4     0.2184 3.75    0.806    5.120   5.174749  6.292888     -0.2
## 5     0.3949 3.75    1.153    2.205   5.022338  1.883635      2.8
## 6     0.2215 3.75    1.369    5.131   5.167648  3.752225      0.5
##   团队稳定性 银河3年评级 基金管理人
## 1     0.2791           1   华夏基金
## 2     0.2791           4   华夏基金
## 3     0.2791           2   华夏基金
## 4     0.2791           1   华夏基金
## 5     0.5479           4   国泰基金
## 6     0.5479           5   国泰基金

2.2表格

银河3年星级评价

table(pj)
## pj
##  1  2  3  4  5 
## 52 54 54 55 54

在所选的股票基金中,各星级基金数近似相等

下面来看看各个管理人所管理的基金数

table(glr)
## glr
##           宝盈基金           博时基金           大成基金 
##                  3                  6                  6 
##           东方基金           东吴基金           富国基金 
##                  2                  4                  5 
##       工银瑞信基金     光大保德信基金           广发基金 
##                  8                  6                  5 
##   国海富兰克林基金         国联安基金           国泰基金 
##                  5                  5                  5 
##       国投瑞银基金         海富通基金           华安基金 
##                  3                  4                  6 
##       华宝兴业基金           华富基金           华商基金 
##                  6                  2                  3 
##       华泰柏瑞基金           华夏基金       汇丰晋信基金 
##                  4                  6                  5 
##         汇添富基金           嘉实基金           建信基金 
##                  7                  6                  6 
##     交银施罗德基金           金鹰基金       金元惠理基金 
##                  7                  3                  2 
##       景顺长城基金       民生加银基金 摩根士丹利华鑫基金 
##                  9                  3                  3 
##           南方基金       农银汇理基金           诺安基金 
##                  9                  3                  5 
##           诺德基金           鹏华基金       浦银安盛基金 
##                  4                  7                  2 
##           融通基金       上投摩根基金       申万菱信基金 
##                  3                  7                  4 
##       泰达宏利基金           泰信基金           天弘基金 
##                  5                  3                  2 
##           天治基金           万家基金       西部利得基金 
##                  2                  1                  1 
##           新华基金           信诚基金       信达澳银基金 
##                  5                  6                  4 
##       兴业全球基金         易方达基金           银河基金 
##                  4                  6                  5 
##           银华基金           长城基金           长盛基金 
##                  7                  5                  3 
##           长信基金           招商基金           浙商基金 
##                  4                  5                  1 
##           中海基金           中欧基金           中银基金 
##                  1                  4                  3 
##       中邮创业基金 
##                  3

2.3箱线图

评级与收益率箱线图

boxplot(syl~pj,notch =T,main="银河3年评级与收益率箱线图",
        xlab="评级",ylab="平均收益率",col="lightgray")

从上面的箱线图可以看出一般评级越高,平均收益率相对越高。但是在第3级和第4级收益率的中位数大致相等。还有第2级有一个较高的离群点。

评级与基金规模箱线图

boxplot(gm~pj,notch =T,outline = F,main="基金规模与评级箱线图",
        xlab="评级",ylab="规模(十亿)",col="gray")

从图中可以看出 第1级和第3级的基金规模相对要小一些。

基金管理人与收益率箱线图

boxplot(syl~glr,main="基金管理人与收益率箱线图",
        xlab="基金管理人",ylab="平均收益率")

2.3直方图

基金平均收益率直方图

hist(syl,freq=F,xlab="基金平均收益率")
rug(jitter(syl)) 
lines(density(syl),col="blue",lwd=2)

可以看出收益率近似正态分布

基金规模直方图

hist(gm,freq=F,xlab="基金规模")
rug(jitter(gm)) 
lines(density(gm),col="blue",lwd=2)

可以看出基金规模近似卡方分布

三.回归分析

通过多元回归分析来探索影响收益率的因素

散点图

library(car)
scatterplot(syl~fl)

#发现费率大部分集中在3.75,因此没有分析价值。
par(mfrow = c(2,3))
plot(syl~jz,main="基金净值与收益率")
plot(syl~gm,main="基金规模与收益率")
plot(syl~cyr,main="单位净值与收益率")
plot(syl~fe,main="基金份额与收益率")
plot(syl~nl,main="选股能力与收益率")
plot(syl~wdx,main="团队稳定性与收益率")

par(mfrow = c(1,1))

通过散点图看以看出选股能力与收益率有很强的正相关。

拟合模型

fit<-lm(syl~jz+gm+cyr+fe+nl+wdx)
summary(fit)
## 
## Call:
## lm(formula = syl ~ jz + gm + cyr + fe + nl + wdx)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.31081 -0.04023  0.00423  0.04814  0.31726 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.230130   0.054203   4.246 3.03e-05 ***
## jz           0.027381   0.014443   1.896   0.0591 .  
## gm          -0.000351   0.005390  -0.065   0.9481    
## cyr         -0.013091   0.011580  -1.131   0.2593    
## fe           0.004181   0.004248   0.984   0.3259    
## nl           0.077816   0.001994  39.028  < 2e-16 ***
## wdx         -0.062215   0.024868  -2.502   0.0130 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.07455 on 262 degrees of freedom
## Multiple R-squared:  0.866,  Adjusted R-squared:  0.863 
## F-statistic: 282.2 on 6 and 262 DF,  p-value: < 2.2e-16
  • F 统计量为282.2,P-value 远小于 0.05,总体显著,但不意味着与每一个变量的关系都显著
  • 回归系数检验 nl(选股能力)在0.001水平下显著,wdx(团队稳定性)在0.01水平下显著,jz(单位净值)zai 0.05水平下显著,其他变量未通过检验,影响作用不大。
  • Adjusted R-squared: 0.863 ,被估计的方程能够解释因变量收益率的变差比例为86.3%

回归残差诊断图

par(mfrow = c(2,2))
plot(fit)

par(mfrow = c(1,1))
qqPlot(fit,main = "Normal Q-Q")

从正态QQ图中可以看出两端的残差有较多异常值,但整体效果还行。

多重共线性检验

模型总体F检验显著,但是t检验很多不显著,估计存在多重共线

方差膨胀因子

vif(fit)
##        jz        gm       cyr        fe        nl       wdx 
##  1.983687 11.247795  3.005416 10.199432  1.075599  1.014805

gm(基金规模),和fe(基金份额)的方差膨胀因子超过了10,说明存在严重共线性。

处理办法:逐步回归

step(fit,direction = "backward")
## Start:  AIC=-1389.9
## syl ~ jz + gm + cyr + fe + nl + wdx
## 
##        Df Sum of Sq    RSS      AIC
## - gm    1    0.0000 1.4561 -1391.90
## - fe    1    0.0054 1.4614 -1390.91
## - cyr   1    0.0071 1.4632 -1390.60
## <none>              1.4561 -1389.90
## - jz    1    0.0200 1.4760 -1388.24
## - wdx   1    0.0348 1.4908 -1385.55
## - nl    1    8.4650 9.9211  -875.71
## 
## Step:  AIC=-1391.9
## syl ~ jz + cyr + fe + nl + wdx
## 
##        Df Sum of Sq    RSS      AIC
## - cyr   1    0.0086 1.4647 -1392.31
## <none>              1.4561 -1391.90
## - fe    1    0.0185 1.4745 -1390.51
## - jz    1    0.0331 1.4892 -1387.85
## - wdx   1    0.0348 1.4908 -1387.55
## - nl    1    8.4652 9.9213  -877.71
## 
## Step:  AIC=-1392.31
## syl ~ jz + fe + nl + wdx
## 
##        Df Sum of Sq     RSS      AIC
## - fe    1    0.0102  1.4749 -1392.44
## <none>               1.4647 -1392.31
## - jz    1    0.0276  1.4923 -1389.29
## - wdx   1    0.0360  1.5007 -1387.78
## - nl    1    9.0176 10.4823  -864.91
## 
## Step:  AIC=-1392.44
## syl ~ jz + nl + wdx
## 
##        Df Sum of Sq     RSS      AIC
## <none>               1.4749 -1392.44
## - jz    1    0.0215  1.4964 -1390.55
## - wdx   1    0.0362  1.5111 -1387.92
## - nl    1    9.0110 10.4859  -866.82
## 
## Call:
## lm(formula = syl ~ jz + nl + wdx)
## 
## Coefficients:
## (Intercept)           jz           nl          wdx  
##     0.18602      0.02051      0.07822     -0.06338

得到了AIC最小的变量组合。即:syl ~ jz + nl + wdx

改进的模型

fit1<-lm(syl ~ jz + nl + wdx)
summary(fit1)
## 
## Call:
## lm(formula = syl ~ jz + nl + wdx)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -0.312528 -0.039583  0.003018  0.048703  0.313317 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.186024   0.016862  11.032   <2e-16 ***
## jz           0.020508   0.010428   1.967   0.0503 .  
## nl           0.078221   0.001944  40.237   <2e-16 ***
## wdx         -0.063383   0.024856  -2.550   0.0113 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.0746 on 265 degrees of freedom
## Multiple R-squared:  0.8643, Adjusted R-squared:  0.8627 
## F-statistic: 562.5 on 3 and 265 DF,  p-value: < 2.2e-16
qqPlot(fit1)

ncvTest(fit1)#异方差得分检验,原假设是常数方差,检验结果是不能拒绝原假设。
## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 3.197997    Df = 1     p = 0.07372853
durbinWatsonTest(fit1)#一阶自相关检验,ρ不等于0,说明存在一阶自相关。
##  lag Autocorrelation D-W Statistic p-value
##    1       0.1217352      1.753432   0.032
##  Alternative hypothesis: rho != 0
crPlots(fit1)

outlierTest(fit1) #离群点
##      rstudent unadjusted p-value Bonferonni p
## 155 -4.368630         1.7981e-05    0.0048370
## 106  4.350182         1.9452e-05    0.0052326
vif(fit1) #方差膨胀因子  多重共线检验
##       jz       nl      wdx 
## 1.032679 1.020963 1.012302

结论

  • 总的来说,通过上面的回归模型再加上数理分析,可以得出影响基金收益率的主要的因素是选股能力、团队稳定性、基金单位净值和基金评级。所以投资者可以参考这个结论加以投资,相信可以获得较高的收益率。 –(基金有风险,投资需谨慎!)