本文中的数据来自东方财富网choice客户端。通过查阅有关文献,找到了影响股票型开放基金的因素:单位净值、基金规模、持有人户数、基金份额、选股能力、团队稳定性、评级和基金管理人等。其中为了方便分析,对持有人户数用取对数处理,将基金规模和份额以十亿为单位,扩大了选股能力的倍数。
| 变量名称 | 代码 |
|---|---|
| 收益率 | syl |
| 费率 | fl |
| 单位净值 | jz |
| 基金规模 | gm |
| 持有人 | cyr |
| 基金份额 | fe |
| 选股能力 | nl |
| 稳定性 | wdx |
| 银河3年评级 | pj |
| 基金管理人 | glr |
下面看看前6行的数据
setwd("F:/商务统计")
load("a.RData")
syl<-a[,1]
fl<-a[,2]
jz<-a[,3]
gm<-a[,4]
cyr<-a[,5]
fe<-a[,6]
nl<-a[,7]
wdx<-a[,8]
pj<-a[,9]
glr<-a[,10]
head(a)
## 平均收益率 费率 单位净值 基金规模 持有人户数 基金份额 选股能力
## 1 0.1523 3.75 1.255 11.604 5.914378 9.284702 -0.9
## 2 0.3463 3.75 1.539 3.732 5.768946 2.459334 1.5
## 3 0.0898 4.30 0.866 11.043 6.079582 12.876877 -1.2
## 4 0.2184 3.75 0.806 5.120 5.174749 6.292888 -0.2
## 5 0.3949 3.75 1.153 2.205 5.022338 1.883635 2.8
## 6 0.2215 3.75 1.369 5.131 5.167648 3.752225 0.5
## 团队稳定性 银河3年评级 基金管理人
## 1 0.2791 1 华夏基金
## 2 0.2791 4 华夏基金
## 3 0.2791 2 华夏基金
## 4 0.2791 1 华夏基金
## 5 0.5479 4 国泰基金
## 6 0.5479 5 国泰基金
银河3年星级评价
table(pj)
## pj
## 1 2 3 4 5
## 52 54 54 55 54
在所选的股票基金中,各星级基金数近似相等
下面来看看各个管理人所管理的基金数
table(glr)
## glr
## 宝盈基金 博时基金 大成基金
## 3 6 6
## 东方基金 东吴基金 富国基金
## 2 4 5
## 工银瑞信基金 光大保德信基金 广发基金
## 8 6 5
## 国海富兰克林基金 国联安基金 国泰基金
## 5 5 5
## 国投瑞银基金 海富通基金 华安基金
## 3 4 6
## 华宝兴业基金 华富基金 华商基金
## 6 2 3
## 华泰柏瑞基金 华夏基金 汇丰晋信基金
## 4 6 5
## 汇添富基金 嘉实基金 建信基金
## 7 6 6
## 交银施罗德基金 金鹰基金 金元惠理基金
## 7 3 2
## 景顺长城基金 民生加银基金 摩根士丹利华鑫基金
## 9 3 3
## 南方基金 农银汇理基金 诺安基金
## 9 3 5
## 诺德基金 鹏华基金 浦银安盛基金
## 4 7 2
## 融通基金 上投摩根基金 申万菱信基金
## 3 7 4
## 泰达宏利基金 泰信基金 天弘基金
## 5 3 2
## 天治基金 万家基金 西部利得基金
## 2 1 1
## 新华基金 信诚基金 信达澳银基金
## 5 6 4
## 兴业全球基金 易方达基金 银河基金
## 4 6 5
## 银华基金 长城基金 长盛基金
## 7 5 3
## 长信基金 招商基金 浙商基金
## 4 5 1
## 中海基金 中欧基金 中银基金
## 1 4 3
## 中邮创业基金
## 3
评级与收益率箱线图
boxplot(syl~pj,notch =T,main="银河3年评级与收益率箱线图",
xlab="评级",ylab="平均收益率",col="lightgray")
从上面的箱线图可以看出一般评级越高,平均收益率相对越高。但是在第3级和第4级收益率的中位数大致相等。还有第2级有一个较高的离群点。
评级与基金规模箱线图
boxplot(gm~pj,notch =T,outline = F,main="基金规模与评级箱线图",
xlab="评级",ylab="规模(十亿)",col="gray")
从图中可以看出 第1级和第3级的基金规模相对要小一些。
基金管理人与收益率箱线图
boxplot(syl~glr,main="基金管理人与收益率箱线图",
xlab="基金管理人",ylab="平均收益率")
基金平均收益率直方图
hist(syl,freq=F,xlab="基金平均收益率")
rug(jitter(syl))
lines(density(syl),col="blue",lwd=2)
可以看出收益率近似正态分布
基金规模直方图
hist(gm,freq=F,xlab="基金规模")
rug(jitter(gm))
lines(density(gm),col="blue",lwd=2)
可以看出基金规模近似卡方分布
通过多元回归分析来探索影响收益率的因素
library(car)
scatterplot(syl~fl)
#发现费率大部分集中在3.75,因此没有分析价值。
par(mfrow = c(2,3))
plot(syl~jz,main="基金净值与收益率")
plot(syl~gm,main="基金规模与收益率")
plot(syl~cyr,main="单位净值与收益率")
plot(syl~fe,main="基金份额与收益率")
plot(syl~nl,main="选股能力与收益率")
plot(syl~wdx,main="团队稳定性与收益率")
par(mfrow = c(1,1))
通过散点图看以看出选股能力与收益率有很强的正相关。
fit<-lm(syl~jz+gm+cyr+fe+nl+wdx)
summary(fit)
##
## Call:
## lm(formula = syl ~ jz + gm + cyr + fe + nl + wdx)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.31081 -0.04023 0.00423 0.04814 0.31726
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.230130 0.054203 4.246 3.03e-05 ***
## jz 0.027381 0.014443 1.896 0.0591 .
## gm -0.000351 0.005390 -0.065 0.9481
## cyr -0.013091 0.011580 -1.131 0.2593
## fe 0.004181 0.004248 0.984 0.3259
## nl 0.077816 0.001994 39.028 < 2e-16 ***
## wdx -0.062215 0.024868 -2.502 0.0130 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.07455 on 262 degrees of freedom
## Multiple R-squared: 0.866, Adjusted R-squared: 0.863
## F-statistic: 282.2 on 6 and 262 DF, p-value: < 2.2e-16
- F 统计量为282.2,P-value 远小于 0.05,总体显著,但不意味着与每一个变量的关系都显著
- 回归系数检验 nl(选股能力)在0.001水平下显著,wdx(团队稳定性)在0.01水平下显著,jz(单位净值)zai 0.05水平下显著,其他变量未通过检验,影响作用不大。
- Adjusted R-squared: 0.863 ,被估计的方程能够解释因变量收益率的变差比例为86.3%
par(mfrow = c(2,2))
plot(fit)
par(mfrow = c(1,1))
qqPlot(fit,main = "Normal Q-Q")
从正态QQ图中可以看出两端的残差有较多异常值,但整体效果还行。
模型总体F检验显著,但是t检验很多不显著,估计存在多重共线
方差膨胀因子
vif(fit)
## jz gm cyr fe nl wdx
## 1.983687 11.247795 3.005416 10.199432 1.075599 1.014805
gm(基金规模),和fe(基金份额)的方差膨胀因子超过了10,说明存在严重共线性。
step(fit,direction = "backward")
## Start: AIC=-1389.9
## syl ~ jz + gm + cyr + fe + nl + wdx
##
## Df Sum of Sq RSS AIC
## - gm 1 0.0000 1.4561 -1391.90
## - fe 1 0.0054 1.4614 -1390.91
## - cyr 1 0.0071 1.4632 -1390.60
## <none> 1.4561 -1389.90
## - jz 1 0.0200 1.4760 -1388.24
## - wdx 1 0.0348 1.4908 -1385.55
## - nl 1 8.4650 9.9211 -875.71
##
## Step: AIC=-1391.9
## syl ~ jz + cyr + fe + nl + wdx
##
## Df Sum of Sq RSS AIC
## - cyr 1 0.0086 1.4647 -1392.31
## <none> 1.4561 -1391.90
## - fe 1 0.0185 1.4745 -1390.51
## - jz 1 0.0331 1.4892 -1387.85
## - wdx 1 0.0348 1.4908 -1387.55
## - nl 1 8.4652 9.9213 -877.71
##
## Step: AIC=-1392.31
## syl ~ jz + fe + nl + wdx
##
## Df Sum of Sq RSS AIC
## - fe 1 0.0102 1.4749 -1392.44
## <none> 1.4647 -1392.31
## - jz 1 0.0276 1.4923 -1389.29
## - wdx 1 0.0360 1.5007 -1387.78
## - nl 1 9.0176 10.4823 -864.91
##
## Step: AIC=-1392.44
## syl ~ jz + nl + wdx
##
## Df Sum of Sq RSS AIC
## <none> 1.4749 -1392.44
## - jz 1 0.0215 1.4964 -1390.55
## - wdx 1 0.0362 1.5111 -1387.92
## - nl 1 9.0110 10.4859 -866.82
##
## Call:
## lm(formula = syl ~ jz + nl + wdx)
##
## Coefficients:
## (Intercept) jz nl wdx
## 0.18602 0.02051 0.07822 -0.06338
得到了AIC最小的变量组合。即:syl ~ jz + nl + wdx
fit1<-lm(syl ~ jz + nl + wdx)
summary(fit1)
##
## Call:
## lm(formula = syl ~ jz + nl + wdx)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.312528 -0.039583 0.003018 0.048703 0.313317
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.186024 0.016862 11.032 <2e-16 ***
## jz 0.020508 0.010428 1.967 0.0503 .
## nl 0.078221 0.001944 40.237 <2e-16 ***
## wdx -0.063383 0.024856 -2.550 0.0113 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.0746 on 265 degrees of freedom
## Multiple R-squared: 0.8643, Adjusted R-squared: 0.8627
## F-statistic: 562.5 on 3 and 265 DF, p-value: < 2.2e-16
qqPlot(fit1)
ncvTest(fit1)#异方差得分检验,原假设是常数方差,检验结果是不能拒绝原假设。
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 3.197997 Df = 1 p = 0.07372853
durbinWatsonTest(fit1)#一阶自相关检验,ρ不等于0,说明存在一阶自相关。
## lag Autocorrelation D-W Statistic p-value
## 1 0.1217352 1.753432 0.032
## Alternative hypothesis: rho != 0
crPlots(fit1)
outlierTest(fit1) #离群点
## rstudent unadjusted p-value Bonferonni p
## 155 -4.368630 1.7981e-05 0.0048370
## 106 4.350182 1.9452e-05 0.0052326
vif(fit1) #方差膨胀因子 多重共线检验
## jz nl wdx
## 1.032679 1.020963 1.012302
- 总的来说,通过上面的回归模型再加上数理分析,可以得出影响基金收益率的主要的因素是选股能力、团队稳定性、基金单位净值和基金评级。所以投资者可以参考这个结论加以投资,相信可以获得较高的收益率。 –(基金有风险,投资需谨慎!)