- 相关推荐
量化投资论文
基于量化投资角度的多因素模型投资综合策略报告
1 研究方法
本篇报告的量化投资策略主要采用的方法与理论有以下几种:1、线性回归。
2、多因素模型。
3、CAPM(资本资产定价模型)。
4、假设检验与置信区间估计。
5、蒙特卡洛模拟。
6、VaR(风险价值)方法。
7、Matlab(矩阵实验室,用于数据的处理与图形的分析)技术。
主体内容主要分为四大部分。
第一部分为模型建立阶段,主要是挑选影响股票收益率的相关因素。
第二部分主要是挑选出收益率排名前20%的股票,并运用CAPM模型进行组合搭配,以求降低非系统性风险,最大化股票的收益。
第三部分采用统计学的知识,对上述建立的模型的相关参数进行范围上与概率上的估计。
并采用VaR方法与蒙特卡洛模拟,进行风险的评估与控制,并运用多种评估绩效的方式(夏普比率、特雷诺比率、简森阿尔法等指标),对股票的风险与收益做出客观的评判。
第四部分为模型的评价阶段,即由宏观到微观对该模型做出全面的解释。
与此同时,运用matlab技术对参数进行适当的动态更新,使其尽量符合市场的波动情况,并进行回溯测试,用市场的实际结果来解释模型的合理之处。
2 策略步骤
第一部分:模型建立阶段。
2.1 影响收益率的因子初选
我们采用以下收益率因子。
以上表格反映了影响收益率的主要四大类因子,较好地包括了影响收益率的主要因素。
虽然从宏观层面上我们挑选出了一些影响收益率的主要因子,然而,在现实过程中,影响某个具体公司收益率的因素很可能只是其中某几个。
因此,我们应当试图找出影响每个股票的收益率的个别关键因素,这里我们采用matlab技术以及线性回归的方法,以融捷股份(002192)与暴风科技(300431)为例进行说明。
笔者根据深圳证券交易所统计的数据通过EXCEL表格进行合并整理后得到融捷股份的收益率数据,将该数据导入matlab中,以市盈率为横轴、收益率为纵轴,建立图形关系。
根据统计学的知识可知,我们用决定系数R2来反应自变量解释因变量力度的强弱,而决定系数与相关系数之间存在平方关系,即ρ2=R2。
因此,在matlab中我们通过计算一组数据之间的相关系数,反求出其决定系数,从而说明该特定自变量能从多大程度上解释因变量。
代码运行的结果如下:
从上述运行结果可知,市盈率与股票收益率之间的R2只有0.0934,遠小于1,因此市盈率这一项指标在融捷股份里并不能对收益率的变动起到决定性作用。
类似地,我们对表1-1中所有的因子进行相同的操作方法,在此由于篇幅原因不再赘述,仅展示操作步骤与过程。
2.2 剔除冗余因子
在进行上述步骤的过程中,值得一提的是,各个因子之间可能本身就具有一定的相关性。
比如,ROE指标与ROA指标本身就满足一个等式:ROE=ROA*EM, 其中EM为权益乘数,计算公式为EM=1/(1-负债率)。
如果因素之间的相关性甚小,我们可以忽略不计,但是当相关性大到一定程度时,便会对之后的多因素模型分析过程产生误导,因此在这里我们需要补充的一步是利用matlab软件,建立不同指标之间的关系方程,判断是否存在多重共线性。
2.3 多因素模型体系的建立
在进行完影响收益率的因子选择以及剔除完冗余因子之后,便是最为重要的建立综合评分体系,将所有的因子共同反映到一个方程中,用来解释股票收益率与因子之间的具体变化。
多因素模型的建立过程分为如下几个步骤:
(1). 标准化原始数据
(2). 建立相关性矩阵
(3). 计算相关性矩阵的特征值和特征向量
(4). 得出总方程表达式
通过对上述运行结果的分析我们可以看出,月最大超额收益的影响最大,而累计收益的影响最小。
这样,我们便量化出了影响该股票收益率的方程式。
第二部分:交易标的股票的选取
2.4 选取收益率前20%的股票
通过第一部分的论述,我们最终可以得到影响不同公司股票收益率的方程式,可以用matlab或者数据库技术进行保存,当需要更新参数或者进行预测决策时,调用相关函数即可。
在第二部分中,我们将选取的标的股票资产池的相关数据输入到方程式中,即可得到未来一段时间的预期收益率。
假设我们从每个板块中选取出了20支股票,我们保留预期收益率排在前20%的股票,优中选优,尽量最大化我们的收益。
2.5 利用CAPM模型进行资产组合
20世纪诞生的资本资产定价模型(CAPM)为广大投资者选择资产组合提供了良好的理论基础与依据。
威廉夏普(William F. Sharpe,1934-)与马克维茨(Harry M. Markowitz)等人所建立的组合管理理论核心即为以下等式:
E(Rn)=Rf+β(E(Rm)-Rf)
其中,E(Rn)为股票的预期收益率,Rf为无风险利率,β为单个股票与市场之间的相关性,E(Rm)为某一基准的收益率。
通过该理论,我们可以建立多个资产的不同搭配情况。
在第三部分,我们会进一步讨论运用各项绩效评估指标,来权衡风险与收益。
第三部分:风险控制
2.6 对各项参数进行区间估计和假设检验。
前两部分重点关注了组合的收益情况,力求在市场处于无效或弱有效的情况下,取得超越市场的收益率。
然而,对风险的把握仍为非常重要的方面,自从2007-2009年间发生的金融灾难以后,人们对于风险控制的意识又提高到一个新的水平。
下面具体介绍如何利用统计学知识,对风险以及收益的取值范围做出评估与估计。
假设由第一部分模拟出的收益率方程满足如下等式:
Yi = -4.451 +2.057 * X1i + 2.008 * X2i
我们可以看到,在这个等式中出现了三个参数,分别是截距项-4.451、X1i的系数2.057以及X2i的系数2.008。
然而,这毕竟是模拟出来的结果,或多或少会存在着一定的误差,那么对这种误差水平的度量就显得尤为重要。
特别是对于X1i与X2i的参数的估计,其改变直接决定了Yi的变化的方向以及程度。
在这里,我们运用统计学上的假设检验与置信区间估计的方式,判断我们有多大的信心,或者说有多大的概率,该参数可以满足我们的要求,从而对我们的决策活动形成指导意义。
见下图:
如上图所示,该图为用统计软件所得出的上式的相关统计学分析,可以看出上式的R2(R-squared)为0.934,并且调整后的R2(Adj R-squared)为0.890,说明该式的所有系数,作为一个整体,对Yi具有较好的解释力度。
其中ESS(Explained Sum of Squared)为模型模拟出的曲线与平均值的差的平方和,而SSR(Squared Sum of Residual)为真实点与估计点的差的平方和。
Matlab图示如下:
上图是通过最小二乘法拟合出来的一条回归曲线,其中蓝色的点与实线之间的距离的平方和即为SSR,而实线与所有实际点的均值之间的距离的平方和即为ESS。
R2=ESS/(ESS+SSR)。
由图6-1还可以看到,2.057所处的95%置信区间范围为0.984-3.130。
其中,P值与t统计量用来判断在95%的把握下,是否可以拒绝一项参数,即判断该参数在一定概率条件下的真假情况。
我们通常可以通过查对应的t分布表来找到对应的关键值,或者采用比较p值大小的方式进行判断。
比如说,要判断图6-1中Experience的参数2.008在95%的概率条件下的合理性,我们计算出其t统计量如图上的2.664,而对应的置信区间范围中包括了2.664这个值,因此我们可以得出如下结论:Experience的系数2.008在95%的置信水平下是无法拒绝的。
这一结论同样可以通过判断p值的大小得出,p值为0.076,大于显著性水平0.05(通过1-95%得到),因此有足够的自信可以保证该系数的合理性。
通过上述方法,我们可以对之前模拟出的收益率方程的系数的合理性做出判断与评估,使我们对其有一个更为深入的了解。
2.7 基于蒙特卡洛模拟的风险控制。
在风险管理领域,VaR方法一直在各大金融機构被视为进行风险度量的首选,因为其可以提供在一定的置信区间下所发生的最大损失的大小。
然而,实践证明,在市场出现剧烈波动的情况下(比如2007-2009的金融危机),资产之间的相关性会增强,以前可能相关性很弱的资产在市场不稳定时期出现了高度关联的相关性。
而普通的线性估算VaR的方法在金融危机期间,对于风险的度量不再准确与合理。
因此,出现了后来的情景分析方法(scenario analysis )以及这里要讨论的蒙特卡洛模拟。
所谓蒙特卡洛模拟,是对一项资产的所有可能取值进行随机数模拟,来计算产品的价格以及计算风险价值的大小。
其应用领域十分广泛,不仅可以用来模拟复杂金融产品的价格(例如,含权债券的定价、住房抵押贷款证券化产品的定价),在风险管理领域还可以用来度量风险的大小。
在此,我们给出详细的解释,来说明怎样进行基于蒙特卡洛模拟的风险的度量。
重复上述代码四次,模拟出不同收益率的图形,每次模拟都可以得到一条收益率的曲线,当我们从股票收益率的总体曲线中随机抽出N个样本的收益率曲线,对其进行算术平均,便可以得到最终模拟出的收益率曲线,通过正态分布或对数正态分布作图,我们可以在竖直方向上做出一条辅助线,该辅助线对应的分位点即是VaR所处的位置,如此一来我们便可以得到VaR的结果。
第四部分:模型的改进与实时更新
2.8 模型评价
在这一部分,我们主要对上述建立的收益风险模型进行评价,包括引进一些至关重要的绩效评估指标,例如夏普比率,特雷诺比率,简森阿尔法,信息比率,索提诺指标等。
夏普比率来自于CAPM模型,其基本内涵是单位风险所对应的超额收益。
在CAPM模型中,夏普比率即是资本市场线的斜率。
因此,对于一个组合的风险收益的评估,我们可以通过计算其夏普比率,再与其他组合比较,选出夏普比率最大的那一个,即是我们满意的组合(单位风险承担了更多的超额收益)。
特雷诺比率与夏普比率类似,但其分母上所对应的是系统性风险,而不是总风险。
这反应了一项组合其内在的超额收益,因为非系统性风险是可以通过组合规避掉的,而系统性风险则更多的由市场、行业以及经济周期等不可控因素所决定。
因此,特雷诺比率也被广泛应用于组合绩效的评估。
简森阿尔法描述的是一项组合的市场收益与CAPM计算出的理论收益之间的差额。
在CAPM图形上描述出来便是资本市场线上的点与实际的点之间的距离。
简森阿尔法直接反应了一项组合的收益与其理论收益的偏差,因此投资者可以进行无风险的套利交易,低买高卖,赚取超额收益。
值得一提的是,用简森阿尔法来描述两个组合的风险收益时,要求两个组合的系统性风险处于同一水平,即CAPM模型中的β相同。
特雷诺比率将系统性风险单位化,因此可以直接进行比较,这是简森阿尔法与特雷诺比率之间的区别。
信息比率也是实际工作中用到的比较多的领域,通常会和夏普比率搭配使用。
信息比率的计算公式为:信息比率=超额收益/跟踪误差。
索提诺指标的计算公式为:索提诺指标=(组合收益-最小收益)/下半方差,其中下半方差只考虑风险的影响,因为价格上涨的风险可以不考虑,只考虑下跌的风险。
2.9 利用matlab动态更新参数
上述建立的多因素模型的参数一般会随着市场条件的变化而发生变化,例如金融危机期间,金融产品之间的相关性增强,可能会使得参数的估计不再准确。
因此,我们需要通过不断的测算市场数据,来保证模型参数的合理性。
在matlab中不断更新改进参数的步骤是不能省略的。
2.10 回溯测试
在完成了模型的構建以后,我们通常会进行一段时间的回溯测试期,目的是为了对模型的合理性进行检验。
即采用从市场上观察得到的数据,与模型估计出的数据进行比较。
这是回溯测试的主要思想。
通常在一些交易平台上我们可以进行回溯测试。
Matlab平台上也为我们提供了相关的回测计算的功能,目的是尽可能地还原市场的真实情况,以检测策略的准确性。
2.11 模型评价
已上便是笔者构建的投资策略的基本框架与内容,按照上文指导的内容进行投资,可以在一定程度上获取超额收益。
量化的方法相比较传统的基本面分析、技术分析,具有其自身的合理性。
然而量化投资并不是时时刻刻百分百有效,但根据历史经验来看,量化投资的收益已经远超其他投资方式。
量化投资还具有更为高深的理论,例如结合了心理学、生物学与计算机科学的神经网络、遗传算法等,使用机器代替人脑进行投资决策,这样可以减少人的主观性,客观的根据一些标准、指标严格执行投资策略。
这里只是使用了量化投资领域中的冰山一角,即使用综合模型评分方法来构建投资组合的预期收益。
然而,该模型仍有其自身的局限性。
例如,模型本身采用的是线性回归的基本思想,即最高次幂为1次幂。
然而在现实过程中,很多金融产品的收益曲线并不是一条严格的直线,而更多的是具有二阶导的曲线。
举例如下图所示:
上图是包含了期权时间价值在内的利润图,可以看到,在引进期权的时间价值以后,其图形不再是直线,而是带有弧度。
因此,我们通常采用的方法是利用泰勒级数进行估计,引入二阶导来进一步估计金融产品的价格。
例如在债券中一阶导采用久期进行计算,二阶导采用凸性进行调整。
因此,针对本篇策略报告的模型,我们可以采用类似的方法,引入二阶导来进行估计。
这一点可以通过matlab不断拟合收益率的曲线来进一步精确估计收益率未来的变化趋势。
然而,与蒙特卡洛模拟类似,这需要相当大的计算量。
我们通常会采用样本大小与时间的平方根的乘积来衡量最有效率的估计方式。
3 结束语
通过以上的分析,我们可以得出一套利用量化的手段模拟股票的收益率的曲线,进而实现我们的投资思想。
笔者从多因素模型入手,首先找影响单个公司特定的因素,通过筛选找出合适的,具有关键影响的主要因素。
具体通过matlab方法实现关键因素的选取。
在此之后,我们需要特别关注因子之间是否存在相关性,即多重共线性。
使用matlab找出并消除这种关系后,我们建立多因素回归模型。
在此基础上,我们运用统计学中的假设检验与置信区间估计的方法,对多因素回归模型的相关参数的合理性做出说明。
并使用蒙特卡洛模拟方法,描述出组合的风险大小。
特别是在市场剧烈波动的时候,可以很好地避免普通的线性VaR方法所带来的低估风险的问题。
最后,我们采用一系列的绩效评估指标,来衡量对应一定风险的收益水平的大小。
使用回溯测试进行模型合理性的判断,并给出相应的解释。
如此一来,便完成了这套投资策略的设计与分析。
【量化投资论文】相关文章:
证券投资风险论文10-09
投资管理论文10-01
组合投资模型的优化论文10-08
高职院校职称量化评审模式的探索与实践论文10-08
新西兰投资法律规定与中新投资合作论文10-02
个人量化的方案03-24
量化简历10-09