机器学习平台SkyDiscovery行业应用

2018-03-24 15:02

原标题:机器学习平台SkyDiscovery行业应用-智能金融交易

现代金融市场日益发展且不断完善,金融投资的规模持续增长;同时,人工智能技术的发展和更迭更是不容忽视。如何抓住此一现象的契机,将人工智能合理、有效地运用在金融投资领域,已成为全球关注热点。在这美好的周日,最适合学习的日子,小天特别和大家分享金融事业部团队的研发成果和实际的案例,一起了解,当金融遇上AI,会是什么样子。

金融行业中,既有很多在线免费的数据,也有付费整理后规范化的数据,信息化发展相较其他行业完善。然而,将人工智能技术有效应用在金融市场的难点仍然存在:如何快速利用这些数据,提取有价值的信息,并精准的运用到投资决策中?

这个过程需要强大的计算力的支持,天数润科为此开发了SkyDiscovery大数据机器学习平台,以满足金融行业对于大数据技术和人工智能应用的需求。

目前,公司在此平台上已开发了一系列的交易策略,其中Quantmental中长期投资组合和超短线增强策略已投入实盘。Quantmental中长期投资组合,结合了基本面价值投资分析方法与数据挖掘分析手段:首先,以财务信息为基础,挖掘业绩稳定,成长确定性较高,行业内竞争力较强的个股。其次,结合客观技术分析与数据分析方法,在初步筛选的股票池中,动态把握个股适合的投资时机,实现组合的智能管理。

以下为策略开发的详细流程:

01 数据存储与读取

SkyDiscovery提供了多个数据库组件支持全方位的金融数据的管理,包括高性能的OLAP数据库SkyInsight、时序数据库SkyTSDB,同时集成了GPU数据库MapD。

我们的金融数据包括:

1.行情数据,有level2行情,支持历史和实时存储;

2.日线级别的财报数据;

3.政策性的文本数据;

我们使用SkyInsight管理所有离线数据,以SkyTSDB存储实时的时序数据。数据服务的架构如下图所示:

机器学习平台SkyDiscovery行业应用

此金融数据平台能够提供稳定高效的数据访问服务、标准易用的数据统一接口,并兼顾数据安全和横向扩展需求。

SkyInsight支持表分区,时间和股票种类两个维度对数据自动分区;采用计算存储分离架构,支持与Kubernetes集成,极易根据计算和存储的不同需求伸缩;MPP架构,亿级别数据秒级响应;支持标准SQL。

SkyTSDB对接实时接入的tick数据,基于时序特征优化读写,能够高效满足金融时序模型对数据的需求。

SkyETL支撑数据接入平台和内部服务间的数据流转,支持离线数据的批处理和流数据的实时处理。

不同时间周期的金融数据,频率高、覆盖广、体量大。截至目前,策略处理的数据量已超2T,这一数字仍在每日增长。实现快速稳定的存、取、更新操作,是金融建模的基石。

02 特征处理

股票的特征提取,我们以盈利性(利润表)分析为例。

首先,提取利润表中的指标数据,进行比值分析,梳理出能够反映收入、成本,利润主体关系的income_info以及衍生指标income_ratios。

机器学习平台SkyDiscovery行业应用

在此,通过平台可视化展示,我们能更加直观的理解各个指标。

机器学习平台SkyDiscovery行业应用

如图,展示了利润表的主要构成情况(以000002.SZ万科为例)。图一将营业总收入划分为一级成本,二级成本以及营业利润。图二进一步分析了营业利润,其他损益(金融活动)与净利润之间的关系。图三将股东利润划分为,其他综合损益,归属于少数股东综合收益以及归属于母公司普通股东综合收益。通过这一些列饼形图可以直观的观察出该公司的收入,成本以及利润等详细情况。

机器学习平台SkyDiscovery行业应用

上图展示了五年来房地产行业的个股(挑选8只股票)的gross profit margin与netincome margin相对的发展状况,其中圆圈大小对应个股的earning per share。可以直观的感受个股各个指标之间的动态变化关系。

我们以利润表为例,简单介绍了投资策略如何提取特征工程。当然实际策略实施中需要考量更多的指标,同时还有资产负债表,现金流量表以及其他附属信息的分析。但是提取特征的主体思路却是保持一致的,即既要从时间序列维度出发,挖掘业绩长期稳定或者增长的股票特征,同时也要从横截面角度思考,在行业内寻找有明显竞争优势的个股特征。当我们筛选出成长性高,行业内竞争力强的个股后,最终也要结合价格因素考虑,综合评价该股是否在合理估值之内,且价格趋势是否得到较好的确认,是否是恰当的入场时机等,都需要细致严谨的量化模型来衡量。

03 模型训练

针对不同问题,需要选择合适的机器学习方法。目前平台支持常用机器学习以及深度学习分类、回归模型的构建、部署、预测、分布式执行。金融数据中,预测下个月股价与多因子的关系,我们可以采用监督学习中的支持向量机、决策树、随机森林、梯度树提升以及神经网络和深度学习。

04 智能交易系统

训练好的模型部署到平台,接入行情接口,可以实现有AI模型决策帮助的智能交易系统。风控平台包括验资验券、敞口管理、股票池管理、资金管理、撤补策略、灾备策略等措施。

05 总结

本文简单介绍了在SkyDiscovery大数据机器学习平台上开发智能交易模型的整个流程,分布式数据库实现数据快速的读取。SkyCompute高性能计算引擎,能针对金融行业的庞大数据量和实时数据,提供超高性能的运算和分析能力,大幅降低企业的计算资源成本。同时,SkyDiscovery 也支持用户端的BI报表、交互式探索等可视化展示应用。


? 2003-2019沈阳市沈河区龙威家用电器商行 澳门威尼胁人 版权所有 苏icp备15055316号-1 沈阳市沈河区龙威家用电器商行