上海大数据产业观察71期

发布时间:2020-01-09 聚合阅读:
原标题:上海大数据产业观察71期上海大数据产业观察二○一九年十二月(下半月刊)(总第71期)上海大数据联盟编二○一九年十二月二十五日【笔者按】随着上海大数据产业...

原标题:上海大数据产业观察71期

上海大数据产业观察

二○一九年十二月(下半月刊)

(总第71期)

上海大数据联盟编 二○一九年十二月二十五日

【笔者按】随着上海大数据产业的发展,联盟中涌现了一批优秀大数据创新企业,这些企业在大数据技术创新和应用实践方面有着独到的经验。自2017年10月份开始,《上海大数据产业观察》每月下半月刊遴选部分优秀大数据创新实践案例刊发,以资借鉴。

益盟智能投研系统

一、企业介绍

益盟股份有限公司成立于2002年,是一家金融信息服务商。公司通过互联网等方式,为个人投资者提供行情、资讯、教育、投顾等服务。2012年,腾讯战略入股益盟,目前持有益盟约20%股份。益盟股份有限公司已经逐步发展成为集金融大数据采集与分析、投资顾问服务咨询、投资者教育服务为一体的中国证券研究/投顾行业的服务性企业。目前公司业务已经全面覆盖证券辅助决策软件、投资者教育、投资顾问三大业务。

二、项目介绍

益盟智能投研系统通过分布式大数据处理平台,应用机器学习、自然语言处理等人工智能技术完成海量金融及另类数据的采集和处理。系统后台构建公司及产业链上的关键驱动因素(Key Driver)图谱,落地研究员的核心知识,打破传统投研体系中的数据孤岛问题。

三、应用需求

传统投研体系中存在数据获取不完整且不及时,大数据处理能力弱,研究效率低下等问题。由于投研服务的非标准化以及高额的研究员成本,券商行业研究只能针对机构投资者提供有针对性的投研咨询服务,无论从研究数量还是覆盖的广度均无法服务于个人投资者。

同时,越来越多的另类投资数据(Alternative Data)被广泛地应用,投研工作的数据源越来越多。另类投资数据可以包括社交媒体、新闻评论、个人数据、交易数据甚至地理位置等。大数据时代对投研“智能化”提出了更高要求:消除传统投研体系中存在的“数据孤岛”的现象、有效利用另类大数据提供的巨量信息、提高投研的时效性及有效性。

四、应用效果

应用案例一:益盟投研知识图谱构建及分析系统

益盟投研知识图谱包括:企业间的上下游供应关系图谱、产业链结构关系图谱、企业的关键驱动因素(Key Driver)图谱、事理逻辑图谱。当量化分析师挖掘出某个具有统计相关性的数据源与资产价格关系时,通过投研知识图谱可以判断该相关性是否具有实际的投资逻辑。通过监控关键驱动因素相关的指标事件,投研工作变得更加高效和有针对性。

图:益盟投研知识图谱构建及分析系统展示图

借助益盟投研知识图谱构建及分析系统,益盟智能投研系统得以从海量金融大数据中构建投研知识图谱,包含10000+产业链节点,超50000+产业链关系。针对500+大类事件类型构建投研事件库,含超过百万级别的开放域事件及海量数值突破类事件。结合基于投研知识图谱之上的智能量化建模和财务预测模型,为机构投资者及个人投资者提供及时和准确的投资信号提示、风险预警、新闻解读、热点聚焦投研服务。

应用案例二:益盟证券投研平台

益盟证券研究平台是针对证券研究分析师的智能工作平台,主要目标是标准化证券研究流程及产出。主要功能包括:上市公司行业分析及相关大数据采集监控、中长期上市公司核心竞争力分析、中短期上市公司关键驱动因素分析等功能。

平台将大数据技术、人工智能与传统投研经验相结合,构建投研体系,打造以技术驱动的独立研究机构。从公司深度研究入手,从宏观、行业、基本面、财务分析、估值预测、市场情绪等多维度进行细致研究,并建立长效的日常跟踪机制。

图:益盟证券投研平台界面截图

五、产品架构:

在金融大数据处理的基础上,益盟智能投研系统构建投研知识图谱,实现投研价值输出。其系统架构如图所示

图:益盟智能投研系统架构图

1、大数据处理平台

使用Hadoop/Spark大数据处理系统,支持接入海量金融数据和另类数据源,并实现分布式冗余接收、存储和实时和离线处理。

2、大数据采集平台

负责金融数据及另类数据的采集服务,包括从不同的数据源获取各种新闻、研报、公告、另类数据等。

3、机器学习及自然语言处理模块

负责为用户画像、事件关联、信息推荐、交易机会监控提供智能服务。同时负责对各种文字数据(新闻、研报等)进行自动化处理、分类、形成事件、结构化数据或另类数据。

4、投研知识图谱模块

使用自然语言处理技术及知识图谱构建技术,从海量金融原始数据中实现上下游产业链分析,热点事件影响分析;进而构建投研公司产业链数据库,投研事件事理图谱,投研规则库等投研知识图谱。

5、智能应用模块

针对不同的应用场景及客户,提供不同的业务服务;针对量化私募提供的金融数据服务;针对其他金融机构的智能报告服务等。

六、关键技术

1、分布式大数据融合处理技术

在分布式大数据管理的基础上,通过使用基于弹性分布式数据集的数据框(DataFrame)技术以及在此基础上的SQL支持技术,实现了对海量结构化数据的复杂SQL查询的支持。

2、自然语言处理及知识图谱构建技术

研发和改进基于双向长短时记忆神经网络(Bi-LSTM)和条件随机场(CRF)的实体抽取技术、基于片级卷积网络(P-CNN)表征和注意力机制(Attention Network)的关系自动抽取技术和在上述技术上的深度网络稀疏压缩等性能优化的技术体系,实现了工业级别的知识图谱自动抽取系统。

3、基于知识推理的量化建模和智能财务模型预测

益盟智能投研系统以投研知识图谱作为量化建模的规则约束,把知识表示、知识推理和机器学习算法结合一起,创新性地使用知识图谱表示学习(Knowledge Graph Embedding)将金融实体表示为稠密低维的向量,进而对传统机器学习算法进行规则约束,极大提高量化建模和智能财务预测的投资逻辑性。

报送:上海市经济和信息化委员会、上海市发展和改革委员会、上海市人民政府办公厅、上海市互联网信息办公室、上海市科学技术委员会、上海市商务委员会、上海市旅游局

抄送:上海大数据联盟会员单位、有关企事业单位