NLP如何赋能资本市场?股市预测、概念股推荐、相对收益判断……

张岳
1279     
摘要:对于金融领域来说,文本信息对资本市场的影响,是自然语言处理最重要的应用之一,属于计算金融的研究范畴。
◆本文根据2019恒生技术开放日张岳演讲整理
◆张岳:西湖大学副教授,浙江省青年千人,NLP专家,多次在国内外顶会担任领域主席及顶级期刊审稿人。

随着信息技术的不断发展以及海量信息的涌现,自然语言处理作为人工智能的一个重要方向正推动着语言智能持续发展、突破,不仅应用于各个行业,在人们的日常生活中也正在扮演越来越重要的角色。基础自然语言处理技术是应用的基础,分词、词性标注、句法分析、命名实体识别、关系抽取、事件检测等基础技术的研究与突破将有助于应用创新。例如把自然语言理解和生成进行结合,可以做机器翻译,让计算机软件自动地将文本从一种语言转化为另一种语言;把事件抽取和文本生成组合起来,可以做基于事件的文本总结,让机器自动地根据一段较长的文本,总结并创造出一段较短的文本;把文章的理解和端到端的训练组合起来,可以做自动作文评分……

对于金融领域来说,文本信息对资本市场的影响,是自然语言处理最重要的应用之一,属于计算金融的研究范畴。笔者将从基于事件的股市预测、市场结构分析、深度学习应用等角度,介绍学界在该领域的一些研究成果。


基于事件的股市预测


事件对股市是有影响的。有些人认为股市是随机的,有些人认为股市是一只看不见的手,能把资源分配到最需要的地方。在2000年前后的几年,有很多相关学术文章发表,用数据证明了新闻事件确实能够影响股价的变动。比如乔布斯去世后,苹果的股价会下跌;公司年报的披露也会影响接下来的股价,这不论在A股还是美股都是确定的。

在之前的金融研究中,人们对待新闻事件的一种方式,是从一个新闻事件里抽取出一组词,然后数这组词里面负面的词有多少,如果负面的词多,股价可能就会下跌。但是这种抽词的方法忽略了新闻事件的结构问题:一个事件是有施事和受事的,施事是发出动作或发生变化的人或事物,受事是受动作支配的人或事物,所以事件对不同的实体是有不同影响的。例如“甲骨文公司将起诉谷歌,称谷歌的安卓系统侵犯了甲骨文Java版权”这句话中,起诉会涉及到赢家、输家,对这两家公司的股价会有不同的影响,在收购事件中也是同样,收购的公司和被收购的公司可能会产生不同的股价变动。那么如何去表示一个结构化的事件呢?这里就可以用到基础自然语言处理的内容,将一个事件表示成一个四元组:施事是什么,事件是什么,受事是什么以及发生的时间。

将新闻中的结构化事件全都抽取出来之后,我们的任务就变成了一个分类任务:输入今天的新闻事件,输出是一个非常简单的信号——明天的收盘价减去明天的开盘价是“涨”是“跌”的分类。我们采用了两种研究方法,一种是线性模型,另一种是非线性模型,相对应地,信息源也分为传统的数负面词的信息以及事件信息。从预测美股指数的结果上来看,非线性方法比线性方法存在明显优势,利用结构化的事件比数负面词汇要有明显的优势。

在进一步研究个股新闻及行业新闻的影响程度时,我们选取了制造业、互联网行业、零售行业这三个比较有代表性的行业。当时的结论是,只用个股的新闻,对个股进行预测是最精确的,行业中的其他新闻和全部的经济新闻,在简单的端到端学习中产生的是噪声的作用。而当我们扩大研究范围,继续研究标普指数里的其他股票,发现个股预测的准确率降低了。研究发现,美股个股预测的准确率,跟企业的福布斯排名是呈线性关系的,福布斯排名越高的股票,预测越好,排名越低,预测越差。原因主要在于排名高的企业有更多的新闻机构在关注,能够得到更多的训练数据。这也证明了数据是决定一个算法的精确程度的重要因素。

市场结构分析


在市场结构的分析上,自然语言处理可以做出一些贡献,比如概念股推荐。中国资本市场从一开始就是对外开放的,但是直到近几年,外资进入中国资本市场的脚步仍然比较缓慢,一个重要的原因是他们不了解中国资本市场。如何帮助外国投资者了解中国资本市场呢?自然语言处理能起到很重要的作用,因为机器可以从互联网中的文本找到市场的一些结构信息。对于给定的概念,比如房地产、新能源等,机器要找到所有跟概念相关的上市公司在哪里,这是一个最基本的市场结构。通过采用深度增强学习的方式,让机器自动在互联网上进行阅读,找到概念和概念之间的联系,并且找到上市公司和概念之间的联系,可以取得不错的效果。

比如机器读了雄安这个概念,它会在互联网上继续发现容城、白洋淀、安新县等相关的概念。事实上这里只有白洋淀是值得继续探索的,从白洋淀继续往下阅读,又可以找到很多值得探索的概念。增强学习的算法能够自动摸索出一条路径,从雄安开始,一直到京津冀一体化,找到所有相关的上市公司。实验结果表明,这种方式比传统的信息检索、语义匹配技术,都能挖掘到更有用的概念股。

深度学习的应用


在基于事件的股市预测以及市场结构分析中,都涉及一些深度学习在自然语言处理中的应用。2014年左右,深度学习刚刚进入自然语言处理领域,至今其应用已“遍地花开”,这里笔者略举两例。

事件和事件之间有相关性,如何把相关事件的支持用到最大程度?

解决这个问题,可以将深度学习应用在事件表示中,例如企业家去世这种事件,在历史中不能重复,想要从这个事件里得到类似事件的影响,可以把这个事件映射到向量空间里,类似的事件在向量空间里的位置会相近,这样就能保证机器能通过类似事件学到很多的知识。

利好新闻对相对收益的影响如何判断?

在我们研究新闻事件的影响时,如果某个公司的新闻是利好的,那么我们除了关心这个新闻事件对公司的影响,还会关心其对相对收益的影响,也就是个股能不能跑赢大盘。研究这一点可以用深度学习对新闻事件进行表示学习,把一篇文章变成一个向量,这个向量针对某家公司,而不是整篇文章来进行表示学习。如果一天有很多新闻事件,可以引入注意力机制来自动选择哪条新闻对明天的股价影响更大一些,进而对三天之内的相对收益做出一些判断。这种方式也为赋能证券分析师提供了一些基础。

自然语言处理技术在金融行业的应用场景甚广,例如舆情监控、智能问答等。未来,随着深度学习等技术不断发展,数据集越来越丰富,自然语言处理技术在金融中的应用也会愈发成熟,在资本市场的自动化等方面产生重要的作用。
未经授权禁止转载,详情见转载须知

联系我们

恒 生 技 术 之 眼