产业链投研丨切实可落的产业链图谱实践心得

白雪
1187     
摘要:NLP+知识图谱体现了基本面投资决策核心逻辑,是AI切入投资决策领域的“正确姿势”。


在全球化产业链分工的世界格局下,万物互联,环环相扣,能否体系化建模,能否沙盘推演?金融投研场景下产业链图谱的终极愿景,便是沿图谱推理,推演蝴蝶效应。知识图谱用以描述现实世界中的概念、实体以及他们之间的关联关系,近年来在学术界和工业界均得到飞速发展,不仅应用于搜索引擎和智能问答等通用领域,在越来越多的垂直领域应用场景也开始扮演越来越重要的角色。与通用知识图谱不同,领域知识图谱通常基于行业数据构建,有着严格和丰富的Schema定义,对领域知识的深度和精度有很高的要求。



领域知识图谱VS通用知识图谱


面向投研的金融产业链图谱


以金融投研场景为例,笔者将介绍如何搭建可落地应用的金融产业链图谱系统。首先需要说明的是,可能不少人认为,搭建一个领域知识图谱的重点在于算法和研发,但事实上领域知识图谱构建最重要的核心,在于对业务的理解以及对图谱Schema的设计。这需要知识图谱专家与业务专家深度合作,探讨面向的主要场景、支撑性的数据来源、知识与底层数据更新等几个关键问题


面向投研的金融产业链图谱,主要是为投资研究服务的,基本面投资研究需要考虑的上下游关系、竞争关系、股权关系、公司主营产品、产品总分等关系,以及相应的宏观行业指标数据等各类数据,都是产业链图谱知识和数据的重要组成部分主要应用场景包括辅助基本面投研、基本面风控、事件传导预警等,其终极愿景是沿图谱推理,模拟蝴蝶效应在确定了应用场景和主要数据后,就可以依照领域知识图谱建设流程构建图谱了。这里笔者主要介绍知识建模与知识生产。



领域知识图谱建设流程


知识建模是指设计产业链图谱的Schema。知识图谱的Schema包括概念定义、概念层次、属性定义、关系定义等,起到管理、约束知识图谱的作用。 知识生产需要遵循Schema的定义和约束,将三元组关系录入知识图谱。 



产业链图谱示例——煤炭行业


每个行业都有自己的投研逻辑和特色,行业知识也会不断更新。因此,产业链图谱的知识建模和知识生产,是一个多次迭代的过程。那么,面对众多行业特性和投研逻辑,哪些要坚守,哪些要新增呢?当完美适配于传统化工、制造业的图谱Schema,遇到地产、半导体行业时,又该如何决策呢?当面对众多类型、不同粒度的钢材类产品时,如粗钢、螺纹钢、冷轧、热轧、特钢等,又该如何设计和表达立体且纵横交错的关系和数据呢?


我们在多年的实践中,总结了产业链图谱设计生产的四条原则


原则一:符合投研人员的研究习惯

面向投研场景,要以基本面投资的视角来组织图谱内容,内容选择和粒度呈现都要符合投资经理和分析师的投研习惯,切记不可与电商场景混淆,动辄上传数亿商品SKU(库存保有单位)。


一个符合预期的产业链图谱系统,要能够将投资经理、分析师日常工作需要查阅的所有数据、上下游关联、约束条件等,方便、及时、准确地呈现;能够利用多层关联和传导推理技术,发现隐含的、先前未知的、有潜在价值的信息;能够自动生成有价值的研报。


如果这个系统还能自动计算/按需调整三张表,预测公司利润、EPS,自动生成行业公司深度研报,甚至推演金融蝴蝶效应,例如在特朗普发了一句推特后,通过在产业链上进行定量的推演,预测这件事对我国相关行业、公司的影响程度,那么这个系统就非常让人惊艳了。

原则二:抓大放小


在产业链粒度的选择上,需要结合投研要点及政策来判断。以钢铁产业链为例,细化到长流程高炉炼钢和短流程电弧炉炼钢,是有意义的。绝大多数大型钢企都使用长流程,以铁矿石尤其是进口铁矿石为原料,因此成本会受巴西、澳大利亚矿山突发事件影响(例如2019年淡水河谷溃坝事故),也会受海运价格指数的影响;小企业则采用电弧炉炼钢,以废钢为原材料,电价占成本比例更高。如果不把长流程、短流程以及他们相应的设备在产业链图谱中区分清楚,是无法对成本变动、政策变动等事件及其真正影响的对象做出正确判断的。


产业链上下游关系,是核心中的核心,容错率极低,不允许出现任何一个错误,建议由分析师、专家来人工构建。因为大量的参数、指标数据、资讯、公告等数据都是围绕着这个上下游关系进行组织和聚合的,是关键的交通枢纽。正所谓,失之毫厘,谬以千里。


原则三:实体拆分粒度要有指标数据支持


这里的实体主要指的是产品。分析师研报里每个研判结论都需要有详实的数据支持和逻辑说明,在分析一个产品或公司时,如果缺少支撑性数据,则无法形成有力结论。因此,如果一个产品粒度,市面上完全没有价格、产量、销量、库存等数据对应,那么它对分析师群体而言就是毫无意义的,这也是粒度选择的一个准则。当然,引领技术发展方向的创新型产品是例外,这类产品成长空间大,未来指标数据的供应将会日渐充足。


原则四:如无必要,勿增实体/类型


奥卡姆剃刀原理强调“简单有效”原则,同样适用于Schema设计层面的“如无必要,勿增实体类型”和数据生产层面的“如无必要,勿增实体”:



  • Schema设计层面:需要严格控制新增实体类型和关系类型。因为我们需要通过设计Schema来约束知识图谱的整体表达,如果Schema的设计特别复杂,实体类型、关系类型特别多,那么不论是后续协作或推广,跟其他公司、机构携手众包共建知识,还是在图谱上进行传导应用、为实体提供服务,都会受到复杂度的制约。因此,在Schema层面,一定要严格控制新增实体类型和关系类型。举个例子,我们可以根据某类实体类型和关系类型背后的市场容量等相对量化的评判方式来判断其是否足够重要,确定是否新增。




  • 数据生产层面:产业链上下游三元组,贵精而不贵多。在金融知识图谱里,产业链上下游、主营等关系是重要的交通枢纽,产品、公司实体携带了大量关联和属性数据,经由上下游、主营建立起语义链接。就如同铁路和公路携带了大量的客流量,产业链图谱也盘活了很多存量行业基础数据,是数据、知识和逻辑的连接和组合。



可以说,拥有优秀Schema设计的产业链图谱,可以经子图融合成全连接的NLP语义友好的底层图谱,从而为推演事件传导、蝴蝶效应,提供坚实的底层知识数据网络。

知识是需要长期不断更新和维护的,并且产业链图谱所链接的各种指标数据也是需要持续更新的。如何保证这种更新,在我们设计产业链图谱之初就要考虑好,需要建立产业链图谱平台的知识运维体系,规划并建立知识、数据质量的长效运维机制。为了研发体系能够持续迭代,图谱设计、命名规范、词库管理等约束,一定要对NLP语义友好,做到机器可读


未来:NLP+知识图谱


对于金融行业来说,NLP、知识图谱两项AI技术非常关键,被称为金融科技的双子星:NLP抽取实体和关系,可以丰富金融知识图谱;知识图谱提供金融语义信息,有助于提高NLP语义解析精度。在产业链图谱的建设中,NLP与知识图谱的结合尤其重要,能够实现1+1>2的效果。例如在股权关系构建、关联公司抽取、新闻打标签等场景,NLP+知识图谱可以实现全自动构建;在产品上下游构建、主营关系构建、投研逻辑构建等场景,NLP+知识图谱可以实现半自动辅助构建。


可以说,NLP+知识图谱体现了基本面投资决策核心逻辑,是AI切入投资决策领域的“正确姿势”。未来,NLP+知识图谱将越来越受到重视,变身“硬科技”,在推进动态知识演化、提供精准语义服务等方面,更好地赋能金融。

未经授权禁止转载,详情见转载须知

联系我们

恒 生 技 术 之 眼