智能问答难点应对之技术探究

林金曙
1511     
摘要:BERT赋能,解决训练语料少等难题

计算机之父阿兰·图灵曾说:“如果一台计算机能够欺骗人类,让人相信它是人类,那么该计算机就应当被认为是智能的。”理解是“欺骗”的前提。人工智能领域中的重要方向——自然语言处理(NLP)致力于让计算机“懂人话”,研究人与计算机之间用自然语言进行有效通信的各种理论和方法。目前,智能问答可以说是FAQ短文本相似度计算、意图分类、问题聚类、上下文对话、多轮会话等各种NLP技术综合水平的体现,在金融领域已经有比较成熟的应用。 

 

智能问答在金融领域的应用


智能问答(Question Answering, QA)旨在为客户提出的自然语言问题自动提供答案。得益于数据的海量增长、硬件计算能力的飞速提高以及自然语言处理和深度学习技术的长足进步,智能问答近年来取得了突飞猛进的发展,主要可分为三类:

1、开放域智能问答:以不限定知识领域以及混合情感交互问答为主要特征,典型应用包括智能音箱、智能个人助理等。不过,这里的开放域并不是完全的开放,因为此类智能问答比较贴近生活,主要涉及体育、影视、综艺、生活、音乐等领域。

2、限定域被动式智能问答:所谓“被动式”是指客户问了问题,机器才回答,并且回答限定知识领域的问题,甚至限制在有限问题集合中。

3、限定域引导式智能问答:与限定域被动式智能问答相反,限定域引导式智能问答是以机器向用户提问为主,并且通过分析用户的回答完成全局的逻辑计算。

 

在金融领域,限定域被动式智能问答及引导式智能问答应用得较多,智能客服、智能质检、智能外呼是比较典型的场景。


智能客服


 


智能质检


质检是要检验人工客服在合规、营销、服务态度上是否符合要求。例如在服务规范方面,要判断座席情绪、服务语、开场白、结束语、服务流程等是否符合要求,在客户情绪方面,需要检测客户的语速、语气,对客户的情绪、满意度进行判断。传统的质检方法是人去听录音,非常耗时,智能质检通过设置规则,采用人工智能的算法让机器来完成质检,并由人来对机器质检的结果进行复核打分,能够实现录音文件和在线文本的100%全量实时覆盖检测,客观对通话情况进行初步筛选,大幅度提高质检效率,全盘掌握质量情况同时可降低运营成本。需要注意的是,智能质检不仅关注服务的态度与质量,在数据分析方面,还可以进行竞争对手、询问基金净值、购买意向、代销转直销等分析,能够为营销带来更多服务。

 

智能外呼

 

传统的人工外呼存在效率低、成本高等痛点,而智能机器人则能够365天全年无休,一直保持热情的工作态度,并且在数据统计方面完整、高效、客观。智能外呼通常采用线上+线下、人工+机器相结合的模式,可以协助人工外呼,降低工作负荷,通过APP把适合的回访交由客户线上自助操作,系统自动回收和超期任务再人工回访;可以预测外呼回访,接通后再转人工,减少无效号码资源损耗,大大提高效率。

 

在服务满意度评价、预约通知、投资风险测评、证件到期提醒、产品开放提醒、产品调查活动、现场活动报名、新产品推广活动等业务场景,智能外呼都可以进行相应的支持。

 

BERT可以赋能金融智能问答吗?

 

虽然金融领域有丰富的数据与文本,但是对于智能问答来说,训练语料相对互联网企业非常少,十分珍贵。举个例子,如果把全国各家券商全年250个工作日的智能问答访问量加起来,可能还抵不过双十一电商平台一天的访问量。另外,金融智能问答的意图多、任务多,并且意图样本经常调整,具有一定的不确定性。例如在智能回访的时候,虽然只向客户提8个问题,但在收集答案的过程中,每个答案的类别有时是不确定的。


针对金融智能问答的上述挑战,恒生研究院基于谷歌发布的NLP模型BERT改进了Few-shot Learing在意图识别的算法实践,目前已经取得了较好的效果。所谓Few-shot Learning就是小样本学习。人是非常擅长通过极少量的样本来识别新事物的,一个从未见过北极熊的人,在看过一张北极熊的照片之后,就能认识这种动物。如何让机器只需要通过少量的样本就能快速学习,是Few-shot Learning 要解决的问题。这里我们引入一个图像领域的例子:在训练的时候给定任务,让机器用四张水獭的照片和四张狗的照片,来判断一张新的照片是水獭还是狗。然后还可以用猫和鸟、花和自行车的照片继续训练、迭代这个模型,迭代多次之后,这个模型就有一定的泛化能力了。



原来人工智能模型的训练可能需要成千上万的数据,越多越好,而Few-shot Learning的核心思想,就是探索是否可以运用少量的样本数据来完成任务。从2015年开始,Few-shot Learning已经在图像领域有比较广泛的应用,例如我们在高铁站刷身份证进站的时候,一般只刷一次就能通过,这是图像识别的一个重要应用。对于金融智能问答来说,基于BERT改进Few-shot Learning有助于解决训练语料少等难题。


金融NLP未来展望

 

根据毕马威的市场调查分析,金融智能问答的市场规模约为10-20亿人民币,同时以智能客服为切入点,后续智能回访、智能质检、智能营销等场景的潜在规模约为100亿人民币。除了对金融智能问答的赋能,NLP还将在投研风控领域发挥更大的作用。据统计,投研风控领域市场规模约为30-50亿人民币,通过人工智能赋能投研环节,可能影响百万亿量级的资产管理。

 

在赋能债券市场投资者方面,恒生研究院通过将NLP技术与统计学进行结合,把债券相关的事件类型从事件体系中挖掘出来,结合算法形成具体的特征,对恒生债券预警平台的模型进行支持,能够使模型的准确率提升10%,效果非常显著。目前,恒生NLP工具能够加速新领域文本抽取模型训练,提供概念、事件、栏目等资讯标签1000+类,准确度可以达到92%以上,并且已经标注了百万级别语料,积累了数十万金融词林数据用于消歧。

 

未来,基于NLP在智能问答、投研风控等场景的应用需求,恒生研究院将进一步对基于金融知识图谱的智能问答关键技术,以及面向金融领域的多事件多主体联合少语料联合抽取关键技术进行重点研究。

未经授权禁止转载,详情见转载须知

联系我们

恒 生 技 术 之 眼