深度|智能客服为网商银行节约50%坐席的背后,有何技术奥秘?

作者: 李伟
2016-12-20
1629
原创

编者语:李伟博士是大数据及人工智能领域的专家,他曾参与多项国家自然科学基金项目的研究,在数据智能处理、复杂系统的结构模式挖掘与分析等方面拥有丰富的研究经验。近日,李伟博士已正式加盟恒生研究院。让我们一起来听听他对智能客服的深度见解。


随着金融、电信、互联网等行业客户服务量的高速增长,人工客户服务的成本大幅攀升,已无法满足企业客户服务的需求,智能客户服务由此应运而生。智能客服系统的应用,创造了客户服务的新模式,并在保证服务质量、服务效率的同时,大幅度降低了企业客服的成本。


近日,网商银行首席信息官在演讲中称:智能客服让我们节约了50%的坐席。这无疑证明了智能客服技术的不断成熟和突破发展,那么这项技术的奥秘究竟在哪里?未来又将面临怎样的机遇和挑战?本文将和你一一探讨。


【应用现状】


智能客服是指用智能计算机系统代替人工进行客服工作。智能客服有多种形态,包括网络端智能客服(通过网络提供多渠道的智能客户服务);电话端智能客服(通过电话向用户提供直接的智能客户服务);实体客服机器人(出现在银行办公大厅、电信营业厅等场合的机器人)。无论哪种形态,搭载其上的软件系统是其核心部分。通过智能化的客服软件系统,可以提供细粒度的知识管理技术、基于自然语言的客户沟通手段、以及面向CRM的数据挖掘和统计分析信息。


据艾媒咨询调查,中国整体客服市场规模超过千亿人民币。IDC预测,美国客服市场规模已经达到近百亿美金量级。从用户规模上看,智能客服覆盖的国内用户总数已经超过2亿;从应用领域看,智能客服在电信运营商、金融服务、电子政务、电子商务、各类智能终端及个人互联网信息服务等诸多领域提供多种形态的服务。



智能客服在国内金融领域的应用呈蓬勃发展之势。很多银行和金融机构已拥有或正开发自己的智能客服系统。应用较早的如招商银行信用卡中心2013年率先在微信推出智能“微客服”平台,实现即时交互服务。交通银行也于2013年在微信推出“交通银行微银行”,并于2015年推出国内第一个智能客服机器人——“交交”,在25个省市的交行营业厅正式“上岗”。2014年以来,各大银行、证券、保险、基金等金融机构纷纷推出智能客户服务。以至于到2016年,银行业客服人数连续三年下降,智能客服成为趋势。在互联网金融范围,智能客服的典型应用如蚂蚁金服,其95%的远程客户服务已经由大数据智能机器人完成,同时实现了100%的自动语音识别,蚂蚁金服客户中心整体服务量超过500万人次。


综上所述,随着市场对智能客服的需求持续增长,以及人工智能、大数据、知识工程等关键技术的不断进步,各种智能客服产品将会在与大众生活密切相关的金融、电信、能源、交通、教育、政府办公等各个领域得到更加广泛的应用,中国智能客服产业也将会迎来应用更加普及的发展阶段。


【发展历史】


智能客服的一个核心部分是客服聊天机器人,它是智能问答技术在客服领域的应用。要了解智能客服的发展,需要回顾智能问答技术的发展历史。智能问答技术是自然语言处理(NLP)技术的一个分支,它的发展大致可以分为三代。


▲第一代

第一代的智能问答系统把简单的自然语言问句转换成预先设定的单个或多个关键词,并在特定领域的数据库中查询信息以获得答案。它的最早出现可以追溯到计算机诞生初期的上世纪五六十年代。代表性的系统包括Baseball(1961年),可回答关于美国棒球比赛的时间、地点、成绩等自然语言问题。Eliza(1966年)由MIT开发,用于在临床治疗中模仿心理医生,它基于关键词匹配和人工编写的规则脚本回答问题。LUNAR(1973年)是为了方便月球地质学家查询分析阿波罗登月计划的数据而开发的问答系统。SAM(1979年)是耶鲁大学AI实验室开发的另一种形式的问答系统——阅读理解系统。




▲第二代

进入二十世纪90年代,随着互联网的发展,出现了第二代问答系统。它基于信息检索技术和浅层NLP技术,从大规模文本或网页库中抽取答案。第二代问答系统相比第一代,研究领域从限定领域拓展到开放领域,研究对象从固定语料库拓展到物联网。有代表性的是Start(1993年),这是世界上第一个基于Web的问答系统。它是由MIT人工智能实验室开发的。它自开始后持续运行至今,能够回答数百万的多类英语问题。同时,一些著名的学术机构也对问答系统予以有力支持。1999年TREC文本检索会议开始了问答系统的评测,2000年10月ACL以开放域问答系统作为专题,都促进了问答系统的迅速发展。


这一时期,一批基于互联网的在线客户服务公司创立。例如,著名的两家美国SaaS客户服务商SaleForce于2000年成立,ZenDesk于2008年成立。而在中国,也出现了最早的智能客服公司。如2001年,智能机器人服务商小i机器人成立。


▲第三代

随着web2.0技术的兴起,第三代问答系统发展起来。它的特点是基于高质量的知识资源和深度的NLP技术。众多基于用户协同生成内容(UGC)的互联网服务(如Wikipedia 、ODP),产生了越来越多的高质量数据资源。以此为基础,大量的知识库以自动或半自动方式构建了起来(比如Freebase 、YAGO 、DBpedia等)。另外,随着九十年代初统计机器学习方法和经验主义方法的兴起,自然语言处理中的各个任务都取得了突飞猛进的进展,无论是在基于语义分析的知识工程还是在大规模开放域问句深度理解方法都取得了长足的进步。可以说,智能问答系统中所需要的知识资源和自然语言分析技术正逐步被科研人员解决。


这个时期,不少智能问答产品取得的成果引起了人们的关注,例如:IBM研发的问答机器人Watson在美国智力竞赛节目“Jeopardy! ”中战胜人类选手;2011年苹果公司发布了 Siri 系统,在智能手机中的真实应用取得了良好效果。Siri系统内部的知识问答是提交给WolframAlpha 处理的。Watson和WolframAlpha成功的关键因素包括:1) 强大的知识资源:前者定义了自己的知识框架,并从大约2亿页的图书、新闻、电影剧本、辞海、文选和《世界图书百科全书》等资料中抽取知识,而后者对各个领域定义了自己的知识结构并抽取大量事实;2) 深层语义分析技术:Watson开发的DeepQA系统集成了统计机器学习、句法分析、主题分析、信息抽取、知识库集成和知识推理等深层技术。


以智能问答技术为核心的智能聊天机器人近年来在国内的发展如火如荼,除了已面世的微软公司的 “小冰”、百度公司的“度秘”和华为公司的“小诺”,众多企业和研究团体也在该领域发力突破。同时,国内也涌现出一批提供企业客户服务商用软件的专业公司,比较有名的如V5,环信,Udesk等。腾讯、阿里巴巴、网易等巨头也纷纷投入其中。我们可以预期,这个发展趋势将继续下去。相信在不远的将来,智能客服技术将会趋于成熟,成为企业客户服务的重要基础。


【技术简述】


通常来说,智能客服的系统框架如下图所示。它的核心是一个智能机器人。智能机器人负责对用户问题进行分析,查询各种知识库资源,产生答案,并以适当的形式反馈给用户。


用户通过不同的平台多种渠道连接到智能客服系统,这些渠道可以包括:问答网站、即时消息WebIM、邮件、QQ、手机APP、微博、微信等。用户发起问题的形式可以是多种媒体,如:文字、语音、图像、视频等。这就是理想的“全渠道、全媒体”智能客服方式。我们在此仅以文本和语音媒体为例说明。用户的问题将传给智能机器人。


智能机器人包含五个主要的功能模块。语音识别模块负责接收用户的语音输入并将其转换成文字形式交由自然语言理解模块进行处理。自然语言理解模块在理解了用户输入的语义之后将特定的语义表达式输入到对话管理模块中。对话管理模块负责协调各个模块的调用及维护当前对话状态,选择特定的回复方式并交由自然语言生成模块进行处理。自然语言生成模块生成回复文本输入给语音合成模块将文字转换成语音输出给用户。在此过程中,智能机器人需要调用外部的知识库管理系统。其中语义知识库可能用于自然语言理解和自然语言生成模块进行语义分析和语义表达。领域知识库用于查询和生成所需答案。

 

▲智能问答系统

智能机器人中,除了语音识别和语音合成两个模块是与用户之间的交互接口,其核心是智能问答系统。它包括自然语言理解、对话管理、自然语言生成三个模块。详述如下。


<自然语言理解>

自然语言理解的目的是为聊天交互任务生成一种语义表示形式。通常来说,智能机器人系统中的自然语言理解功能包括:1) 用户意图识别:用户意图又包括显式意图和隐式意图,显示的意图通常对应一个明确的需求,而隐式意图则较难判断。2) 用户情感识别:也包含显式和隐式两种。3) 指代消解和省略恢复:在对话过程中,人们通常使用代词来指代上文中的某个实体或事件,或者干脆省略一部分句子成分。因此需要进行代词的消解和省略的恢复。3) 回复确认:用户意图有时会带有一定的模糊性,这时需要系统主动询问对模糊的意图进行确认,即回复确认。4) 拒识判断:系统应当具备一定的拒识能力,主动拒绝识别超出自身回复范围之外或者涉及敏感话题的用户输入。此外,词法分析、句法分析以及语义分析等基本的自然语言处理技术对于聊天机器人系统中的自然语言理解功能也起到了至关重要的作用。


<对话管理>

对话管理功能主要协调聊天机器人的各个部分,并维护对话的结构和状态。对话管理功能中涉及到的关键技术包括:1) 对话行为识别:对话行为是指预先定义或者动态生成的对话意图的抽象表示形式。分为封闭式和开放式两种。2) 对话状态识别:对话状态与对话的时序及对话行为相关联,对话状态的转移由前一时刻的对话状态与当前时刻的对话行为决定。3) 对话策略学习:通常是通过离线的方式,从人-人对话数据中学习对话的行为、状态、流行度等信息,从而作为指导人-机对话的策略。3) 对话奖励:对话奖励是对话系统的中间级评价机制,但会影响对话系统的整体评价。常见的对话奖励有槽填充效率和回复流行度等。


<自然语言生成>

自然语言生成通常根据对话管理部分产生的非语言信息,自动生成面向用户的自然语言反馈。主要包括两类技术:1) 检索式对话生成技术:是在已有的人人对话语料库中通过排序学习技术和深度匹配技术找到适合当前输入的最佳回复。这种方法的局限是仅能以固定的语言模式进行回复,无法实现词语的多样性组合。2) 生成式对话生成技术:是从已有的人人对话中学习语言的组合模式,是通过一种类似机器翻译中常用的“编码-解码”的过程去逐字或逐词地生成一个回复,这种回复有可能是从未在语料库中出现的、由聊天机器人自己“创造”出来的句子。


 

▲知识库与知识图谱

知识库是针对某一领域的需要,把信息和知识按照某种表示方式,有组织、有层次、有结构地存储和管理的方法。知识图谱进一步把知识以实体和语义关系表示,本质上是一种语义网络。知识图谱现在常用来泛指各种大规模知识库。知识图谱的主要技术包括:实体识别、关系抽取、知识表示、知识推理等。开放知识库成为智能问答突破的关键。之前的一些问答系统都是建立在大规模语料库基础上,其主要技术手段是检索和验证。大规模知识库、知识表示和知识推理的引入是影响问答系统智能化的重要因素。为了实现智能问答,需要理解文本信息的语义,将自然语言表示的知识转化为计算机可以理解的形式化表达。问答系统所用到的知识可以粗略地分为语言知识、通用知识和领域知识。


<语言知识库>

指世界各种语言的语法、语义知识、词汇知识等。最典型的代表是英文知识库 WordNet、FrameNet;中文语言知识库如北京大学现代汉语语法信息知识库、 HowNet 等。


<通用知识库>

包括世界知识、常识,甚至包括深入各个学科的分支知识,成为百科全书。这些知识库并非针对特定领域构建,因此可通用于各种领域。构建通用知识库的第一种方法是从海量网络资源中利用信息抽取技术自动抽取知识建立知识库,如卡内基梅隆大学的“ Read the Web” 项目。第二种方法是基于用户协同生成内容(UGC)。如维基百科已经收录了超过2200万词条,而仅英文版就收录了超过400万条。国内也有百度百科和互动百科等。这些知识库都是把网页文本进行一定程度的组织,只能算半结构化数据,形式化程度不够,缺乏语义描述。第三种方法是基于这些半结构化数据进行构建。如YAGO、 DBpedia、Freebase、 KOG/kyliy、 PORE 都是基于维基百科自动生成的知识库。谷歌于2010 年建立了知识图谱 Knowledge Graph,开创了这一新领域。在国内,百度和搜狗也分别推出了 “ 百度知心”和“ 搜狗知立方”。


<领域知识库>

此外,在众多专门领域还有领域专家整理的。以金融领域为例,在智能金融的技术链中,知识图谱居于核心的地位,可以说是金融报表电子化(以XBRL 为代表)以来又一次质的飞跃。知识图谱在金融的应用前景很广泛。例如在营销方面,发现潜在客户和客户的潜在需求。在风控方面,应用于反欺诈、反洗钱和内审内控。在智能客服方面,智能机器人如何将专业语言和智能相结合,专业知识图谱是基础。从对客户语言的理解、客户问题的界定、问题解决模型的建立与知识匹配角度出发,将客户端的输入作为一种核心知识进行管理,沉淀坐席代表、知识库运营人员、质检和培训等不同角色人员的显性和隐性知识,能够统一对这些知识进行分析与应用,才能真正做到智能服务、自动服务。


 

▲语音识别与语音合成

语音识别被称为“机器的听觉系统”,它是以语音为研究对象,让机器通过识别和理解过程把语音信号转变为相应的文本或命令,使人机能自然地进行语音交流的技术。语音识别技术涉及到多个学科领域,如发声机理和听觉机理、信号处理、概率论和信息论、模式识别以及人工智能等等。目前,主流的语音识别系统通常采用基于统计模型的识别技术,它有如下几个基本组成模块:信号处理及特征提取模块;统计声学模型;语言模型;发音词典;解码器。近几年,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展。2016年10月,微软语音识别实现历史性突破,语音转录达到专业速录员水平。11月份,百度、搜狗、讯飞先后召开发布会宣布他们的中文语音识别准确率达到97%,可与人类媲美。不过这些数据是在安静环境下取得,如果环境噪声明显,性能就会下降。


语音合成使电脑具有类似于人一样的说话能力,是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这也涉及到自然语言理解的问题。文语转换过程是先将文字序列转换成音韵序列,再由系统根据音韵序列生成语音波形。其中第一步涉及语言学处理,例如分词、字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,能按要求实时合成出高质量的语音流。因此一般说来,文语转换系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知识的支持。和语音识别相比,语音合成的技术相对说来要成熟一些,并已开始向产业化方向成功迈进,大规模应用指日可待。


【优势与挑战】


客服部门是一个企业服务品质与品牌输出的重要符号,客服环节出现问题会对企业自身造成负面影响,其中客服人员专业与否是决定客服质量好坏的重要因素之一。据艾媒咨询(iiMedia Research)公布中国移动客服最新研究报告显示:国内75%的顾客因对客服不满而放弃购买行为;超过四成的顾客因对客服不满而不推荐他人购买。


目前传统客服行业普遍存在三个短板:一是客服体验不友好;二是顾客等待时间长;三是没有从根本上解决顾客关心的服务问题。同时,传统客服系统无法解决多渠道的有效沟通,成本高,效率低。


从智能客服的角度看,它实现客服的自动化,可以大大减少人工客服的工作量,节约80%的人工成本。其次,智能客服可以方便实现多平台多渠道的沟通。再者,智能客服相应时间快,不知疲倦,服务态度不受感情影响,可以改善客服体验。


然而目前,智能客服仍然存在很大的困难和挑战,主要表现在:如何根据上下文有效理解用户意图;如何根据常识进行推理;如何模拟人类感情在对话中与用户互动等。总而言之,从使用效果上看,智能客服与模拟真人智能还有一些距离,但已给许多企业的客服部门带来了很大的实际效益。


版权所有 侵权必究

如需转载请联系

0571-28829811


恒生技术之眼