有助于推动数据智能升级的技术趋势,哪些已近在眼前?

章乐焱
1155     
摘要:当下我们正处于数字化转型时代,数据分析与挖掘是激发数据潜力的重要一环,一些前沿技术的落地已经近在眼前。
当下,我们正处于数字化转型的时代,大数据与人工智能、区块链等技术加速融合,共同助推数据智能升级。在这个过程中,数据分析与挖掘是激发数据潜力的重要一环。其发展有哪些重要趋势?哪些变化已经近在眼前?哪些技术需要我们保持一定的关注,提前布局?结合恒生实践与行业需求,笔者将对数据分析前沿技术趋势进行介绍与解读。

这些变化已近在眼前

Gartner在预测数据分析与挖掘趋势时,考虑了两个维度:在数据分析方面,需要从刻意设计向响应式设计发展,越来越强的AI能发现新的业务问题,而不是回答现有的问题,数据结构越来越难以预先确定,因此对于敏捷响应的需求将越来越高;对于数据本身来说,将从集中向分布式状态发展,数据将以更分散的方式存储,自助分析(非专业数据分析团队)会成为常态,基于数据的决策将在整个生态系统中进行,因此需要降低数据分析的难度。结合这两个维度,笔者认为,以下趋势所带来的变化已近在眼前:

到2020年,增强分析将成为商业智能(BI)、数据科学、机器学习平台等发展的主要驱动力;
到2020年,将有50%的分析查询是通过搜索、自然语言处理和语音生成的,或者将自动生成;
到2021年,机构员工对于自然语言处理和对话分析的采用率,将从35%提高到50%,尤其前台工作人员的采用将增加;
到2021年,持久化内存(非易失性内存)将占内存计算GB消耗的10%以上;
到2022年,图形处理和图数据库的应用将以每年100%的速度增长,并不断加速数据准备以实现更复杂和适应性更强的数据科学;
到2022年,通过增加机器学习和自动服务级别管理,数据管理手动任务将减少45%。
来源:Gartner、恒生研究院

增强分析将让数据分析更容易 

所谓增强分析(augmented analytics),就是在传统分析功能中加入自动化等更多的增强功能,满足更多的数据分析需求,同时增强专家和数据科学家的实力。在传统的数据分析中,有很多繁琐的数据准备工作,增强分析能够支持机器学习等技术辅助数据准备。在数据管理方面,由于数据一直在变化中,包括数据的结构、责任方等,因此数据管理也需要更高的自动化程度,从而降低专家、数据科学家在数据准备、管理等方面的负担。类似于自然语言处理对文章的摘要提炼,增强分析可以自动进行见解生成和见解说明,自动提取最关键的信息,为业务人员、分析人员等提供创新的数据探索与分析方式。这种分析方式也将越来越多。

NLP将让数据使用更容易

未来,自然语言处理与对话分析的应用,将在数据分析中越来越多,让数据使用变得更容易,并且更“聪明”。在打造数据平台时,由于数据资产比较多,哪怕有逻辑上很优秀的目录结构,查找的时候也会有一定难度,因此需要做全局搜索。通过引入自然语言处理技术,用类似智能问答的方式来帮助用户快速查找数据,能够在很大程度上改善用户使用体验。

硬件升级对数据分析有重要影响 

现在,持久化内存(persistent memory,非易失性内存)的性价比正在不断提升,其比传统存储器有更高的容量,带宽/延时性能可以更好,能直接当做内存使用,同时成本也在逐渐下降,有助于提升数据库的性能竞争力。因此,硬件的升级,尤其是革命性的升级,也需要我们给予更多关注,这将为数据分析带来很多变化,例如对架构、选型等产生一定的影响。


来源:Gartner、恒生研究院

知识图谱有助实现更复杂的数据科学

目前,行业对于图处理和图数据库的需求已经有显著的增长。世界上很多事物的关联都可以体现为图形的关系,因此用图的形式来表达更加有助于查找、分析。在图技术的加持下,数据分析可以提供可视化工具供业务用户直接使用,提供更接近人类知识表示的深刻见解,并且为创建更丰富的语义图提供基础,对增强分析、对话分析进行支持。另外,数据资产之间的相互关系,也是比较复杂的图关系,因此可以通过形成数据血缘(也叫数据图谱、数据地图)来进行数据管理。

机器学习有助推动数据管理的自动化

Gartner预测,到2022年数据管理手动任务将减少45%。数据管理自动化的实现,除了RPA,还需要机器学习等AI技术推动,从而实现元数据自动发现,对关乎数据管理的重要清单、目录、语义、分类法和本体等自动发现,实现自动化数据资产构建,推动数据融合,并且进行动态数据识别。到2023年,基于AI的数据管理自动化将使IT专家的需求减少20%。

未雨绸缪,布局未来

关注持续智能 

Gartner认为,持续智能(continuous intelligence)强调AI应用系统的反馈,根据反馈来持续迭代模型,这样的智能系统将能够使用实时上下文数据来改善决策。例如,当我们通过分析得出一个规则,这个规则不一定是永久有效的,而是会随着数据等各方面的变化而变化,具备持续智能的系统能够按需实时分析,对变化、反馈等有更加敏捷的反应。

关注数据分析中的区块链

区块链技术的核心价值很大程度上是为不受信任的参与者网络提供去中心化的信任,有助于解决数据分析中的两个挑战:区块链技术可以提供跨机构的数据资产和交易的全部血缘;为复杂的参与者网络提供了透明度。不过,笔者认为,区块链作为一种分布式账本技术,在数据分析中的应用仍处于起步阶段,目前大量的高价值的数据分析还仅限于金融机构内部的关键小数据,外部的大数据一般只是用来印证内部数据分析的结论或者观点,区块链这种分布式帐本上的外部数据,对分析的支持就更有限,并且对数据管理能力提出了一定的考验。同时,区块链技术与现有数据和分析基础架构的集成成本,也可能超过区块链带来的潜在利益。

关注数据编织

数据编织(data fabric)是一个新兴概念,它利用设计方法、增强功能以及ML学习概念来创建新兴和动态模型。因为数据将越来越体现为分布式的状态,那么数据分析处理的全过程也需要越来越具有动态性,数据编织所体现的,正是动态的分布式数据环境下的数据信息的复杂度。如何在分布式数据环境中进行数据分析与处理,进行数据访问与共享,也是需要我们关注并思考的。

关注可解释的AI 

在前文我们提到,未来将有很多见解自动生成,这些见解可能会对决策产生影响,如果使用的AI不具有可解释性,就会带来一定的风险。对于AI的应用来说,具有可解释性的AI的落地场景也会更加广阔。随着我们朝着包括见解生成、增强分析等的方向发展,AI的可解释性将越来越重要。 

总的来说,数据分析与挖掘的自动化不是锦上添花,而是大势所趋,因此恒生也会在机器学习等技术上加强投入,不断提升自动化程度,与行业合作伙伴一同探索AI技术在数据分析与挖掘相关场景的应用,推动数据智能升级。
未经授权禁止转载,详情见转载须知

联系我们

恒 生 技 术 之 眼