炼数成金 门户 商业智能 自然语言处理 查看内容

HFL技术分享 #11 | 知识图谱技术简介

2019-6-5 14:05| 发布者: 炼数成金_小数| 查看: 27923| 评论: 0|来自: 哈工大讯飞联合实验室

摘要: 近年来,随着深度学习技术的蓬勃发展,自然语言处理(NLP)的研究越来越深入,应用越来越广泛。在NLP技术的广泛应用实践中,人们再次认识到知识在NLP中的重要作用。本文对知识图谱的发展历史和现状做了一个简单的调 ...

工具 存储 金融 深度学习 自动化

摘要
近年来,随着深度学习技术的蓬勃发展,自然语言处理(NLP)的研究越来越深入,应用越来越广泛。在NLP技术的广泛应用实践中,人们再次认识到知识在NLP中的重要作用。本文对知识图谱的发展历史和现状做了一个简单的调研,展示了知识图谱的几个典型应用。最后还介绍了科大讯飞在知识图谱方面的一些有益尝试,并且对未来的发展提出了一些看法和建议,希望对知识图谱和NLP从业者有帮助。
 
发展历史和现状
“知识图谱(knowledge graph)”这个词最早由谷歌公司于2012年提出。这个词提出时是一个商业化用语,是指谷歌构建的大规模知识库。之后,其他公司和研究机构纷纷跟进,构建了大大小小、各种各样的知识库,都冠以“知识图谱”的名称。“知识图谱”这个词逐渐演变成一个学术用语。
知识图谱的定义:知识图谱旨在描述真实世界中存在的各种实体或概念。其中,每个实体或概念用一个全局确定的ID来标识,称为它们的标识符。每个属性-值对用来刻画实体的内在特性,而关系用来连接两个实体,刻画它们之间的关联。

图 1:知识工程发展历史

虽然知识图谱的概念出现的较晚,但它实际上属于历史悠久的知识工程的研究范畴。知识工程就是如何把人类的知识教给计算机,让计算机理解并学会运用知识。如上图所示,知识工程出现于上世纪50年代,经历了“前知识工程时期”、“专家系统时期”、“万维网1.0时期”、“群体智能时期”、“知识图谱时期”[1]。和以往历史阶段相比,知识图谱时期知识工程的显著特点是知识库的规模巨大,并且知识库构建的自动化程度较高。

知识工程发展历史上,曾经非常注重基于知识的推理,认为只有做到了逻辑推理,才能实现机器智能。但基于符号表示体系推理系统,具有覆盖度低、鲁棒性差的缺点,难以在大规模范围内做到实用。而知识图谱的蓬勃发展,得益于轻量化的语义表示,不再过分强调逻辑推理能力,不再过分关注概念型知识,从而实现了自动化构建超大规模的知识库的能力[2]。

知识图谱一般使用三元组作为知识表示的基本形式。三元组由头实体、尾实体、以及他们之间的关系组成,写成<头实体,关系,尾实体>的形式。三元组虽然形式简单,但其表示能力可以覆盖大部分的知识。对于一些复杂的知识,可以采用高阶三元组或者Compound Value Type(CVT)的类三元组形式。高阶三元组的例子如:<美国 总统 特朗普 ,开始时间,2017年>。CVT的例子如下图所示[3]:

图 2:Compound Value Type示例

传统的知识图谱还是基于符号的离散化知识表示形式。最近,随着深度学习的飞速发展,基于连续向量的知识表示形式被引入到知识图谱中来。和传统的离散符号的知识表示相比,连续向量的表示方法具有更好的鲁棒性、兼容性,更容易与神经网络模型对接。但同时,它隐式的知识表示形式不易于显示的解释,不方便进行逻辑推理约束。

知识图谱技术包括三方面的内容:构建技术、查询推理技术、应用方法。知识图谱构建技术,主要包括实体识别与链接、实体关系学习、知识表示学习等。知识图谱的查询推理技术包括三元组的存储和查询、基于符号的推理、基于统计的推理等。知识图谱的应用包括语义集成、语义搜索、知识问答等。
一个知识图谱的生命周期包括六个阶段:知识建模、知识获取、知识融合、知识存储、知识计算、知识应用。第一阶段的知识建模和后面的知识计算和应用阶段离不开业务专家的参与,而在知识的获取、融合、存储阶段应尽量提高自动化构建水平。

图 3: 知识图谱生命周期

知识图谱从覆盖范围上来讲,分为通用知识图谱和专用知识图谱。通用知识图谱覆盖面广,囊括了世界知识、常识知识等。典型的通用知识图谱有DBpedia、YAGO、Babelnet等。中文通用知识图谱有Zhishi.me、CN-DBPedia、XLore等。专用知识图谱也叫领域知识图谱,一般针对某个领域内的知识深挖,旨在囊括该领域知识的方方面面。常用的领域知识图谱有电商知识图谱、图情知识图谱、创投知识图谱等。

知识问答是知识图谱的一个典型应用。基于知识的问答系统的三个关键技术问题是:
1.问句语义解析
问句语义解析的任务是将用户问题转化为查询语句,把用户问题中的语义单元与知识库中的实体、属性建立链接。可以利用深度神经网络将用户问题解析成为隐式表达的分布式数值向量的形式,但如何与知识图谱中的实体、关系相关联还有待研究。

2.大规模知识推理
不是所有问题都能通过检索就可以获取答案。例如知识库中的关系名称是“国籍”,而用户查询语句中问的是“出生地”,这就需要由“出生地”推理到“国籍”。目前基于分布式知识表示向量的推理正处于探索阶段。

3.异构知识关联
大规模知识图谱往往由多个知识源融合而成,而多个知识源的结构和表示往往存在不一致,如何关联异构知识成为一个关键问题。常用方法是通过子问题精准划分、挖掘知识库间的同指关系,利用同指关系,综合多个知识库信息,回答用户问题。

传统的知识问答系统基于λ范式、DCS-Tree、组合范畴语法、依存组合语法等语义解析方法,近年来部分学者提出了基于深度学习的知识库问答方法。传统方法的缺陷是灵活性差、受语义鸿沟影响、多步误差传递造成性能下降,而基于深度学习的方法的语义匹配更鲁棒。有学者尝试将两种方法结合,优势互补,做出了更好的效果。下图展示了在一个公开问答数据集上的效果进展[1]。

知识问答系统未来的发展方向有:面向复杂问句的深度学习知识库问答方法、分布式表示与符号表示相结合的知识库问答、面向问答的深度推理、对话中的自然语言形式回复。期待这些方向的长足进步。

图 4:知识库问答方法效果比较
 
典型应用
知识图谱最早被应用于搜索引擎领域。基于知识图谱,谷歌搜索在侧边栏中展示用户查询的关联信息,比如查询“Bronx zoo”,右侧边栏会给出布鲁克斯动物园的相关信息。

图 5:谷歌搜索侧边栏举例

或者直接回答较复杂的搜索语句。比如搜索“姚明的妻子”,直接给出“叶莉”。

图 6:谷歌搜索直接回答用户查询举例

自从谷歌公司推出知识图谱,各平台巨头纷纷重仓知识图谱。必应、搜狗、百度均在一年之内宣布各自的知识图谱产品。百度知识图谱百度之心,除了复制谷歌搜索的实体名片和直接回答功能外,还有更多深层次的应用,包括无处不在的推荐、深度问答、情感分析、智能交互等[2]。

图 7:百度深度问答产品举例

百度高级副总裁王海峰表示,百度知识图谱服务规模在三年间增长了160倍。搜狗CEO王小川说,过去一年,搜狗移动搜索流量增长了70%,主要归因于知识图谱、人工智能和差异化内容的运作。除了搜索引擎公司,腾讯、阿里、Facebook等社交和电商公司也纷纷推出各自的领域知识图谱。
近年来,知识图谱被广泛应用于聊天机器人和问答系统中,例如IBM的Watson,苹果的Siri,Google Allo,Amazon Echo,百度度秘,公子小白等。同时,在金融、农业、电商、医疗健康、环境保护等大量的垂直领域,知识图谱都得到广泛的应用。例如用来辅助金融专家进行风险控制、欺诈识别,辅助专家进行药物发现、潜在靶点识别等。

知识图谱催生了很多初创公司,代表公司有文因互联、智言科技、明略数据、达观数据、海知智能、渊亭科技。这些公司往往从垂直领域切入市场,如智能客服、金融、法律、公安、航空、医疗。他们的商业模式主要有三种:产品定制、通过集成商销售通用模块、提供特定技术环节。

许多业内企业、大学等机构为共享知识图谱建设成果,结成联盟。国际上著名的Unigraph知识图谱联盟已经汇集了150个知识图谱数据源,实体数过亿。中文开放知识图谱联盟OpenKG.CN汇集了57个成员、81个数据源[4]。OpenKG.CN还提供了一些知识图谱构建和查询工具。

总结与建议
知识图谱是自然语言处理中的必要工作,因为机器理解语言离不开背景知识,理解本身就是在已有知识库上建立链接的过程。知识图谱是实现机器认知智能的核心技术,它使机器认知语言,使人工智能变得可解释。知识引导成为问题的求解方式之一,知识将显著增强机器的学习能力。相比数据,知识是更为重要的资产。

当前业界对知识图谱关注度和投入较低,构建过程的自动化程度不够高,技术通用性不够好。多数知识库仅用到了结构化知识,对大量非结构化文本的挖掘程度不够。而且几乎所有知识图谱仅涉及到静态的知识,未覆盖动态知识,仅支持知识检索,不支持知识推理。

因此,对未来工作的建议包括如下方面:
加大投入,迅速推进前沿技术
开展更多从海量非结构化文本中挖掘信息的研究
继续推进基于深度学习的知识获取和应用研究
开展领域无关的通用构建技术研究、通用工具开发,提升自动化水平
开展基于知识图谱的推理技术研究
利用知识图谱增强 数据表示,提升推荐、问答等应用效果
提前布局动态事件知识图谱建设

参考文献
[1]中文信息学会语言与知识计算专委会,《知识图谱发展报告(2018)》
[2]鲍捷,《深度解析知识图谱发展关键阶段及技术脉络》
[3]张奇,《知识图谱简介》
[4]《百度知识图谱进展》

声明:本文版权归原作者所有,文章收集于网络,为传播信息而发,如有侵权,请联系小编及时处理,谢谢!

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括:各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2019-9-20 00:37 , Processed in 0.163552 second(s), 24 queries .