Knowledge Graphs


本文总结了知识图谱的核心论文之一《Knowledge Graphs》

定义

知识图谱的定义是有争议的,在本文中使用包容的定义,即我们将知识图谱看作一个关注累积和转化现实世界知识的数据图谱,它的节点展现了兴趣实体,而边展现了实体关系。

至于知识,我们定义为已知的事物。这种知识可以从外部源累积,或者从知识图谱中解析。知识可以由简单陈述组成,如“圣地亚哥是智利首都”,或者量化陈述,如“所有首都都是城市”。简单陈述在数据图中可以作为边被累积。如果知识图谱想要累积量化陈述,需要一个更具表现力的方式来展现数据——如本体(a branch of philosophy that deals with the nature of existence)和规则。可以使用演绎方法来继承和积累更多的知识(例如,“圣地亚哥是一座城市”)。 附加知识——基于简单或量化语句,可以用归纳方法从知识图中提取和积累。

演绎(Deductive): characterized by or based on the inference of particular instances from a general law.(从一般规律推断特定实例或基于这种推断)
归纳(Inductive): characterized by the inference of general laws from particular instances.(从特定实例推断一般规律的特征。)

数据图

模型

有三个常用图数据模型:

有向标记图(Directed edge-labelled graphs)

一个directed edge-labelled graph 是一个节点的集合加一个节点之间有向边的集合。在这种知识图谱中,节点用于展示实体而边用于展示实体间的(二元)关系。在这样的图中添加信息典型地涉及添加新的节点和边,展现未完成的信息仅需要省去一部分边。例如,图没有定义国庆节的起止日期。

当结构数据模型如树(XML, JSON, etc)可以提供相似的可塑性,图不需要层次地组织数据(有地点应该是父、子、类型的兄弟的例子吗?)它们应该也允许环用于展示和查询(如路程的有向环)。

基于有向标记图的标准化数据模型是资源描述框架(RDF),RDF模型定义了不同类型的节点,包括
可以用于全球网络实体识别的国际化资源标识符(IRIS);
用于表示字符串(可能有或没有语言标记)的字面量和其他数据类型的值(整数,日期,等等);
不赋值任何标识符的匿名节点,空节点。

图数据集

尽管多个有向图可以被联立整合,通常更需要管理多个图而不是一个单片图; 例如,从不同源管理多个图可能更有益,这使从一个源更新和重定义数据,从值得相信的源区别不值得相信的源等等变为可能。一个图数据集由命名图和一个默认图的集合组成。每个命名图都是一个图ID和图的键对。默认图是一个没有ID的图,被“默认”引用如果一个图ID未特定。我们在这里着重声明图名是可以作为图的节点的。此外,在图之间的节点和边可以重复,在不同图中的相同节点通常表示相同实体,并允许在整合图时对实体中的数据进行整合。

图数据集的一个突出用例是管理和查询链接数据,该链接数据由横跨Web的RDF图的互连文档组成。当处理这些网页数据,追踪数据源至关重要。

相关