A knowledge representation model based on the geographic spatiotemporal process
A knowledge representation model based on the geographic spatiotemporal process(基于地理时空过程的知识表示模型)
0 Abstract
知识图(KGs)将实体和关系表示为计算表网络,对于发现隐藏的知识和模式具有重要价值。地理知识图谱主要描述静态事实,难以表示变化,极大地限制了其在地理时空过程中的应用。本研究通过分析地理要素的时空特征和演化,提出了地理演化知识图(GEKG)。它的表示模型有五个核心元素: 时间、地理事件 (geo-event) 、地理实体 (geo-entity) 、活动和属性,并定义了六个关系: 逻辑、语义、进化和时间关系、参与和包含。它建立了一个分层的立方模型结构,每个时间层从最早的地理事件开始垂直和水平延伸。垂直扩展是指不同类型元素之间的联系,例如地理实体和地理事件之间的参与关系。水平扩展表示相同类型的元素之间的关联,例如地理实体之间的语义关系。对于不同的层,元素的时空差异产生了演化关系。 最后,GEKG与又一个大本体(YAGO)和地理知识图谱(GeoKG)的比较表明,GEKG在表示地理演化知识、揭示地理要素的演化机制和演化原因方面更具优势。
Chart
Fig 1:模型的图形结构。
Fig 2:每个元素的表示示例。(a) 地理事件之间的关系(b)地理实体之间的属性和关系,以及(c)地理事件的结构。
Fig 3:澳大利亚季风区发展的“同期元素之间的关联”示例。
Fig 4:不同层次之间的关联。(a) 澳大利亚季风区发展的 “地理事件的关联” 示例。(b) 印度南端发展的“地缘实体演化”示例。(c) 东亚季风区发展的 “地理事件与地理实体之间的联系” 的例子。
Fig 5:以“印度大陆的演变”为例的 YAGO 结构。
Fig 6:“印度大陆和印度南端的演变” 的GeoKG结构。
Table 1:三类有关季风区发展的查询问题。
Fig 7:(a) “印度半岛演变”案例的 GEKG 结构。 (b) (a) 的平面表示。
Table 2:YAGO、GeoKG和GEKG对表1中提出的问题的检索结果。结果以粗体显示,以下内容解释了每个答案。 YAGO 的内容是三元组以获得结果。 GeoKG 的内容是相关的对象和状态。 GEKG的解释根据公式(1)至(6)表示。
Table 3:YAGO、GeoKG 和 GEKG 的准确度以季风区为例。 根据结果与正确答案的匹配程度来确定。 百分比分数表示包含多少个单词。
Table 4:YAGO、GeoKG、GEKG综合能力对比。 “Strong”是指准确完整的答案,没有重复。 “Relatively strong”是指答案正确完整,但表达不够清楚或有重复。 “Moderate”表示结果不完整或某些组件不准确。 “Weak”表示结果与问题不匹配。
Table 5:YAGO、GeoKG和GEKG的应用及局限性。
4.2.3 Discussion
根据三张图的特点,将它们的局限性和应用场景对比如下(表5):
问一个问题:“Q1:南非季风区在哪里?”举个例子。YAGO和GEKG的结果是“从赤道到20°S”。它们都可以简洁有效地表示静态事实。GeoKG存储了大量的重复项,导致检索效率较低。对于变化的问题(例如'Q3:印度支那半岛的类型发生了怎样的变化?'),YAGO的结果是类型的多个值。 GeoKG 和 GEKG 可以直接表示类型如何变化。对于原因的问题,只有GEKG具有明显的优势。它代表了地理事件的进化原因,其他两个没有结果。总的来说,YAGO更适合描述静态事实。GeoKG存储不同时期实体的不同状态,更适合表示短时间内实体的频繁变化。对于GEKG来说,它在表示进化过程和原因方面具有优势。有时,属性的检索需要简单的推理,这对性能的影响相对较小。
5 Conclusion
本研究提出了一个层次的知识表示模型来表示地理时空过程。主要创新点可归纳如下:首先,该模型基于时空特征和演化关系,提出了地理实体的知识表示方法,建立了不同时空状态的地理实体之间的关系,并能清晰地表示它们的演化。其次,该模型提供了地理事件和地理实体之间的关系表示机制,展示了它们之间复杂的关联和相互作用。第三,建立了具有时间层次的立方模型结构,有助于表征地理要素随时间的演变。
地理KG扩展为描述地理进化知识,然后生成地理演化知识图 (Geographic evolutionary knowledge graph,GEKG)。对于GIScience,GEKG提供了一个结构化的、可计算的知识表示模型,有助于发现隐藏的地理知识和时空格局,揭示地理要素的演化机制和地理现象的组成部分。
实验结果表明,GEKG具有很强的表达能力,不仅可以描述关系和性质,还可以代表季风区域的形成、发展和变化。总体而言,GEKG的表示模型是一种基于地理时空过程的结构化知识组织方法。与地理KG相比,它为基于地理时空过程的进化知识表示、时空分析和推理提供了重要支持。
未来的工作仍应考虑以下问题:当前的知识提取方法不系统和不成熟。 对于GEKG模型,需要对现有方法进行改进,形成较为完整的基于过程的知识自动抽取框架。
1 Introduction
在大数据时代,地理时空数据的快速增长以及缺乏高效的知识抽取技术使得时空知识和模式的发现变得困难(Lin et al. 2018)。如何利用智能技术来表示和分析时空过程是一个紧迫的问题,也是时空数据处理及其智能应用的关键(Luo et al. 2013, Deng et al. 2020)。
具有地理时空过程的传统可视化模型使用空间数据作为视觉整合的背景。这仅显示单个地理元素的时空变化,缺乏描述元素之间的交互和语义关系的能力(Zheng et al. 2013, Shi et al. 2019)。地理知识图(KG)为知识发现、推理和预测等过程建立语义知识网络(Gong et al. 2014, Jiang et al. 2018)。它提供了一个可计算的结构来分析地理实体(地理实体)之间的关联,识别隐藏的地理关系,并发现地理模式。
地理知识库主要关注地理实体,描述地理实体之间的属性和关系。但是,对于地理时空过程的表示,忽略了进化知识,例如地理事件的发展以及地理实体的形成,演化和破坏。这些对于揭示地理要素的演化规律和机制具有重要价值。例如,台风的时空模式可以从其时空变化中获得。它可以为预测此类台风的路径和对天气的影响提供参考,对台风预测和预警具有重要价值(Liu et al.2020)。
这些地理KG的表示模型以
的形式组织知识,难以表示变化。这些知识服务仅限于静态事实,极大地限制了对地理时空过程的深入研究。为了提高对演化知识的表达能力,本文提出了地理演化知识图 (GEKG)。通过表征地球事件和地球实体的长期发展变化,可以为揭示地球的形成过程、演化规律以及基于过程的推理和预测提供支持。
2 Related work
以结构化的方式表示地理元素的发展和变化,为智能计算,推理和预测奠定了基础。目前表示时空过程的主要方法,可分为两种:那些基于本体的和那些基于图的。 此外,处理的过程也可以用公式来反映处理的效果。
2.1 Representation by formulae
使用公式来表示过程是非常普遍的。它通常会考虑许多因素,反映处理的效果。以大气污染物浓度分布为例,建立了描述或预测大气污染物浓度变化的时空模型(Zou et al. 2016, Deng et al. 2018)。集成卡尔曼滤波器用于获得土地利用变化的最佳估计(Li et al. 2012)。局部回归模型用于根据时空数据估计空气污染物的浓度(Leung et al. 2019)。该方法将变化表示为数值模型进行预测和计算,更适用于单一地理要素的变化。
2.2 Representations based on ontology
地理本体作为一种概念和形式规范,准确地定义了知识的概念和实体之间的关系(Lopez Pellicer et al.2012)。基于本体的方法通过对相关元素本体之间的语义、因果关系和进化关系进行建模来表达该过程。例如,构建了序列本体、状态本体和过程本体等本体,并建立了它们之间的交互,实现了对复杂动态地理现象的建模 (Xue et al. 2019)。地理本体和表征用于表示地理场景,并建立不同场景中元素之间的连接以模拟演化(Huang et al. 2019)。通过构建以地理过程为中心的本体模型,利用地理场景、地理过程和地理要素之间的相互作用来表征地理现象的动态变化(Cao et al. 2018)。基于本体的方法通常基于一系列子流程和子场景,强调它们之间的关系以及地理元素在流程中的作用。因此,这些方法缺乏过程与地理要素演化之间的相互作用。
2.3 Representations based on graphs
目前,地理 KG 的表示模型以
(1)时间知识图谱,在典型三元组的基础上,加入时间、变化等元素,可以代表不同时期实体的差异。例如,使用全球事件、语言和语气数据库(GDELT)和综合危机预警系统(ICEWS)数据集,知识图谱以
的形式组织(Trivedi et al. 2017, Liu et al. 2019a, Jin et al. 2020)。基于DBpedia,构建不同版本的知识图谱,每个版本都是特定时期的知识快照(Tasnim et al. 2019)。地理知识图谱(Wang et al. 2019)定义了六个基本元素来描述地理实体,即位置、时间、属性、状态、变化和关系。它使用实体状态来表示变化。时间知识图以实体为研究对象,可以表示属性的差异。
(2) 事件图。这些图关注事件并描述其发展过程。例如,事件逻辑图 (ELGs) 描述事件之间的演化模式和逻辑关系 (Li et al. 2018, Ding et al. 2019) 。ELG将抽象事件作为节点,但与确切的参与者,位置和时间无关;它以顺序和因果关系为边来表示事件的逻辑发展。患者事件图对医疗活动之间的时间关系进行建模,相关实体仅作为参与者存在(Liu et al. 2018)。根据文本中事件的顺序,基于事件图生成对话,并通过事件链进行多轮对话预测(Xu et al.2020)。实体一般充当事件的参与者,事件图并不直接关注实体的变化以及实体与事件之间的交互。
地理时空过程是地理实体和相关地理事件的长期演化。 地理事件的发生导致地理实体的变化,产生新事件。总而言之,地理KG的代表性仍存在几个问题:(1) 缺乏事件和实体之间复杂关联的表示(即它们共同进化并相互关联),(2) 时间不只是一种属性,因为它也传达了进化的方向。
3 地理演化知识图谱的表示模型
地理时空过程是地理元素的长期演变,例如,包含时间,地理事件及其组成元素,地理实体及其相关属性。地理演化知识图谱是一种全新的地理知识图谱,代表了地理元素的演化过程。通过选用具有时间层次结构的立方结构,其表示模型建立了同一层和不同层中的地理元素之间的复杂关联。
3.1 The knowledge representation approach
3.1.1 Main elements in the representation model
根据地理要素在时空过程中的特征,该模型具有五个核心要素:时间、地理实体、属性、地理事件和活动。 地理实体和地理事件构成了核心。
- (1) 地理实体:存在并可与其他地理实体区分开来的单个实体,例如山、河或岛屿的特定实例。
- (2) 时间:一段时间。
- (3) 属性:特定于每个地理实体的属性,例如位置、面积和形状。
- (4) 地理事件:在一定时期内涉及一个或多个地理实体的活动(Xiang and Wang 2020)。
- (5) 活动:地质事件中地质实体的运动或变化,如冰川运动、河流撕裂或大陆板块的构造运动。
3.1.2 The representation approach of geographic elements and relations
3.2. The hierarchical cubical graph structure
在一个地理过程中,所有要素在同一时期相互关联,在不同时期又存在差异。根据地理元素和关系的表示方法,我们建立了一个具有时间层次的立方图结构来表示演化(图1)。GEKG 可以分为不同的时间层。 每一层都反映了当前时间地理事件、地理实体和属性的关联; 在不同的层之间,所有元素都以不同的方式演变。
(2) 每个元素的表示
在 GEKG 的表示模型中,将每个地理事件作为一个整体,不同的地理事件之间存在逻辑关系(图 2(a))。对于地理实体,属性是区分它们的标志。每个地理实体都有自己独特的空间特征和属性,不同地理实体之间存在语义关系。因此,地理实体的组织如图2(b) 所示。由于地理事件具有一定的结构,所有元素都通过建立它们的连接来相互关联。地理事件的结构如图 2(c) 所示。
(2) 同一层中的关联。
根据图2中的表示,同一时期的关联可以表示为图3所示的结构。也就是说,在同一层中,所有元素都属于当前期间,并且属性和关系没有改变。
(3) 不同层次的关联。
对于每个时间层,元素以相同的方式关联。然而,随着时间的推移,各种元素以不同的方式进化 (图4)。不同时期地理事件之间的关联如图4(a)所示。在演化过程中,一个地缘事件的发生引发一系列相关的地缘事件,反映了地缘事件发展的逻辑。地理实体的属性可能会随着时间而改变。 根据不同时期的差异,可以建立演化关系(图4(b))。从“中古新世”到“晚始新世”,“the same as”是一种演化关系,这表明“印度的南端1”没有改变。“中古新世”和“晚始新世”分别代表实体状态的开始时间和结束时间。 从“晚始新世”到“晚渐新世”,类型的价值发生了变化。
进化关系 “演变为” 更改前后的实体,表明 “印度的南端1” 已演变为 “印度的南端2”。因此,“晚渐新世”是实体新状态的开始时间。 地球实体的变化表明地球事件的发生(图4(c))。事件表明“东亚季风区1”的属性发生了变化,活动代表了位置变化。“东亚季风区1”和“东亚季风区2”分别是变化前后的实体,它们具有“evolves into”的进化关系。该事件涉及两个时期,但变化实际上发生在后一个时期。因此,它被放置在图4(c)中的后一个时间层。另外,实体的产生和消亡也可以用图4(c)来表示,只涉及一层。
4. Experiments
4.1 Dataset description
本研究的数据来自中文文本语料库。我们从中文维基百科、互动百科全书和中国国家知识基础设施(CNKI)等在线网站上爬取了56,897篇关于山脉、矿物、海洋和岛屿形成和演变的中文文本。中文文本由语言技术平台 (LTP) (Che et al. 2010) 进行预处理,例如分词、分词、词性标注和命名实体识别。在此基础上,我们采用“关键字和上下文感知关系提取模型”和“基于图卷积网络和注意力机制的事件提取模型”来提取关系和事件。最后,我们建立了一个包含60,000多个事件、140,000实体、160,000属性和210,000关系的数据库。根据GEKG的组织形式,本文使用Neo4j图数据库进行图存储和显示。
4.2 The YAGO, GeoKG and GEKG
另一个巨大的本体 (YAGO) 和地理知识图 (GeoKG) (Wang et al. 2019) 与我们的 GEKG 进行了比较。以“亚非澳季风区的演变”为例(Liu et al. 2019b),相关地理知识被提取并人工修正。构建了三个知识图谱,对其结构和表达能力进行了分析。提出 GeoKG 来表示地理实体的变化。YAGO 是一个具有代表性的开源知识图,其中许多项目包含时间和空间维度的描述。请注意,我们将我们的模型与最新版本的 YAGO4 进行了比较。
4.2.1. Structure comparison
4.2.2 Comparison of knowledge expression abilities
根据地理知识更注重发展变化的特点,本文设置了事实、变化和原因三类问题(表1)。第一类问题与检测一般知识的表征有关,第二类与进化有关,第三类与进化原因的表征有关。
(1) 这些问题的比较。数字语言是用来进行基于Neo4j图形检索任务。问题是单独查询, 结果如表2 所示。
表3 给出了三个图表的准确性、完整性和重复性。
GEKG的结果准确性优于其他两种方法 (表3)。对于与事实有关的问题,三个图的结果是完全准确的。Q3和Q4是关于地理实体的变化。YAGO只描述事实,不能代表变化。在Q3和Q4中,YAGO的结果是多个属性值。不同时期的结果可以表明有变化,但与问题不符,不准确。由于缺乏事件的代表性,YAGO和GeoKG没有给出Q5和q6的结果。
在完整性方面,GEKG的结果优于YAGO和GeoKG。对于与事实有关的问题,三个图的结果令人满意。对于与更改相关的问题,YAGO的结果与问题不匹配。尽管GeoKG可以给出部分结果,但它们并不完整。例如,在第四季度,印度大陆的变化不仅包括其位置和类型。GEKG的结果包括新的关系和相关事件,从而产生了更完整的表示。
重复通常是针对与事实相关的问题。 GeoKG 的结果比 YAGO 和 GEKG 的结果有更多的重复。 Q1南非季风区的位置没有改变,所以YAGO和GEKG的重复率都是零。虽然 GeoKG 的结果是在五个不同的时期,但它们是相同的,并且重复性远高于其他两个。第二季度,印度大陆的位置由中古新世转变为晚始新世。 YAGO的结果仍然不是多余的。 GeoKG 存储了四个相同的位置。 GEKG 有重复的原因是它将地理实体的所有属性视为一个整体状态。印度大陆在晚始新世和晚渐新世位置相同,但前者为非季风区,后者为季风区。两个时期印度大陆的整体状况是不同的。因此,当属性发生变化时,当前实体与上一时期不同。
考虑到准确性,完整性和重复性 (表4) 的组合,YAGO只能准确回答事实问题,但重复性低。GeoKG具有较高的准确性,但也具有较高的可重复性。对于与变化相关的问题,GeoKG的成绩并不完整,因此综合能力适中。GEKG为所有问题提供了准确的答案,并且在表示过程方面具有特殊优势。GEKG旨在表示进化信息,因此具有低冗余度。
总之,在结构方面,GEKG强调了地质实体和地质事件随时间的演变,它们比GeoKG和YAGO包含更多的程序性知识。GEKG具有较好的表达能力。对于与事实相关的问题,三个图表的结果是准确的,但GEKG的结果在与过程相关的问题上明显优于GeoKG和YAGO的结果。GEKG在表示进化知识方面具有绝对优势,并且比其他两个图更完整。