A review of location encoding for GeoAI: methods and applications


A review of location encoding for GeoAI: methods and applications(GeoAI的位置编码回顾:方法和应用)

0 Abstract

在地理科学中,人工智能模型的一个共同需求是在隐藏的嵌入空间中对各种类型的空间数据(例如点、折线、多边形、图形或栅格)进行编码,以便它们可以很容易地整合到深度学习模型中。一个基本步骤是将单点位置编码到嵌入空间中,这种嵌入对于下游机器学习模型十分有利。称此过程为位置编码。然而,缺乏对位置编码、其潜在应用和需要解决的关键挑战的系统评价。本文旨在填补这一空白。首先提出了位置编码的定义,并讨论其在GeoAI研究中的必要性。之后,对位置编码研究的现状进行了全面调查。根据输入和编码方法将位置编码模型分为不同的类别,并根据它们是否是参数、多尺度、距离保持和方向感知进行比较。同时证明了现有的位置编码器可以在一个公式框架下统一。还讨论了位置编码的应用,指出了未来需要解决的几个挑战。

Chart

image-20220421145147493

Fig1: 以基于位置的物种分类作为下游任务的位置编码图示。二维空间中的这 20 个点代表物种出现记录。每次出现都可以写成 \(p_{i} = (x_{i},y_{i})\) ,其中 \(x_{i}\) 指示2D位置,表示对应的物种类型。\(\mathcal{N}\left(x_{i}\right)\) 表示 \(x_{i}\) 的空间邻域 位置编码器将 2D 位置 \(x_{i}\) 作为其输入,并将位置嵌入作为高维向量输出。这种嵌入被进一步输入到下游的 NN 模型 \(M()\) 以进行物种预测。 整个模型架构可以用监督学习的方式进行端到端的训练。

image-20220421142852847

Fig2: 位置编码的方向保持特性图示。将 \(\mathbf{x}_{O}\) 作为参考点,将 \(y\) 轴作为全球北向,\(\mathbf{x}_{A}\)\(\mathbf{x}_{B}\)\(\mathbf{x}_{C}\) 位于以 \(\mathbf{x}_{O}\) 为中心的同一个圆上,与 \(\mathbf{x}_{O}\) 的距离相同。\(\mathbf{x}_{A}\)\(\mathbf{x}_{O}\) 之间的相对空间关系定义为 \(\Delta_{A O}=\mathbf{x}_{A}-\mathbf{x}_{O}\)\(\Delta_{A O}\) 的方向,即 \(\angle_{AO}\) 定义为 \(y\) 轴和 \(\Delta_{A O}\) 之间的顺时针角度。相同的逻辑适用于 \(\mathbf{x}_{B}\)\(\mathbf{x}_{C}\)。我们说位置编码器是方向感知的,如果它满足以下属性:如果\(\mid \angle_{AO}-\angle_{BO}\mid <\mid \angle_{AO}-\angle_{CO}\mid\),那么内积\(\left\langle\operatorname{Enc}^{(\mathcal{P}, \theta)}\left(\Delta_{A O}\right), \operatorname{Enc}^{(\mathcal{P}, \theta)}\left(\Delta_{B O}\right)\right\rangle > \left\langle\operatorname{Enc}^{(\mathcal{P}, \theta)}\left(\Delta_{A O}\right), \operatorname{Enc}^{(\mathcal{P}, \theta)}\left(\Delta_{C O}\right)\right\rangle\)

image-20220421151052023

Table1: 位置编码方法概述。单点位置编码器 \(\operatorname{Enc}(\mathbf{x})\) 和一个聚合位置编码器\(\operatorname{Enc}^{(\mathcal{P})}(\mathbf x)\),根据 \(PE(\mathbf x)\)\(\mathcal{N}\left(\mathbf x\right)\) 进一步分类(见图1)。(M) 表示多尺度表示。* 表示引用的原始模型的一般化版本。考虑位置编码器的多个标准:1) L: \(\mathcal P\) 的空间维度;2) 参数化: 位置编码器是否是参数化模型;3)Mul.S.:位置编码是否采用多尺度方式?4) Dist.P.: 此位置编码器是否保留距离 (属性2.1)?5) Dir.A.:这个位置编码器是否知道方向(属性 2.2)?对于 Dist.P.和 Dir.A. “是”或“否”表示该属性是否可以通过经验证明(例如,Mai 等人 (2020b) 通过使用训练位置编码器 的响应图)。'-' 表示属性未知。“Yes+” 表示该属性在理论上和经验上都得到了展示。

image-20220421142936923

Fig3: 位置编码如何为下游模型产生学习友好的地理位置表示产生帮助。我们使用图1中相同的20个点作为示例\(\mathcal P=\{p_{i}\}\)。红色和蓝色点表示它们属于两个不同的类别。\(M_{1}\)\(M_{2}\) 是原始地理空间和位置嵌入空间中训练好的二进制分类器的插图。

image-20220421143008547

Fig4: SAGAT 的第 m 个聚合层示意图。在这个例子中,我们考虑三个邻居。三个黄色向量 \(\mathbf{h}_{\mathbf{x}_{i}}^{(m-1)}\) (i=1,2,3) 是三个邻居的隐藏嵌入。三个绿色向量 \(\operatorname{Enc}(\mathbf{x}-\mathbf{x_{i}})\) 是空间感知图形中使用的空间位移嵌入。红色向量是下一层中心位置 \(\mathbf{x}\) 的隐藏嵌入。

image-20220421143031560

Fig 5: Conv-decov(Noh et al. 2015)架构的图示对于例如PointNet++ (Qi et al. 2017b), PointCNN (Li et al. 2018b), and Graph-Conv GAN (Valsesia et al. 2019)的\(E n c_{\text {hieagg }}^{(\mathcal{P})}(\mathbf{x})\)

6 Conclusion and vision for future work

在这项工作中,我们将位置编码制定为一种基于归纳学习的、与任务无关的地理位置编码技术。提供了位置编码的正式定义,并从 GIScience 的角度讨论了两个预期属性——距离保持和方向感知。我们从统计机器学习的角度说明了 GeoAI 位置编码的必要性。已经提供了一个通用的分类框架来了解当前位置编码研究的情况 (见表1)。我们将现有的位置编码器分为两类:单点位置编码器 \(\operatorname{Enc}(\mathbf x)\) 和聚合位置编码器 \(\operatorname{Enc}^{(\mathcal{P})}(\mathbf x)\)。对于每一个类别,我们统一位置编码器到相同的框架(见方程1和7)。还根据各种特性比较了不同的位置编码器。 最后,我们展示了位置编码对不同类型空间数据的可能用法。

位置编码有几个有趣的未来研究方向:

(1) 区域表示学习:正如我们在第5.2节中讨论的那样,对于多边形编码 (所谓的区域表示学习) 没有令人满意的解决方案,这将在各种任务中非常有用,例如地理实体对齐和拓扑关系推理。如何设计一种能同时处理简单多边形、带孔多边形和多面体的拓扑感知多边形编码器是一个有趣的未来研究方向。

(2) 时空点编码:到目前为止讨论的所有方法都集中在位置信息上,而地理空间数据的时间方面也非常重要。几个重要的相关问题是:(1)如何在 GeoAI 模型中利用时间信息?(2) 我们能否以与空间信息类似的方式对时间信息进行编码? (3) 在进行时间编码时,我们需要保留哪些重要属性?(4) 如何在一个框架中结合时间编码和位置编码?对于同步发生的事件序列 (Kazemi等人2019),即以规则的间隔采样,可以通过RNNs隐式建模时间信息,或者在将时间转换为手工制作的特征之后,将RNNs作为另一个输入维度馈送 (Du等人2016,Li等人2017,rao等人2021)。最近的工作提出将时间编码为可学习的矢量表示,来代替使用手工制作的时间特征,例如Time2Vec (Kazemi等2019) 和Cai等 (2020)。这些时间编码器有望保留重要的属性,例如周期性、时间连续性、时间重新缩放的不变性等。然而,目前还没有对这些时间编码方法进行系统的比较研究。至于结合位置和时间编码,一种明显的方法是添加时间信息作为位置特征的附加维度。Mac Aodha et al. (2019)通过增加时间作为等式2中的 \(PE_{wrap}(\mathbf x)\) 的附加特征来采用这种做法。这导致了小的性能改进 (0.25%-1.37%)。然而,他们未能考虑这些时间上面提到的重要属性。未来的研究需要研究不同时间编码方法的优缺点以及如何将其与位置编码相结合。

(3) 球面位置编码:正如我们在第5.4节中讨论的,目前,没有能够保持球面距离的现有位置编码器。当我们处理大规模地理空间数据集时(例如全球 SST 数据、世界各地的物种出现)在地图失真问题不再可以忽略不计的情况下,需要一个球面感知位置编码器,它使我们能够直接在圆形行星上进行计算(Chrisman 2017)。

(4) 位置编码的无监督学习。表 1 中列出的大多数位置编码器都是以监督学习方式训练的,这种方式禁止将训练后的位置嵌入应用到其他任务上。相比之下,文本编码方法,例如BERT 以无监督方式从大量未标记数据中进行训练,预训练模型可用于不同的下游任务(Devlin et al. 2018)。如何设计一个用于位置编码的无监督学习框架是一个非常有吸引力的研究方向。最近,已经提出了多个点云生成模型,例如r-GAN/l-GAN (Achlioptas et al. 2018), Graph-Conv GAN (Valsesia
et al. 2019), tree-GAN (Shu et al. 2019), PointFlow (Yang et al. 2019),和 Generative PointNet (Xie et al. 2021).他们的目标是重建给定的点云。这为未标记点(没有属性的点)提供了一种可能的位置编码无监督学习框架。另一个有趣的想法是对标记点(具有属性的点)的空间分布进行无监督学习。