ERNIE-GeoL: A Geography-and-Language Pre-trained Model and its Applications in Baidu Maps


ERNIE-GeoL: A Geography-and-Language Pre-trained Model and its Applications in Baidu Maps(ERNIE-GeoL: 地理和语言预训练模型及其在百度地图中的应用)

0 Abstract

预训练模型 (PTMs) 已成为自然语言处理和计算机视觉下游任务的基本支柱。尽管通过将通用PTMs应用于百度地图上与地理相关的任务获得了初步的收益,但随着时间的推移,观察到明显的性能稳定。造成这种高原的主要原因之一是通用PTMs中缺乏可用的地理知识。为了解决这个问题,在本文中,我们提出了 ERNIE-GeoL,它是一种地理和语言预训练模型,旨在改进百度地图的地理相关任务。 ERNIE-GeoL 旨在通过对包含丰富地理知识的异构图生成的大规模数据进行预训练来学习地理语言的通用表示。在大规模真实数据集上进行的大量定量和定性实验证明了 ERNIE-GeoL 的优越性和有效性。自 2021 年 4 月以来,ERNIE-GeoL 已在百度地图上部署到生产环境中,这极大地提高了各种下游任务的性能。 这表明 ERNIE-GeoL 可以作为地理相关任务的基础骨干。

5 Conclusions and futurework

本文提出了一种工业解决方案,用于构建地理和语言预训练模型,该模型已在百度地图上部署。我们提出了一个名为ERNIE-GeoL的框架,用于全面学习地理领域知识。从基于POI数据库和百度地图搜索日志构建的异构图中采样,用于预训练ERNIE-GeoL的文档被注入地名和空间知识。ERNIE - GeoL的主干网包含一个聚合层,用于对输入文档中涉及的图形结构进行建模。ERNIE-GeoL 采用两个预训练目标,包括掩码语言模型和地理编码,分别用于指导模型学习地名和空间知识。我们在基于五个任务的基准上评估 ERNIE-GeoL,这些任务为基本地图服务提供基本支持。实验结果和消融研究表明,ERNIE-GeoL 优于以前的通用预训练模型,表明 ERNIE-GeoL 可以作为广泛的地理相关任务的有前途的基础。

在本文中,用于训练ERNIE-GeoL的地理数据主要关注POI的地理特征以及用户如何与POI交互。在未来的工作中,为了使ERNIE-GeoL能够处理更广泛的地理应用,我们计划使用卫星图像和街景图像等更多模式的数据来增强ERNIE-GeoL。

Chart

image-20220418093142443

图1 通用PTMs与GeoPTMs对比

image-20220418093233024

图2 构建异构图的过程

image-20220418093525875

图3 ERNIE-GeoL 架构

image-20220418093632209

图4 地理编码任务图示

image-20220418094513424

图5 31省搜索量前500个POI的2D t-SNE投影 a)bert b)ERNIE-GeoL

image-20220418094830737

这个图想干啥?突出新提出的模型位置表示更好?更有区分度?

image-20220418095531035

和上图一样,不知道要表示什么意思

1 Introduction

2 ERNIE-GeoL

在本节中,我们将介绍ERNIE-GeoL的设计和实现细节,它主要包括三个部分:训练数据构建、模型体系结构和预训练任务。

2.1 Training Data Construction

我们之前的工作 [12] 已经证明异构图能够显着地有益于 POI 检索任务。受此启发,我们基于包含地名和空间知识的异构图构建大规模训练数据,用于预训练 ERNIE-GeoL。具体来说,我们首先利用百度地图的POI数据库和搜索日志,构造一个包含POI节点和查询节点的统一异构图。然后,我们基于 POI 之间的空间关系构建两个节点之间的边,以将空间信息与文本相结合。地名数据主要包括POI名称和地址,它们来自POI数据库,以非结构化文本格式存储。空间数据包括 POI 地理坐标、位于各个地理区域内的 POI 以及在相同会话中从搜索日志中共同出现的 POI,这些 POI 使用数字或三元组格式(即非文本格式)存储。

为了弥合文本和非文本表示之间的差距,我们构建了一个异构图\(\mathcal{G}=\left(\mathcal{V}, \mathcal{E}, O_{\mathcal{V}}, R_{\mathcal{E}}\right)\),其中 \(\mathcal{V}\) 表示节点集, \(\mathcal{E}\) 边集, \(O_{\mathcal{V}}\) 节点类型集, \(R_{\mathcal{E}}\) 边缘类型集。所有的节点 \(v \in \mathcal V\) ,并且所有的边 \(e \in \mathcal E\) 与其对应的映射函数关联 \(\psi(v): \mathcal{V} \rightarrow O_\mathcal{V}\) 并且 \(\phi(e): \mathcal{E} \rightarrow R_{\mathcal{E}}\) 。图 2,节点类型 \(O_\mathcal{V}\) 包括 POI 和 query。边类型 \(R_{\mathcal{E}}\) 包括 Query-click-POI, Origin-to-Destination, and POI-(co-locate with)-POI。接下来,我们详细介绍异构图的每个元素。

2.1.1 POI Node and Query Node.

每个查询节点都是用于搜索用户所需 POI 的文本。每个 POI 节点代表 POI 数据库中的一个 POI。我们以以下三种文本信息的串联形式组织每个 POI 节点:(1)完整的 POI 名称,(2)POI 地址,以及(3)POI 类型。我们用 [SEP] 标记分隔每种类型的文本信息。我们还为每个 POI 节点配备了其真实世界的位置信息,即它的地理坐标。

2.1.2 Query-click-POI Edge.

输入查询后,用户会从POI搜索引擎建议的排名POI列表中点击所需的POI。这个过程会产生大规模的查询POI对,

其中每个 POI 的不同表达可以导致查询和 POI 之间的语义鸿沟。例如,用户通常会犯拼写错误或使用缩写,这将导致糟糕的结果当直接匹配查询和POI文本信息时。基于这一观察结果,我们使用 Query-click-POI Edge 对查询和POI之间的关系进行建模。具体来说,我们为每个POI选择前4个搜索的查询,并为每个POI及其历史查询节点建立Query-click-POI Edge。

2.1.3 Origin-to-Destination Edge.

2.1.4 POI-(co-locate with)-POI Edge.

2.1.5 Random Walk Sampling.

2.2 Model Architecture

如图 3 所示,ERNIE-GeoL 模型架构中的两个主要组件是多层双向transformer [32] 编码器和基于transformer的聚合 (TranSAGE) 层。传统 NLP 任务中的文档由多个句子组成,其中应考虑文档的语篇结构。相比之下,用于预训练 ERNIE-GeoL 的输入文档 \(D\) 由一系列节点组成,在 \(D\) 中没有语篇结构。

因此,我们不是将所有节点连接起来并将它们建模为一个文本序列,而是使用transformer编码器分别获取每个节点的隐藏向量,并使用 TranSAGE 层来捕获每个节点与其邻居之间的关系。 作为图上下文表示,TranSAGE 的输出与每个节点的向量融合。 然后,每个节点的融合表示用于预训练任务。

2.3 Pre-training ERNIE-GeoL

2.3.1 Masked Language Modeling(MLM)

2.3.2 Geocoding

地理编码任务旨在学习文本表示与POI的地理坐标之间的关系。具体来说,我们为每个POI节点采用前馈层,以预测从POI坐标转换的多级S2单元的id。为了以更细粒度的方式对文本和坐标之间的关系进行建模,我们将 S2 单元的最高级别设置为 22,其覆盖面积约为 2 m2

3 Experiments

ERNIE-GeoL 在五个地理相关任务和消融实验上的结果。

Task #1: Query Intent Classification (查询意图分类).

查询意图分类[19]任务旨在预测查询背后的意图,这在百度地图的POI搜索引擎中起着重要作用。我们定义了四个意图,包括搜索特定的POI、特定类型的POI、地址和公交线路。

Task #2: Query-POI Matching.

Task #3: Address Parsing.

Task #4: Geocoding

Task #5: Next POI recommendation

3.2 Experimental Setup

3.2.1 Datasets.

在我们的实验中,我们使用百度地图 3 个月内的搜索日志构建异构图。异构图包含 4000 万个 POI 节点、1.2 亿个查询节点、1.75 亿个 Query-click-POI 边、15.74 亿个 Origin-to-Destination 边和 3.63 亿个 POI-(co-locate with)-POI 边。我们在异构图上使用随机游走算法来采样一系列节点作为输入文档。 Query-click-POI、Origin-to-Destination 和 POI-(co-locate with)-POI 边的采样权重分别设置为 \(\lambda _{1}\) = 0.5、 \(\lambda _{2}\) = 0.25 和 \(\lambda _{3}\) = 0.25。我们从图中采样了 8 亿个文档,其中包含 4000 亿个单词。每个文档平均包含 10 个节点。

3.2.2 Baselines.

我们对ERNIE GeoL的三种强大的通用PTM进行评估,如下所示:

3.3 Results and Analysis

3.4 A Qualitative Study on Geo-linguistic Knowledge ERNIE-GeoL Has Learned

4.1 Domain-specific PTMs

4.2 PTMs with Multi-source Data

相关