关于推荐系统中召回模块建模采样方式的讨论

关于信息流推荐系统中召回模块建模采样方式的讨论
大家好，我是CNU小学生，国内top10-20互联网公司小兵一枚，在此抛砖引玉，真诚希望各位读者不吝赐教。

1.信息流推荐系统中的召回业务
2019年知名互联网公司的信息流推荐系统项目可大致分为4个模块：用户画像，物品画像，召回，排序。

召回模块的功能是在为排序模块提供候选集。比如我们一共有1000万个item，召回业务要在1000万个item中选出用户可能感兴趣的1万个项目，然后排序模块经过自己的模型为item打分，选定top n来展示给用户并确定展示的顺序。

召回模块的特点有两点，第一快速，第二全面。如果现在有一个超准确超高效的排序模型可以瞬间对每个item精准打分，那么我们完全不需要召回模块，可惜算力不够，这个真没有。推荐流程在3000ms内没有给出推荐结果，对于绝绝绝大多数产品而言是不可接受的。这就决定了一个在线召回模型不会是一个比排序还复杂的模型。此外离线召回也要考虑耗时，因为信息流场景需要一定实时性。

场景1.美女图片类新闻

早上8点为用户展示美女图片类新闻效果比晚上8点差很多。因为早上8点用户在公交车上，晚上8点用户躺在沙发上。排序模型必须把“当前时间”这个维度考虑进去，进行特征工程，才能达到预期效果。

类似于场景1现象还有很多，有些是我们能理解的，有些是我们不能理解的，这类问题需要通过复杂的模型（含特征工程）才能给出用户满意的结果，解决这类问题是排序模型的价值体现。召回则要剔除细节因素，全面广泛且高效快速地选拔出用户可能喜欢的东西，把相对耗时的细节处理任务交给排序。

在工程上，top10大厂有不少做到了实时召回，即用户发出请求才开始召回。更常见的召回工程是离线召回，即把所有用户的召回结果算好然后缓存到数据库中（redis，kv等），等待线上用户请求查库调用。

2.排序模型的采样方式应用在召回模块效果会好吗？
用户经过n次刷新产生了k个item的展现，那么用户点击过的item会被当做正样本，用户没点击（但展现给用户了）的item会被当做负样本。这就是排序模型的通用采样方式，当然会有其他细节的调整，在这里我们不做过多讨论。

这种采样方式对召回来说有一大缺陷，就是样本的局限性。

场景2.为蔡徐坤推荐视频

蔡徐坤是一个活跃用户，他兴趣为“唱歌，跳舞，rap，篮球”。只要你的排序系统有作用，那么理论上推荐给用户的文章90%以上是和唱歌，跳舞，rap，篮球有关的item。所以在这个场景下，你采样的正负样本有90%和唱歌，跳舞，rap，篮球有关。所以这种样本训练出来的模型对唱歌，跳舞，rap，篮球的预测相对准确，但其他的模型没见过的topic就不一定了。因为候选集已经经过了召回模块的筛选，候选集中的item大都是唱歌，跳舞，rap，篮球有关的item，所以这种采样方式（经过一些细微调整）对排序模型来说正合适。

在召回模块，这种采样方式会导致过拟合，因为item库中有关唱歌，跳舞，rap，篮球的item占比并不多，有大量的item特征在训练集中没有体现。（排序采样时会加入随机负样本来缓解这个问题，但在召回模块这样做是远远不够的）

当然，只要你的召回模型够简约，你可能根本不会碰到过拟合问题，因为你的模型就无法拟合。在不考虑时序的模型中，我们的模型无法理解为什么A和B明明相似度99%，但是用户点了A没有点B(其实是看过A就不想看B了)，在不考虑当前时间的模型中，我们的模型不明白为什么A和B明明相似度99%，但是用户点了A没有点B(其实是场景1的情况)。在不考虑xxx的模型中，我们的模型无法理解为什么A和B明明相似度99%，但是用户点了A没有点B（其实是因为xxx，解决xxx导致的问题是排序模型的价值体现）。于是正负样本开始“打架”，一个用户对特征相同的item在模型中有相反的lable。当然，你的计算资源十分充足，你使用了更复杂的模型，哈哈哈，看，我的模型收敛了！........那么你将大概率面临上一段提到的过拟合问题。

3.随机负采样能否扳回一城？
用户点击过的item为正样本，随机采负样本。

为什么不带排序的负样本玩儿？从业务角度讲。因为召回对精确度的要求远远没有排序这么高，排序的工作是10000选10（打个比方），都进入top10了，即使是没点击的文章也是用户潜在喜欢的文章。用户一刷刷出10个item，10个都有点击，这是不可能的（除非是爬虫），即便是10个相当精彩的item，用户也只会挑一部分看，这是人的天性。换句话说，只要你的排序模型不差，那么进入top10的item对于召回业务而言都是成功的召回。从技术角度讲，虽然随机采负样本可以一定程度上解决过拟合问题，但简约的模型对这种正负样本构成的数据集还是无法收敛。

随机采负样本效果如何？头部效应非常重。热文被大量分发，个性化能力大幅减弱。站在一个用户的角度看，用户的样本可以通过一些手段做到均衡化。站在一篇文章的角度看，就不是这么回事了，被频繁点击的文章有大量正样本，因为负样本是随机采样，冷文章和热文章被采到的几率相等，那么被频繁点击的文章正样本相对负样本就会多很多，多到均衡化都带不动。

场景3.随机负采样失效原因

库中有1000个item，我需要随机负采样5000次，那么理论上对于每篇文章会出现5个负样本，假设有5000次点击形成的正样本，5000个正样本里点击频率top10的item瓜分了500个点击，那么top10中的每个item就有了50个正样本。50个正样本+5个负样本带入模型训练，模型会认为这篇文章适合推荐给绝绝绝大多数人，但这篇文章很肯能是“杨幂离婚”类，“杜兰特感染冠状病毒”类，“王者荣耀新英雄”类文章（在某个大领域人人都关注，点击，但出了这个圈子有大量人其实并不care）。

4.基于其他用户点击的负采样
用户产生点击的item作为正样本，在为该用户采样时，随机几个其他用户，将其他用户的点击作为该用户的负样本。这种采样方式经过作者实践证明有效。

频繁被点击的文章会被频繁负采样，可做到文章侧的样本均衡，有效减轻了头部效应。并且相对于排序的负采样，数据的广度更宽，模型可处理多种类型的文章。

原文链接：https://blog.csdn.net/u011233351/article/details/104951598/

NLP 搜索与推荐

关于推荐系统中召回模块建模采样方式的讨论

相关

NLP的前世今生

安装pyhanlp报错，之解决方案

NLP中的预训练语言模型（三）—— XL-Net和Transformer-XL

5个很少被提到但能提高NLP工作效率的Python库

中文分词工具探析（一）：ICTCLAS (NLPIR)

NLP（四十一）：解决样本不均衡FocalLoss与GHM

中文自然语言处理(NLP)(三)运用python jieba模块计算知识点当中关键词的词频

Embedding技术在商业搜索与推荐场景的实践

(转载)深入理解NLP Subword算法：BPE、WordPiece、ULM

NLP学习参考

Elasticsearch应用Hanlp中文分词和Pinyin 拼音分词

NLP面试整理

标签