embedding的冷启动


https://zhuanlan.zhihu.com/p/351390011

看了这篇文章。有一些总结性的内容,还行。

  1. 信息和模型
  2. 补充机制
  3. 工程框架
  4. 跳出固有思维
   

1、补充Side Information

 

2、灵活的冷启动机制往往事半功倍

做模型的同学都有一个终极的梦想,“打造一个完美的End2End的模型,一个模型干净利索的解决所有问题”。这个想法当然是值得追求的,但是我们也不必落入“完美主义”的怪圈。

在Airbnb那篇经典的Embedding文章中,所采用的冷启动机制就很实用。(论文地址:)找到三个相似的有Embedding的短租屋,然后取其Embedding的平均。多么简单使用的冷启动策略。

 

比如利用聚类快速定位新物品所在的cluster,找到相似物品。

再比如根据用户/物品的特征训练一颗决策树,再把冷启动的用户/物品根据有限的信息分配到决策树的某个分支中去,再根据分支对应的默认列表进行推荐等等。

   

要点总结

最后,解决Embedding冷启动问题,重要的思路再说一遍。

  • 补充side information
    • 利用EGES的类似方案,在Embedding模型中加入更多非行为历史类特征,让Embedding能够覆盖更多物品和用户
    • 利用Amazon Video方案,直接在主模型中加入更多物品、用户特征,即使没有Embedding也可以做出靠谱的预测
  • 灵活的冷启动机制
    • 不要陷入“完美主义”的怪圈
    • 采用Airbnb方案,利用物品之间的相似性,对冷启动物品根据相似物品,快速生成初始化Embedding
    • 聚类,决策树等经典模型
  • 工程框架的改进
    • 批处理->流处理->实时推断->边缘计算,让新信号的消费变得越来越实时
  • 跳出固有思维
    • 使用探索与利用、主动学习等思路解决问题
    • 寻求更广阔的合作,与产品、运营、数据团队做团队间的合作