欢聚时代搜索推荐工程一面
聊项目:
1. 做好最好的事情?geohash原理
2. nsearch如何实现持久化?
2. nsearch怎么保证读写实时性?
3. 集群还是单机?集群行列怎么搞的?有节点出问题怎么恢复故障?各个机器怎么做数据的消费?
4. 节点上线之前数据怎么搞的?
5. 啥时候写索引?
6. 索引是死的,每天定时更新?不是实时的更新?追增量的时候这个节点是不是不可用了?
7. 10台机器是10个backup,
8. 全量数据在哪里?hive表数据是从哪里来的?
9. 10个分片都有问题,服务是不是就不可用了。服务是完全靠服务堆着保证可用性?
10. 整个nsearch 都是使用mmap这个方式,为什么不考虑使用es?
11. 引擎面对复杂的文件接口,比如说一对多的这种查询,主表+副表,根据副表的索引去查, 专辑 -》歌曲 引擎怎么搞? 大宽表的这种怎么实现 1对多 -〉 1对1 怎么实现映射?同一个专辑有多个记录? 专辑带上所有的歌曲?某一首歌使用了一些乐器。两次查询怎么完成分页?怎么去重呢?
12. 推荐做了哪些事情,全图化推荐平台。dag自己实现?内部的processor怎么实现?
13. 召回排序重排涉及到精排算法模型是不是没有包括?
14. 你们几个人在做?分工是啥?
15. 刚毕业为啥考虑看新机会?
16. 使用es的, java ok吗?
查找字符串的字串
输入: abcDefg def
输出: abc