常见问题记录
1、为什么分类问题不能使用mse损失函数
https://my.oschina.net/mathinside/blog/4537752
https://blog.csdn.net/u011913417/article/details/106358095
https://www.zhihu.com/question/314185485
2、如何理解双塔模型中cosine similarity的计算?如何理解粗排和精排的不同需求?
3、L1范数和L2范数各自的用处?Batch Nornalization有什么好处,为什么要使用,记得公式吗?
4、如何防止梯度爆炸和梯度消失,如何理解RNN与LSTM的差别?