预训练模型finetune使用思路


项目使用了预训练的bert模型进行文本分类

先说一下总体思路:

1.从官方的ckpt模型文件中加载模型,接一层全连接和激活函数,再接一层输出层即可,根据分类的类别选择输出层节点的个数。

2.构造模型后,冻结bert层,只训练后续接的分类层,保存模型,这一步可以不保存优化器状态,因为当前优化器中的状态只是构造了一个针对后面两层权重的目标函数,没有考虑bert层冻结的权重优化。

3.上一步训练结束之后,加载上一步保存的模型,解冻bert层,整个模型一起finetune,注意模型最好重新编译,这样可以重置优化器目标函数,才可以更新bert层的参数,否则如果上一步保存了优化器状态,你直接加载了模型,随后接着训练,则优化的还只是后面几层的权重。

总之,如果我们只是加载模型来预测,则不需要compile

如果是需要进行训练或评估,而且需要改变优化器状态,学习率,或者目标函数,那么需要compile,这里finetune就是改变了目标函数,所以需要compile
如果没有指标需要改变,加载后继续训练就好,无需compile。

相关