吴恩达老师机器学习课程chapter05——评估模型
吴恩达老师机器学习课程chapter05——评估模型
本文是非计算机专业新手的自学笔记,高手勿喷。
本文仅作速查备忘之用,对应吴恩达(AndrewNg)老师的机器学期课程第十章、第十一章。
目录
- 吴恩达老师机器学习课程chapter05——评估模型
- 评估模型方法
- 训练集(training set)与测试集(test set)
- 训练集、交叉验证集(cross validation set / cv)与测试集
- 高偏差(bias)与高方差(variance)
- 基本概念
- 正则化的影响
- 学习曲线(learning curve)
- 神经网络的过拟合
- 查准率(pecision)与召回率(recall)
- 设计算法的一般思路
- 评估模型方法
在运用一个训练集训练完一个假设之后,如何评估假设效果如何?
如果发现该假设的效果并不好,如何决定下一步的工作?
评估模型方法
训练集(training set)与测试集(test set)
在回归问题与分类问题中的评估方法:
训练集、交叉验证集(cross validation set / cv)与测试集
通常,我们不能在一开始就决定用什么样的模型,可以加入交叉验证集。
首先,利用训练集训练完不同模型;
之后,利用交叉验证集计算每个模型的\(J_{cv}(\theta^{i})\);
最后,选择\(J_{cv}\)最小的那组作为最终假设模型。
高偏差(bias)与高方差(variance)
基本概念
由图可见,模型的阶数越高,对训练集的拟合效果越好,但是对训练集之外的其他样本则未必,会出现两种情况:
- 阶数过低,欠拟合,高偏差
- 阶数过高,过拟合,高方差
正则化的影响
由图可见,合适的模型下,正则化强度越小,模型更可能过拟合;正则化强度越大,模型更可能欠拟合
可以通过 λ=0.1、λ=0.2、λ=0.4、λ=0.8、λ=1.6、λ=3.2、λ=6.4……这样的方法选择合适的λ。
学习曲线(learning curve)
在高偏差与高方差情况下的学习曲线:
神经网络的过拟合
查准率(pecision)与召回率(recall)
查准率 (P)$=\frac{TP}{TP+FP} $ 所有判P的样本当中多少是TP
召回率 (R)$=\frac{TP}{TP+FN} $ 所有真P的样本当中多少是TP
查准率、召回率与阈值之间的关系:
一般来说,阈值(threshold)设为0.5,也就是说\(h_θ(x)\)≥0.5,y=1,否则,y=0。
当希望获得更高的P,提升阈值,但召回率下降;
当希望获得更高的R,降低阈值,但查准率下降。
单纯追求高P或者高R都是不可取的,直接取两者的算数平均值是不明智的。可以选择调和平均值: