吴恩达老师机器学习课程chapter05——评估模型

吴恩达老师机器学习课程chapter05——评估模型

本文是非计算机专业新手的自学笔记，高手勿喷。

本文仅作速查备忘之用，对应吴恩达(AndrewNg)老师的机器学期课程第十章、第十一章。

目录

吴恩达老师机器学习课程chapter05——评估模型
- 评估模型方法
  - 训练集(training set)与测试集(test set)
  - 训练集、交叉验证集(cross validation set / cv)与测试集
- 高偏差(bias)与高方差(variance)
  - 基本概念
  - 正则化的影响
  - 学习曲线(learning curve)
  - 神经网络的过拟合
- 查准率(pecision)与召回率(recall)
- 设计算法的一般思路

在运用一个训练集训练完一个假设之后，如何评估假设效果如何？

如果发现该假设的效果并不好，如何决定下一步的工作？

评估模型方法

训练集(training set)与测试集(test set)

在回归问题与分类问题中的评估方法：

训练集、交叉验证集(cross validation set / cv)与测试集

通常，我们不能在一开始就决定用什么样的模型，可以加入交叉验证集。

首先，利用训练集训练完不同模型；
之后，利用交叉验证集计算每个模型的\(J_{cv}(\theta^{i})\)；
最后，选择\(J_{cv}\)最小的那组作为最终假设模型。

高偏差(bias)与高方差(variance)

基本概念

由图可见，模型的阶数越高，对训练集的拟合效果越好，但是对训练集之外的其他样本则未必，会出现两种情况：

阶数过低，欠拟合，高偏差
阶数过高，过拟合，高方差

正则化的影响

由图可见，合适的模型下，正则化强度越小，模型更可能过拟合；正则化强度越大，模型更可能欠拟合

可以通过 λ=0.1、λ=0.2、λ=0.4、λ=0.8、λ=1.6、λ=3.2、λ=6.4……这样的方法选择合适的λ。

学习曲线(learning curve)

在高偏差与高方差情况下的学习曲线：

神经网络的过拟合

查准率(pecision)与召回率(recall)

查准率 (P)$=\frac{TP}{TP+FP} $ 所有判P的样本当中多少是TP

召回率 (R)$=\frac{TP}{TP+FN} $ 所有真P的样本当中多少是TP

查准率、召回率与阈值之间的关系：

一般来说，阈值(threshold)设为0.5，也就是说\(h_θ(x)\)≥0.5，y=1，否则，y=0。
当希望获得更高的P，提升阈值，但召回率下降；
当希望获得更高的R，降低阈值，但查准率下降。

单纯追求高P或者高R都是不可取的，直接取两者的算数平均值是不明智的。可以选择调和平均值：

设计算法的一般思路

知识学习机器学习吴恩达

相关

[ML]机器学习中我未见过的概念

[机器学习笔记(一)] TensorFLow安装

机器学习 - 线性回归模型实战 02

机器学习-支持向量机SVM

TensorFlow——机器学习编程框架

机器学习（三、神经网络）

吴恩达机器学习作业2- 逻辑回归与正则化作业（python实现）

[ 机器学习 - 吴恩达 ] | 1-2 What is machine learning

《神经网络与机器学习》第8章泛化与正则化

【机器学习】逻辑回归（Logistic Regression）

机器学习--决策树算法(CART)

机器学习--决策树算法(CART)

标签