PRML-概述


1.机器学习问题分类

\(\begin{cases} 监督学习\begin{cases} 回归问题(regression,连续)\\ 分类问题(classification,离散)\\ \end{cases}\\ 无监督学习\begin{cases} 聚类(clustering)\\ 密度估计(density\ estimation)\\ 数据可视化(visualization)\\ \end{cases}\\ 强化学习(reinforcement\ learning)\\ \end{cases}\)

有监督学习(supervised learning)问题

训练数据的样本包含输?向量以及对应的?标向量的应?叫做有监督学习(supervised
learning)问题。
数字识别就是这个问题的?个例?,它的?标是给每个输?向量分配到有限数
量离散标签中的?个,被称为分类(classification)问题
如果要求的输出由?个或者多个连续
变量组成,那么这个任务被称为回归(regression)。回归问题的?个例?是化学药品制造过程
中产量的预测。在这个问题中,输?由反应物、温度、压?组成。

?监督学习(unsupervised learning)

在其他的模式识别问题中,训练数据由?组输?向量x组成,没有任何对应的?标值。
在这样的?监督学习(unsupervised learning)问题中,?标可能是发现数据中相似样本的
分组,这被称为聚类(clustering),或者决定输?空间中数据的分布,这被称为密度估计
(density estimation)
,或者把数据从?维空间投影到?维或者三维空间,为了数据可视化
(visualization)

强化学习(reinforcement learning)

最后,反馈学习(reinforcement learning)(Sutton and Barto, 1998)技术关注的问题是在给定的条件下,找到合适的动作,使得奖励达到最?值。这?,学习问题没有给定最优输出的?
例。这些?例必须在?系列的实验和错误中被发现。这与有监督学习相反。通常,有?个状态
和动作的序列,其中学习算法与环境交互。在许多情况下,当前动作不仅影响直接的奖励,也
对所有后续时刻的奖励有影响。例如,通过使?合适的反馈学习技术,?个神经?络可以学
会backgammon游戏的玩法,并且玩得很好(Tesauro, 1994)。这?神经?络必须学习把??组位置信息、骰?投掷的结果作为输?,产??个移动的?式作为输出。通过让神经?络??和
??玩?百万局,这个?的就可以达到。?个主要的挑战是backgammon游戏会涉及到相当多次的移动,但是只有在游戏结束的时候才能给出奖励(以胜利的形式)。奖励必须被合理地分配
给所有引起胜利的移动步骤。这些移动中,有些移动很好,其他的移动不是那么好。这是信?
分配(credit assignment)问题的?个例?。反馈学习的?个通?的特征是探索(exploration)和利?(exploitation)的折中。“探索”是指系统尝试新类型的动作,“利?”是指系统使?已知能产?较?奖励的动作。过分地集中于探索或者利?都会产?较差的结果。反馈学习继续是机器学
习研究中得?个活跃的领域。

2.机器学习步骤

训练集(training set)
?标向量(target vector)
过拟合(over-fitting)

特征抽取(feature extraction)
预处理(pre-processed)
训练(training)阶段/学习(learning)阶段
泛化(generalization)
模型选择(model selection)

3.过拟合问题

通过使??种贝叶斯(Bayesian)?法,过拟合问题可以被避免。我们将会看到,从贝叶斯的观点来看,对于模型参数的数量超过数据点数量的情形,没有任何难解之处。实际上,?个贝叶斯模型中,参数的有效(effective)数量会?动根据数据集的规模调节。 --- 待学习

经常?来控制过拟合现象的?种技术是正则化(regularization)。这种技术涉及到给误差函数(1.2)增加?个惩罚项,使得系数不会达到很?的值。这种惩罚项最简单的形式采?所有系数的平?和的形式。这推导出了误差函数的修改后的形式:

有时候使?根均?(RMS)误差更?便。这个误差由下式定义:![]

公式(1.4)中的误差函数也可以?解析的形式求出最?值。像这样的技术在统计学的?献中被叫做收缩(shrinkage)?法,因为这种?法减?了系数的值。

?次正则项的?个特殊情况被称为?脊回归(ridge regression)(Hoerl and Kennard, 1970)。在神经?络的情形中,这种?法被叫做权值衰减(weight decay)