深度学习 – 微积分、信息论 - 基本概念

微积分

导数：当函数y=f(x)的自变量x在一点x0上产生一个增量Δx时，函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在，a即为在x0处的导数，记作f'(x0)或df(x0)/dx。其图像表示为如下：

类似的概念还有：二维空间中的“切线”。

偏导数：当需要让其他变量不变，只有某一个变量发生变化，这种情况下的求导，其实际上表示的是函数在不同方向（坐标轴）上的变化率。
梯度：函数的所有偏导数构成的向量。梯度是一个向量，其向量的方向即为函数值增长最快的方向。

信息论

熵：也称信息熵，熵越大，不确定性越大。更多关于熵的解释请参看另一篇博客《》
KL 散度：也称为相对熵，它衡量了两个分布之间的差异。若结合如下事实：
- 真实事件的信息熵就是 p(xi) log p(xi)；
- 理论拟合的事件的信息量就是 log q(xi)；
- 真实事件的概率就是 p(xi)。

在模型优化、数据分析和统计等场合，就可以使用 KL 散度衡量选择的近似分布与数据原分布有多大差异 -- 当拟合事件和真实事件一致的时候 KL 散度就成了 0，不一样的时候就大于 0。

交叉熵：它也衡量了两个分布之间的差异，但是与 KL 散度的区别在于，交叉熵代表用拟合分布来表示实际分布的困难程度。

三者（熵、KL散度、交叉熵）的关系如下：

信息论的具体运用包括：函数中的交叉熵损失、机器学习中构建决策树使用到的、NLP 和语音算法中的维特比算法等。

机器学习与数据挖掘概念深度学习机器学习核心概念

相关

双一流博士整理的计算机视觉学习路线（深度学习+传统图像处理）

[ML]机器学习中我未见过的概念

11 段的概念，重定位的引入

云计算的概念

[机器学习笔记(一)] TensorFLow安装

深度学习模型训练阶段的加速与优化

面向对象编程的概念、设计原则、缓存概念

机器学习 - 线性回归模型实战 02

软件架构概念与思想-组成派、决策派

机器学习-支持向量机SVM

数据结构 -- 004.1 串的基本概念

TensorFlow——机器学习编程框架

标签