PRML-1.5 信息论
1.信息熵
\(对于信息内容的度量依赖于概率分布p(x),我们想要找到这么一个函数h(x),要满足\)
\(1.它是概率p(x)的单调递增函数\)
\(2.如果我们有两个不相关的事件x和y,我们观察到两个事件同时发?时获得的信息应该等于观察到事件各?发?时获得的信息之和,即h(x, y) = h(x) + h(y),两个不相关事件是统计独?的,因此p(x, y) = p(x)p(y)\)
\(所以能看出h(x)一定与p(x)的对数有关,我们所以有\)
\(h(x)=-log_2p(x)\) --1.92
\(底数不一定是2,只是按照传统信息论,取,则h(x)的单位是\)bite(bit,binary digit)
\(现在假设?个发送者想传输?个随机变量的值给接收者。这个过程中,他们传输的平均信息量通可以通过求公式(1.92)关于概率分布p(x)的期望得到。这个期望值为\)
\(\color{red}{H[x]=-\sum\limits_xp(x)log_2p(x)}\) --1.93
\(这就是熵\)entropy
\(如果ln 自然对数为底,则熵的单位是nat\)
2.离散变量下的熵的最大值
熵是信息的度量单位,熵越大信息越混乱,越没有意义,传递也越为困难,代价越大
\(可以证明(拉格朗日乘子法)当所有的p(x_i)都相等,且值为p(x_i) = \frac{1}{M} 时,熵取得最?值,M是状态x_i的总数\)
\(即均匀分布下的熵最大,因为最为混乱,没有意义\)
3.连续变量的熵
连续变量的熵称为微分熵
4.连续变量的熵的最大值
\(最大化微分熵需要遵循下面三个限制\)
通过拉格朗日乘子法,解得
\(\color{red}{因此最大化微分熵的分布是高斯分布}\)
5.高斯分布的微分熵
$因熵随着分布宽度(\sigma^2的增加而增加)$ $这个结果也表明,与离散熵不同,微分熵是可以为负的$ $对于高斯分布的微分熵(1.110),当\sigma^2 < \frac{1}{2\pi e}时,H(x)<0$6.条件熵
\(假设我们有?个联合概率分布p(x, y)。我们从这个概率分布中抽取了?对x和y。如果x的值已知,那么需要确定对应的y值所需的附加的信息就是- ln p(y | x)。因此,?来确定y值的平均附加信息可以写成\)
\(这被称为给定x的情况下,y的条件熵。使?乘积规则,很容易看出,条件熵满?下?的关系\)
\(其中,H[x, y]是p(x, y)的微分熵\color{red}{(注意这里的说法,H是某个分布p的XX熵)},H[x]是边缘分布p(x)的微分熵。因此,描述x和y所需的信息是描述x??所需的信息,加上给定x的情况下具体化y所需的\color{red}{额外信息}。\)