【课程笔记】中科大信息论(二)
熵的定义
-
熵:\(H(X)=\mathrm{E}\left[\log \frac{1}{p(X)}\right]=-\sum_{x \in x} p(x) \log p(x)\)
- 注意写在期望里面的时候,是大写的\(X\)表示随机变量
- 用\(H(X)=E[-\log p(X)]\)这个定义计算可能会更方便
- 底数一定大于1
-
特殊记法:\(h_2(\epsilon)\)
-
几何分布的熵的计算
几何分布的含义:多次抽取二项分布,到第\(X\)次抽到1的概率
理解:一次就抽到是小概率,信息量大;多次抽到是大概率,信息量小。每次抽取独立,所以每次抽的信息量是\(h_2(\epsilon)\)。平均要抽\(\mathbb{E}(X)\)次,因此平均下来总的信息量为\(H(X)=\mathbb{E}(X)h_2(\epsilon)\)
-
联合熵
-
条件熵
熵的界
\[0 \leq H(X) \leq \log |X| \]-
一个有用的不等式:IT inequality
\[\text { for } r>0, \ln r \leq r-1 \]当且仅当\(r=1\)时取等。
看着很松,其实很好用,一般用来消掉对数
证明熵的界:
下界易证;上界,用做差法。
注意:
- 计算熵时保留期望,不要直接拆成定义
- 一定要说明何时取等
- IT不等式是以自然对数为底,否则会有系数
规律
- 对数函数的增长速率慢
- 用熵的定义(分布)来算是低级操作,信息论的知识一定要用熵的规律