【课程笔记】中科大信息论(二)


熵的定义

  • 熵:\(H(X)=\mathrm{E}\left[\log \frac{1}{p(X)}\right]=-\sum_{x \in x} p(x) \log p(x)\)

    • 注意写在期望里面的时候,是大写的\(X\)表示随机变量
    • \(H(X)=E[-\log p(X)]\)这个定义计算可能会更方便
    • 底数一定大于1
  • 特殊记法:\(h_2(\epsilon)\)

\[\begin{aligned} H(X) &=-\sum_{x \in X} p(x) \log p(x) \\ &=-p(0) \log p(0)-p(1) \log p(1) \\ &=-(1-\epsilon) \log (1-\epsilon)-\epsilon \log \epsilon \end{aligned} \]

  • 几何分布的熵的计算

    几何分布的含义:多次抽取二项分布,到第\(X\)次抽到1的概率

    理解:一次就抽到是小概率,信息量大;多次抽到是大概率,信息量小。每次抽取独立,所以每次抽的信息量是\(h_2(\epsilon)\)。平均要抽\(\mathbb{E}(X)\)次,因此平均下来总的信息量为\(H(X)=\mathbb{E}(X)h_2(\epsilon)\)

  • 联合熵

  • 条件熵

熵的界

\[0 \leq H(X) \leq \log |X| \]

  • 一个有用的不等式:IT inequality

    \[\text { for } r>0, \ln r \leq r-1 \]

    当且仅当\(r=1\)时取等。

    看着很松,其实很好用,一般用来消掉对数

证明熵的界:

下界易证;上界,用做差法。

注意:

  • 计算熵时保留期望,不要直接拆成定义
  • 一定要说明何时取等
  • IT不等式是以自然对数为底,否则会有系数

规律

  • 对数函数的增长速率慢
  • 用熵的定义(分布)来算是低级操作,信息论的知识一定要用熵的规律

相关