1、第二章 信息量和熵,信息量和熵,离散变量的非平均信息量 离散集的平均自信息量熵 离散集的平均互信息量 信息不等式 凸函数和互信息的凸性 连续随机变量的互信息和微分熵,2.1 离散变量的非平均信息量,输入,输出空间定义,输入空间X=xk,k=1,2,K,概率记为q(xk)输出空间Y=yj,j=1,2,J,概率记为(yj)联合空间XY=xkyj ;k=1,2,K;j=1,2,J, 概率为p(xkyj) p(xkyj)= p(xk|yj)(yj)= p(yj|xk)q(xk),非平均互信息量,例2.1.1,非平均互信息量,非平均互信息量,例2.1.2,非平均互信息量,非平均互信息量,定义2.1.1(
2、非平均互信息量) 给定一个二维离散型随机变量(X, Y), (xk, yj), rkj, k=1K; j=1J(因此就给定了两个离散型随机变量X, xk, qk, k=1K和Y, yj, wj, j=1J)。事件xkX与事件yjY的互信息量定义为,非平均互信息量,其中底数a是大于1的常数。常用a=2或a=e,当a=2时互信息量的单位为“比特”。几点说明: (1)I(xk; yj)=loga(rkj/(qkwj)。因此有对称性:I(xk; yj)=I(yj; xk)。(2)当rkj=qkwj时I(xk; yj)=0。(当两个事件相互独立时,互信息量为0)。(3)当rkjqkwj时I(xk; yj
3、)0,当rkjqkwj时I(xk; yj)0, lnxx-1,等号成立当且仅当x=1Jensen不等式: f(a)是上凸函数,Ef(a)fE(a),E为求数学期望信息散度不等式:D(p|q)0,等号成立当且仅当对所有的x,p(x)=q(x),信息不等式,互信息量不等式:I(X;Y)0证明:I(X;Y)=D(p(x,y)|p(x)p(y)0最大熵定理:H(X)log|X|,|X|是X中元素的数目,等号等概的时候成立。条件降低熵:H(X|Y) H(X),X与Y独立时等号成立,信息不等式,对数和不等式:a1,a2,an和b1,b2,bn都非负Fano不等式可以弱化为:,信息处理定理,Z出现情况下,X
4、和Y独立,信息处理定理,熵的性质凸性,相对熵的凸性:D(p|q)是概率分布对(p,q)的下凸函数:H(P)是P的上凸函数,记离散型随机变量X的事件为1,2,K。记X的概率分布为P(X=k)=qk,k=1K。记离散型随机变量Y的事件为1,2,J。记条件概率P(Y=j|X=k)=p(j|k)。则rkj=P(X, Y)=(k,j)=qkp(j|k),(概率论中的乘法公式)wj=P(Y=j)=k qkp(j|k),(概率论中的全概率公式),互信息的凸性,互信息的凸性,p(y | x)给定,I(X; Y)是q(x)的上凸函数q(x)给定,I(X; Y)是p(y | x)的下凸函数,互信息的凸性,设条件概
5、率p(j|k),k=1K,j=1J被确定。此时I(X; Y)是概率向量q=(q1, q2, , qK)的函数。我们希望找到这样的概率向量,使得对应的I(X; Y)达到最大。这就是说,记我们希望找到这样的K维概率向量a=(a1, a2, , aK),使得,互信息的凸性,K维概率向量a=(a1, a2, , aK)使得当且仅当:以a为X的概率向量的时候,I(X=k; Y)对所有ak0的k都取一个相同的值C; I(X=k; Y)对所有满足ak=0的k都取值不超过上述的相同值C 。,互信息的凸性,I(X=k; Y)表示什么?表示事件X=k与随机变量Y之间的“半平均互信息量”。,互信息的凸性,例 设X的
6、事件有0、1; Y的事件有0、1; 已知p(0|0)=1-u;p(1|0)=u;p(0|1)=u;p(1|1)=1-u。当X服从等概分布(a0=P(X=0)=1/2;a1=P(X=1)=1/2)时,I(X;Y)达到最大。因为此时,互信息的凸性,2.4 连续随机变量的互信息和微分熵,连续随机变量的互信息,定义2.5.1 给定二维连续型随机变量(X, Y), f(X,Y)(x, y)(因此就给定了两个连续型随机变量X, fX(x)和Y, fY(y))。事件xX与事件yY的互信息量定义为,连续随机变量的平均互信息,I(X; Y | Z)I(XY; Z),定义2.5.2 给定二维连续型随机变量(X,
7、Y), f(X,Y)(x, y)(因此就给定了两个连续型随机变量X, fX(x)和Y, fY(y))。 X与Y的平均互信息量定义为,性质,非负性对称性数据处理定理关系,连续随机变量的微分熵,(连续型随机变量为什么不能类似地定义平均自信息量熵?这是因为,连续型随机变量的事件有无穷多个,每个事件发生的概率无穷小。如果类似地定义熵,则熵是无穷大。因此只能定义所谓“微分熵”,而“微分熵”的直观合理性大打折扣),微分熵的定义 给定连续型随机变量X, fX(x)。 X的微分熵定义为,连续随机变量的微分熵,HC(XY)HC(Y | X), HC(Y | X) HC(Y)互信息与微分熵I(X ; Y)HC(X
8、)HC(X | Y)HC(Y)HC(Y | X) HC(X)+HC(Y)HC(X, Y)HC(X, Y)HC(X)+HC(Y)I(X ; Y),均匀随机变量的微分熵,例2.7.2 设XU(a, b),求X的微分熵(我们将发现, X的微分熵未必非负)。,正态随机变量的微分熵,例2.7.3 设XN(m, 2),求X的微分熵(我们将发现, X的微分熵未必非负)。,正态随机变量的微分熵,熵功率,微分熵不具有非负性,例2.7.3,练习:,试求指数分布连续信源的熵,微分熵的极大化,1.峰值功率受限均匀分布微分熵最大:HC(X) log 2M2.平均功率受限高斯分布微分熵最大3.平均功率大于等于熵功率,习题,10个硬币中有一个重量偏轻,其他9个为标准重量。在不用砝码的天平上至多称多少次,就能发现这个轻的硬币?怎样称?用天平称的信息论含义是什么?,