第6讲联合熵与条件熵信息熵H(X)反映了随机变量X的取值不确定性。当X是常量时,其信息熵最小,等于0;当X有n个取值时,当且仅当这些取值的机会均等时,信息熵H(X)最大,等于logn比特。我们拓展信息熵H(X)的概念,考虑两个随机变量X和Y的联合熵H(XY)和条件熵H(Y|X)。1.联合熵设X,Y是两个随机变量,则(X,Y)是二维随机变量,简写为XY。二维随机变量XY的联合概率分布记为p(xy),即p(xy)=PrX=x,Y=y根据信息熵的定义可知,XY的信息熵为H(XY)二工p(xy)I(xy)二工p(xy)log1-p(xy)x,yx,y定义11二维随机变量XY的信息熵H(XY)称为X与Y的联合熵(jointentropy)。它反映了二维随机变量XY的取值不确定性。我们把它理解为X和Y取值的总的不确定性。练习:假设有甲乙两只箱子,每个箱子里都存放着100个球。甲里面有红蓝色球各50个,乙里面红、蓝色的球分别为99个和1个。试计算H(XY)我们将联合熵概念推广到任意多离散型随机变量上。定义九2-组随机变量X1,X2