1.4信息量与香农公式
本课程的学习中经常会遇到消息、信号和信息等概念,从字面解释,消息是指人或事物情况的报道;信号则是消息的载体,也就是消息的携带者。通信就是利用电流、电压、无线电波和光波等信号作为载体携带消息,实现消息的传递;信息是指对于接收者来说事先不知道的消息。因此消息与信息是不同的,信息与不确定性紧密相关。在有效的通信中,信源将要发送的信号是不确定的,接收者在接收到信号后不确定性减小或消失,那么接收者从不知到知之,从而获得信息。信息是有量值的,信息量的定义如下:
假设信源是由q个离散符号S1,S2,…,Si,…,Sq所组成的符号集合,集合中的每个符号是独立的,其中任一符号Si对应出现的概率为P(Si),并且0≤P(Si)≤1,ΣP(Si)=1。那么,符号Si含有的信息量记为I(Si),则
上述的对数底为2,则信息量I(Si)的单位为比特(bit)。
首先,研究最简单的情况,即二元制等概信源。此时信源符号仅有“0”和“1”,并且对应的概率均为,根据信息量的定义,有
I(S0)=I(S1)=-lb=1(bit)
这就是说等概二元制信源每一个符号的信息量为1bit。它正好是信息量的单位。为什么把二元制一个符号所携带的信息量作为信息量的单位?这是因为对于二元制信源,在接收者没有收到符号前就知道它只有两种可能,未知的或不肯定的仅是两种符号中到底哪一个被发送,只有当接收到符号后,这种不肯定性才消除,所以获得了信息。这是最简单的信息,因为若比二元制再简单,就是一元制,一元制仅有一种状态,状态唯一,不包含信息,那就不用发送了。因此将等概二元制一个符号所含信息作为信息量的单位是合理的。
其次,信息量的定义把信息的度量与信源符号出现的概率紧密联系在一起。这就把信息的测度纳入概率的范畴,概率越小,信息量越大。这也符合人们对信息量的理解。
最后,信息量用对数表示能准确表达信息量的物理本质:
① 确定符号,概率为1,取对数为0,正好表示确定符号信息量为零。
② 对数能正确表示传递多个符号总的信息量为各符号信息量之和。
例如3个等概二元制符号总信息量为单个符号的3倍,即为3bit。因为3个二元制符号有8种排列,并且等概,其概率均为,所以I(3S)=-lb=3bit。因为-lb=-lb=3(-lb)=3I(S),所以,I(3S)=3I(S),这就是说,3个信息符号的信息总量是每个符号信息量之和,因此,对数特性能准确地表示信息的可加性。
③信息量最小为零,不会为负。
由于0≤P(Si)≤1,所以,lbP(Si)最小为零,不可能为负数,因此,对数的这种特性也正好反映了信息量不会为负值的特点。
一般来说,信源里各符号出现的概率并不相等,根据式(1.1)定义的各符号所含信息量各不相同。如果先后相继发出的符号互不相关,即统计独立,其信源符号平均信息量记为
H(S)称为该信源的熵。根据式(1.2),熵有如下性质:
① 熵的物理概念是信源每个符号的平均信息量,单位是比特/符号。
② 熵是非负的,最小为零。
③ 当信源符号等概时,熵有最大值,记为
Hmax(S)=lbq
式中,q为信源符号个数。
④ 只要信源各符号不等概,则H(S)<Hmax(S)。
式(1.3)称为信源冗余。只要信源各符号不等概,则信源冗余存在,由于冗余存在,信源编码就可压缩冗余。改变信源原有的概率分布,使之逼近或达到等概分布,这就是信源压缩编码的最基本的方法之一。
信源发出的信息是以信号的形式通过信道进行传送的,单位时间通过信道的平均信息量称为信息速率,记为
式中,TB是每个符号持续的时间,信息速率Rb的单位是比特/秒,记为b/s。
当信源的熵取最大值时,信息速率也达到最大,即
另一个重要概念是为信道容量,它是信道最大无误信息速率。香农经过长期研究,在高斯噪声条件下,提出著名的香农公式
式中,B是信道带宽,S是信号功率,N是噪声功率。对高斯白噪声,N=n0B,n0为单边功率谱密度(以后会详细地讨论)。香农公式说明:
①当信号功率和噪声功率给定时,在一定带宽的信道上,理论上,在1s内无差错传递的最大信息量为C=Blb(1+),因此,要以比C更快的速率无误地传递消息是不可能的。目前在任一信道上传递信息,实际速率都远低于C。
② 从式(1.4)看出,若要保持C不变,当减小时,则需增加B;或B减小时,则需提高。这就是说,给定的信道容量,可以用减小信噪比和增大信道带宽来达到;也可以用增加信噪比和减小信号带宽来实现。因此在维持信道容量不变时,带宽和信噪比可以互换。
③ 香农公式仅仅给出了带宽和信噪比可以互换,但它并没有指出具体的实现方法。如何实现带宽和信噪比的互换以及如何提高信息速率将是通信原理研究的重要课题。