本篇文章给大家谈谈信息论基础,以及信息论基础于秀兰课后答案对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
本文目录一览:
贝叶斯网专题1:信息论基础
目录
[toc]
贝叶斯网是一种将概率统计应用于复杂领域,进行不确定性推理和数据分析的工具,其在机器学习和人工智能领域具有重要的基础性地位。从技术层面讲,贝叶斯网可系统地描述随机变量之间关系,构造贝叶斯网的主要目的是进行概率推理。
理论上,进行概率推理只需要一个联合概率分布即可,但联合概率分布的复杂度与随机变量规模呈指数级关系,在解决实际问题时不可行。贝叶斯网为解决该问题提供了方法,通过贝叶斯网可将复杂的联合概率分布分解为一系列规模较小的子模块,从而降低训练和推理的复杂度。
本人将主要依据香港科大张连文教授的《贝叶斯网引论》,对其中重要内容进行精炼,并通过接下来的几篇博客对贝叶斯网展开专题介绍,分三大部分进行:
信息论是基于概率论的一门研究信息传输和处理的数学理论。它不仅是信息技术的基础,也在统计力学、机器学习等领域发挥重要作用。在构建贝叶斯网的过程中,可以用信息论来进行分析。
Jesen不等式源于函数的凹凸性。在数学中,称一个函数为凹函数是指向上凹,凸函数是指向下凸,如下图所示。
证明
用归纳法证明,当 时,式(1)恒等。假设式(1)在 时成立,证明它在 时也成立,即:
命题得证。
Jensen不等式是与函数凹凸性有关的基本性质,在信息论中常会用到,比如用于计算信息熵的对数函数就满足凹函数的Jensen不等式,这在后文证明信息熵的性质时会用到。
一个离散随机变量 的熵 的定义为:
其中,约定 .上式的对数若以2为底,则熵的单位是比特,若以e为底,则单位是奈特,后文将都以比特为单位。
熵在热力学中表示系统的混乱程度,在概率论中表示随机变量的不确定程度,在信息论中表示对信源的期望编码长度。
先来解释下信息论中期望编码长度:假设有一个信源,可产生A、B、C三种不同的信息,产生的概率分别为1/2、1/4和1/4,我们要设计一套编码系统来记录这个信源所产生的信息,所用的比特位数越少越好。显然,我们应该为出现概率大的信息分配码长较短的编码,其长度可通过 来确定,比如我们为A分配码长为1的编码,为B和C分配码长为2的编码,通过霍夫曼编码算法,可将A编码为0,将B和C编码为10和11.此时,该信源的编码平均码长则为
由此我们可知,熵代表了对信源进行最优编码时的期望编码长度。反过来看,如果将这个信源用一个随机变量来表示,若该随机变量的不确定性越高(产生的信息种类越多、各种类出现的概率越平均),则需要用来编码该信源的期望编码长度也会越大,反之则越短。因而,熵又可以表示随机变量的不确定程度。
例如,一个取值为0或1的随机变量 ,计 ,根据熵的定义,有:
随着p的变化, 的变化曲线如下图:
证明:
(1)根据熵的定义, 显然成立。
(2)log为上凹函数,根据Jensen不等式有:
命题得证。
联合熵是基于联合概率分布对熵的推广。两个离散随机变量X和Y的联合熵定义为:
条件熵是基于条件概率分布对熵的推广。随机变量X的熵时用它的概率分布P(X)来定义的。如果知道另一个随机变量Y的取值为y,那么X的条件分布即为P(X|Y=y)。利用此条件分布可定义给定Y=y时X的条件熵:
熵H(X)度量的是随机变量X的不确定性,条件熵H(X|Y=y)度量的则是已知Y=y后,X的不确定性。
上式(3)中,当y变化时,H(X|Y=y)也会发生改变,当知道Y的概率分布后,可以计算X关于Y的条件熵的期望值:
H(X|Y)称为给定Y时X的条件熵。
注意:H(X|Y)和H(X|Y=y)不一样,后者是已知Y取某一特定值时X的条件熵,即已知Y=y后,X剩余的不确定性。而前者时在未知Y的取值时,对观测到Y的取值后X剩余的不确定性的期望值。尤其值得注意的是,H(X|Y=y)可能比H(X)大,即知道Y的某个具体取值后,有可能增大对X的不确定性。而H(X|Y)永远不会比H(X)大,即平均来说,知道Y不会增加X的不确定性。下面给出一个具体的例子加以比较:
设已知联合分布P(X,Y)及其边缘分布P(X)和P(Y)如下表所示:
从而可得出:
可以看到:观测到 后,可使X的熵减小;观测到 后,反而使X的熵增大;但平均而言,对Y的观测使X的熵减小。
由此,我们定义互信息量为:
称为Y关于X的信息,表示Y中包含多少关于X的信息。很容易证明 ,因此又称之为X和Y之间的互信息。
证明:
同理可得:
因此, 得证。
证明:
同理可证
证明:
等式左边:
等式右边:
从而等式成立。
联合熵、条件熵和互信息之间的关系,可用如下文氏图来表示它们之间的关系:
在1.1.2节介绍熵的概念时,介绍了熵的期望编码长度的意义。交叉熵的概念也可以从期望编码长度的意义出发进行理解。
若信源X的理论概率分布为Q(X),但其实际概率分布为P(X),则使用理论概率分布构建的霍夫曼编码在实际概率分布下的期望编码长度即为交叉熵,定义为:
相对熵则定义为交叉熵与熵之差,即按照信源的理论概率分布Q设计的最优编码的期望码长会比按照实际概率分布P设计的最优编码的期望码长多几个比特。其定义如下:
其中约定: ; .
KL(P,Q)又称为P(X)和Q(X)之间的Kullback-Leibler距离,或KL散度。但严格来讲,它并不是一个真正意义的距离,因为其不满足对称性。
证明:
信息不等式得证。
利用KL散度可以度量两个概率分布之间的差异。
从1.1.3节给出的联合熵、条件熵与互信息之间关系的文氏图可以看出:对于随机变量X和Y,当互信息I(X,Y)=0时,X和Y相互独立;且 ,等号也在X和Y独立时成立。我们也可以给出严格证明。
证明:
由KL散度大于等于0可得: ,当且仅当P(X,Y)=P(X)P(Y)时等号成立,即X与Y相互独立。
由于 ,所以 ,等号在X与Y相互独立时成立。
从信息论的角度,我们可以看出:两个随机变量相互独立等价于它们之间的互信息为0.
该结论还可以进一步推广到三个随机变量的情况。
对于随机变量X,Y,Z,条件熵H(X|Z)是给定Z时X剩余的不确定性,如果再进一步给定Y,X剩余的不确定性变为H(X|Z,Y)。这两者之差即为给定Z时观测Y的取值会带来的关于X的信息量,即给定Z时X和Y之间的条件互信息,定义如下:
类似上文证明 ,我们也容易证明:
类似上文证明 和 ,我们也容易证明:
其中等号仅在X与Y在给定Z时互相独立的情况下成立,记作 .
从信息论的角度,我们可以看出:给定Z时,两个随机变量X和Y相互条件独立等价于它们的条件互信息为0,即Y关于X的信息已全部包含在Z中,从而观测到Z后,再对Y进行观测不会带来关于X更多的信息。另一方面,如果X和Y在给定Z时相互不独立,则 ,即在已知Z的基础上对Y的进一步观测将会带来关于X的新信息,从而降低X的不确定性。
信息论基础(1)初识信息和离散信源
首先必须明确,什么是信息?
如果从科学史角度,必然要从热力学第一第二定律讲起,直到麦克斯韦妖,再到信息论,兰道尔极限甚至于宇宙本质的相关概念。但这里仅仅从对信息的认识做一个基础的概述。
更多信息可以参考以下视频:
扯得远了,在这里多说一句,确定一个概念的边沿是非常重要的。在牛顿之前,motion(运动)的含义就与信息一样含混不清。对于当时遵循亚里士多德学说的人们而言,运动可以指代及其广泛的现象:桃子成熟、石头落地、孩童成长、尸体腐烂······而牛顿重新定义了运动的概念,即物体在一段时间内从一点到另一点的移动轨迹。因而,牛顿才能对其进行描述,即点与点之间的长度、所经过的时间。因而,牛顿才能提出速度、加速度等概念。而后,牛顿又重新定义了「质量」「密度」「体积」等概念,最终才得以构建经典物理体系。
那么,我们首先要明白,什么是信息?
这是一个古老的问题,又是一个现代的问题,也是一个迄今为止仍然众说纷纭、悬而未决的问题,特别是在社会所认可的广义信息的层面上。
你要是问:“什么是信息?”,人人都能列出一大串他称之为‘信息’的东西:新闻、消息、音乐、图片……。然而如果问:“信息是什么?”那就难以回答了。因为你可以说:“音乐是信息”,但你不能说:“信息是音乐”;你可以说:“照片是信息”,但你不能说:“信息是照片”。要给信息下个定义是不容易的。‘信息’的定义需要从许多具体信息表现形式中抽象出它们的共性来。
中国古人理解的信息其实很简单,正如李清照的名句中所述:“不乞隋珠与和璧,只乞乡关新信息。”,看来这只是通俗意义上的‘音讯’或‘消息’而已。
现代人比较考究,注重科学。因此而成天琢磨:信息到底是什么?信息是主观的还是客观的?是相对的还是绝对的?
昨天北京发大水,你将这个消息,用电话告知你南京的两个朋友,可是,A说他早知此事,B原来不知晓,因此,这条消息对A来说,没有增加任何信息,对B来说就增加了信息。B抱着的小狗好像也听见了电话中的声音,但它不懂人的语言,这对它来说也不是信息。
信息是模糊的还是精确的?
你走到树林里,艳阳高照、和风习习、桃红李白、燕飞鸟鸣,大自然传递给我们许多信息,这些算是没有精确度量过的、模糊的信息。
信息和‘知识’是一码事吗?也应该不是。众所周知,我们的信息化社会虽然充满了信息,但其中“鱼龙混杂,良莠不齐”,以至于大家都希望自己的孩子不要整天沉迷于网上,许多人抱怨:“信息虽发达,知识却贫乏”。所以,信息并不等同于知识!
文学家、哲学家、社会学家……,各家各派都对‘信息’有不同的理解和说法。这其中,物理学家们,是如何理解和定义信息的呢?
物理学家们的研究对象是物质和物质的运动,即物质和能量。在他们看来,信息是什么呢?是否能归类进这两个他们所熟悉的概念呢?
信息显然不是物质,它应该是物质的一种属性,听起来和能量有些类似,但它显然也不是能量。物理学中的能量早就有其精确的、可度量的定义,它衡量的是物体(物质)做功的本领。信息与这种‘功’似乎无直接关联。当然,我们又知道,信息是很有用的,个人和社会都可以利用信息来产生价值,这不又有点类似于‘做功’了吗?对此,物理学家仍然摇头:不一样啊,你说的好像是精神上的价值。
信息属于精神范畴吗?那也不对啊,从科学家们的眼中看来,信息,仍然应该是一种独立于人类的主观精神世界、客观存在的东西。因此,到了最后,有人便宣称说:
“组成我们的客观世界,有三大基本要素:除了物质和能量之外,还有信息。”
美国学者、哈佛大学的欧廷格(A.G.Oettinger)对这三大基本要素作了精辟的诠释:
“没有物质什么都不存在,没有能量什么都不会发生,没有信息什么都没有意义。”
尽管对“信息是什么?”的问题难有定论,但通过与物理学中定义的物质和能量相类比,科学家们恍然大悟:信息的概念如此混乱,可能是因为我们没有给它一个定量的描述。科学理论需要物理量的量化,量化后才能建立数学模型。如果我们能将‘信息’量化,问题可能就会好办多了!
于是,在二十世纪40年代后期,一个年轻的科学家,后来被人誉为信息和数字通讯之父的香农,登上了科学技术的历史舞台。
香农的两大贡献:一是信息理论、信息熵的概念;另一是符号逻辑和开关理论。香农的信息论为明确什么是信息量概念作出了决定性的贡献。感谢香农,在定量研究的科学领域中,他将原来模模糊糊的信息概念,天才地给以了量化,使我们大家在解数学问题时也能‘牛刀小试’。
其实香农并不是给信息量化的第一人,巨人也得站在前人的肩膀上。1928年,哈特利(R.V. H. Harley)就曾建议用N log D这个量表示信息量。1949年,控制论创始人维纳将度量信息的概念引向热力学。1948年,香农认为,信息是对事物运动状态或存在方式的不确定性的描述,并把哈特利的公式扩大到概率 不同的情况。
信息论中的信息,和日常用语中的信息意思有所差别。香农将信息中的「意义」剥离。举例来说,在信息论中,red仅仅是「red」这个3个字母组成的字符而已,而至于red所代表的「红色」,不是信息论所关注的内容。换言之,信息论只是负责将「red」从Alice这里复现到Bob这里。至于「red」在Alice这里代表「红色」而在Bob那里代表「绿色」,不是信息论关心的事情。
先通过几个熟知的概念区分一下信息:
其次是通信相关的概念:
首先我们给出几个主要概念的定义,接下来给出相应解释
自信息有以下几个问题值得关注
为了能够更好理解互信息,我们接下来先引入信息熵的概念。
自信息只能代表一个随机事件带来的信息,当我们需要描述一个随机变量的所包含的信息,或者说度量一个随机变量的不确定度时,就需要使用熵来定义。
在此基础上可以做出以下定义:
上图句子开头是“对称性”
在符号表达上,如果采用 作为底,则熵表示为 ,实际上易证,有
也就是说我们可以任意改变定义中对数的底,只要乘以一个合适的常书因子,就可以自由变换。
接下来我们尝试诠释熵的现实意义:
当我们把单个随机变量推广到两个随机变量,也就产生了联合熵的概念。
需要注意的是,当X,Y不相互独立时,X和Y的联合熵大于X和Y各自的熵之和。
证明如下:
第二个也可采用类似方法证明
注意这里第一个H(X|Y)应为H(X,Y)
下面引入机器学习里两个对熵的定义
分析:
相对熵的关系
以通信角度看待互信息
互信息的性质:
首先是可达性的证明(accessibility),也就是找到一个解:
其次是结论的逆的证明(converse),也就是不可能超过某个边界
将以上两个证明联立在一起,解在边界上时,也就找到了问题的最优解。
对于凸集而言,任意两个元素连线的所有元素都在集合内部
而非凸集,其连线的所有元素有可能不在集合内部
注意到这里定义为下凸和上凸函数,不同于别处的凹凸函数的定义。
其中0= =1
凸函数的性质:
这里的凸函数特指下凸函数
“严格”应该是指落在弦的下方或上方,而不能落在弦上。也就是二阶导数不为零。
举例:
连上之前讲过的共有如下几个重要不等式:
信息论创立的理论基础和技术条件?
信息论创立的理论基础和技术条件?
信息论创立的理论基础:信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。
信息系统就是广义的通信系统,泛指某种信息从一处传送到另一处所需的全部设备所构成的系统。信息论是关于信息的理论,应有自己明确的研究对象和适用范围。但从信息论诞生的那时起人们就对它有不同的理解。
信息论创立的技术条件:信息论将信息的传递作为一种统计现象来考虑,给出了估算通信信道容量的方法。信息传输和信息压缩是信息论研究中的两大领域。这两个方面又由信息传输定理、信源信道隔离定理相互联系。
信息论基本内容:
传统的通信系统如电报、电话、邮递分别是传送电文信息、语声信息和文字信息的;而广播、遥测、遥感和遥控等系统也是传送各种信息的,只是信息类型不同,所以也属于信息系统。
有时,信息必须进行双向传送,例如电话通信要求双向交谈,遥控系统要求传送控制用信息和反向的测量信息等。这类双向信息系统实际上是由两个信息系统构成。所有信息系统都可归纳成如图所示的模型来研究它的基本规律。
发表评论