1、文本信息处理,章成志Department of Information Management, School of Economics and Management,Nanjing University of Science and Technology E-Mail: Sina weibo: 章成志 Blog: http:/ 统计自然语言处理. 北京:清华大学出版社,2008.刘群. 计算语言学课件,概率统计基础,样本空间事件、随机变量概率条件概率联合概率独立事件贝叶斯原理期望与方差概率分布协方差、相关系数参数估计极大似然估计随机过程马尔科夫过程,4,概率统计基础,概率(Probabili
2、ty),5,概率是从随机实验中的事件到实数域的函数,用以表示事件发生的可能性。如果用P(A) 作为事件A的概率,是实验的样本空间,则概率函数必须满足如下公理:公理1(非负性): P(A) 0公理2(规范性): P() = 1公理3(可列可加性):如果对任意的 i和 j ( i j ),事件 Ai和 Aj不相交( AiAj),则有:,概率统计基础,最大似然估计(Maximization Likelihood Estimation),6,概率统计基础,7,概率统计基础,条件概率(Conditional Probability),8,概率统计基础,全概率公式,9,概率统计基础,10,概率统计基础,贝
3、叶斯法则(Bayes Theorem),11,概率统计基础,贝叶斯决策理论(Bayesian Decision Theory),12,概率统计基础,例子 假设某一种特殊的句法结构很少出现,平均大约每100,000个句子中才可能出现一次。我们开发了一个程序来判断某个句子中是否存在这种特殊的句法结构。如果句子中确实含有该特殊句法结构时,程序判断结果为“存在”的概率为0.95。如果句子中实际上不存在该句法结构时,程序错误地判断为“存在”的概率为0.005。那么,这个程序测得句子含有该特殊句法结构的结论是正确的概率有多大?,13,概率统计基础,假设G 表示事件“句子确实存在该特殊句法结构”,T 表示事
4、件“程序判断的结论是存在该特殊句法结构”。那么,我们有:,14,求:P(G|T)= ?,概率统计基础,二项式分布(Binomial Distribution),15,概率统计基础,二项式分布(Binomial Distribution),16,概率统计基础,二项式分布(Binomial Distribution),17,在自然语言处理中,常以句子为处理单位。一般地,我们假设一个语句独立于它前面的其它语句,句子的概率分布近似地认为符合二项式分布。,概率统计基础,期望(Expectation),18,概率统计基础,方差(Variance),19,N元语法模型,20,N元语法模型,21,信息论基础,
5、信息量互信息熵联合熵、条件熵交叉熵困惑度、混乱度Perplexity噪声信道模型,22,信息论基础,熵(Entropy),23,香农(Claude Elwood Shannon)于1940年获得MIT 数学博士学位和电子工程硕士学位后,于1941年加入了贝尔实验室数学部,并在那里工作了15年。1948年6月和10月,由贝尔实验室出版的贝尔系统技术杂志连载了香农博士的文章通讯的数学原理,该文奠定了香农信息论的基础。 熵是信息论中重要的基本概念。,信息论基础,熵(entropy),24,信息论基础,熵(entropy),25,熵又称为自信息(self-information),表示信源 X 每发一
6、个符号(不论发什么符号)所提供的平均信息量。熵也可以被视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大,它的不确定性越大。那么,正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。,信息论基础,例子,26,计算下列两种情况下英文(26个字母和空格,共27个字符)信息源的熵: (1)假设27个字符等概率出现;(2)假设英文字母的概率分布如下:,信息论基础,解:,27,说明:考虑了英文字母和空格实际出现的概率后,英文信源的平均不确定性,比把字母和空格看作等概率出现时英文信源的平均不确定性要小。,信息论基础,词熵、字母熵、汉字熵,28,冯志伟计算出:汉字的熵为9.6
7、5比特法语一个字母的熵为3.98比特意大利语一个字母的熵为4.00比特西班牙语一个字母的熵为4.01比特英语一个字母的熵为4.03比特德语一个字母的熵为4.12比特俄语一个字母的熵为4.35比特,信息论基础,29,1970年代末期冯志伟首先开展了对汉字信息熵的研究,经过几年的语料收集和手工统计,在当时艰苦的条件下测定了汉字的信息熵为9.65比特(bit)。1980年代末期,刘源等测定了汉字的信息熵为9.71 比特,而汉语词的熵为11.46比特。汉语词汇平均长度约为2.5个汉字。,信息论基础,30,信息论基础,31,联合熵(Joint Entropy),信息论基础,32,条件熵(Conditio
8、nal Entropy),信息论基础,33,信息论基础,34,例: 假设(X, Y)服从如下联合分布:,请计算H(X)、H(Y) 、H(X|Y)、H(Y|X) 和H(X, Y)各是多少?,信息论基础,35,信息论基础,36,信息论基础,37,信息论基础,38,信息论基础,39,相对熵(Relative Entropy, 或Kullback-Leibler divergence, KL 距离),两个概率分布p(x) 和q(x) 的相对熵定义为:,(18),信息论基础,40,对熵常被用以衡量两个随机分布的差距。当两个随机分布相同时,其相对熵为0。当两个随机分布的差别增加时,其相对熵也增加。,信息论
9、基础,交叉熵(Cross Entropy),41,(19),信息论基础,困惑度(Perplexity),42,(20),信息论基础,互信息(Mutual Information),43,如果(X, Y) p(x, y),X, Y之间的互信息 I(X; Y)定义为: I (X; Y) = H(X) H(X | Y) (21),(22),信息论基础,44,信息论基础,应用:中文分词问题,45,利用互信息值估计两个汉字结合的强度:,互信息值越大,表示两个汉字之间的结合越紧密,越可能成词。反之,断开的可能性越大。,信息论基础,46,信息论基础,47,信息论基础,48,噪声信道模型(Noisy Chan
10、nel Model),在信号传输的过程中都要进行双重性处理:一方面要通过压缩消除所有的冗余,另一方面又要通过增加一定的可控冗余以保障输入信号经过噪声信道后可以很好的恢复原状。信息编码时要尽量占用少量的空间,但又必须保持足够的冗余以便能够检测和校验错误。接收到的信号需要被解码使其尽量恢复到原始的输入信号。噪声信道模型的目标就是优化噪声信道中信号传输的吞吐量和准确率,其基本假设是一个信道的输出以一定的概率依赖于输入。,信息论基础,49,信息论基础,50,信息论基础,51,(23),信息论基础,52,(24),信息论基础,53,信息论基础,54,(25),信息论基础,55,信息论基础,56,集合论基
11、础,57,集合论基础,58,线性代数基础,59, 向量空间模型,线性代数基础,60,向量的内积,61,向量的长度,62, 向量长度的性质,向量的单位化,63,实验数据,64,训练集Training Set 用来获得模型参数测试集Test Set 从训练集以外独立采样 反映系统面对真实世界的处理能力封闭测试与开放测试交叉验证Cross-Validation 将数据集分为k个子集 用k-1个子集作训练集,1个子集作测试集,然后k 次交叉验证公开测评数据集 -LDC, Chinese-LDC,性能评价,65,性能评价,66,编程工具,编程语言:Python, java, C+编程工具:NLTK,67
12、,什么是Python?,68,Python的特点,历史短(不到10年),但应用广泛 大范围应用,尤其在AI和Web领域非常容易学习 很多学校用把Python作为入门语言编程方便 相比C、C+、Java代码短得多容易阅读与维护 类似于自然语言和数学公式的语法,69,“Hello World!”,70,NLTK工具,NLTK:Natural Language ToolkitNLTK是用Python实现的一套自然语言处理软件工具NLTK包括: 与NLP相关的基本数据类型 NLP的标准函数接口:切词、标注、句法分析等 NLP中常见任务的具体实现 NLP任务演示(句法分析、组块分析、聊天机器人) 详尽的文档、教程与参考书目 随工具包发布的数据:词典、语料库等等,71,Thanks!,Q/A,E-mail: ,
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。