文本信息处理预备知识.ppt

举报
资源描述
文本信息处理,章成志 Department of Information Management, School of Economics and Management, Nanjing University of Science and Technology E-Mail: zhangchz@istic.ac.cn Sina weibo: @章成志 Blog: http://blog.sciencenet.cn/u/timy,2,预备知识,预备知识,概率统计基础 信息论基础 集合论基础 线性代数基础 实验数据 性能评价 编程工具,3,——宗成庆. 统计自然语言处理. 北京:清华大学出版社,2008. ——刘群. 计算语言学课件,概率统计基础,•样本空间 •事件、随机变量 •概率 •条件概率 •联合概率 •独立事件 •贝叶斯原理 •期望与方差 •概率分布 •协方差、相关系数 •参数估计 •极大似然估计 •随机过程 •马尔科夫过程,4,概率统计基础,概率(Probability),5,概率是从随机实验中的事件到实数域的函数,用以表示事件发生的可能性。如果用P(A) 作为事件A的概率,是实验的样本空间,则概率函数必须满足如下公理: 公理1(非负性): P(A)  0 公理2(规范性): P() = 1 公理3(可列可加性):如果对任意的 i和 j ( i ≠ j ),事件 Ai和 Aj不相交( Ai∩Aj=Φ),则有:,概率统计基础,最大似然估计(Maximization Likelihood Estimation),6,概率统计基础,7,概率统计基础,条件概率(Conditional Probability),8,概率统计基础,全概率公式,9,概率统计基础,10,概率统计基础,贝叶斯法则(Bayes’ Theorem),11,概率统计基础,贝叶斯决策理论(Bayesian Decision Theory),12,概率统计基础,例子 假设某一种特殊的句法结构很少出现,平均大约每100,000个句子中才可能出现一次。我们开发了一个程序来判断某个句子中是否存在这种特殊的句法结构。如果句子中确实含有该特殊句法结构时,程序判断结果为“存在”的概率为0.95。如果句子中实际上不存在该句法结构时,程序错误地判断为“存在”的概率为0.005。那么,这个程序测得句子含有该特殊句法结构的结论是正确的概率有多大?,13,概率统计基础,假设G 表示事件“句子确实存在该特殊句法结构”,T 表示事件“程序判断的结论是存在该特殊句法结构”。那么,我们有:,14,求:P(G|T)= ?,概率统计基础,二项式分布(Binomial Distribution),15,概率统计基础,二项式分布(Binomial Distribution),16,概率统计基础,二项式分布(Binomial Distribution),17,在自然语言处理中,常以句子为处理单位。一般地,我们假设一个语句独立于它前面的其它语句,句子的概率分布近似地认为符合二项式分布。,概率统计基础,期望(Expectation),18,概率统计基础,方差(Variance),19,N元语法模型,20,N元语法模型,21,信息论基础,•信息量 •互信息 •熵 •联合熵、条件熵 •交叉熵 •困惑度、混乱度Perplexity •噪声信道模型,22,信息论基础,熵(Entropy),23,香农(Claude Elwood Shannon)于1940年获得MIT 数学博士学位和电子工程硕士学位后,于1941年加入了贝尔实验室数学部,并在那里工作了15年。1948年6月和10月,由贝尔实验室出版的《贝尔系统技术》杂志连载了香农博士的文章《通讯的数学原理》,该文奠定了香农信息论的基础。 熵是信息论中重要的基本概念。,信息论基础,熵(entropy),24,信息论基础,熵(entropy),25,熵又称为自信息(self-information),表示信源 X 每发一个符号(不论发什么符号)所提供的平均信息量。熵也可以被视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大,它的不确定性越大。那么,正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。,信息论基础,例子,26,计算下列两种情况下英文(26个字母和空格,共27个字符)信息源的熵: (1)假设27个字符等概率出现; (2)假设英文字母的概率分布如下:,信息论基础,解:,27,说明:考虑了英文字母和空格实际出现的概率后,英文信源的平均不确定性,比把字母和空格看作等概率出现时英文信源的平均不确定性要小。,信息论基础,词熵、字母熵、汉字熵,28,冯志伟计算出: –汉字的熵为9.65比特 –法语一个字母的熵为3.98比特 –意大利语一个字母的熵为4.00比特 –西班牙语一个字母的熵为4.01比特 –英语一个字母的熵为4.03比特 –德语一个字母的熵为4.12比特 –俄语一个字母的熵为4.35比特,信息论基础,29,1970年代末期冯志伟首先开展了对汉字信息熵的研究,经过几年的语料收集和手工统计,在当时艰苦的条件下测定了汉字的信息熵为9.65比特(bit)。 1980年代末期,刘源等测定了汉字的信息熵为9.71 比特,而汉语词的熵为11.46比特。 汉语词汇平均长度约为2.5个汉字。,信息论基础,30,信息论基础,31,联合熵(Joint Entropy),信息论基础,32,条件熵(Conditional Entropy),信息论基础,33,信息论基础,34,例: 假设(X, Y)服从如下联合分布:,请计算H(X)、H(Y) 、H(X|Y)、H(Y|X) 和H(X, Y)各是多少?,信息论基础,35,信息论基础,36,信息论基础,37,信息论基础,38,信息论基础,39,相对熵(Relative Entropy, 或Kullback-Leibler divergence, KL 距离),两个概率分布p(x) 和q(x) 的相对熵定义为:,(18),信息论基础,40,对熵常被用以衡量两个随机分布的差距。当两个随机分布相同时,其相对熵为0。当两个随机分布的差别增加时,其相对熵也增加。,信息论基础,交叉熵(Cross Entropy),41,(19),信息论基础,困惑度(Perplexity),42,(20),信息论基础,互信息(Mutual Information),43,如果(X, Y) ~ p(x, y),X, Y之间的互信息 I(X; Y)定义为: I (X; Y) = H(X) – H(X | Y) (21),(22),信息论基础,44,信息论基础,应用:中文分词问题,45,利用互信息值估计两个汉字结合的强度:,互信息值越大,表示两个汉字之间的结合越紧密,越可能成词。反之,断开的可能性越大。,信息论基础,46,信息论基础,47,信息论基础,48,噪声信道模型(Noisy Channel Model),在信号传输的过程中都要进行双重性处理:一方面要通过压缩消除所有的冗余,另一方面又要通过增加一定的可控冗余以保障输入信号经过噪声信道后可以很好的恢复原状。信息编码时要尽量占用少量的空间,但又必须保持足够的冗余以便能够检测和校验错误。接收到的信号需要被解码使其尽量恢复到原始的输入信号。 噪声信道模型的目标就是优化噪声信道中信号传输的吞吐量和准确率,其基本假设是一个信道的输出以一定的概率依赖于输入。,信息论基础,49,信息论基础,50,信息论基础,51,(23),信息论基础,52,(24),信息论基础,53,信息论基础,54,(25),信息论基础,55,信息论基础,56,集合论基础,57,集合论基础,58,线性代数基础,59,• 向量空间模型,线性代数基础,60,向量的内积,61,向量的长度,62,⑵ 向量长度的性质,向量的单位化,63,实验数据,64,•训练集Training Set – 用来获得模型参数 •测试集Test Set –从训练集以外独立采样 –反映系统面对真实世界的处理能力 •封闭测试与开放测试 •交叉验证Cross-Validation –将数据集分为k个子集 –用k-1个子集作训练集,1个子集作测试集,然后k 次交叉验证 •公开测评数据集 -LDC, Chinese-LDC,性能评价,65,性能评价,66,编程工具,编程语言:Python, java, C++ 编程工具:NLTK,67,什么是Python?,68,Python的特点,历史短(不到10年),但应用广泛 –大范围应用,尤其在AI和Web领域 非常容易学习 –很多学校用把Python作为入门语言 编程方便 –相比C、C++、Java代码短得多 容易阅读与维护 –类似于自然语言和数学公式的语法,69,“Hello World!”,70,NLTK工具,NLTK:Natural Language Toolkit NLTK是用Python实现的一套自然语言处理软件工具 NLTK包括: –与NLP相关的基本数据类型 –NLP的标准函数接口:切词、标注、句法分析等 –NLP中常见任务的具体实现 –NLP任务演示(句法分析、组块分析、聊天机器人) –详尽的文档、教程与参考书目 –随工具包发布的数据:词典、语料库等等,71,Thanks!,Q/A,E-mail: zhangchz@istic.ac.cn,
展开阅读全文
相关搜索
温馨提示:
文客久久所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。

当前位置:首页 > 重点行业资料库 > 1


Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。