ImageVerifierCode 换一换
格式:PPT , 页数:16 ,大小:802.50KB ,
资源ID:763572      下载积分:10 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-763572.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(中文文本自动分词与标注汉语词义自动标注技术.PPT)为本站会员(国***)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

中文文本自动分词与标注汉语词义自动标注技术.PPT

1、中文文本自動分詞與標注 第 8章 漢語詞義自動標註技術 報告人:劉謦儀 (J94922018)Date 1綱要 詞義標注 詞義排歧 詞義自動標注 與 詞義自動排歧 語言的編碼 漢字字義組合結構 基於字義排歧的模型 自組織的漢語詞義排歧方法 結語Date 2詞義標注 對文本中的每個詞根據其所屬之上下文給出它的 語義編碼 指 用非文字的東西來表示文字消息的內容 ,用圖畫、樂譜等都可以進行語義編碼。 詞典 釋義文本中的某個 義項號 義類詞典中相映的 義類編碼 Date 3詞義排歧 處理一詞多義現象 例: 大學 是教育機構是一本古書, 博士 既是官名,又是博學多才的人,又是師傅,還是一種學位的名稱。

2、使用詞義標注文本可 提高檢索時的查全率和查準率 。 有利於選擇可以 恰當表達語句中詞的目標詞 ,以提高翻譯的準確性。 建立基於語義類的語言模型 ,為語音識別、手寫體識別和音字轉換提供幫助。Date 4詞義自動標注 ( Word Sense Tagging ) 也稱為詞義自動排歧 ( Word Sense Disambiguation ) 計算機 運 用邏輯運算與推理機制, 對出現在一定上下文中詞語的語義 進行正確的判斷, 自動確定其正確的義項並加以標注 的過程。 多義詞排歧 主要 依據該多義詞出現的上下文 ,排歧的過程就是 建立他們之間的聯繫過程 ,這種聯繫則是詞語間的語義聯繫。 常見方法 人

3、工智能法、基於詞典的方法、 基於語料庫的方法Date 5語言的編碼 分為 語音編碼 和 語義編碼 兩大類 語音編碼 : 用符號代表語音,一種語言區別於其他語言的根本區別就是其不同的語音音素編碼。 就英語而言有英音,美音,澳音,新西蘭音等。 語義編碼 : 是用符號代表語義,關注的是語言所能表達的意義,每種語言都有自己的語義系統。 漢語和英語屬於不同的語系,前者屬於漢藏語系,後者屬於印歐語系。 Date 6語言的編碼 漢語語義編碼的基本符號是 “字 ” 漢語的語義主要附著在 “字 ”上 。 字義排歧是詞義標注之突破點。 濃縮形音義,多為形聲字, 表音亦表意,望文生義 , 如:吠 。 大量同音字、同

4、音詞語,化成書面多可消除歧義 。 單字多義項者占 53.6%(如 打 字之義項數為 26) ; 詞組 /合成詞多義項者僅占0.46%。Date 7漢字字義組合結構 向心性字組 Vs. 離心性字組 冰山 ,青山 ,火山 ,高山 (核心字在後 ) Vs. 山峰 ,山城,山溝 ,山村 (核心字在前 ) 並列字組 Vs. 主從字組 關閉 ,左右 ,上下 ,陰陽 (二字相同相近相反 ) Vs. 火車 ,汽車 ,黑板 ,白版 (前字從 ,後字主 ) 合義 (國 +務 國務 )33%、 加義 (景 +物 可供觀賞的景緻和事務 )56.7%、 同義 (聲 +音 聲 ; 音 )、 偏義 (厚 +度 厚 度 ;

5、容 +易 易 容 )、 轉義 (目 +光 = 眼睛 +光線 見識 ) 少量字義推大量詞義成為可能!Date 8基於字義排歧的模型 資源:三台機器 + 兩部詞典 MRD-1讀入現代漢語通用字典 MRD-2讀入同義詞詞林 MTD由 MDR-1透過機器自動生成 以字義定詞義的語義標注方式準確率在 80%以上 遭遇困難處 二字詞之多義詞排歧 單字本身意義抽象、廣泛 、模糊,成詞時描述也困難 如何將詞義間之關係建構成完整的意念表達仍須努力Date 9基於字義排歧的模型 MRD1說明 MRD-1讀入現代漢語通用辭典,用來作為標注每個漢字的義項號。 “打 (da3)”在 MRD-1中有 25個義項,分別為 打 -B01:毆打 ,攻打;打 -B02:用手或器具撞擊物體;打 -B03:做 ,從事;打 -B04:表示身體上的某些動作; 打 -B25:器皿 ,蛋類因撞擊而破碎。 “打 (da2)”在 MRD-1中記為 打 -A01:量詞 ,12個叫一打。Date 10

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。