1、中文文本自動分詞與標注 第 8章 漢語詞義自動標註技術 報告人:劉謦儀 (J94922018)Date 1綱要 詞義標注 詞義排歧 詞義自動標注 與 詞義自動排歧 語言的編碼 漢字字義組合結構 基於字義排歧的模型 自組織的漢語詞義排歧方法 結語Date 2詞義標注 對文本中的每個詞根據其所屬之上下文給出它的 語義編碼 指 用非文字的東西來表示文字消息的內容 ,用圖畫、樂譜等都可以進行語義編碼。 詞典 釋義文本中的某個 義項號 義類詞典中相映的 義類編碼 Date 3詞義排歧 處理一詞多義現象 例: 大學 是教育機構是一本古書, 博士 既是官名,又是博學多才的人,又是師傅,還是一種學位的名稱。
2、使用詞義標注文本可 提高檢索時的查全率和查準率 。 有利於選擇可以 恰當表達語句中詞的目標詞 ,以提高翻譯的準確性。 建立基於語義類的語言模型 ,為語音識別、手寫體識別和音字轉換提供幫助。Date 4詞義自動標注 ( Word Sense Tagging ) 也稱為詞義自動排歧 ( Word Sense Disambiguation ) 計算機 運 用邏輯運算與推理機制, 對出現在一定上下文中詞語的語義 進行正確的判斷, 自動確定其正確的義項並加以標注 的過程。 多義詞排歧 主要 依據該多義詞出現的上下文 ,排歧的過程就是 建立他們之間的聯繫過程 ,這種聯繫則是詞語間的語義聯繫。 常見方法 人
3、工智能法、基於詞典的方法、 基於語料庫的方法Date 5語言的編碼 分為 語音編碼 和 語義編碼 兩大類 語音編碼 : 用符號代表語音,一種語言區別於其他語言的根本區別就是其不同的語音音素編碼。 就英語而言有英音,美音,澳音,新西蘭音等。 語義編碼 : 是用符號代表語義,關注的是語言所能表達的意義,每種語言都有自己的語義系統。 漢語和英語屬於不同的語系,前者屬於漢藏語系,後者屬於印歐語系。 Date 6語言的編碼 漢語語義編碼的基本符號是 “字 ” 漢語的語義主要附著在 “字 ”上 。 字義排歧是詞義標注之突破點。 濃縮形音義,多為形聲字, 表音亦表意,望文生義 , 如:吠 。 大量同音字、同
4、音詞語,化成書面多可消除歧義 。 單字多義項者占 53.6%(如 打 字之義項數為 26) ; 詞組 /合成詞多義項者僅占0.46%。Date 7漢字字義組合結構 向心性字組 Vs. 離心性字組 冰山 ,青山 ,火山 ,高山 (核心字在後 ) Vs. 山峰 ,山城,山溝 ,山村 (核心字在前 ) 並列字組 Vs. 主從字組 關閉 ,左右 ,上下 ,陰陽 (二字相同相近相反 ) Vs. 火車 ,汽車 ,黑板 ,白版 (前字從 ,後字主 ) 合義 (國 +務 國務 )33%、 加義 (景 +物 可供觀賞的景緻和事務 )56.7%、 同義 (聲 +音 聲 ; 音 )、 偏義 (厚 +度 厚 度 ;
5、容 +易 易 容 )、 轉義 (目 +光 = 眼睛 +光線 見識 ) 少量字義推大量詞義成為可能!Date 8基於字義排歧的模型 資源:三台機器 + 兩部詞典 MRD-1讀入現代漢語通用字典 MRD-2讀入同義詞詞林 MTD由 MDR-1透過機器自動生成 以字義定詞義的語義標注方式準確率在 80%以上 遭遇困難處 二字詞之多義詞排歧 單字本身意義抽象、廣泛 、模糊,成詞時描述也困難 如何將詞義間之關係建構成完整的意念表達仍須努力Date 9基於字義排歧的模型 MRD1說明 MRD-1讀入現代漢語通用辭典,用來作為標注每個漢字的義項號。 “打 (da3)”在 MRD-1中有 25個義項,分別為 打 -B01:毆打 ,攻打;打 -B02:用手或器具撞擊物體;打 -B03:做 ,從事;打 -B04:表示身體上的某些動作; 打 -B25:器皿 ,蛋類因撞擊而破碎。 “打 (da2)”在 MRD-1中記為 打 -A01:量詞 ,12個叫一打。Date 10