1、CNS14366中文分詞原則中央研究院語言學研究所籌備處黃居仁CNS14366中文分詞原則綱要n 制訂的過程n 設計指導原則n 基本架構n 細部內容n 資料取得n 參考文獻CNS14366中文分詞原則制訂的過程n 1991中華民國計算語言學會( ROCLING) 初步訂定學會共用的分詞原則n 1995及 1997ROCLING接受中央標準局委託,進行分詞規範的研擬(由中研院執行)n 1998分詞規範公聽會n 1999 中文分詞原則正式通過為國家標準,編號 CNS14366CNS14366的設計指導原則n 符合語言學理論之要求:不受時、空、主題等影響的定義n 在資訊處理上確實可行:可以自動並有效
2、執行的運算法n 確保實際文本資料之一致性: 可以實際遵奉實行的標準才是真標準詞界的變異與分詞標準n 詞的界限隨著詞彙變遷移動-人馬 由並列結構(人員與馬匹)到複合詞(國王的人馬) 是時間軸上語言演變的結果-個別詞與詞界的定義隨著時間,地域,主題領域等因素改變-如何同時照顧到詞的多重變異因素,又同時維持穩定的標準與原則?分詞的變與不變不變的定義與原則n 語言學理論上詞的定義n 由定義推導出的分詞原則分詞輔助原則規定了由不變到變之間的可能關係n 詞彙庫與參考語料庫隨著時間,地域,主題領域等參數改變-語言座標中文分詞原則的基本架構n 分詞單位之定義:具有獨立意義,且扮演固定詞類的字串視為一分詞單位n
3、 分詞原則基本原則(不變的最高指導原則)輔助原則(富彈性,可依時代的演變、不同文本等有所增減)n 分詞規範層次的劃分分成信級、達級、雅級等三個層次處理分詞規範之基本原則n 語意無法由組合成分直接相加而得到之字串應該合為一分詞單位【合併原則】例子:撞期;上下課n 詞類無法由組合成分直接得到,應該合為一分詞單位【合併原則】例子:好喝;游水分詞規範之輔助原則(上)n 有明顯分隔標記應該切分之【切分原則】例子: 洗 了一個 澡n 附著語素盡量和前後詞合為一個分詞單位【合併原則】例子:救生員;現代化n 使用頻率高或共現率高的字串盡量視為一個分詞單位【合併原則】例子:大笑;男女分詞規範之輔助原則(下)n 雙音節結構之偏正式動詞盡量視為一個分詞單位【合併原則】例子:組建;緊追n 雙音節加單音節之偏正式名詞盡量視為一個分詞單位【合併原則】例子:捷運線;監護權;垃圾車n 內部結構複雜之詞盡量切分之【切分原則】例子: 太空 計畫 室 ; 看 清楚