机器词典中按韵分词及虚词问题董剑平(江西师范大学 文学院 江西 南昌 )内容提要 中文信息处理中,首要的是制定规范的机器词典。如今,机器词典的制定主张结合韵律分词。本文主张按韵分词。当然,按韵分词里面也有一些问题值得注意。本文主要结合虚词来讨论按韵分词的问题。关键词 机器词典 分词连写 按韵分词 虚词一、关于按韵分词的认识问题目前机器分词的主要倾向是能按韵分词的时候按韵分词(胡明扬2003、进明1997、孙茂松1999),以符合人们的语感,如果按韵分词出现不一致的情况,有两种方法:一是结合语法规则考虑;二是根据大规模语料库,计算它的频率,如果达到一定的值,则为分词单位。 本文倾向于按韵分词,一方面这样做自然,符合国人的说话习惯。如果根据“理论词”切分就十分费事,正如冯志伟、许福吉(2001)描写的一样,按照语法分词要区分语素与词,合成词与词组等,还要研究“鸡蛋与鸭蛋”等在国人语感中不成问题的问题。这不仅增加了切分的难度,而且按照这种方法切出来的语句也是支离破碎的。另一方面,汉语本身是语义型语言(徐通锵2000),在国人语感中,