机器词典中按韵分词及虚词问题.doc

上传人:晟*** 文档编号:14161988 上传时间:2022-09-23 格式:DOC 页数:5 大小:23KB
下载 相关 举报
机器词典中按韵分词及虚词问题.doc_第1页
第1页 / 共5页
机器词典中按韵分词及虚词问题.doc_第2页
第2页 / 共5页
机器词典中按韵分词及虚词问题.doc_第3页
第3页 / 共5页
机器词典中按韵分词及虚词问题.doc_第4页
第4页 / 共5页
机器词典中按韵分词及虚词问题.doc_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

机器词典中按韵分词及虚词问题董剑平(江西师范大学 文学院 江西 南昌 )内容提要 中文信息处理中,首要的是制定规范的机器词典。如今,机器词典的制定主张结合韵律分词。本文主张按韵分词。当然,按韵分词里面也有一些问题值得注意。本文主要结合虚词来讨论按韵分词的问题。关键词 机器词典 分词连写 按韵分词 虚词一、关于按韵分词的认识问题目前机器分词的主要倾向是能按韵分词的时候按韵分词(胡明扬2003、进明1997、孙茂松1999),以符合人们的语感,如果按韵分词出现不一致的情况,有两种方法:一是结合语法规则考虑;二是根据大规模语料库,计算它的频率,如果达到一定的值,则为分词单位。 本文倾向于按韵分词,一方面这样做自然,符合国人的说话习惯。如果根据“理论词”切分就十分费事,正如冯志伟、许福吉(2001)描写的一样,按照语法分词要区分语素与词,合成词与词组等,还要研究“鸡蛋与鸭蛋”等在国人语感中不成问题的问题。这不仅增加了切分的难度,而且按照这种方法切出来的语句也是支离破碎的。另一方面,汉语本身是语义型语言(徐通锵2000),在国人语感中,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 公文范文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。