精选优质文档-倾情为你奉上汉语分词程序实验报告1、 程序功能描述: 本程序每次处理时都用缓冲区的数据从头开始去存储语料库的链表中匹配一个最长的词语来输出,如若没有匹配到的词语则单独输出该首字。 为了简化程序所以语料库和预备分词文章都统一采用ASCII码的编码方式,并且不允许文中出现英语单字节编码。别且本程序没有对未登录词和未声明数据结构格式进行处理,都按照普通汉字进行了分词,因此在最后的性能比较中这部分的准确率很差,但是在语料库有存储的部分中都是用最长匹配原则进行了分词,准确率还是达到了很高的水平。 分词符采用/+空格的方式来标记分词。 语料库的名字默认为:语料库.txt,打开方式为只读 读取的文件名字默认为:resource.txt,打开方式为只读 输出的文件名字默认为:result.txt,打开方式默认为追加的方式2、 算法思路: (1)、从文件中读取语料库存储在内存中,组织成单链表的存储方式 (2)、组织以首字的ASCII码为下标的哈希表指向语料库链表 (3)、从文件中读满输入缓冲区,以缓冲区的首