中文分词程序实验报告(共7页).doc

上传人:晟*** 文档编号:9495036 上传时间:2021-12-13 格式:DOC 页数:7 大小:29.50KB
下载 相关 举报
中文分词程序实验报告(共7页).doc_第1页
第1页 / 共7页
中文分词程序实验报告(共7页).doc_第2页
第2页 / 共7页
中文分词程序实验报告(共7页).doc_第3页
第3页 / 共7页
中文分词程序实验报告(共7页).doc_第4页
第4页 / 共7页
中文分词程序实验报告(共7页).doc_第5页
第5页 / 共7页
点击查看更多>>
资源描述

精选优质文档-倾情为你奉上汉语分词程序实验报告1、 程序功能描述: 本程序每次处理时都用缓冲区的数据从头开始去存储语料库的链表中匹配一个最长的词语来输出,如若没有匹配到的词语则单独输出该首字。 为了简化程序所以语料库和预备分词文章都统一采用ASCII码的编码方式,并且不允许文中出现英语单字节编码。别且本程序没有对未登录词和未声明数据结构格式进行处理,都按照普通汉字进行了分词,因此在最后的性能比较中这部分的准确率很差,但是在语料库有存储的部分中都是用最长匹配原则进行了分词,准确率还是达到了很高的水平。 分词符采用/+空格的方式来标记分词。 语料库的名字默认为:语料库.txt,打开方式为只读 读取的文件名字默认为:resource.txt,打开方式为只读 输出的文件名字默认为:result.txt,打开方式默认为追加的方式2、 算法思路: (1)、从文件中读取语料库存储在内存中,组织成单链表的存储方式 (2)、组织以首字的ASCII码为下标的哈希表指向语料库链表 (3)、从文件中读满输入缓冲区,以缓冲区的首

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 实用文档资料库 > 公文范文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。