温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-9495036.html】到电脑端继续下载(重复下载不扣费)。
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。 2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。 3: 文件的所有权益归上传用户所有。 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。 5. 本站仅提供交流平台,并不能对任何下载内容负责。 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
本文(中文分词程序实验报告(共7页).doc)为本站会员(晟***)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!
精选优质文档-倾情为你奉上汉语分词程序实验报告1、 程序功能描述: 本程序每次处理时都用缓冲区的数据从头开始去存储语料库的链表中匹配一个最长的词语来输出,如若没有匹配到的词语则单独输出该首字。 为了简化程序所以语料库和预备分词文章都统一采用ASCII码的编码方式,并且不允许文中出现英语单字节编码。别且本程序没有对未登录词和未声明数据结构格式进行处理,都按照普通汉字进行了分词,因此在最后的性能比较中这部分的准确率很差,但是在语料库有存储的部分中都是用最长匹配原则进行了分词,准确率还是达到了很高的水平。 分词符采用/+空格的方式来标记分词。 语料库的名字默认为:语料库.txt,打开方式为只读 读取的文件名字默认为:resource.txt,打开方式为只读 输出的文件名字默认为:result.txt,打开方式默认为追加的方式2、 算法思路: (1)、从文件中读取语料库存储在内存中,组织成单链表的存储方式 (2)、组织以首字的ASCII码为下标的哈希表指向语料库链表 (3)、从文件中读满输入缓冲区,以缓冲区的首
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。