1、TMS产品白皮书一一 TMS 产品 综述TMS 即 Text Matching System 的缩写,全称为文本相似性比对系统,是由通达恒远(北京)信息技术有限公司开发的一款文本数据挖掘类的软件产品。该产品是公司将多年的数据挖掘技术应用于文本相似性检测的软件产品,主要用于对写作者所编写的文章与指定的文献资源进行相似性比对。随着信息化和互联网的快速发展,给全社会的写作方式和手段也带来了一系列的变化。最主要的变化就体现在人们对文献资源的查找方式上,通过互联网人们可以轻松地获得所需要的参考资源和资料,通过简单的复制粘贴操作就可以轻松地把所要引用的段落片段加入自己所编写的文章中。再者,针对各类论文的写
2、作,也因为上述的这种变化而带来许多社会问题。许多人无意识的将别人的观点引入到自己的文章中,造成不必要的学术诚信风险。正是基于以上的一系列问题,我们研制了这套专门用于对写作者写作进行相似性检测的软件系统用来解决广大写作者在写作中存在不当引用的问题。一一 TMS 产品的核心功能TMS 的核心能力就是 对用 户所编写的文章在多种比对资源中进行相似性检测。在本 产品中已经集成了中文科技期刊全文数据 库以及 Tonda 资源库,用户也可以通过自建库功能将本单位所拥有的资源集成到产品中,从而成为产品的可比对资源。产品的另一个重要功能就是提供了优秀高效的文献数据库创建和维护接口。通过该接口用户可以方便的建立
3、强大的检测资源库和高效检测功能。一一 TMS 功能 结构图Text Matching System权限管理 单篇检测 批量检测 用户管理 个人信息维护 自建库管理 消息发布管理 充值续费管理一一 TMS 功能定 义1、单篇检测:单篇检测是指对用户提交的一篇文档进行相似性检测。用户通过提交被检测文档、 编辑文档正文信息、设定比对资源库、设 定检测指标后系统将对该文档进行处理,然后提交到系 统的检测服务器进行比对计 算,最后将计算结果返回给用户。检测后的结果支持二次筛选处理和输出导出功能。2、检索结果二次处理二次处理是对检测结果进行人为处理的过程。对于检测结果中不合理的记录进行筛除。当不合理的 记
4、录被去除后,重新计算 总 体指标,例如复写率、自写率等指标。比如一些公用信息,不能参与检测的片段均需要被剔除。3、检测报告输出检测报告输出是指对最终的检测报告按指定的格式输出到 WordPDF。输出报告样式与最终的检测报告一致。4、批量检测:批量检测是指对用户的一批文档进行一次性检测。用户需要对所要检测的多篇文档用 Winzip/Winrar 等软件处理为一个压缩包文件,在系统中提交该压缩包后即完成批量检测操作。批量检测是对大量文档的检测,因此系统提供检测进程的实时进度条式百分比展示。批量检测提供报告记录导出功能。5、自建库管理:自建库为用户提供了利用自有资源建立个人的比对库的功能。例如高校或
5、者科研院所可利用自有的资源建立自己的比对库,在本单位用户或个人进行检测时可选择自建库来进行比对。例如一些 对保密性要求 较高的单位也可以采用自建库的方式建立自有的比对资源。自建库管理包括创建自建库、维护自建库状态, 维护自建库资源等完整的管理功能。6、用户管理用户管理是企业管理员对该企业的所有用户进行管理的功能模块。包括创建新用户、停用指定用 户、修改用户信息、为用 户重置密码、删除指定的用户、用 户统计等功能。7、个人信息维护个人信息维护是指用户对自己的信息进行更新维护的功能以及密码修改。8、权限管理权限管理模块是产品的基础功能模块,为产品提供完整的权限功能,包括用户的角色定义、角色的功能授
6、 权等。权限管理还包括了完整的用户管理(增删改用户)、单位管理(增删改单位)功能。此外还包括企业级 用 户的审核和激活功能。在本产品中企业级用户需要本单位审核后才能正式开通使用。9、消息发布消息发布模块是由系统管理员来发布关于产品的消息,在首页上进行展示的功能模块。消息分为产品消息、 产品改进日志、最新用户等。10、 用户体验用户体验模块是为了吸引潜在用户,向用户展示产品的功能模块。分为两种体验模式:快速检测体验和快速使用体验。快速检测体验是用户通过提供两段文本进行相似性快速比对,最终向用户展示这两段文字的相似度。快速使用体验是用户无需注册直接登入系统,快速体验系统所提供的各种功能,但是在体验
7、时更注重对每个功能点的介绍,以吸引用户成为产品的注册用户。11、 充值续费管理续费管理分为续费申请和续费审核两部分。续费申请由用户(个人付费用户和企业用户)发起在系统中填写申请表单即可。续费审核由产品运营方经过财务查询实际付款情况后在系统进行相应的充值操作即可。一一 TMS 的特点1、科学严谨的检测机制当前市面上流行的检测工具均是采用 VSM 或者语义指纹的方法来进行检测,但是本产品是集合了 VSM+、语义指纹、自动分类三种方式的计算模型,使得检测计算模型更加科学合理。语义指 纹用于对整段文本进行检测、 VSM 用户对语义 片段进行分析、自 动分类用户将被检测文档自动定位到专业的比对源中进行检
8、测。通过这三种方式合作使得检测结果更加科学严谨。2、快速准确的计算能力首先本产品采用了最先进的索引建立机制,索引的建立过程和检索效率均超过当前市场的同类产品,其次,系统采用强 大的分布式计算和冗余存储策略使得检测的计算效率和可靠性大大增强。系统检测 100 字以上的单句的耗时小于 20ms,一篇常 规论文(3 万字) 检测时间在 100ms以内,是国内大多数同类产 品所无法比拟的。3、简洁友好的用户体验本产品在设计之初就充分考虑到用户使用体验,所有的功能操作以及界面组合均符合人体工程学理念。所有的业务功能点的流程都经过严格的测试,操作简洁流畅,无需培训即可上手。4、插件式检测接口产品的各个功能
9、点在总体设计上就采用了松耦合的构架策略,极大的方便了产品检索、比对计 算、建 库等模块的移植和 维护。任何一个模块都能单独抽取出来作为基础件集成到其他的企业应用中去。5、科学的评价指标体系本系统的第一版中保留使用以下指标对论文的整体相似性进行评价。复写率、自写率、引用率、相似片段数。指标复写率可以辅助发现抄袭以及无意不当引用现象,指标自写率则是评价文档整体内容创新性的指标,指标引用率可以帮助用户判断是否存在过度引用现象,指标 相似片段数用于说明不当引用的绝对数量。通过四个指标的组合可以对用户的写作进行科学的辅导,以避免不必要的风险。6、支持用户自建比对资源库用户可以在系统中创建自己的比对资源库
10、,极大方便了各类有特殊需求的用户群体。例如某些有保密要求的单位机构需要建立自己的比对资源库,一些高校需要将本校 购买的商业数据库集成到系统中,或者将本校历年的论文集成到系统中,那么通 过系统提供的自建库能够简单高效的达到该目的。自建库功能大大的提高了系统的可用性和可扩展性。7、集成海量的文献资源库首先系统已经集成了国内最大的中文科技期刊全文数据库,包括各类期刊、学术文章 3000 万余篇。其次系统集成了由 Tonda 公司自建的300 万篇的学术论文,再者系 统整合了互联网搜索比对技术,从海量的互联网资源来进行相似性比对,最后系 统还支持用户自建库功能,随后产品还将通过购买合作等方式不断地加入新的比对资源库。因此产品提供的多种资源库让您的比对更加准确更加完整。8、灵活多种的运营方式本产品支持多种运行模式,普通个人写作者可以通过注册到本产品平台() 来使用本产品,各 类企业可以通过 成为本产品的企业用户尽享系统提供的完善服务和优秀检测功能,另外系 统还支持本地化部署服务,通 过安装部署的方式在您的企 业内部建立本产品的内部运行平台,以提供更加符合您所需的服务。一一关于 Tonda(略)