1、科技政策库数据分析与展示项目技术规范建议书3.1 建设背景为落实中国科协高水平科技智库建设十三五规划 “利用现代信息系统,建立国家科技政策数据库,及时收集、定期更新、系统整理中央和各地新近出台的科技政策、科技人才政策,实现科协系统科技政策信息的共通共享。 ”的要求,利用网络爬虫、深度学习等最新信息技术,从互联网爬取国内外科技政策文献,构建完整的科技政策库,并进行挖掘分析,实现政策文献的快速检索和统计分析功能,支持政策研究与制定,建成科技政策领域有影响的一流智库。3.2 建设目标3.2.1 项目整体目标构建面向中央、地方(省级)的科技政策全文库。构建面向世界主要发达国家的科技政策全文库。构建面向
2、科技政策研究的研究成果库(论文、专著、报告、政策建议) 。支撑政策研究与分析。3.2.2 本期项目目标科技政策库数据分析与展示项目主要目的是根据前期项目采集的政策法规、相关研究论文、政策解读、相关研究项目信息,以及美印自 1980 年后国家层面的政策信息,进行数据挖掘分析和多维展示。定制化开发政策文本挖掘系统,支持中英文的单一文本在线分析。定制化开发中英文一体化检索引擎和国外智库信息采集编辑。3.3 业务需求3.3.1 政策文本挖掘分析文本挖掘是对国内外政策文本、政策解读、相关论文等信息进行文本挖掘处理,提取知识化的信息并用可视化的方式进行表示,着力于政策文本的分类、政策关联分析,政策主题提取
3、等方面。辅助政策研究者政策制定者快速理解政策文本,挖掘数据价值。(1)政策文本分类,通过机器学习的聚类算法对政策文本进行分类,并形成相应的专题,并以可视化的方式展示。系统可定制生成时间与区域维度的政策热点散点图。系统可定制生成区域政策的研究热点及统计展示图。系统定期更新,保证政策分析的时效性。(2) )政策关联分析,通过对文本的结构分析完成政策的关联分析。并将分析出的政策关系应用到政策检索与政策展示中去。(3)政策主题抽取和摘要的机器编写,针对单个文本可实现文本的关键信息提取,生成相应的文本摘要信息,并在在线文本分析和检索中展示相关信息。摘要内容包括但不限于此政策文件的涉及领域、所针对的政策对
4、象、政策发布部门、时间、政策工具等。3.3.2 中英文文本在线分析为更好地帮助政策研究人员政策制定者快速准确阅读理解政策文本,借助机器学习和云计算能力,系统提供中英文单一政策文本的在线分析,实现秒级的文本摘要提取、词云展现、政策溯源和相似政策导读。(1)生成政策主题和摘要生成,提取文本关键信息,生成摘要, 。摘要内容包括政策涉及的行业领域、所使用的政策手段、所针对的政策对象等。(2)生成政策词云,通过自然语义理解相关的技术,分析输入文本中的政策关键词,聚焦政策关键点,辅助政策分析。(3)政策溯源分析,通过自然语言理解技术挖掘出政策之间的依赖关系,并以友好、美观的界面展示,达到清晰、直观的展示效
5、果。(4)相似政策推荐,通过自然语言理解技术挖掘出政策之间相似性,并根据相似度进行排序。机器学习:支持至少包括随机森林、逻辑回归、支持向量机、贝叶斯等多种机器学习算法,这些算法具有国内组织的机器学习大规模实际应用场景,要求提供相关证明材料。3.3.3 中英文一体化检索为更好地服务中文用户,充分利用好系统的中英文政策数据资源,系统提供中英文一体化检索引擎,实现中英文政策资源的统一检索,用户只需输入一种语言即可实现两种资源的同时检索。(1)灵活的检索方式。一种语言检索,两种语言呈现。支持条件检索,从政策领域、政策层次、政策性质、发文单位等维度限定检索的的范围;支持联想检索,当用户输入某个检索词的一
6、部分时,自动在搜索下拉列表中联想到与该输入词相关的词语,方便用户直接选择进行搜索。(2)智能双语检索结果呈现。同时呈现智能、高相关度双语最优检索结果。支持相关度、发布时间排序。检索结果支持对排序方式的配置选择,支持多级排序;检索结果排序支持中文和英文的检索结果的切换。丰富的检索结果筛选。用户可以基于现有的政策文本标签,对已有检索结果进行多维度的筛选,如发布部门、行政区域等为维度,高效、准确的协助用户找到自己关注的政策文本。3.3.4 政策信息发布展示集成政策数据采集与管理系统的国内政策信息(另外项目提供数据) 、本项目采集的国外智库信息、中英文一体化检索和文本分析展示需求对外提供一体化信息检索
7、展示门户。 3.3.5 国外智库信息采集研究分析国际排名前 50 的智库网站,有针对性提供相关栏目信息的采集,并将相关数据开放给文本挖掘分析、中英文一体化检索和信息展示页面。智库名录详见附录 6.1 章节英文智库名录。3.3.6 智库信息编辑发布协助完成微信公众号的开通,并提供基础的运维保障,包括信息编辑、发布、统计分析、运维管理等功能。信息编辑指根据采集的国际智库信息,进行过滤后推荐给用户,用户选择后,翻译和美工处理工作。其间翻译美工处理文章篇幅不超过 50 篇。信息发布依托微信公共平台完成。统计分析包括用户分析、图文分析、菜单分析、消息分析等。运维管理包括消息管理、用户管理和素材管理。3.
8、3.7 信息展现需求设计集成提供国外热点研究报告的加工展示,以区域板块轮循的方式呈现不同信息源的信息展示,并集成相应的检索和分析界面。 3.3.8 信息管理需求用户可以通过 CMS 系统对采集的信息进行编辑、删除、转移、发布等操作。系统可以统一配置 CMS 管理权限,提供统一的配置入口,便于用户对系统使用和管理。3.4 技术要求3.4.1 平台整体要求3.4.1.1 总体要求构建基于自然语言处理、机器学习、文本挖掘引擎、搜索引擎的技术架构平台。着重考虑大型搜索框架和文本挖掘引擎对平台的技术要求。 3.4.1.2 建设原则1. 开放性系统设计要采用开放标准,选用的技术产品要符合开放标准,可根据甲
9、方未来业务的变化而灵活地改变,满足业务系统今后进一步拓展的需要。2. 高安全性信息安全是甲方业务系统的重要要求,要确保所涉及软件不存在任何已知漏洞,确保信息内容网络上的安全传输,防止任何未经授权的访问,防范黑客对内容和系统的攻击,当发生入侵时能够及时检测并自动屏蔽和恢复。不论硬件设备、操作系统,还是中间件和应用开发都要将全系统的安全性放在首位。3. 高可用性本系统是甲方的重要业务系统,系统工作要稳定、可靠,要确保 724 小时不间断工作,不存在单点故障。4. 可扩展性和可分步实施性系统应从数据存储、数据索引和功能服务等方面充分考虑集群架构和分布式架构,根据数据量增加和服务访问增强,能够灵活的进
10、行系统扩展;系统应考虑到和其他信息系统的通信连接,应具有良好的外接接口;随着业务的不断扩充,系统可以方便地扩展业务功能模块。5. 良好的管理性和维护性本系统是一个复杂的系统,因此要求技术架构合理,模块清晰,有管理和运维模块,可方便管理员进行系统管理和维护。各子系统应具有详细的系统异常描述文档及相应异常处理文档。6. 先进性系统建设时应使用先进和成熟的技术,以满足技术领先的要求。7. 集成性系统能够由各个软件模块构建,各个模块之间,要有良好的内置集成;其次,各模块具有与其他系统集成的能力。8. 开发接口和二次开发能力系统应提供开放接口,并可以根据项目具体需求方便地进行二次开发,满足个性化的要求,
11、实现应用集成。9. 部署简易性系统部署应采用微服务部署策略,实现自动化或半自动化部署。10. 后台管理界面提供简洁、易用的管理界面,方便监控文本数据处理情况,直观展示政策文本管理、分析报表配置、文本处理状态、权限管理等操作功能。3.4.1.3 接口要求根据整个文本挖掘和搜索引擎的流程,考虑整个科技政策库数据分析与展示项目的规范性和扩展性等需求,以及与科技政策库数据采集与管理项目的融合,系统提供的接口应具有包括但不限于: 中英文文本在线分析功能按照 RESTful 的风格提供 http 接口。 中英文文本在线分析功能接口调用应包括生成政策主题和摘要生成、政策词云生成、政策溯源分析、相似政策推荐四
12、个功能接口的调用,而且支持通过接口的方式对文档进行批量处理。 接口应支持二次开发。3.4.2 自然语言NLP处理要求系统应采用自然语义理解技术,对每个政策文本进行深度分析,不仅要保障政策库内文本的识别的准确率,而且要能够对在线输入的政策文本进行深度挖掘,在政策文本分类、政策关联分析和政策主题抽取和摘要的机器编写等维度进行深度剖析,为政策制定者提供更高品质的政策文本智能分析服务。利用中英文自然语言理解相关技术,提升系统的中英文文本分析能力,对现有算法进行优化,并根据政策文本分析实际业务进行调整。系统应利用自然语言理解中的神经网络模型,对文本挖掘相关模型进行改进,在文本挖掘过程中不断进行语料积累,
13、形成政策语料库,要求如下: 支持停用词的处理。 支持自定义词典和词语合并拆分。 支持词性筛选。 支持标准化规约化语料集的形成。 支持同义词及近义词的处理。数据挖掘分析数据挖掘分析在本项目中的主要作用是对库内政策文本进行文本挖掘处理,准确地提取结构化的信息,挖掘出更有价值的信息数据,并进行更深层次加工,为政策文本分类、政策关联分析和政策主题抽取和摘要的机器编写等方面提供必要的数据处理基础。数据挖掘分析应采用中英文语义分析和文本挖掘技术,支持中英文政策文本的解析。功能要求数据挖掘分析主要功能要求如下:1) 政策文本分类 结合语义理解和文本挖掘技术,准确的将库内政策文本进行分类 结合实际应用场景的需
14、求,进行定制化开发,形成政策专题。 政策文本分类和聚类过程应由机器自动完成。 随着训练样本数量的提升,准确率应满足线性增长。2) 政策关联分析 基于海量政策数据样本,结合语义理解和文本挖掘技术,深度分析库内政策文本的内容,找到政策间的关联关系。 系统应具备自学习能力,可以通过用户的负样本反馈,自动优化算法模型。3) 政策主题抽取和摘要的机器编写 深度定制主题模型,结合语义理解和文本挖掘技术,建立多维度政策专属信息框架,准确提取政策内关键信息。 将政策文本中包含的关键信息进行处理,并将抽取的信息以结构化数据的形式进行展示,形成政策文本的摘要内容。3.4.3 算法要求数据挖掘分析应用算法要求如下:
15、1) 文本分词模块支持基于科技政策库业务需求进行定制化开发。2) 文本分词算法模型应至少融合五种分词算法,包括但不限于基于词典的机械分词、命名实体识别等分词技术。3) 文本分类算法模型应包括多种分类器,包括但不限于支持向量机、神经网络等。4) 序列标注算法模块应包括多种序列标注技术,包括但不限于HMM、CRF 等。5) 特征提取算法模块中应包括三种以上评估函数。3.4.4 性能要求数据挖掘分析模块性能要求上,需满足如下指标:序号 功能名称 技术参数要求1 基础分词准确率 90%2 政策文本分类准确率 不低于 90%3 政策关联分析准确率 不低于 90%4 政策主题抽取召回率 不低于 91%5
16、政策主题抽取准确率 不低于 90%6 政策文本摘要的召回率 不低于 91%7 政策文本摘要的准确率 不低于 90%8 人名、地名、机构名等实体词提取准确率 90%9 单机实体提取速度 不低于 500KB/秒10 支持指定字数区间的摘要提取 支持11 词性标注准确率 不低于 90.5%12 单机词性标注速度 不低于 500KB/秒13 人工判定的关键词提取准确率 不低于 85%14 单机关键词提取速度 不低于 500KB/秒15 类别数为 100 以内的分类准确率 不低于 80%16 并发量为 100 时,分类处理速度 不低于 400 篇/秒3.5 文本在线分析文本在线分析是通过用户自定义输入政
17、策文本,利用语义分析和文本挖掘技术,对输入的内容进行信息提取、分类,再结合库内已有政策文本的内容,输出政策关联关系的分析结果,从而达到政策文本智能在线分析目的,帮助政策研究者快速的理解政策文本,提高政策研究效率。文本在线分析应采用中英文语义分析和文本挖掘技术,支持中英文政策文本的解析。3.5.1 功能要求文本在线分析主要功能要求如下:1) 生成政策主题和摘要生成: 支持通过文本挖掘技术,分析文本内容,提取政策主题,并形成政策领域的主题模型库,丰富政策主题模型。 自动从原始文本中提取文本信息,以结构化的的方式进行展示,反映出政策文本的关键内容。2) 生成政策词云 对输入的政策文本进行分析,对权重较高的关键词予以视觉上的突出,形成政策词云。 提取高质量政策关键词,过滤掉大量的低质量文本信息,使政策研究者可以快速了解政策的主旨。3) 政策溯源分析 通过对海量政策文本的分析和深度挖掘的训练,对在线输入的政策文本进行分析,并结合现有政策文本特征,输出当前在线分析政策的制定依据。 支持基于用户负反馈的调优机制。
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。