政府电子文档全文数据库建设及检索方法研究.doc

上传人:gs****r 文档编号:1739534 上传时间:2019-03-13 格式:DOC 页数:10 大小:113.50KB
下载 相关 举报
政府电子文档全文数据库建设及检索方法研究.doc_第1页
第1页 / 共10页
政府电子文档全文数据库建设及检索方法研究.doc_第2页
第2页 / 共10页
政府电子文档全文数据库建设及检索方法研究.doc_第3页
第3页 / 共10页
政府电子文档全文数据库建设及检索方法研究.doc_第4页
第4页 / 共10页
政府电子文档全文数据库建设及检索方法研究.doc_第5页
第5页 / 共10页
点击查看更多>>
资源描述

1、1政府电子文档全文数据库建设及检索方法研究摘要本文通过对电子政务新环境下的政府文档的电子化、标准化、全文检索及安全策略等的研究,提出了政府纸质文档电子化及全文数据库建设的模型。并基于该模型,提出了解决政府文档电子化问题及建设全文数据库的方案。 关键词电子政务;电子文档;全文数据库;全文检索 DOI:10.3969/j.issn.1008-0821.2013.10.013 中图分类号TP399文献标识码B文章编号1008-0821(2013)10-0059-04 政府电子文档也称为电子公文,是实施电子政务的必然产物,是提高效率、降低成本、加强安全的有效手段1。与纸质公文相比,政府电子文档具有存储

2、体积小、检索速度快、远距离快速传递及同时满足多用户共享等优点。目前,我国各级党政机关已广泛应用电子公文,并逐步确立了政府电子文档的格式规范、传输、管理和归档等方面的标准和要求。相关法规规定,政府电子文档与相同内容的纸质公文具有同等法定效力。 由于政府电子文档有别于一般电子文档,如政府电子文档有密级的限制,政府电子文档的类别多、归档难,而这些文件是不可再生的资源,如何集中存储并提供简洁、方便的服务是新时期电子政务建设的重要课题,严格按照国家制定的相关电子公文管理规范,借电子政务发展的良2机,提出有效解决政府电子文档管理中突出问题的方法,探索出政府电子公文管理一体化创新模式,具有重要的现实意义和实

3、际价值。 通过对国内较早开展电子文档管理研究或全文数据库建设城市的典型案例进行了针对性的调研,发现主要存在电子文档制作为完全规范化;电子文档全文数据库建设存在不足;未考虑全文检索的需求;文件安全性较低等不足之处。建立政府电子文档全文数据库必须确保数据的真实性、完整性、有效性、安全性2;全文检索将直接针对数据资源的内容进行检索,可以多角度、多侧面的综合利用信息资源。 1 国内外研究现状分析 1.1 国外电子文档管理及全文数据库建设现状 国外在电子文档管理方面起步较早,研究多偏重于标准制度的研究,如澳大利亚、美国、英国等国都把国家政府文档管理标准、规范、制度作为研究的重点,其研究的基础是以各国的档

4、案工作实际为主,对于文件以及纸质档案电子化工作流程的研究较少。 美国及欧洲等很多发达国家和地区的电子文档的全文数据库建设都不约而同地经历了从机构层面自行研发到国家层面有组织规划、从分散管理到集中管理的转变过程3。这些国家电子文档的全文数据库建设日趋成熟和完善,这其中比较有代表性的全文期刊数据库有:EBSCO、Springer Link、Elsevier SDOL、Wiley、ScienceDirec 等,这些全文数据库可以实现结构化数据和非结构化数据的全文入库,也可以根据用户需求制定基于全文检索的功能完备的个性化检索服务。在商业化软件方面,较成熟的有微软公司的 SQL Server 2008

5、及甲骨文公司的3Oracle TEXT,以及 IBM 公司的 Lotus Domino 等电子文档处理系统的标志性产品,这些商业化电子数据管理系统解决了查询海量非结构化数据时效率低的问题,能通过全文检索技术高效地管理这些非结构化数据。由于中文信息自身的特点,国外成熟软件产品存在术语与编码不统一,资源不易共享,系统不易于推广等问题,特别是在处理政府电子文档时,存在保密信息可能会泄露的威胁,以及需要解决中文语言分词等难题,因而国内建立电子文档全文库的时候多独立自主开发或利用商业化软件的部分功能进行二次开发。 1.2 国内电子文档管理现状 我国在电子文档管理方面起步较晚,目前尚处于探索阶段,但也取得

6、了一定成果。从 1996 年起国家和地方档案部门开始着手电子文件管理的研究,先后制定了中华人民共和国电子签名法 (2004 年 8 月 28 日中华人民共和国主席令第 18 号) 、 电子文件管理细则 (包括文书电子文件元数据方案) 、 电子文件长期保存格式需求 、 基于 XML 的电子文件封装规范等标准规范) 、 电子公文归档管理暂行办法 (6 号令) 、电子文件归档与管理规范 (GB/T 18894-2002) 、 纸质档案数字化技术规范 (中华人民共和国档案行业标准 DA/T31-2005)等文件。电子文件管理的国家战略正逐步成型,主要表现为全国性的统筹规划、统一规范和业务指导正在全面启

7、动,一些省、市已经启动了集中管理电子文件的项目,并取得实质性进展,如 2005 年 10 月 19 日,安徽省电子文件中心正式投入使用;2005 年浙江省温州市依托地方特色资源,建立了“媒体看温州”全文数据库,取得了很好的社会效果。与发达国家相比,虽4然我们的电子文档管理取得了一定的成果,但仍存在一些问题,如:电子文件管理与电子政务发展不相适应;电子公文归档复杂;缺乏统一的归档和共享机制,电子文档利用率不高;电子文件归档管理不规范等突出问题4。 2 全文数据库建设的模型研究 政府文档全文数据库建设一般包括政府纸质文档的电子化方法、政府电子文档全文数据库的建设、数据库的全文检索搜索策略、全文数据

8、库的安全策略 4 个部分,根据对全文检索策略及关键技术进行的研究,提出了政府纸质文档电子化及全文数据库建设的模型,如图 1 所示:1图 1 政府文档电子化及全文数据库建设模型 1 2.1 政府纸质文档的电子化 按照国家标准电子文件管理细则 第二部分:电子文件长期保存格式需求 ,目前国家认可的电子档案格式有 TIFF、TXT、PDF 和 XML 等,但每种格式既有自身的优势也有不足。 对于经过 OCR 后的文档,PDF 和 XML 是较好的选择。但是 XML 的优势主要体现在数据交换上,且无法保持文件的原版原式。而 PDF 则能够“原汁原味”的记录文件,是真正的所见即所得。同时,PDF 文件技术

9、成熟,存储空间小,便于加密、权限控制和在线浏览,已被业界广泛认可。因此,PDF 是入库前文档较好的保存格式。 在政府文档的电子化过程中,需要保证数据的真实性、完整性、可靠性和版权的保护。目前我国在电子文件归档与管理规范 (GB/T 18894-2002)5中规定了 4 条措施: 5(1)建立对电子文件的操作者可靠的身份识别与权限控制; (2)设置符合安全要求的操作日志记录,随时自动记录实施操作的人员、时间、设备、项目、内容等; (3)对电子文件采用防错漏和防调换的标记; (4)对电子化的印章、数字签名等采取防止非法使用的措施。 具体实施时,主要采用加密技术、数字签名、数字摘要、数字时间戳、身份

10、认证、报文认证、信息隐藏技术、元数据管理技术等主要技术措施进行实施。 根据国家标准要求,将政府纸质文档扫描为多层 PDF 格式并加载数字签名,保证文档的合法性,同时,添加水印,保证数据文件的安全性。最后,将 PDF 文件解析后导入全文数据库,实现政府纸质文档的电子化。2.2 政府电子文档全文数据库建设的标准及电子文档入库方法利用电子文档数据中心的难点是将不同类别的政府电子文档加载入全文数据库,实现对电子文档的全文检索,提升对政府电子文档的利用率。主要包括全文检索数据库标准研究和数据库构建方法两部分内容,其中构建全文检索数据库建设标准主要满足系统性原则、实用性原则、开放性原则、安全性原则等基本原

11、则;数据库构建方法主要从全文数据库选择、电子文档解析、数据结构倒排索引、组织数据、元数据抽取方面进行实施。完成电子文档的入库工作后,还需要制定全文数据库的检索策略,这样构建的全文数据库才能实现全文检索。 2.3 电子文档的全文检索策略研究 6全文检索6是一种将文件中所有文本与检索项匹配的文字资料检索方法,通过计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置;当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。功能上全文检索系统需要具有建立索引,处理查询返回结果集,增加索引,优化索引结构等功能。结构上具有索引引擎,查询引擎,文本分析引擎

12、和对外接口等。全文检索技术是现代信息检索技术一个重要分支,是处理电子文档这类非结构数据的强大工具,也是电子文档搜索引擎的核心技术之一。该技术对文档按各种策略进行分词,然后对切分得到的每个有检索意义的词建立索引,并指明该词在文章中出现的次数和位置,当用户输入检索关键字进行查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈用户。 电子文档的全文检索策略需要关心的问题是搜索效率,包括搜索的即时性、准确率、查全率,策略需要考虑引入给部分字段添加索引、装备采用倒排索引技术的引擎、多关键字共同限定、模糊搜索等技术来提高检索效率。 2.4 电子文档全文数据库的安全策略 数据库安全包含两层含义:

13、第一层是指硬件系统运行安全;第二层是指数据信息安全,系统安全通常受到如黑客对数据库入侵、盗取或篡改资料等威胁7。前一层威胁可以通过数据备份来实现,有很成熟的技术去保证硬件的正常运行,对于政府的电子文档来说,后一层的威胁需要更多的关注。 7(1)政府电子文档的特殊性之一在于具有密级(一般、秘密、机密、内部) ,密级与访问权限的设置是数据库建设中必不可少的。因此,电子文档查询和显示模块分为两类:一类为针对单个特殊文档控制查询权限;一类为针对普通文档控制查询权限。针对单个文件,指定哪些用户有查询此文件的权限;普通文档,先赋予用户与档案密级一样的权限,当用户查询权限大于或等于文档密级时,则可查看文档,

14、否则不能查看文档。普通文档又可分类,针对每类文档分别赋予用户普通文档查询权限。 因政府电子文档涉及到大量的涉密文档,应严格按照中华人民共和国档案法和中华人民共和国国家保密法等相关法律法规的要求对相关操作人员进行保密教育,从源头上保证文档信息的安全。 (2)数据库系统的安全策略主要是针对数据而言的,通过数据独立性、数据安全性、数据完整性、并发控制、故障恢复等几个方面加强数据库系统的安全性来提高电子文档全文数据库的安全策略8。 3 全文数据库建设 根据政府纸质文档电子化及全文数据库建设的模型研究的结论,针对政府电子文档的特点,进行了政府电子文档电子化及全文数据库建设。首先将纸质公文资源进行扫描后识

15、别成具有水印的双层 PDF 文档,使用解析工具将 PDF 文件解析并导入全文数据库中,同时在前台根据用户权限提供全文检索及下载浏览功能,包括以下几个方面的建设内容: 3.1 电子公文扫描管理 对电子公文进行扫描,在保证数字化存储格式的通用基础上,实现8高清晰度的数字化存储利用,最后将扫描后的目录和文档交由专人集中管理保存。主要管理流程如图 2 所示: 1 图 2 电子文档扫描管理流程 1 3.2OCR 识别及双层 PDF 制作 双层 PDF 格式文件一般有两种格式的, (1)图像型的,可以通过 OCR软件经过去污、纠偏和 OCR 识别,然后再通过制作双层 PDF 软件直接生成可以检索的双层 P

16、DF 文件;(2)文本型的,最常见的 WORD 转双层 PDF文件,先将 WORD 文件转成单层的 PDF 文件,再将单层的 PDF 文件转成图像文件,然后通过 OCR 软件 OCR 识别,然后再通过制作双层 PDF 软件直接生成可以检索的双层 PDF 文件。本文主要是对扫描文件的内容数据进行获取分析提取,完成对数据基础信息数字识别转换,生成可识别处理的文本格式数据文件(可识别的双层 PDF 文件) 。 3.3 电子签名与水印添加 政府电子文档同其他电子文档一样会遭遇伪造、篡改、增删、冒名等,公文的内容、公文发送者身份真实性和公文本身的合法性受到了威胁,如何保证政府电子文档的这些安全性不但是其

17、在电子政务中发展的重要内容,也是电子文档全文数据库建设的重要内容之一。使用单向散列函数和 RSA 加密算法实现数字签名,同时向电子文档中添加某些数字信息以达到文件真伪鉴别、版权保护等功能,防止电子文档被篡改或替换。 3.4 全文数据库建设 政府部门产生的电子文件,是档案的“前身” ,是不可再生的资源,集中存储并提供简洁、方便的归档操作是新时期电子政务建设的重要课9题。充分利用这些电子文档数据中心的难点是将不同类别的政府电子文档加载入全文数据库,实现对电子文档的全文检索,提升对政府电子文档的利用率。根据已有的 PDF 资料构建全文数据库,即使是非专业人员也可以方便的通过系统入库加载 PDF 或

18、WORD、TXT 文档;同时,实现中文分词并构建全文检索引擎。 3.5 前端平台提供检索等服务 通过文献共享服务平台,实现对不同类别的文档统一风格显示,提供政府电子文档全文检索、浏览及下载服务。其系统架构如图 3 所示,系统功能如图 4 所示。1 图 3 系统架构图 1 1 图 4 前端检索应用平台功能图 4 总结 本文以电子政务新环境下的政府文档全文数据库建设及全文检索方法为研究对象,总结分析了国内外对电子文档处理的成功案例与不足,以某政府部门电子文档管理的实际工作为基础,提出了政府纸质文档电子化及全文数据库建设的模型。在模型基础上,根据该类电子文档的特点,提出了解决政府文档电子化问题及建设

19、全文数据库的方案。 参考文献 1冯惠玲.政府电子文档管理M北京:中国人民大学出版社,2004.5. 2彭碧珍.浅析电子文件的收集与归档J.科学咨询,2012, (1):59. 3孙展红.国外电子文件管理服务力保障机制值得借鉴的几个方面10J.黑龙江档案,2011, (3):68. 4安徽省电子文件中心建设项目可行性研究报告EB/OL.http:www.thdaxx.org/html/daxxh/dzwjzx/1174.html. 5电子文件归档与管理规范GB/T18894-2002EB/OL.http: ILbMuCCtvdHroAb6WsKFYEaZErNGQjG9kJbYDMlW93Q2iP7lCCa. 6陈慧萍,等.全文索引技术在办公自动化系统中的应用研究J.计算机应用研究,2007,24(2):222-224. 7数据库安全EB/OL.http: uWZTknVNl1Vw3gIhymln2E3Ax6Lpq. 8高小银.电子文档的信息安全保障J.陕西档案,2011, (6):29. (本文责任编辑:孙国雷)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 学科论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。