1、 本 科 毕 业 论 文 面向非结构化企业 指标 信息的 智能处理和可视 分析 Indicators of the Unstructured Enterprise Information for Intelligence Processing and Visualization 姓 名: 学 号: 学 院:软件学院 系:软件工程 专 业:软件工程 年 级: 校外 指导 教师: 校内 指导教师: 年 月I 摘 要 随着信息的发展,出现了越来越多的非结构化信息。并且非结构化信息在政府和企业等的决策中 扮演着重要的角色 。如何将非结构化数据有效的管理起来,能够进行数据和知识挖掘,提取当中的隐含信息,
2、 提供一种形象的可视分析 ,为政府和企业 决策 提供 支持成为当今亟待解决的主要问题。 以 国家科技支撑计划项目课题 “ 面向服务的智能化制造技术及示范应用 ”(课题编号 2006BAF01A17)为 项目 背景, 我们 开发了企业信息库管理系统。 主要是为了解决北京市科委 的 企业指标信息的统计分析问题 , 而企业的 指标信息是以Word形式保存的,属于非结构化信息 。 为了 实现 对指标信息的统计分析 ,对指标 进行提取,将非结构化信息结构化是 可行 的 方案 。然而,从信息抽取效率上看,人工读取显然已经不能满足现实需求,而必须要利用计算机相关技术;从准确抽取的可行性上看,根据半结构化文本
3、的特征和文本信息抽取技术,如正则表达式匹配、关联性分析、统计等方法可以使抽取结果满足实际需要,即实现机器智能化识别是可行的 1。 本文以北京市科委的指数统计文档为研究对象,主要任务是针对以北京市科委的指数统计文档为代表的非结构化信息的抽取和企 业指标信息的可视分析。主要工作包括三个方面:第一,设计了一套以北京市科委的指数统计文档 编写规范为 标准 的确实可行的信息抽取算法 ; 第二,针对抽取出来的指标信息,借助 于Dundas 可视化工具进行可视分析;第三,完成了一个满足客户需求的企业信息库 管理系统。 论 文 从 项目 背景出发,介绍了系统开发的背景和研究价值 。然后,详细介绍了企业指标信息
4、智能处理的可行性 和算法设计,以及企业指标信息可视分析的原理及其实现。再次,论文详细阐述了系统的需求,具体介绍了企业信息库管理系统的设计及其实现,最后论文针对企业信息库管理系统进行了 分析和评价,并指明了下一步的改进计划 。 关键词: 非结构化 信息 ; 半结构化信息 ; 信息抽取 ; 信息 可视化 ; 可视分析 II Abstract With the development of information, there has been an increasing number of unstructured information. And it plays an important ro
5、le in decision of government and enterprise, etc. How to manage the unstructured information efficiently, mine the data and knowledge, extract the implicit information, provide a visual image analysis, and then support the government and enterprises decision have become the main issues to be settled
6、 urgently. As the background to the Service-oriented Model of Intelligent Manufacturing Technology and Application Subject (Issue No. 2006BAF01A17) which is a National Science and Technology Support Projects, we develop the Enterprise Information Management Systems. Mainly to solve the enterprise in
7、formation indicators statistical problems in Beijing Science and Technology Commission, and information on these indicators is based on the Word form, are unstructured information. To achieve this goal, extract the indicators information, and then structure to unstructured information is the only op
8、tion. However, text analysis more dependent on computers rather than artificial because of the Huge quantity of the Semi-structured text; On the other hand, we are able to get the accurate result according to the feature of Semi-structured text and lots of skills about text analysis, such as regulat
9、ion match, relation analysis,statistics and so on In this question for discussion, we mainly have a research in indicator of enterprise documents from the Beijing Science and Technology Commission and try to obtain the indicators of the unstructured information, and then provide a visual image analy
10、sis. It includes three aspects: First, to design a set of practical information extraction algorithm; second, through the use of the Dundas Chart toolbox, providing visual analysis; third, completed Enterprise Information Management System which meet customers requirement. The beginning of the paper
11、 introduced the background of the project, introduced the background of the system and research value. Second, detailing information extraction algorithms and principles of Information Visualization. Third, the paper elaborated the systems requirement, specifically introduced the system design and i
12、mplementation. Finally, some possible improvements and future works were presented. Key words: Unstructured Information; Sime-structured Information; Information Extraction; Information Visualization; Visual Analysis. III 目 录 第一章 绪论 . 1 1.1 引言 . 1 1.2 论文组织结构 . 2 第二章 系统相关技术概述 . 4 2.1 非结构化信息处理 .4 2.1.
13、1 非结构化信息 管理 概述 . 4 2.1.2 信息抽取技术 . 5 2.2 信息可视化 .7 2.3 其它系统 技术介绍 .8 2.3.1 ASP.NET 简介 . 8 2.3.2 ASP.NET AJAX 简介 . 9 2.3.3 ASP.NET Ajax Control Toolkit 组件 . 11 2.3.4 Dundas Chart 工具箱简介 . 12 2.4 本章小结 .14 第三章 非结构化信息处理和可视分析 . 16 3.1 企业指标信息统计分析设计方案 .16 3.2 企业指标信息的智能处理 .17 3.2.1 企业指标信息文档的结构分析 . 17 3.2.2 指标信息
14、的提取算法设计 . 24 3.2.3 指标值的提取算法设计 . 33 3.3 信息可视化的设计方案 .34 3.3.1 信息可视分析 过程 模型 . 34 3.3.2 基于 Dundas 的信息可视分析设计 . 36 3.4 本章小结 .38 第四章 企业信息库管理 系统的实现 . 39 4.1 系统概述及功能 .39 4.1.1 开发背景与系统目标 . 39 4.1.2 系统功能和模块划分 . 40 4.2 系统的框架设计 .42 4.3 指数统计模块的实现 .43 4.3.1 统计分析模块的实现 . 43 IV 4.3.2 问卷管理模块的实现 . 45 4.4 文档资源库模块的实现 .46
15、 4.5 系统维护模块的实现 .48 4.5.1 用户管理子模块的实现 . 48 4.5.2 角色管理子模块的实现 . 49 4.5.3 文档类型定义子模块的实现 . 49 4.5.4 数据库备份 &还原的实现 . 49 4.7 本章小结 .49 第五章 系统测试及运行结果 . 50 5.1 系统测试 .50 5.2 运行结果 .50 5.2.1 统计分析模块的运行结果 . 50 5.2.2 问卷管理模块的运行结果 . 52 5.2.3 文档资源库模块的运行结果 . 54 5.2.4 用户管理子模块的运行结果 . 55 5.2.5 角 色管理子模块的运行结果 . 56 5.2.6 文档类型定义
16、子模块的运行结果 . 57 5.2.7 数据库备份 &还原的运行结果 . 58 5.2.8 改善用户体验的工作 . 59 5.3 本章小结 .60 第六章 总结与展望 . 61 6.1 论文总结 .61 6.2 工作展望 .62 参考文献 . 63 致 谢 . 63 V Content Chart 1 Preface . 1 1.1 Introduction .1 1.2 The structure of this paper.2 Chart 2 System related technologies outline . 4 2.1 Unstructured information manag
17、ement .4 2.1.1 Introduction of unstructured information. 4 2.1.2 Information extraction . 5 2.2 Information visualization .7 2.3 Other related technologies introduce .8 2.3.1 Introduction of ASP.NET . 8 2.3.2 Introduction of ASP.NET AJAX . 9 2.3.3 ASP.NET Ajax Control Toolkit . 11 2.3.4 Dundas Chart
18、 Toolkit . 12 2.4 Summary.14 Chart 3 Unstructured information management and visulization . 16 3.1 The design philosophy of enterprise indicators.16 3.2 The design philosophy of enterprise indicators extraction .17 3.2.1 The statistics documents structure analysis . 17 3.2.2 The statistics informati
19、on extraction algorithm . 24 3.2.3 The value of statistic extraction algorithm. 33 3.3 The design philosophy of information visualization .35 3.3.1 Information visualization model . 35 3.3.2 Information visualization base on Dundas Chart Toolkit . 36 3.4 Summary.38 Chart 4 Implementation of Enterpri
20、se Infromation Management. 39 4.1 System profiler and function.39 4.1.1 Development background and overall objective. 39 4.1.2 Functional requirements and module division . 40 4.2 System architecture.42 4.3 Indicators of statistics module design .43 4.3.1 Statistical Analysis module design . 43 VI 4
21、.3.2 Questionnaire management module design . 45 4.4 Document management module design .46 4.5 System maintenance module design .48 4.5.1 User management sub-module design . 48 4.5.2 Role management sub-module design . 49 4.5.3 Document attribute management sub-module design . 49 4.5.4 Database back
22、up and restore. 49 4.7 Summary.49 Chart 5 System testing and the running results . 50 5.1 System testion .50 5.2 Running results .50 5.2.1 Statistical Analysis module running results . 50 5.2.2 Questionnaire management module running results . 52 5.2.3 Document management module running results. 54
23、5.2.4 User management module running results . 55 5.2.5 Role management module running results . 56 5.2.6 Document attribute management module running results . 57 5.2.7 Database backup and restore running results . 58 5.2.8 Improve the system-experience . 59 5.3 Summary.60 Chart 6 Summary and futur
24、e works . 61 6.1 Summary of this paper .61 6.2 Improvements and future works .62 References . 63 Acknowledgements . 64 第一章 绪论 1 第一章 绪论 1.1 引言 随着 计算机 技术 的发展,使海量信息得以存在并迅猛发展。尤其是信息技术的日益普及 其 应用以后, 随着 各个行业的信息系统的规模的日益扩大,信息系统在长年累月的运转过程中,积累了庞大的数据资源。 然而决策者却很难利 用这些数据资源,为企业和政府的决策提供确实有效的帮助。这是 因为 一方面,在这庞大的数据资源中,
25、非结构化信息占据 了 主要部分。 Gartner的一项调查显示,在今天的社会中,有 80% 以上的商业行为依赖于非结构化信息;我们所存储的数据中, 85%以上是非结构化信息;每过三个月,我们周围的非结构 化信息就会增加一倍。这些数据充分说明,我们周围信息的形态是以非结构化信息为绝对主体的,也可以说我们接触到的信息中绝大部分是非结构化信息。 因此 对非结构化信息进行管理, 能够进行数据和知识挖掘,提取当中的隐含信息,对决策进行支持成为当今亟待解决的主要问题 2。 另一方面,随着信息技术的发展,信息结构越来越复杂,信息更新越来越快,信息规模越来越大,给人们获取信息、理解信息、掌握信息带来了沉重的负担,常常导致 “ 认知过载 ”