基于知识挖掘的产业集群网络创新模型研究.doc

上传人:99****p 文档编号:1716260 上传时间:2019-03-13 格式:DOC 页数:11 大小:33.50KB
下载 相关 举报
基于知识挖掘的产业集群网络创新模型研究.doc_第1页
第1页 / 共11页
基于知识挖掘的产业集群网络创新模型研究.doc_第2页
第2页 / 共11页
基于知识挖掘的产业集群网络创新模型研究.doc_第3页
第3页 / 共11页
基于知识挖掘的产业集群网络创新模型研究.doc_第4页
第4页 / 共11页
基于知识挖掘的产业集群网络创新模型研究.doc_第5页
第5页 / 共11页
点击查看更多>>
资源描述

1、基于知识挖掘的产业集群网络创新模型研究摘要知识经济时代,知识成为产业集群网络创新的重要动力资源。面对日益激增、多结构化的企业数据,如何从中获取潜在的、高质量的知识模式,将决定产业集群网络创新的能力。本文从语义挖掘的角度构建了产业集群网络创新模型,重点分析了产业集群网络创新模型的理论基础,综合运用本体论、知识挖掘等智能信息处理技术对分布式、异构化数据进行语义分析与集成,在语义集成的基础上阐述了实施智能知识挖掘的过程,说明了产业集群网络系统具备智能获取数据中的概念和概念间关系的能力,论述了知识获取在构建产业集群网络创新模型中的重要性。 关键词知识;知识挖掘;产业集群网络;创新模型 中图分类号F27

2、2.3 文献标识码A 文章编号1006-5024(2013)10-0034-05 一、引言 1912 年经济学家熊皮特在经济发展理论中首次提出创新理论的基本思想,即把生产要素和生产条件的新组合引入生产体系,以达到降低成本或提高产品质量,从而使实行创新的企业在竞争中占据优势,获得超额利润的一种经营管理活动。随着产业集群的出现和不断发展,Doloreuxa 和 Partob 等学者提出产业集群为创新提供了新的模式,即在一定的地理区域内,各个行为主体在交互作用和协调过程中彼此建立的各种相对稳定的正式或非正式的网络构造体系。随着知识经济的到来,知识已然成为创新的动力源泉,产业集群有其特有的地理区域集中

3、优势,知识资源有其固有的根植性和黏性,更有利于产业集群形成文化、技术、管理特色。但信息量的激增,使知识的获取不再简单。随着本体技术的出现和融入到数据挖掘系统中的理论和实践的不断拓展,知识模式获取的质量也越来越高。因此,本文拟提出通过本体和知识挖掘等智能信息处理技术来构建产业集群的网络创新模型,将产业集群网络中分散的信息资源进行语义分析与整合,并在语义的基础上实施知识挖掘过程,获取高质量的知识模式,实现在整个产业集群价值链上无歧义的高效分享,以提高创新效率。 二、理论基础 (一)知识与语义 关于知识人们都有不同的理解和定义,国内外众多学者结合自身情景从不同的角度对知识做出了定义,如 Elias

4、和 Hassan 认为知识是一种通过经验或学习而获得的理解力,是一种用来完成专门任务的技能,也是事实、过程规则或经验规则的积累。Polvani 在 1996 年首次提出两种知识类型,即显性知识和隐性知识。日本学者 Nonaka 和 Takeuchi 认为隐性知识具有一个非常重要的认知层面,它是蕴含在人大脑中的模型和信念,很难被别人模仿。同时,他们认为显性知识是可以编码、存储和共享的知识。我国学者也主要多从知识与数据、信息的关联,和知识的类型等角度对知识的内涵做出了界定。 随着本体论和自然语言处理技术的发展和应用, “语义”一词被广泛提及。被赋予含义的数据就是信息,而这种含义就是语义,知识是用来

5、描述信息的概念、概念之间的关系,以及概念在陈述具体事实时所必须遵守的条件,从这点上看,对于信息的语义以及信息语义之间的关联关系的描述本身就是一种知识表达,因此在许多研究中,往往将语义的描述等同于知识的描述。 (二)知识挖掘与本体 目前国内外学者对知识挖掘内涵的描述还不统一,基本上有两种分歧:一是沿用传统数据挖掘的基本理论和技术来研究知识挖掘,把数据挖掘引用到知识管理领域产生知识挖掘,转变后的知识挖掘比数据挖掘更加注重知识创新的能动性,成为知识发现和知识学习的核心内容,这部分学者认为知识挖掘处理的对象是数据或信息,产生的结果是知识。二是认为知识挖掘的对象不仅包含显性知识,而且包含隐性知识,其中对

6、隐性知识的挖掘应该占据更重要的地位。我国学者冯新民和王建东提出了广义知识挖掘的概念体系架构,传统的数据挖掘、知识发现与知识创新等概念都是广义知识挖掘体系的一部分。 本体原是哲学领域的概念,后广泛引入到计算机工程、人工智能等领域,本体作为共享的概念模型的明确的、形式化的规范描述,在与知识挖掘的融合过程中,常作为数据预处理、提高挖掘技术和算法高效运作的基础,主要起到两方面的作用:一是对所挖掘的数据进行语义预处理和整合,使知识挖掘具备自主推理分析能力;二是针对具体挖掘任务,能够协助用户自动调用最合适的方法和算法,完成知识挖掘过程。 (三)产业集群网络创新 随着社会经济的不断发展,国内外众多学者在熊皮

7、特创新理论的基础上,提出了新的理论,其中 Tracey 根据创新活动的范围和创新主体的不同,把创新分为渐进式创新、激进式创新、企业系统创新和区域网络创新。对产业集群网络创新的研究多数依赖于区域网络创新理论,因此多数学者将产业集群网络创新的结构划分为正式的经济网络和非正式的社会网络。其中正式的经济网络又可划分为核心网络层和辅助网络层,核心网络层是由集群内企业之间所建立的、围绕整个产业价值链生产运作的、正式的经济合作关系网络;辅助网络层是由大学、科研单位、政府和中介机构所组成的、支撑核心网络层有效实施和运作的重要辅助网络。非正式的社会网络又可划分为文化网络层和群外网络层,文化网络层是对产业集群运作

8、范式产生潜移默化影响的当地区域的文化特征、生活习性等所构成的网络;群外网络层是指与产业集群网络有联系的圈外企业、科研单位、政府、文化地域等所构成的集群网络,即不同区域的集群网络之间是有关联的。 产业集群网络创新的能力取决于集群内部的结构特征,产业集群内各主体之间以及不同产业集群之间的关系强度和关系的质量构成了产业集群网络主要的结构特征,它们与产业集群网络的创新能力有着直接的正相关关系。知识是创新的源泉,产业集群网络中结构关系越强、质量越好的主体之间就越有益于知识的获取、流通、共享和转化。如何识别企业主体之间、企业与科研单位之间等关系的函数值,这对产业集群网络创新的整体优化、提高创新动力具有重要

9、的意义。 三、基于知识挖掘的产业集群网络创新模型构建 (一)模型构建目标 模型构建目标有两个:一要满足企业对高质量知识渴求的目的,即在领域本体技术的支持下,从人类大脑、文字、交易数据等中挖掘潜在的、未知的高质量知识模式,并基于本体的形式化方式进行知识表示,更加有利于知识在整个产业集群价值链网络中流通、共享和创新,提高了产业集群网络创新的能力。二是在领域本体技术的支持下,利用知识挖掘技术从各主体之间业务流程中发现潜在的知识模式,勾勒出产业集群网络中各主体所包含的概念之间关系的强度和质量,以便调整产业集群中各主体之间的函数关系,扬长避短或重新组合,以提高产业集群网络的创新能力。 (二)基于知识挖掘

10、的产业集群网络创新模型 该模型包含一个智能化的产业集群网络创新的循环机制,其中产业集群网络提供知识挖掘所需的数据,企业本体的引入使知识挖掘的数据基础提升到语义层次,根据知识挖掘任务的需求,每个被选择的数据都带有语义标签,使知识获取的过程更加自主化和智能化,分析挖掘出的知识模式用于产业集群网络的创新,即满足产业集群中各主体对知识模式高效运用的需求和产业集群网络结构的调整和优化。该模型包括 5 个模块,即数据收集模块、数据预处理和语义集成模块、知识挖掘模块、基于本体形式化方式的知识表示模块以及产业集群网络创新模块。各模块所包含的主要内容如下: 1 数据收集模块。数据来源于产业集群网络各企业业务流程

11、中,形式是多样化的,如可呈现出静态和动态、多结构化、显性和隐性等特性。(1)静态和动态数据收集。静态数据是反映历史情况的,即用数字资料、文字描述来反映已经发生的各种经济活动状况。产业集群中的静态数据多发生在各种数据库记录中,如客户数据库、交易数据库、促销活动数据库、询价记录等。其中客户数据库记录企业现有和历史客户的相关信息;交易数据库包含企业之间、企业与客户进行交易活动的记录;促销活动数据库包含了企业促销活动的细节;询价记录包含了客户、供应商等主体之间的价格谈判活动。 动态数据是反映当前时间活动状况以及将来发展变化趋势的数据,是对正在发生的和未来状况的描述。动态数据的历史积累就成为静态数据的来

12、源,一般来讲,动态数据可采用直接记录、追踪和摄像等方式收集,如企业访谈、会议记录等都属于企业动态数据。 (2)显性和隐性数据收集。显性数据是可以编码、存储和共享的知识,而隐性数据是隐含在人脑中的模型和信念,其中显性数据的收集常用的有两种方式:通过上网等方式搜索已经成为参考资料的数据,如企业年鉴等资料;或是通过市场调查问卷等方式收集数据。 隐性数据多隐含在行为方式中,常用的方式也有两种:通过企业博客、BBS 论坛等舆论传播平台收集客户、企业等相关主体的评论意见等;或是通过 Cookies 或 Spider 等程序软件抓取客户、企业等相关主体访问网站的行为轨迹。 (3)多结构化数据收集。结构化数据

13、是先有结构后有数据,一般能用统一的结构(如二维表结构)进行表达,如企业各类数据库数据;非结构化数据相对于结构化数据而言,是不方便使用结构化方式表示的数据,如办公文档、企业业务文本、图片等数据;半结构化数据一般是自描述的,数据的结构和内容混合在一起,没有明显区分,如企业网站 Web页、客户浏览 Web 日志等数据。 2 数据预处理和语义整合模块。以互联网为依托的知识经济时代,结构化关系型数据库数据和半结构化 Web 文本数据是企业电子商务活动中最为重要的两种数据。针对不同结构类型数据的预处理和语义整合的方法与流程也是不同的,详细介绍如下: (1)结构化关系型数据库数据的预处理和语义整合。在企业本

14、体概念体系的辅助下,采用数据仓库技术对数据库数据进行预处理和语义整合,即建立基于语义的元数据,并在该元数据的指导下实施基于语义的ETL 过程。其处理流程如图 2 所示: 对于企业,关系型数据库承担了绝大多数企业数据的存储任务,实体关系(E-R)模式是关系型数据库语义知识的形式化基础,也是产生元数据的重要来源,而实体关系模式本身又与知识本体存在着某种映射关系,找准这种映射关系便可准确构建出基于本体的元数据内容,从而可指导基于语义层次的 ETL 过程。我们可以通过分析关系数据库中的表定义和表数据两部分内容,来识别出 ER 模式中重要的语义信息,并与知识本体中各元素相互映射,即通过关系型数据库的语义

15、反求过程来构建基于语义的数据仓库元数据,实现关系型数据库数据的语义整合的过程。 (2)Web 文本数据预处理和语义整合。在企业本体概念体系的辅助下,采用文本数据预处理的方式,并结合聚类和关联规则挖掘方法,从中获取概念、概念之间的关系,完成对 Web 文本数据的语义标注和整合的过程。其处理流程如图 3 所示: Web 文本数据集的预处理过程包括分词处理、文本特征标引和词频降维三个步骤。分词处理主要采用词频统计的方法,即通过计算字与字相邻共现的频率来反映字符串确实是一个词的可信程度,只要选用的数学模型适当,就会有较高的切分精度和查全率,其中应用较广的数学模型有 N 元文法模型、隐 Markov 模

16、型和最大熵模型等;文本特征标引主要采用矢量空间模型来表示文本中的内容,词代表文本特征信息,该词称为特征项,关于特征项权重的计算方法则采用 TFIDF 函数;词频降维是预处理步骤中最为关键的一步,主要利用潜在语义标引方法中的奇异值分解技术,目的是生成包含特征项间隐含概念关系的新矩阵。 Web 文本数据集进行语义分析的过程包括文本中概念的挖掘和概念之间关系挖掘两部分。主要是在 Web 文本集预处理的基础上,实施平面划分聚类法进行特征项聚类,在企业本体的辅助下获取 Web 文本集中的概念集簇,完成 Web 文本集中的概念获取过程;实施关联规则挖掘方法,在 Web 文本集中发现具有强关联关系的特征项集

17、,再运用概率统计方法在上述有关联的特征项集中发现具有等价和层次结构关系的概念间关系模式。 3,知识挖掘模块。该模块是整个产业集群网络创新模型中的核心部分。由产业集群网络的业务需求转化为知识挖掘任务,选择相匹配的挖掘方法和算法,在已经实施过预处理和语义整合后的数据基础上实施挖掘过程,即开展数据选择、数据转换、数据挖掘、知识评价和知识优化的流程。与一般的知识挖掘流程相比,该流程减少了数据清洗阶段,因为在数据预处理和语义整合阶段基本上消除了数据中存在的不完整、不一致、不精确和冗余等问题。其挖掘流程如下: (1)挖掘任务的确定。知识挖掘任务贯穿了整个挖掘过程,无论是数据准备、挖掘工具和算法的选择还是知

18、识模式的评价和优化都与其有直接关系。知识挖掘任务的确定要经历识别业务相关者的真实需求,即识别客户、企业员工、业务合作伙伴对挖掘项目的真实想法;分析知识挖掘环境,即对资金预算、技术人才、知识挖掘软件等做出统筹规划;确定企业业务,即进一步了解企业业务相关者的真实需求和影响挖掘项目进行的一系列环境因素;通过上述步骤,进而确定知识挖掘的任务。 (2)数据选择。由于该阶段的数据选择是建立在数据语义处理后基础上的,因此选择的过程中就不必再考虑数据的系统异构、结构异构和语义异构等问题。选择的标注应该参考如下因素:考虑与知识挖掘任务的相关程度;考虑数据是否完整;考虑数据的时间有效性等。 (3)数据转换。数据转

19、换的目的是使数据更适合知识挖掘方法与算法等的要求,提高知识挖掘的质量。在数据转换过程中应该考虑以下因素:将数据转换成合适的粒度;适时添加衍生变量;着重处理孤立点和重编码。 (4)数据挖掘。该阶段的主要目标是依据知识挖掘任务的需求及所生成的知识挖掘模式的功能,如解释、分类和预测等来选择合适的知识挖掘方法和算法。知识挖掘过程中会涉及到多结构类型的数据,因此该阶段也会根据数据结构的不同来调用最适合的知识挖掘方法和算法,以提高知识挖掘的质量。另外,数据经过预处理和语义整合阶段后,已经对数据的内涵做出了明确的、规范化的定义,因此更有利于知识挖掘方法、算法及工具等实施智能化的处理过程。 (5)知识模式评价

20、。从数据集中挖掘生成的知识模式并不是单一的,我们需要结合知识挖掘的任务来选择出最优良的知识模式,因此需要对产生的多个知识模式进行评价。评价的指标需要考察知识模式的准确性、可理解性、从知识模式中获取结果的效率和模式的构造效率;评价的方法有很多,如可利用错判矩阵、累计增益图等方法来判断知识模式的优劣。 (6)知识模式优化知识模式的调整和优化主要涉及到对知识模式集的调整和对知识挖掘算法相关参数的调整,对多个知识模式的组合应属于知识模式优化策略的一个方面。对知识模式集的调整包括对知识模式集规模、密度、时间特性的调整;对知识挖掘算法相关参数的调整主要是对算法的灵活性进行调整,如增加或减少训练集的数目、增

21、加或减少阈值、增加或减少回归曲线的弯度等;多个知识模式的优化组合方法包括表决组合、分段输入组合、模式分段组合、数据强化组合等。这些知识模式优化的方法都能使所选择的知识模式更好地展现其应用价值。 4 基于本体形式化方式的知识表示模块。Maedche 给出本体一个五元组形式化表示的方式,即 O=C,R,Hc,Rel,A,其中 c 代表概念集,R 代表概念间关系集,Hc 代表概念间的层次结构,Rel 代表概念间的非分类关系,A 代表公理。由此可见,基于本体形式化的表示方式可将知识模式描述成为一个语义网络结构,即由节点和有向弧构成,节点代表了概念集,而节点之间的有向弧代表概念之间的关系,它们又由公理进行约

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。