1、基于 SVM的我国区域创新能力的甄别技术研究 摘要 :文章采用基于统计学习理论的小样本分析方法 支持向量机(SVM),构建了我国区域创新能力甄别的 SVM 模型 ,对我国区域创新能力进行了甄别。研究表明 ,各组检验样本的平均正确甄别率都在 90%以上 ,证明支持向量机对区域创新能力具有良好的识别能力 ,特别是表现出对小样本的适应性 ,为我国区域创新能力评价提供了新的方法和思路。 下载 关键词 :区域创新能力 ;甄别技术 ;支持向量机 一、 引言 区域创新能力是区域经济增长和竞争的决定性因素 ,其强弱是衡量一个区域技术创新实力的重要尺度。一个 国家、一个地区、一个企业能否在市场竞争中取得优势 ,
2、在相当大的程度上取决于技术创新能力的大小。如何科学地甄别我国区域创新能力 ,有利于研究我国区域创新系统的演化规律和落后地区借鉴创新能力较高地区的发展经验 ,从而促进区域经济协调发展。 目前 ,对我国区域创新能力的定量测定一般局限于参数估计方法 (如因子分析法、聚类分析法和主观加权评分法等 )。如 :侯风华和赵国杰将区域创新能力分为当前创新能力和潜在创新能力 ,建立了包含 22个指标的区域创新能力评价指标体系 ,对我国东部地区 10省市的创新能力进行了评价。孙锐和石金涛 以及周立和吴玉鸣运用因子分析法和聚类分析法对 2004 年中国区域创新能力的数据结构进行深入分析 ,并得出了基于因子分析法和聚
3、类分析法的排序结果。何亚琼等采用二次相对评价模型对中国 31 个省市区域创新能力增长效率进行测算 ,并通过理论分析与实证研究 ,比较 CCR模型与 BCC模型的计算结果在衡量增长效率方面的适用性。任胜钢和彭建华运用因子分析法对中国 31 个省级地区进行分析 ,对比东、中、西部区域创新能力 ,将区域创新能力与经济发展水平进行相关分析 ,并提出相关政策建议。事实上 ,由于我国省级行政区只有 31个 (基本上属于小样本范畴 ),同时因为区域创新能力的影响因素众多、关系复杂 ,因此 ,采用这些方法得出的分析结果的可靠性和准确性还有待进一步提高。 基于此 ,本文采用基于统计学习理论的小样本分析方法 支持
4、向量机 ,构建了我国区域创新能力甄别的 SVM模型 ,对我国区域创新能力进行了甄别 ,为我国区域创新能力评价提供了新的方法和思路。 二、 区域创新能力甄别的 SVM 模型 1. 样本集线性可分情形。支持向量机是利用最大间隔思想来降低分类器的 VC维 ,以实现结构风险最小化准则。假定训练样本 (xi,yi),i=1,2,n为样本数 ,输入集 xiRm,m 为样本维数 ,本文代表信息甄别指标的个数 ;输出集 yi -1,0,+1,yi=-1,0,+1 为分类标号 ,本文分别代表基于输入集 xi的区域创新能力高低的信息甄别标号 ,如 “ 领先型区域 ”( 综合因子得分在 29分以上 )的省市创新能力
5、强 ,则我们取 +1;“ 追赶型区域 ”( 综合因子得分介于 13分 29分之间 )的省市创新能力一般 ,则我们取 0;“ 落后型区域 ”( 综合因子得分在 13 分以下 )的省市创新能力弱 ,则我们取 -1。学习目标在于构造一个判别函数 g(x)=w?x+b(wx 表示向量 wRm 与 xRm 的内 积 )将训练样本尽可能地正确分类 ,以实现对空间 XY 的正确划分 ,在此基础上寻找最优分类超平面。该平面不但可以将训练样本正确分开 ,而且使两类分类间隔最大(实现对推广能力的控制 ),最优分类超平面方程为 wx+b=0。 通过等比例缩放 w和 b,对分类超平面做归一化处理 ,则有 : 由此可见
6、 ,非线性支持向量机由训练样本集和核函数完全刻画 ,构造和选择合适的核函数 K(xi,xj)是确定支持向量的重要内容 ,目前主要常用 4类核函数 : (1)线性核函数 (Linear):K(xi,xj)=xiTxj; (2)多项式核函数 (Polynomial):K(xi,xj)=(?酌 xiTxj+r)d,?酌 0; (3)径向基核函数 (Radial Basis Function,RBF):K(xi,xj)=exp(-?酌|xi-xj|2),?酌 0; (4)两层神经网络核函数 (Sigmoid):K(xi,xj)=tanh(?酌 xiTxj+r)。 其中 ,?酌、 r、 d 是对应核函数
7、的参数 ,可以根据测试要求进行调试。 三、 实证研究 1. 指标选择与样本设定。 (1)样本输入集 xi的信息甄别指标选择。基于实证研究结果的可比性和对区域创新能力进行甄别的要求 ,本文选择中国区域创新能力报告中的知识创造能力、知识获取能力、企业创新能力、创新环境以及创新绩效等 5个方面来作为区域创新能力高低的信息甄别指标。 (2)样本输出集 yi的区域创新能力高低的甄别标号确定。基于输入集xi 的区域创新能力高低甄别标号的选择 :“ 领先型区域 ”( 综合因子得分在29 分以上 )的省市创新能力强 ,则我们取 +1;“ 追赶型区域 ”( 综合因子得分介于 13分 29分之间 )的省市创新能力
8、一般 ,则我们取 0;“ 落后型区域 ”( 综合因子得分在 13 分以下 )的省市创新能力弱 ,则我们取 -1,所以我国 31 个省(市、自治区 )创新能力甄别的输出标号见表 1。 (3)样本设定。由于本文是对我国 31 个省 (市、自治区 )区域创新能力的高低进行甄别考察 ,所以样本容量为 i=31。为了实验对比的研究需要 ,本文选择了训练样本和预测样本相互交换的两组样本 :第一组样本的训练样本为2005年 2006年的知识创造能力、知识获取能力、企业创新能力、创新环境、创新绩效等 5 个识别指标组成的输入集 (输入集维数 m=5)和对应区域创新能力 高低的甄别标号形成的输出集来组成的样本
9、,预测样本为 2005 年 2006 年的对应输入集和输出集 ;第二组样本的训练样本为 2006 年 2007 年的输入集(输入集维数 m=5)和输出集 ,预测样本为 2005 年 2006 年的输入集和输出集来组成的样本。 2. 支持向量机的核函数及其对应参数选择。 (1)最优核函数选择。本文运用的支持向量机实验软件是 Li- bsvm-2.8。基于各个核函数都与惩罚因子 C 有关 ,所以我们先固定 C=100,反复调试各个核函数中的其它对应参数 ,来对比不同核函数对年报信息的甄别效 果 ,从而选择最优核函数。表 2中列出了两组样本的实验对比结果。 同时 ,CV 过程能够解决对训练样本的 “
10、 过拟合 ” 问题 ,从而提高预测样本对分类识别的准确度 ,图 2显示了 CV过程对预测样本两分类效果的改善过程 :以上实验对比结果显示 :在固定共有惩罚因子 (C=100)的前提下 ,由于选择不同核函数导致 SVM 对年报信息甄别的效果差异 ,两组样本的径向基核函数的平均正确识别率最高 (82.99%和 80.99%),线性核函数的平均正确识别率最低(37%和 37.35%)。因此 ,本部分选择识别能力最强的径向基核函数 (RBF)作为最优核函数。 (2)最优核函数 (RBF)的最优参数选择。在径向基核函数中涉及两个最重要参数 :一是惩罚因子 C,一是参数 ?酌 ,求解最优惩罚因子 C 和参
11、数 ?酌有多种方法可以选择。我们可以利用交叉比对过程 (Cross Validation,CV)来实现最优参数的自动搜索。对于 v 层 (v-fold)交叉比对过程 ,首先将训练样本等容量地分成 v个子集 ,第 i个子集通过已经被余下的 (v-1)个子集训练过的分类器进行反复测试 ,选取测试正确识别率最高的 (C,?酌 )组合作为最优参数。 交叉比对过程可由网格搜索法 (Grid-search Appr-oach)来实现。网格搜索法是按指数 (Exponential)成长方式增加或减少参数数值来进行试算(如 C=2-5,2-3,215 、 ?酌 =2-15,2-13,23), 将 C和 ?酌分
12、别取 N和 M 个值 ,用 NM 个 (C,?酌 )组合来训练不同的 SVM,在 NM 个 (C,?酌 )组合中选取最高推广识别率的 (C,?酌 )组合作为最优参数。富有效率的网格搜索过程分两步来实现 :第一步是粗搜索 (在所有网格中近似搜索识别精度最高的 (C,?酌 )组合 );第二步是精搜索 (在搜索到的识别精度最高的 (C,?酌 )组合的邻域内进一步搜索精度更高的 (C,?酌 )组合 )。 3. 研究结果。确定最优核函数及对应最优参数后 ,运行预测子模块 (Svm Predict)得到最优预测结果。本文列出了两组样本中对预测样本的实际结果和预测结果对比表 3,以便考察支持向量机对区域创新
13、能力进行识别的能力。 四、 结论 支持向量机是一种最新机器学习方法 ,它利用靠近边界的少数向量构造最优分类超平面 ,使学习机器与有限训练样本相适应 ,实现良好泛化能力。目前 ,国外对支持向量机的研究方兴未艾、发展迅猛 ,已经成功应用于人脸识 别、语音识别、医疗诊断、数据挖掘等方面。本文通过支持向量机对区域创新能力的识别进行了实证研究 ,得出以下结论。 1. 支持向量机在区域创新能力识别中的实证研究效果良好 ,两组样本的正确识别率都为 93.55%,表现出支持向量机对有限样本的良好泛化能力 (特别是对小样本的适应性 ),证实支持向量机对区域创新能力评价指标信息具有良好的甄别能力。同时 ,也证实本
14、文所采用的区域创新能力评价指标体系具有一定的合理性和科学性。 2. 支持向量机在区域创新能力识别预测中存在着一定的误识率 (两组样本均为 6.45%),证实了所采用的区域创新能力指标体系存在着一定程度的问题 ,干扰了支持向量机对相关信息的甄别能力。 3. 通过训练样本和预测样本实验结果的对比分析发现 ,训练样本正确识别率 (100%)均高于预测样本正确识别率 (93.55%),说明支持向量机的推广能力有待进一步改善。支持向量机的识别效果取决于核函数及其最优参数的选择 ,因此应针对自主创新应用领域对支持向量机作进一步深入研究 (包括 :核函数的构造与选择、惩罚函数的改进、优化算法的实现过程 ,以
15、及优化支持向量机的分类性能和信息甄别能力 ),进一步提高支持向量机对区 域创新能力的识别能力。 4. 通过少数错误识别结果的信息甄别指标与绝大多数正确识别结果的信息甄别指标的对比分析发现 ,错误识别结果的信息甄别指标存在着一定的异常值 ,这些异常值往往是由地区的相关经济政策变化等影响因素 (如重庆设立直辖市 )造成的。因此 ,建立更全面、更科学并且考虑动态变化的区域创新能力的信息甄别指标体系 ,会进一步改善支持向量机的识别效果。 参考文献 : 1. 侯风华 ,赵国杰 .我国东部省市的区域创新能力评价研究 .科学管理研究 ,2008,26(2):21-23. 2. 孙锐 ,石金涛 .基于因子和聚
16、类分析的区域创新能力再评价 .科学学研究 ,2006,24(6):986-990. 3. 周立 ,吴玉鸣 .中国区域创新能力 :因素分析与聚类研究 兼论区域创新能力综合评价的因素分析替代方法 .中国软科学 ,2006,24(8):96-103. 4. 何亚琼 ,秦沛 ,苏竣 .中国 31省市区域创新能力增长效率评价研究 .哈尔滨工业大学学报 ,2006,38(1):101-104. 5. 任胜钢 ,彭建华 .基于因子分析法的中国区域创新能力的评价及比较 .系统工程 ,2007,25(2):87-92. 6. Cortes C, Vapink V. Support Vector Netwo 作者简介 :孟卫东 ,重庆大学经济与工商管理学院教授、博士生导师 ;阳举谋 ,重庆大学经济与工商管理学院博士生。 收稿日期 :2009-12-10。