随机森林方法在电信行业客户流失预测中的应用.doc

上传人:da****u 文档编号:1195492 上传时间:2018-12-18 格式:DOC 页数:11 大小:443KB
下载 相关 举报
随机森林方法在电信行业客户流失预测中的应用.doc_第1页
第1页 / 共11页
随机森林方法在电信行业客户流失预测中的应用.doc_第2页
第2页 / 共11页
随机森林方法在电信行业客户流失预测中的应用.doc_第3页
第3页 / 共11页
随机森林方法在电信行业客户流失预测中的应用.doc_第4页
第4页 / 共11页
随机森林方法在电信行业客户流失预测中的应用.doc_第5页
第5页 / 共11页
点击查看更多>>
资源描述

1、 收稿日期:2016-08-08 录用日期:2016-12-09基金项目:福建省软科学项目(2015R0083 )* 通信作者: 1doi: 10.6043/j.issn.0438-0479.201608004基于分类回归决策树算法的专利价值评估指标体系邱一卉* 张驰雨(厦门理工学院经济与管理学院,福建 厦门 361024)摘要:科学、准确的专利价值评估将有效地促进专利的产业化、商业化 ,是提升国家、企业综合实力的重要关键点。针对我国专利数据来源众多、指标关系复杂等特点,现有专利价值评估过程依赖人为主观,缺乏客观、合理评估方法等问题,提出了一种基于分类回归决策树(classification

2、and regression tree, CART)模型的属性选择方法,用于构建专利价值评估的指标体系。实验结果表明相较于基于随机森林的属性选择方法,该方法不仅能有效地降低指标体系的规模,并且能提高评估建模的效率,在兼顾评估模型可解释性的基础上更好地提高专利价值评估的准确性。进一步通过枚举遍历的方法,约减指标集大小,构建出规模更小的指标体系,结合专家知识和实证研究,有效地验证了该指标体系的可解释性和现实意义。关键词:专利价值评估指标体系;属性选择;决策树算法中图分类号:TP181 文献标志码 : A近年来,我国的专利总量快速增长。2015 年,我国全年科研经费支出达 14220 亿元,比上年增

3、长9.2%,全年受理专利申请 279.9 万件,为 171.8 万件授予专利权 1。据世界银行统计,我国的科技成果转换率为 15%,其中专利转换率为 25%,专利推广率在 15%20%左右,与庞大的专利数量相比,如此之低的转换率使得大量优秀专利技术处于闲置和浪费状态,缺乏有效的专利价值评估手段就是影响专利快速转换的一大阻碍。若能快速有效地对专利进行评估,不仅可以节约 60%的研究时间,更可以节省 40%的研究经费 13。因此,进行有效地专利价值评估是最为关键的一环。专利价值评估涉及诸多的指标,因此识别影响专利价值的关键指标有利于我们进行更加准确和有效的专利评估。近年来国内外学者在专利价值评估指

4、标体系方面研究取得了不少成果,Park 4和 Hou5分别提出了影响专利价值评估的主要因素,也出现了 CHI 专利价值评估指标体系 6和佐治亚太平洋(Georgia Pacific)评估体系 7等相关指标体系。杨丹丹、李清海、赵蕴华等 814提出了影响专利价值评估的关键指标,并构建了专利价值评估指标体系。国家知识产权局于 2012 年出版了专利价值分析指标体系操作手册 15,该体系主要包括技术价值因素、法律价值因素及经济价值因素 3 个一级指标及一系列二级指标,为专利价值评估提供指导性的先验信息。 综上,国内外学者对专利价值评估指标体系研究取得了不少成果,在实际应用邻域仍未形成统一的评估模型及

5、标准。我国专利数据库也存在不完善、未标准化等问题使得很多国外的研究成果不适用于我国的专利价值评估,导致以往的专利价值评估过程中过于依赖人为评价、主观性太强,缺乏公正、合理和易操作的评估方法。在这一背景下,利用跨领域的新方法对专利价值评估指标体系进行进一步研究将具有重要的理论意义和实践价值。专利价值评估数据具有来源众多、指标关系复杂、类别不平衡等特点,为进一步提高评估性能,对专利价值评估数据进行属性选择、建立一个简约的专利价值评估指标体系十分必要。机器学习领域的属性选择分为三种模式:第一种模式是过滤器(Filter )方法,独立的对数据属性进行选择处理,与后续模型无关;第二种模式是包裹式(Wra

6、pper)方法,直接把最终将使用的模型性能作为特征子集的评价准则;第三种模式是嵌入式(Embedding) 方法,将属性选择过程与模型训练过程融为一体。一般而言,由于包裹式属性选择方法直接针对模型进行优化,因此从最终模型性能来看,包裹式特征选择比过滤式特征选择更好。Fishers ratio、F-score 16和* 通信作者:作者简介:邱一卉,女,博士,副教授,从事方向:管理科学及工程基金项目:福建省软科学项目(2015R0083)Chi-Square17属性选择方法都是过滤器式的方法。这些方法无法检测属性之间的关系,所选取的属性之间可能存在严重冗余,提高过拟合风险。而 KP-SVM18(K

7、ernel-Penalized Support Vector Machine)和 Boosting-SVM19(Boosting Support Vector Machine)则是嵌入式的属性选择方法,嵌入式的属性选择方法效率较高,它们在构造分类器的同时选择相关的属性。基于随机森林 20的属性选择方法也是一种嵌入式属性选择方法,在建立随机森林的同时可以得到变量重要性的排序列表,根据该列表进行属性选择。但是这类方法依赖于特定的数据类型,在专利价值评估的数据上运用效果不佳。针对以上属性选择方法在专利价值评估指标体系应用中出现的问题。本文提取出一种基于 CART 决策树算法的属性选择方法,用于构建专

8、利价值评估的指标体系。实验结果表明相较于基于随机森林的属性选择方法,该方法具有更大的优势,能够有效地降低指标体系的规模。相较于上述属性选择方法该方法能快速简洁地对属性进行选择,得到属性的重要性程度排序,并可适用于多种数据类型。本文进一步通过枚举遍历的方法,约减指标集大小,构建出规模更小的指标体系,结合专家知识和实证研究,有效地验证了该指标体系可解释性和现实意义。与传统的成本法 21和市场法 22相比本文提出的专利价值评估指标体系不受市场波动影响,更具客观性,数据获取也更加准确、便利。1 属性选择方法1.1 CART 决策树算法为提高专利评估的效率,本文利用在机器学习领域应用最为广泛的 CART

9、 决策树算法进行属性选择。决策树是一种由结点和有向边组成的层次结构,树中包含三种结点:根结点、内部结点、终结点。决策树仅有一个根结点,是全体训练数据集合。树中的每个内部结点是一个分裂问题,它将到达该结点处的样本按某个特定属性分块。每个终结点是带有分类标签的数据集合。从决策树的根结点到叶结点的一条路径形成一个判别规则。CART 决策树算法是 Breiman23于 1984 年提出的,该算法可以处理处理高度倾斜或多态的数值型数据,也可以处理顺序或无序的类属型数据 24。CART 算法使用基尼系数(Gini Index)作为不纯度的度量,CART 算法选择具有最小 Gini 系数值的属性作为决策树的

10、分裂属性,Gini 系数值越小,表明样本对于分类问题的纯净度越高,划分效果越好。基尼系数的定义如公式 1 所示:(1)21()CiGinAp公式 1 表示一个节点 A 的 Gini 不纯度,其中表示属于 类的概率,C 表示测试集样本共有 Cipi类。当 时表明所有样本属于同类,当所()0n有类在节点中以等概率出现时, ,()1)/2GinA最大化。在实际递归划分中,如果当前节点()GinA的中的样本数不为 1 并且所有样本不属于同一类,则此节点为非叶子节点,尝试样本中的每个属性作为分裂属性进行计算,尝试找出不纯度最小的一个划分,该属性划分即为该节点下的最优分支。按上述生成过程递归得到的完整的决

11、策树往往都会出现“过拟合”现象,因此需要对决策树进行剪枝。CART 算法采用交叉验证法进行剪枝,最终得到的是一棵兼顾复杂度和错误率的最优二叉树。1.2 基于 CART 树预测准确率的属性选择方法本文提出一种基于 CART 决策树预测准确率计算的属性选择方法,基本思路是利用对决策树模型预测准确率的影响程度来定义某个属性(指标)的重要程度,影响程度越高说明该属性对评估预测越重要,影响程度越低说明该属性与评估预测越不相关,即越不重要。基于以上思路来进行属性选择,首先根据去除某一属性之后对模型预测准确率的影响程度定义“影响系数值” ,其次根据加入某一属性之后对模型预测准确率的提升程度定义“提升系数值”

12、 ,最终结合以上两个系数值,找到对评估预测影响最大的关键指标,建立专利评估的指标体系。首先定义“影响系数值”如式 2 所示。(2)0iiAI其中 为初始模型的预测准确率均值, 为0 iA去除第 i 个属性后的模型预测准确率均值, 越大iI表明去除的属性越重要。利用初始训练集对决策树模型进行训练,采用五重交叉验证法计算该模型的预测准确率,重复实验 100 次,得到一个平均预测准确率,即为未进行属性选择的初始模型预测准确率均值 ,定义如式0A3 所示。(3)010njj其中 为初始模型的预测准确率均值, 第 j0A0jA次实验的预测准确率,n 为 实验重复次数。利用递归的方式,采取从属性集中逐一递

13、减属性的方法来逐一计算每个属性的重要性,每次仅从属性集中去除一个属性,使用该子集训练新的决策树,同时采用五重交叉验证法计算该模型的预测准确率,重复实验 100 次,得到去除这一属性后的预测准确率均值,代入式 2 中得到相应的“影响系数值” 。依次对属性集中的每一属性进行实验,得到每一个属性的影响系数值。根据影响系数值对属性进行排序,得到属性的影响系数值排序。如果仅以去除某一属性之后模型预测准确率的变化程度来衡量属性的重要性,有可能导致模型的过拟合,或者较大程度依赖于特定的数据来源,因此,引入“提升系数值”来反向考量属性对模型预测准确率的提升程度,从而更准确的衡量属性的重要性。 “提升系数值”定

14、义如式 4 所示。(4)1iiiBP其中 为第 i 个属性加入前的预测准确率均1i值, 为第 i 个属性加入后的准确率均值,该属性i的提升系数值 定义为。当 时表明该属性后有i 0助于提高分类任务的准确率,该属性的加入将提高模型的性能, 越大则提升幅度越大,该属性越重iP要;当 时该属性对分类任务是无益的。i 0根据属性影响系数排序使用前向递归方法进行决策树建模,依次向模型中加入属性建立决策树模型,每次仅加入一个属性,采用五重交叉验证法计算该属性加入后模型的预测准确率,重复实验 100次,代入式 4 得到相应的“提升系数值” 。根据提升系数值由高到低对属性进行排序,同时选取提升系数值大于 0

15、的属性,此时得到的属性集合即为属性选择后的最优属性子集。表 1 数据集属性列表Tab.1 Attributions of dataset权利要求数 当前法律状态 专利类型 专利有效性 文献种类代码国民经济分类 简单同族个数 扩展同族个数 同族国家个数 引证专利个数家族引证个数 被引证次数家族被引证个数引证申请人个数被引证申请人个数家族引证申请人个数家族被引证申请人个数被引证专利个数家族被引证次数价值度表 2 样本分布情况Tab.2 Description of sample distributionClass1 Class2 Class3 Class4 Class5 Class6 合计292

16、242 231 223 341 261 15902 专利价值评估指标体系的建立2.1 实验数据本文的数据来源于合享创新专业专利数据库网站。结合专利价值评估领域专家的先验知识,在专利价值评估指标体系基础上得到一个具有 19个属性的数据集,具体属性如表 1 所示。其中价值度为分类标签,原始数据共分为 19 九级,等级越高对应价值越高。通过对原始数据的分析理解与预处理,将 14 级划分为一个类别“class1” ,59 级每一级分为一类分别命名为“class2” 、 “class3”、“class4”、 “class5”和“class6”共有六类标签,样本分布情况如表 2 所示。2.2 基于预测准确

17、率计算的属性选择法具体实验步骤如下算法 1 所示:算法 1 基于预测准确率计算的属性选择方法:输入: 属性集合 , 分类标签 ,CART 决策12,iC L树算法;步骤 1:1.1 使用集合 与 建立决策树,得到预测准确率均值 ,L0A标准差 ;01.2 for 所有属性 iC1.3 使用去除 的属性集合 与 建立决策树,得到预iYL测准确率 ;iA1.4 ;0iiI1.5 endfor1.6 去除 的属性,将属性集合 根据 升序排序,得0iICiI到属性集合 ;12,iC步骤 2:2.1 for 所有属性 ;i2.2 向属性集合 中这个加入第 i 个属性 ,0TiC,使用 与 建立决策树,得

18、到预测准确率 ;1iiTCiLiB2.3 ;1iiBP2.4 endfor2.5 选取出 对应的 属性,得到属性集合 ;0iiCX输出:属性选择出的最佳属性组合, .12,jX X为为第 i 个 属性缺失后的属性子集。算法步YiC骤 1.6 得到新的属性集合 ,排序如表 3 所示。 为 iT第 个属性 加入后的属性子集, 为 加入前ii 1iTiC的属性子集, 为该属性加入后的预测准确率均值,B绘制如图 1 的折线图,实验结果如表 4 所示。选出 的属性,构成新的属性子集 。 0iPX根据该属性的提升系数 对属性再进一步排序,iP再次使用前向递归方法,将属性依次从前到后依次加入决策树模型中,得

19、到各自加入后的预测模型准确率表 5。从第 7 个属性开始都是 的属性,为0i了说明选择的属性是较优的这里仍继续加入未提升属性进行建模,观察预测准确率变化,绘制折线如图 2 所示。图 2 中虚线所指位置即为最佳属性子集的准确率,此时的模型性能较高且使用的属性规模较小,虽然之后再加入几个属性会出现准确率的增加,但是对准确率的增加幅度有限,同时增加模型过拟合的风险。因此选择出 7 个属性用以预测,选择的 7 个属性集合为最佳属性子集,包含文献种类代码、家族被引证个数、扩展同族个数、权利要求数量、引证专利个数、专利类型和简单同族个数 7 个属性。通过以上的实验可以发现在使用前向递归方法时,预测准确率首

20、先会随着属性个数的增加而递增,当属性个数达到某个临界值预测准确率最高,当属性个数超过这一临界值时预测准确率会逐步递减,这是由于开始较少的属性个数未能包含足够的信息保证分类任务的有效进行,而当属性个数超出临界值时又包含了大量冗余、无效信息以至于破坏分类器的性能。属性选择的重要性就体现于此,选择适用于分类任务的最佳属性子集。表 3 根据影响系数的属性排序Tab.3 Attribution ranking based on influence coefficient排序 属性名称 排序 属性名称1 文献种类代码 2 家族被引证个数3 扩展同族个数 4 同族国家个数5 家族引证个数 6 引证专利个数7

21、 引证申请人个数 8 家族引证申请人个数911专利类型被引证次数1012被引证专利个数家族被引证次数131517被引证申请人个数专利有效性简单同族个数141618权利要求数国民经济分类家族被引证申请人个数0 1 2 3 4 5 6 7 8 9 101112131415161718加入属性个数60626466687072747678808284868890预测准确率%图 1 根据影响系数前向递归的预测准确率变化曲线 Fig.1 Accuracy curve of forward recursion experiment based on influence coefficient 0 1 2 3

22、 4 5 6 7 8 9 10 11 12加入属性个数606264666870727476788082848688909294预测准确率%图 2 根据提升系数前向递归的预测准确率变化曲线Fig.2 Accuracy curve of forward recursion experiment based on lifting coefficient表 4 根据影响系数前向递归的预测准确率Tab.4 Accuracy rate of forward recursion experiment based on influence coefficient属性个数 新加入属性名称 预测准确率(%)提升系

23、数( %)属性个数 新加入属性名称 预测准确率(%)提升系数( %)1 文献中类代码 62.490.45 62.49 2 家族被引证个数 72.290.44 9.83 扩展同族个数 83.820.47 11.53 4 同族国家个数 83.760.43 -0.065 家族引证个数 83.750.48 0.01 6 引证专利个数 85.530.45 1.787 引证申请人个数 85.260.45 -0.27 8 家族引证申请人个数 85.180.46 -0.089 专利类型 86.370.42 1.19 10 被引证专利个数 86.310.46 -0.0611 被引证次数 86.310.48 0.

24、00 12 家族被引证次数 86.230.44 -0.0813 被引证申请人个数 86.220.45 -0.01 14 权利要求数 89.810.44 3.5815 专利有效性 86.420.69 -3.39 16 国民经济分类 85.960.60 -0.4617 简单同族个数 86.360.59 0.40 18 家族被引证申请人个数 86.170.68 -0.19表 5 根据提升系数前向递归的预测准确率Tab.5 Accuracy rate of forward recursion experiment based on lifting coefficient属性个数 新加入属性名称 预测准

25、确率(%) 属性个数 新加入属性名称 预测准确率(%)1 文献中类代码 62.510.51 2 家族被引证个数 72.400.443 扩展同族个数 83.400.43 4 权利要求数 89.460.415 引证专利个数 88.840.41 6 专利类型 89.750.387 简单同族个数 90.360.47 8 同族国家个数 90.370.449 家族引证个数 90.380.46 10 引证申请人个数 90.340.4511 被引证专利个数 90.230.44 12 被引证次数 90.260.472.3 对比实验本文引入在属性选择领域中应用较为广泛的基于随机森林的变量重要性方法,与本文提出的属

26、性选择方法进行对比。随机森林实验中使用 CART 决策树算法为基础算法建树,设置参数森林的大小ntree=500,每个节点上随机选择的分裂属性数mtry=5。表 6 为随机森林算法得到的各属性的变量重要性排序列表。3.2 中使用基于预测准确率计算的属性选择方法选取了 7 个属性作为较优的属性集合,此处使用随机森林算法得到了 19 个属性的变量重要性。使用上述两种方法得到的属性排序构建决策树模型和支持向量机模型 25(Support Vector Machine,SVM)对比两种属性选择方法的性能。决策树使用的是CART 决策树算法,度量标准为 Gini 系数,支持向量机的核函数为二次有理核(Q

27、uadratic)核算法,惩罚因子 C=1。表 6 属性变量重要性排序列表Tab.6 Ranking of attributions importance排序 属性名称 排序 属性名称1 权利要求数 2 文献种类代码3 专利有效性 4 简单同族个数5 扩展同族个数 6 专利类型7 同族国家个数 8 家族引证个数9 家族被引证次数 10 家族被引证个数11 国民经济分类 12 家族被引证申请人个数13 家族引证申请人个数 14 引证专利个数15 引证申请人个数 16 被引证次数17 被引证专利个数 18 被引证申请人个数19 当前法律状态在同样选取前 7 个最优属性的情况下分别构建模型,得到预测

28、准确率表 7:表 7 属性选择方法对比Tab.7 Comparison of features selection methods预测准确率(%)分类器模型基于预测准确率 基于随机森林变量重要性决策树 90.410.40 82.460.49支持向量机 90.180.28 73.160.23实验进一步按照随机森林给出的变量重要性列表逐个加入属性构建决策树,当加入属性为 10 个时决策树模型预测准确率达到最大 86.89%,表 5 与表8 对比也可以发现前者更优。表 8 采用基于随机森林的属性选择方法的模型性能Tab.8 Accuracy of models based on Random For

29、est feature selection method属性个数 预测准确率(%)属性个数 预测准确率(%)1 61.540.28 11 85.090.722 77.760.38 12 85.060.763 81.070.22 13 84.930.624 81.720.41 14 86.280.575 81.310.41 15 86.340.636 82.450.47 16 86.270.647 82.460.49 17 86.300.608 83.110.55 18 86.350.659 86.810.61 19 53.970.2010 86.890.592.4 约减的指标集合为进一步提高专

30、利价值评估的建模效率及性能,进一步缩小指标集合的规模,本节将在已有 7 个属性的基础上进一步使用枚举法遍历寻找规模更小的指标集合。为保证最终选取的属性是有效的、不受到分类器影响的,分别选取决策树、支持向量机、随机森林三类分类器算法来建立模型。实验中三类算法的参数设置与 3.3 中的设置相同。以下给出 7个属性的序数列表,下文将以对应序号来表示选取的属性。假设选取属性数量为 1 时,需要在 7 个属性中随机选择一个属性建立模型,枚举所有可能性为 ,17C即有 7 种组合可能;假设选取两个属性时为 ,以27此类推全部共有 127 种组合方式。对每一种属性组合可能都建立三种模型,决策树模型、支持向量

31、机模型、随机森林模型,采用五重交叉检验计算每个模型的预测准确率,并且在每个属性组合下重复实验 100 次得到该组合的预测准确率均值,进而得到了选取属性个数从 1 个到 7 个各种组合的预测准确率,找出在某一特定属性子集下的最高预测值及其组合、最小预测值及其组合,预测准确率最高的集合即为约减的属性子集。决策树建模结果如表 10 所示,支持向量机建模结果如表 11 所示,随机森林建模如表 12 所示。表 10、表 11 和表 12 中“最高值对应属性组合”的数字与表 9 中相应序号的属性名称对照。表 9 属性名称与序号对照表Tab.9 Cross reference list of attribu

32、tions names and numbers序号 属性名称 序号 属性名称1 权利要求数 2 专利类型3 文献种类代码 4 简单同族个数5 扩展同族个数 6 引证专利个数7 家族被引证个数表 10 CART 决策树算法寻找约减集合Tab.10 Finding smaller attributions set based on CART decision tree algorithm 加入属性个数 1 2 3 4 5 6 7最高值(%) 62.4747 77.7398 86.8208 89.4261 90.7588 90.5744 90.4142最低值(%) 49.4695 56.3155 6

33、3.3675 72.6015 79.4028 84.2850 90.4142均值(%) 55.2067 68.1836 76.5565 82.0634 85.6882 88.3140 90.4142最高值对应属性组合 3 13 137 1347 12347 123467 1234567CART 决策树算法下的最高值属性组合与表 9 对应,得到准确率最高的属性集合为:权利要求数、专利类型、文献种类代码、简单同族个数和家族被引证个数。表 11 支持向量机算法寻找约减集合Tab.11 Finding smaller attributions set based on SVM algorithm加入属

34、性个数 1 2 3 4 5 6 7最高值(%) 62.5834 78.7655 86.4395 88.7353 90.6196 90.4623 90.1811最低值(%) 34.0801 22.1401 43.0887 71.5443 79.9905 85.6053 90.1811均值(%) 47.5623 57.2098 61.8283 81.5825 85.7538 88.1956 90.1811最高值对应属性组合 3 13 137 1347 12347 123467 1234567支持向量机算法下得到准确率最高的属性集合为:权利要求数、专利类型、文献种类代码、简单同族个数和家族被引证个数

35、。表 12 随机森林算法寻找约减集合Tab.11 Finding smaller attributions set based on Random Forest algorithm加入属性个数 1 2 3 4 5 6 7最高值(%) 58.1500 74.7094 82.9156 89.3406 90.1469 90.5875 90.5063最低值(%) 32.2125 51.6563 59.4094 68.8469 75.3063 82.1531 90.5063均值(%) 46.1210 63.6592 72.3463 80.5503 83.8266 87.5790 90.5063最高值对应

36、属性组合 3 34 357 1347 12347 123467 1234567随机森林算法下得到准确率最高的属性集合为:权利要求数、专利类型、文献种类代码、简单同族个数、引证专利个数和家族被引证个数。3 实证分析通过以上实验可以发现,在决策树算法和支持向量机算法中,选取 5 个属性时使得预测准确性最高。在随机森林算法中会多加入一个属性使模型达到最优,即 6 个属性时,由于随机森林为组合算法,每一棵树的属性不完全一样,不会使用全部的属性建树。也可以发现在不同属性数量的属性子集下,三种模型约减的属性子集属性重合率极高,因此我们认为约减的属性集合为包含权利要求数、专利类型、文献种类代码、简单同族个数

37、和家族被引证个数 5 个属性的属性集合,该集合即为本文提出的简约的专利价值评估指标体系。接下来将对上文总结得到的专利价值评估指标体系进行简要分析。“权利要求数”指独立权利要求数量及从属权利要求总数。权利要求数量越多,通常反映从属权利要求的撰写越严密,无效诉讼中能提供的修改余地越大,被完全无效的可能越低。独立权利要求项数越多,一般对技术所涉及主题的类别也越全面。研究表明,专利权要求数量众多,并且技术覆盖范围广的专利大多为更有价值的专利 926。“专利种类”包括发明专利、实用新型专利和外观设计专利。发明专利,是指对产品、方法或者其改进所提出的新的技术方案。实用新型专利,是指对产品的形状、构造或者其

38、结合所提出的适于实用的新的技术方案。外观设计专利,是指对于产品的形状、图案、色彩或者其结合所提出的富有美感并适于工业上应用的新设计。在专利保护期限上,发明专利的保护有效期为 20 年,实用新型专利与外观设计专利保护有效期为 10 年,相对而言发明专利的受保护时间更长,同时发明专利的技术要求程度也相对较高,都使发明专利在大多数情况下能获得更高的经济价值 27。“文献种类代码”全称为“专利文献种类标识代码” ,是指国家知识产权局为标识不同种类的专利文献而规定使用的字母代码,或者字母与数字的组合代码。大写英文字母表示相应专利文献的公布或公告,阿拉伯数字用来区别公布或公告阶段中不同的专利文献种类。该代

39、码能够反映某一专利的类型、专利状态信息,专利的有效性和法律状态可以在一定程度上反映专利的价值 28。专利族亦称专利家族,把具有共同优先权的在不同国家或国际专利组织多次申请、多次公布或批准的内容相同或基本相同的一组专利文献称作专利族。 “简单同族个数”指一组专利族中的所有专利都以共同的一个或共同的几个专利申请为优先权的专利个数。可以简单的理解为同一个专利在多国得到专利保护,这一系列的专利即为简单同族专利,也可以反映出该专利价值意义,当专利价值进行授权时,专利已在全球范围内布局,购买方会愿意付出更高的价格购买该专利。 “家族被引证个数”的概念可以结合以上的专利家族概率得到,如果同族中的专利被引用次

40、数较高就说明一项专利对未来的技术进步奠定了基础,在一定程度上反映了专利族的技术、经济价值 39。本文提出的专利价值评估体系也有效印证了国内外研究的成果。吕璐成 14、申文娇 29、赵蕴华 13等人的结论都认为权力要求数是进行专利价值评估一个重要的指标。杨冠灿 11、李清海 9、冯岭 12等也提出了运用专利族和家族引用数量指标的专利价值评估方法,本文的实验结果也印证了专利家族指标的重要性。在佐治亚太平洋(Georgia Pacific)评估体系 7和 Lanjouw-Schankerman(LS )专利价值评估模型 26中也都选择了权力要求数和简单同族个数作为评估指标之一。专利种类能反映专利价值

41、的观点也符合专利价值基本评估理论 810。结合国家知识产权局的专利价值分析指标体系 15,我们可以将专利种类归结于技术特征指标中,简单同族个数、家族被引证个数的专利族属性可以归结为市场特征指标,文献种类代码可以反映法律特征指标,而权力要求数可以同时反映专利的法律特征又可以反映专利的技术特征。综上所述,本文提出的专利价值评估指标体系是有效的,对于专利价值评估研究具有一定的指导意义。4 总结本文提出了一种使用基于 CART 决策树算法的属性选择方法,使用该方法对专利价值评估指标体系进行研究,提出了一个约减的专利价值评估指标体系。本文利用专业专利检索数据库开展实验,实验表明,与基于随机森林的属性选择

42、算法进行对比,本文提出的新的指标体系选择方法在专利价值评估预测中具有更好泛化性能,在此基础上利用实验性的方法,进一步缩小指标体系规模,采用枚举遍历的方法寻找出了约减的指标体系,最终得到专利价值评估指标体系包含权利要求数、专利类型、文献种类代码、简单同族个数和家族被引证个数 5 个属性。最后,对得到的专利价值评估指标体系进行了实证分析,充分论证了该指标体系的可解释性和意义。参考文献:1 中华人民共和国国家统计局. 2015 年国民经济和社会发展统计公报EB/OL. http:/ 廖忠安. 专利转化率的相对性实证分析D. 华南理工大学, 2014:10-143 王静, 吴玉春, 孙大帅. 基于决策

43、树模型的非商业化专利价值评估方法研究J. 经济论坛 , 2013(10):131-136.4 PARK Y, PARK G. A new method for technology valuation in mone-tary value: procedure and applicationJ.Technovation,2004,24 (5):387-394. 5 HOU J L, LIN H Y. A Multiple Rgression Model for Patent Appraisal Searching for Factors Influencing Technologocal As

44、set ValueJ. Industrial Management &Data System.2006,106(9):1304-1332.6 NARIN F. Patents as indicators for the evaluation of industrial research outputJ. Scientometrics, 1995, 34(3):489-496.7 陈健, 贾隽. 专利价值的影响因素和评估体系研究综述 J. 西安工业大学学报, 2013, 33(7):517-525.8 杨丹丹. 基于数据挖掘的企业专利价值评估方法研究 J. 科学学与科学技术管理, 2006, 2

45、7(2):42-44.9 李清海 , 刘洋, 吴泗宗,等. 专利价值评价指标概述及层次分析J. 科学学研究, 2007, 25(2):1-9.10 孙玉艳, 张文德. 基于组合预测模型的专利价值评估研究J. 情报探索 , 2010(6):73-76.11 杨冠灿 , 刘彤, 李纲,等. 基于综合引用网络的专利价值评价研究J. 情报学报, 2014, 32(12):1265-1277.12 冯岭 , 彭智勇, 刘斌,等. 一种基于潜在引用网络的专利价值评估方法J. 计算机研究与发展 , 2015(3):649-660.13 赵蕴华 , 张静, 李岩,等. 基于机器学习的专利价值评估方法研究J.

46、情报科学, 2013, 31(12):15-18.14 吕璐成, 刘娅, 杨冠灿. 基于决策树方法的专利被引影响因素研究J. 情报理论与实践 , 2015, 38(2):28-3215 马维野. 专利价值分析指标体系操作手册M. 第 1 版. 北京: 知识产权出版社, 2012: 10-2616 IDRIS A, KHAN A, LEE Y S. Intelligent churn prediction in telecom: Employing mRMR feature selection and RotBoost based ensemble classificationJ. Applie

47、d Intelligence, 2013. 39(3):659-672.17 MESLEH A M A. Chi square feature extraction based SVMs Arabic Language Text Categorization systemJ. Journal of Computer Science, 2007, 3(6):430-435. 18 MALDONADO S, WEBER R. A wrapper method for feature selection using Support Vector MachinesJ. Information Scie

48、nces, 2009, 179(13):2208-2217.19 WANG, C. W., & YOU, W. H. Boosting-svm: effective learning with reduced data dimensionsJ. Applied Intelligence.2013, 39(3), 465-474. 20 邱一卉, 米红. 基于随机森林和转导推理的特征提取方法J. 厦门大学学报 :自然科学版 , 2010, 49(3):333-338.21 LINDENBERG E B, ROSS S A. Tobins q Ratio and Industrial Organization.J. Journal of Business, 1981, 54(1):1-32.22 ARORA A, FOSFURI A, GAMBARDELLA A. Markets for Technology: The Economics of Innovation and Corporate

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。