1、基于最小数据集的企业质量信用管理研究摘要 :作为社会管理和公共服务的提供部门,政府在收集数据、使用数据时有着得天独厚的优势,业务数据成为政府部门海量数据的来源。为了提高政府部门监督管理水平的科学化,有必要加强对现有业务数据的科学整理和利用。本文以电子政务实施的成功案例昆明市质量技术监督局在用的基层质量技术监督管理信息系统内企业质量信息为原始公共数据库,探讨对现有企业质量信用信息进行数据挖掘和数据分析,如何剔除重复数据和无用数据。采用最小数据集与质量信用信息相结合的思维模式,利用 R 语言使用随机森林算法,对最小数据集候选因子关于企业质量信用评级结果重要性进行选择,再通过逻辑论证形成企业质量信用
2、管理最小数据集,以及对企业质量信用最小数据集的评级指标做相关性分析。研究结论显示存在五个质量信用因子对企业质量信用的评级具有稳定的重要影响。 关键词 :企业质量信用 最小数据集 质量技术监督管理一、引言 随着 ICT(信息通讯技术)在市场决策和公共管理领域的广泛运用及大数据时代的来临,数据和信息作为一种重要的资产和财富越来越受到决策部门的重视。数据和信息实质上是两种不同的概念,数据往往不能直接为管理决策工作提供依据,因为数据的确切含义往往不明显。而数据经过加工处理形成的信息能够反映客观事物的规律,对管理决策工作发挥着重要作用。通过对数据的挖掘、整合、去伪存真,再加以分类、汇总、分析后形成报表和
3、资料,可以实现为市场决策以及公共决策提供可靠的事实依据,实现市场资源、公共资源的有效配置。由于认识到数据的这种重要性,国内外政府部门在推行了超过一个世纪的电子政务之后提出了电子治理理念,其目的就在于利用信息技术更好的服务于公共管理,为政府和公众提供便捷的互动渠道。本文以电子政务实施的成功案例昆明市质量技术监督局在用的基层质量技术监督管理信息系统为研究对象,以其在具体应用中产生的大量企业信息为数据基础,分析系统中的原始数据为什么不能直接为质量技术监督管理部门评价企业的质量信用状况所用,而造成数据资源浪费的原因,以及如何筛选小范围的可用的企业质量信用数据,形成企业质量信用管理最小数据集,并对企业质
4、量信用最小数据集的评级指标做相关性分析。本文采用最小数据集与质量信用信息相结合的思维模式,提出以最小数据集为切入点进行企业的质量信用管理,并用现有数据库中备案的信息进行数据统计分析验证其可行性。 二、相关概念阐述 “最小数据集” (MDS)是指通过收集最少的数据,较好地掌握一个研究对象所具有的特点或一件事情、一份工作所处的状态,其核心是针对被观察的对象建立起一套精简实用的数据指标。1 最小数据集的概念起源于美国的医疗领域。最小数据集的产生源于信息交换的需要,就好比上下级质量技术监督部门之间、企业与质量技术监督部门之间、质量技术监督部门与社会公众之间都存在着信息交换的需求。为此需要建立一个类似于
5、适用“端口”的数据库以实现信息交换、共享。1973 年,在美国国家生命健康统计委员会(NCVHS)的主导下,为了规范出院病人的信息收集工作,美国第一次制定了统一的出院病人最小数据集。由于实用性较强,最小数据集的概念在医疗领域被迅速推广。近几十年来,几乎每年都有新的最小数据集被定义、开发和推广,一时间衍生出各种各样特定的最小数据集。随时时间的推移,最小数据集在美国已经演变成一个一般概念,它指代国家管理层面针对某个业务管理领域强制收集的数据指标。当然,对于“最小”的看法不同的管理者、决策者、公共服务提供方及接收方都会有不同的需求和看法,一个指标是否纳入最小数据集的范围,所处立场、视角以及管理方式的
6、不同皆会产生不同的看法。最小数据集在中国的应用是始于 2003 年中国在医疗卫生领域开始最小数据集的应用研究,到 2006 年中国卫生部出台了第一版中国医院最小数据集的标准。 “质量信用”的概念始于 1915 年芝加哥大学 Max F Meyer 等人“Credit for Quality”中的论述,并以教育为对象提出了质量信用的一般原则。目前,国外将企业的质量信用作为企业信用的组成部分和要素,被包含在“企业品格” (Character)和“企业能力” (Capacity)评价范围内,与“资本状况” (Capital)一起,组成企业信用评价“3C”模型的基础。我国的质量信用管理研究始于 198
7、7 年,它与企业发行债券同步产生。从广义上来看企业质量信用应该包括企业产品质量、企业内部管理质量以及企业资本状况及其抗风险能力三个关键要素。2006 年 10月 24 日,国家质量技术监督检验检疫总局下发的国家质量监督检验检疫总局关于加强企业质量信用监管工作的意见 (以下简称:国质检质2006464 号)中第一次对质量信用做出了官方叙述,即“企业质量信用是指企业在生产经营活动中遵守质量法律法规、兑现质量承诺的能力和程度”2。 企业质量信用划分通则 (GB/T237912009)中表述为“取得并保持对其质量信任的能力,这种能力由企业在遵守质量相关法律法规、执行标准以及兑现质量承诺的基础上,提供产
8、品在生命周期内满足顾客的需求或期望来实现” 。从本文的实际研究角度来看,本文将沿用企业质量信用划分通则 (GB/T237912009)中对于“企业质量信用”的定义。 尽管肯德基苏丹红事件、三鹿奶粉风波、地沟油恐慌等企业质量失信事件给我国企业的质量诚信敲响了紧钟,但假冒伪劣、缺斤短两等企业失信行为仍然屡见不鲜,这些行为严重地损害了消费者的利益,扰乱了市场经济秩序,败坏了国家声誉,这就表明单靠品牌、传播积累起来的产品诚信过于流于形式,很容易在突发危机时土崩瓦解,只有通过一套客观、真实、有效、科学的企业质量信用管理方法,才可能真正让消费者吃下一颗定心丸。2013 年 6 月 21 日,国家质检总局办
9、公厅下发了关于组织企业试点发布企业质量信用报告的通知,文件中表述“推动企业发布质量信用报告,是引导企业履行产品质量主体责任、建立质量诚信自律机制的重要措施,也是引导和推动全社会对企业履行质量责任情况进行监督的有效方式,有利于推动企业牢固树立质量第一、诚信为本的经营理念,有利于提高企业的质量诚信意识和质量法制意识,有利于企业主动向社会、消费者公开产品质量状况和质量承诺信息,接受社会监督” 。文件中要求各级质量技术监督管理部门组织企业发布企业质量信用报告 ,以及推动企业质量信用报告的使用。由此,加强对企业质量信用的管理对增强企业诚信意识,提高产品质量水平,促进经济社会健康发展具有十分重要的意义。
10、三、企业质量信用管理最小数据集研究的必要性 美国经济学家、政治学家赫伯特?西蒙曾敏锐的指出:“信息消费了什么是很明显的:它消费的是信息接受者的能力。信息越丰富,就会导致注意力越匮乏。信息并不匮乏,匮乏的是我们处理信息的能力。我们有限的注意力是组织活动的主要瓶颈。 ”作为企业质量信用的主要监管部门,昆明市质量技术监督局在用的基层质量技术监督管理信息系统自 2004 年在全省推广运行以来,配合获证企业管理信息系统 (企业用)形成了一个企业提交数据、质监局审核数据并录入监督执法数据的动态监管模式。企业通过提交企业基本信息和企业质量数据来充实数据库,质监局对企业提交的信息进行审核从而进行行政许可和业务
11、监管,长此以往,该公共数据库积累了大量有关企业质量信用的数据。至 2014年 6 月为止,该数据库中备案了超过 150 万条企业质量技术数据信息,已经形成了一个庞大的动态监管数据库。这一宝贵的质量信用数据资源,无论是对于质量技术监督部门,还是企业、公众,都是一笔具有巨大潜能的数据财富。数据本身可能是没有价值的,数据的价值体现在与对数据的挖掘和分析程度。由于这些原始数据庞大而繁杂,并充斥了相当数量的重复数据和无用数据,大量的数据冗余并不能直接为行政管理提供直接高效的依据,必须使其本身实现从数据到价值的转化。由此,为了强化和提高对于企业质量信用的监督管理水平,对企业质量信用公共数据库进行最小数据集
12、挖掘具有相当的必要性。对企业质量信用管理进行最小数据集研究的必要性主要体现在以下几个方面。 第一,从公共产品使用上的非竞争性和受益上的非排他性的属性上看,企业质量信用的原始公共数据库属于公共产品的范畴,在其产生过程上与其他公共产品相类似,但是由于其数据运行模式与商业 web 数据又有其共通之处,所以单纯使用一般公共产品的管理手段和方法并不适用于对公共数据库的控制,而单纯使用商业 web 数据的分析管理模式,一是难以满足公共产品的公共服务性,二是出于公共数据库的保密原则也不适合将企业的商业机密提交给第三方。因此,针对企业质量信用公共数据库这一特殊的公共产品,应采用特殊的分析管理方式。 第二,数据
13、的收集和处理需要支付成本,当然形成的信息也会带来收益。出于公共事务处理和政府信息公开的需求,企业质量信用的部分数据来源具有强制收集的特点。这就使在原始数据收集的过程中必然会产生社会成本,包括企业采集和录入被强制收集数据的成本和质量技术监督管理部门审核数据、录入监督执法数据以及管理数据的成本。因此,面向数据提供者强制收集的数据种类和范围应该应可能小,对不同数据强制收集的指标之间也应该尽量不重合,以达到节约社会成本,提高企业和政府部门工作效率的目的。 第三,由于行业的特殊性,企业的质量信用数据有着不同的表现形式,且其数据库中存在的数据大多是难以直接进行数据分析的文本数据。这些数据与企业的质量信用之
14、间的相互关系十分复杂,加之文本数据容易混淆,不易形成明确的概念,这就给数据分析带来十分巨大的困难。此外,与企业质量信用相关的数据种类繁多,对象复杂且涉及面广,其间既有纵向联系,又有横向联系,所以直接判断不同种类的数据指标与企业质量信用的相关程度显得十分困难。 第四,基层质量技术监督管理信息系统中的数据是由企业或质量技术监督管理部门录入的一手数据,并不能直接加以分析,需经过调研和实证才有可能对其进行科学的转换,这就要求对原始数据进行预处理,而这个任务十分艰巨。此外,笔者经过调查研究发现确实存在相当的重复数据和无用数据,过量的数据冗余会影响研究结果的准确性,所以有必要在数据分析之前预先进行数据清理
15、、数据转换、数据加载等过程,剔除对企业质量信用最终评价结果没有用的冗余属性。 四、昆明市获证企业质量信用管理最小数据集候选因子的确定 根据国家质量监督检验检疫总局在 464 号文件中的描述,企业质量信用监管指标主要由质量、标准、计量、认证、出口检验方面的指标构成。根据企业质量信用指标反映的不同情况将企业质量信用等级分为A、B、C、D 四级,分别代表守信、基本守信、失信、严重失信四级信用程度 3。企业质量信用评级的具体标准参见国质检质2006464 号文件中的细则。根据该文件中关于企业质量信用评级的具体规定,笔者选取了昆明市质量技术监督局 GX 分局的领导及业务人员进行深度访谈,了解昆明市企业质
16、量信用评级的具体情况,用于与企业质量信用管理最小数据集候选因子做相关性分析。为了更加直观的进行数据观测,设企业质量信用评级结果 R 为: 昆明市获证企业质量信用管理 MDS 的建立基于基层质量技术监督管理信息系统中的原始数据。该系统对企业的监管主要分为四个模块。一是企业基本信息(包括企业基本情况、主导产品、认证产品、综合评价、人员资质信息等子模块) ;二是企业监督检查信息(包括监督检查、违法记录、执法案卷、安全监管、图片管理等子模块) ;三是企业设备信息(包括设备管理、计量管理、生产设备、检测仪器) ;四是企业产品信息(包括产品质量、产品检验报告、检验报告附页等子模块) 。因为原始系统数据多为
17、文本数据且与企业质量信用不相关,譬如企业基本信息中公司名称、组织机构代码、法人代表、地址、联系方式等数据,所以本文在数据采集时候予以剔除。通过实际操作系统以及与质监部门业务人员的反复沟通,从第一模块中抽取了认证产品、综合评价和人员资质信息作为企业基本信息的代表性指标,依此选取了监督检查、违法记录、安全监管、设备管理、计量管理、产品质量分别作为企业监督检查信息、企业设备信息和企业产品信息的代表性指标。 根据国质检质2006464 号中对企业评级要求的规定,从数据库中统一筛选出企业依法设立年满 5 年且各项数据齐全的已评级获证企业 1953家,通过重复采样反复校对,选出信息包含量高的特征数据作为最
18、小数据集的候选因子项,经过多次与昆明市质量技术监督分局领导及业务人员进行深度访谈,并根据访谈调查结果与实际数据信息量的充分程度对原始数据库中的信息进行筛选,剔除重复数据及无用数据,最终,共采集到数据信息较齐全的 GX、P、W、X、J、GD 六个主城区分局的认证产品、综合评价、监督检查、违法记录、安全监察、设备管理、计量管理、产品质量、人员资质九个类别的企业质量信用数据 17577 条,设企业质量信用最小数据集候选因子 V 为(如表 1 所示) 。 五、昆明市获证企业质量信用管理最小数据集的建立 随机森林 4 是一个包含多个决策树的分类器,其输出的类别是由个别树输出的类别的众数而定,它能够在决定
19、类别时,评估影响因子的重要性。随机森林算法适合分析离散型数据,能够与本文想达到的数据挖掘目的一致。 因为考虑到从原始数据库中导出的 9 类数据并不一定齐全,因此在进行数据筛选时会对存在数据缺失项的企业进行过滤。最终选取 GX 区392 家企业、GD 区 403 家企业,从实地调研中在已知 GX 和 GD 两个区企业质量信用评级结果的情况下,从数据库中通过企业代码查询并导出已评级企业的上述 9 个因子的信息生成 excel 文档,并根据表 1 中每一候选因子的属性规范值对其赋值。通过 R 语言使用随机森林算法,对最小数据集候选因子关于企业质量信用评级结果重要性的选择,得出以下结果: 经过重复测算
20、,得到 9 个候选因子对 GX 区企业质量信用评级结果影响的重要系数分别是x1:0.02052695;x2:0.02099938;x3:0.13253261;x4:0.13318551;x5:0.10781621;x6: 0.0000078;x7:0.02954396;x8:0.11117428;x9:0.00000052。对其ID 进行降序排练如下:x4;x3;x8;x5;x7;x2;x1;x6;x9。 采用同样的算法与步骤,得到 GD 区企业质量信用最小数据集候选因子对企业质量信用评级重要性影响结果如图 2 所示: 9 个候选因子对 GD 区企业质量信用评级结果影响的重要系数分别是x1:
21、0.02493162;x2:0.00896896;x3:0.12552268;x4:0.12337022;x5:0.06401767;x6:0.0000100;x7:0.04410699;x8:0.03029900;x9:0.00000092。对其 ID 进行降序排练如下:x3;x4;x5;x7;x8;x1;x2;x6;x9。 由于两个实验区企业存在差异,两个质量技术监督分局对企业的监管也存在人为因素的不同,所以存在候选因子对企业质量信用评级影响结果的重要性排序存在差异,但从重要性的影响数值来看权重最高的五个因子是相同的,在两个表中都分别高于其他因子。说明该五个因子对企业质量信用的评级较其他四个因子重要,其结果如表 2 所示。 六、结论与建议 (一)结论 根据表 2 中对两个区企业质量信用最小数据集的比较,发现x3;x4;x5;x7;x8 不管在两个区中各自的排序如何,皆处于企业质量信用最小数据集重要性影响因子排序的前五位,而 x6;x9 皆处于排序的后两位。由此考虑将 x3;x4;x5;x7;x8 所对应的监督检查、违法记录、安全监察、计量管理和产品质量作为评价企业质量信用登记的重要影响因子。即企业质量信用最小数据集 M。 (二)不足之处与政策建议 1.不足之处 由于笔者直接搜集到的数据多为文字描述性数据,通过属性值规范