1、多维数据聚类技术在电子政务审计分层抽样中的应用研究摘要:本文分析了聚类技术及其对电子政务审计的意义,结合电子政务抽样审计中对多维数据进行分层抽样的需要,提出将基于主次属性划分的聚类方法应用于分层抽样算法之中,以适应多维数据分层抽样的需要,为电子政务审计分层抽样系统的实现提供了一种新的解决方案。 关键词:数据挖掘 聚类 分层抽样 审计 电子政务 目前,与高速、集中的投资相对应的是,各级政府的电子政务建设和运营大多“各自为战” ,对于部门间信息结构的相关性和共享性、优化本部门的管理结构缺乏必要的考虑,忽视电子政务建设中的投资风险和电子政务系统运行中的管理风险,缺乏规范的风险管理机制,从而造成巨大的
2、损失和浪费。因此,在电子政务信息系统风险客观存在的情况下,进行风险审计和控制就显得尤为重要。各地的电子政务系统数量众多,信息量也在剧增,传统的计算机审计技术难以满足发掘这些信息的需求,因此需要有一种新的数据分析技术处理大量数据,从中抽取有价值的潜在信息。而数据挖掘是一个从海量数据中分析出潜在有用的、先前未知的和最终可理解的知识的过程。由此可见,将数据挖掘技术应用到电子政务信息系统审计中,不仅能减轻审计人员的负担,而且能够大幅度提高审计的质量和效率。 一、聚类技术及其对电子政务审计的意义 (一)聚类与聚类算法 聚类是一个将数据集划分为若干个子集的过程,并使得同一集合内的数据对象具有较高的相似度,
3、而不同集合中的数据对象则是不相似的,相似或不相似的度量是基于数据对象描述属性的取值来确定的,通常就是利用各个聚类间的距离进行描述。聚类分析的基本指导思想是最大程度地实现类中对象相似度最大,类间对象相似度最小。聚类与分类不同,在分类模型中,存在样本数据,这些数据的类标号是已知的,分类的目的是从训练样本集中提取出分类的规则,用于对其他类标号未知的对象进行类标识。在聚类中,预先不知道目标数据的有关类的信息,需要以某种度量为标准将所有的数据对象划分到各个簇中。因此,聚类分析又被称为无监督的学习。 聚类算法的目的就是获得能够反映 N 维空间中这些样本点的最本质的“类”的性质。聚类分析算法取决于数据的类型
4、、聚类的目的和应用。随着相关技术的深入研究,聚类方法受到越来越多的重视,大量高效的算法陆续出现。其中基于划分方法是一种简单实用的聚类方法,基本思想是:给定一个包含 n 个数据对象或元组的数据集,构建数据的 c 个划分,每个划分表示一个簇,且 cn。通常会采用一个划分准则,即相似度函数,以便划分在同一个簇中的对象是“相似的” ,在不同簇中的对象是“相异的” 。典型的算法有 K-means、K-medoids 等,这些算法有的对脏数据敏感,有的虽不敏感,但计算量大,只适用于小规模数据量。 (二)聚类技术对电子政务审计的意义 利用聚类分析,既可以将具有相似特征的数据集中到一起,同时又可以发现区别于常
5、规数据的孤立点,这对审计工作具有极其重要的意义。利用聚类产生的“类”可以作为分层抽样的依据,而聚类中检测出的孤立点可以看作审计线索的特征表现。 1.有助于提高抽样审计的效率。面对电子政务中被审计单位海量的财务或业务数据,在抽样审计时如果相关数据的代表性比较差,即便是审计经验丰富的审计专家通过传统的审计抽样方法,也很难降低抽取样本的数量,导致样本规模太大,审计成本太高,也就失去了审计抽样意义。聚类技术作为一种先进的信息技术,能够帮助审计人员在较短的时间里筛选出原先并不明显的代表性样本,增强样本的代表性,把审计人员从繁重的一些程序化的审计工作中解放出来,把更多的时间与精力放到原始凭证审核、专业判断
6、与其他创造性的工作中去,使审计质量与效率显著提高。 2.有助于发现审计线索。在常规审计中,被审数据的孤立点往往是审计人员依靠职业敏感来发现其中的异常情况。而面对海量的电子数据,审计人员“有限的”的经验和知识,限于部分财务数据的静态单机版审计辅助软件,无法从全局分析,不能有效发现舞弊。利用聚类技术可以发现异常审计数据或异常发生频率等,从中提取一定数量具有代表性的数据进行详细审计,从而帮助审计人员确定审计重点,发现有可能隐藏的违规行为。 3.有助于降低审计风险。由于电子政务项目的内容涉及工商、税务、海关、土地监管等多个不同的领域,被审计对象行业跨度大,各单位情况千差万别,如果审计人员只是凭借自己的
7、主观判断和实际经验进行抽样审计,很有可能造成样本之外有重大错漏,无法发现和揭示企业内部发生的、对财务报表真实性和公允性有重大影响的舞弊行为和技术性错误。抽样审计的这种客观局限性是造成审计风险的重要原因。而聚类技术则可以排除人为因素而通过自动的方式来发现数据中新的、隐藏的或不可预见的模式。在审计实际运用过程当中,将聚类技术与其他技术结合使用,可以达到去粗取精的效果,从而提高所取得的审计数据的质量,有效地降低审计风险。 二、基于主次属性划分的多维数据聚类算法 目前审计分层抽样模块的研究与开发还处于起步阶段,在国内的审计软件中,大部分的分层抽样模块是通过传统的统计学抽样算法来实现的,但是这些方法如果
8、遇到大数据量或者“脏数据”时,分层的效果便大打折扣,且这些算法只能适应一维的财务数据,无法对多维数据集进行处理,使得审计分层抽样局限性越来越明显,基于这种情况本文提出基于主次属性划分的聚类方法以适应多维数据分层抽样的需要。 (一)基本思想 对于给定的属性集,各属性在某个对象 Si 中的重要性是不同的,用一个阈值来代表属性在对象中的重要程度,称为属性的权重。对于两个对象,如果二者具有的相同属性越多且相同属性的权重较大,则越相似。基于主次属性划分的聚类方法的基本策略为,首先对对象集中的所有对象给出重要属性和次要属性,然后随机选取一个对象作为一类的中心,对剩余的对象,考察其和该中心的相似度。如果某一
9、个对象的重要属性与中心的重要属性相同的比例大于某一百分比且重要属性占到全部属性的某一百分比时,即可将其划归一类;否则属于不同类。 (二)算法 根据上述聚类策略,下面给出基于主次属性划分的多维数据的聚类算法。输入:对象集合 S。输出:各聚类数据集合。过程: (1)集合初始化。令 S0 为一集合,初始为空。 (3)求各聚类集合,具体命令如下: (4)聚类合并。利用 Krushapurarm 等人提出的鲁棒性模糊 C-中心点算法,进行聚类合并。 下面给出算法的复杂性分析。设 m 为数据集的维,n 为数据对象的大小。在基于属性划分的算法中,仅对数据集扫描一次,设 k 为数据集中聚类个数,那么该算法的时
10、间复杂度应为 O(kn) 。另外,聚类的结果不受多维空间形状的影响,并与数据集的输入顺序无关,能快速、准确地发现多维空间聚类。在某种程度上,基于属性的划分方法可以简化聚类过程中的计算量。 三、聚类技术在审计分层抽样中的应用 (一)分层抽样 分层抽样算法是将总体划分为若干个同质层,然后按照重要程度不同在各层中选取样本项目。分层抽样的特点是将科学分组法与抽样法结合在一起,分组减小了各抽样层变异性的影响,而抽样保证了所抽取的样本具有足够的代表性。每一层内个体变异越小越好,层间变异则越大越好。分层抽样比单纯随机抽样所得到的结果准确性更高,组织管理更方便,而且能保证样本总体中每一层都有个体被抽到。这样除
11、了能估计总体的参数值,还可以分别估计各个层内的情况。在分层抽样时,每层又可以分别采用不同的抽样方法。这种组合多种抽样模型形成一种抽样方法的做法,丰富了抽样的方法组合,增强了抽样的灵活性、针对性,提高抽样效果。更重要的是,审计抽样系统在抽样的同时进行分析性复核,可以减少审计人员审核样本的工作量,因此分层抽样技术在审计抽样中常被采用。 分层抽样的算法思想是:当业务数据既不符合正态分布,又不符合泊松分布时,这时随机抽取的样本,不能很好地表征总的样本。如果审计人员将业务数据分成几个区间,使每个区间的数据分更接近理论上的正态分布或泊松分布。再以每个区作为一个新的抽样总体,抽取并审核样本,最后由计算机根据
12、一系列的数学公式汇总数据,推断总体结论。分层的目的是使每一层更加同质化,然后按照重要程度不同在各层中选取样本项。这样提取出的样本可以提高估计值精确度,也就是提高了抽样的效率。 (二)聚类技术的应用 可以说,样本选择是数据挖掘应用最重要的领域,也是最有潜力的领域之一。在审计过程中,无论是控制测试阶段还是实质性测试阶段都能用聚类技术进行分层抽样。 1.控制测试阶段。为测试各控制环节的执行情况,可以用基于主次属性划分的聚类分析技术将具有相似特征的会计交易分组。以批准材料采购这一控制环节为例,通过聚类分析可以发现以下问题:由非授权人批准的交易,即越权代理;授权人变动的交易;始终由规定授权人批准的交易;
13、不属于任何聚类的交易,即离群交易。 2.实质性测试阶段。根据内部控制制度实际存在的优势和弱点,评价控制制度的有效性,并确定进一步实施实质性测试的范围。以应付账款的实质性测试为例,运用基于主次属性划分的聚类分析技术将具有相似特征的会计数据分组,可以发现:金额明显异于其他月份的应付账款;重复记账的应付账款;与总账、明细账金额不等的同一笔应付账款;资产负债表日前后的应付账款;重复发生非常规交易的应付账款的确认,如每月底购买相同金额的固定资产。 四、结论 审计抽样系统的主要目标是抽取分析被审计单位财务数据和业务数据,同时给审计人员提供有效的决策。现有的审计抽样系统大多只考虑了金额聚类的一维情况,无法对多维数据集进行处理。本文提出将基于主次属性划分的聚类算法应用在审计抽样系统中,从而解决了分层抽样中的多维数据聚类问题。例如审核固定资产,可以考虑固定资产购买时间、购买批次、购买人、购买资金等因素。在保证层次抽样数据代表性的前提下,不但降低了审计抽样样本的数量,而且提高了审计抽样的准确性。 参考文献: 1.审计局长沙特派办.审计统计抽样的技术与方法M.北京:中国时代经济出版社,2002. 2.夏锋,彭鑫,赵文耘.基于聚类方法的审计分层抽样算法研究J.计算机应用与软件,2008,25(1).