1、 1 大数据环境下的审计关联数据研究 姓 名: 张威威 单 位: 江苏东海 县审计局 副局长 电 话: 13912164775 邮 编: 222000 2 大数据环境下的审计关联数据研究 基于数据挖掘的视角 【摘 要】大数据关联审计是新型信息化时代的产物,也是数据创新驱动的必然要求。解决大数据环境下的数据关联问题是适应审计全覆盖、促进审计方式转变、提高关系性证据证明的有效前提。为此,本文从数据挖掘的视角提出了审计数据关联规则的思路,数据的关 联模式以及审计关联数据技术应用的五个挑战。 【关键词】大数据;关联数据;数据挖掘;关联规则 继物流网、数字城市、智慧城市之后,代表信息化的另一个热词“大数
2、据”已悄然登上历史舞台。作为一项颠覆性的技术革命,大数据正在重新定义社会管理与国家战略决策:联合国于 2009 年制定了“数据脉动”计划,英国于 2010年发起了“数据权”运动,美国奥巴马政府于 2012 年提出了国家层面的“大数据战略”等,我国政府则在 2014 年 9 月由国务院发布了促进大数据发展行动纲要,在顶层设计层面系统部署了大数据发展以及大数据在各行业以及 国家层面上的创新应用。 由大数据驱动的管理创新和技术变革,不仅在中微观上蕴藏巨大的商业价值、科学研究价值和行业分析价值,也在宏观上具有社会管理与公共服务价值。国家审计作为国家治理体系的重要组成部分,在经济运行中充当“保护神”角色
3、,理应在互联网的信息化时代探索出一条“数据审计”之路。目前计算机技术在审计软件系统中仅仅作为数据处理功能的辅助性后台支持,缺乏数据整体技术的系统性转化和应用支撑,这主要由于审计处理过程中产生的数据与源数据库之间缺乏有效的关联,导致审计数据交互性较弱且数据的可重复利用程度较低,这是国家 审计在大数据时代需要面对和解决的重要问题。 一、大数据和关联数据的基本涵义 (一)大数据 1.概念和特征 大数据是一个开放性概念,它蕴含信息但不解释信息,但大数据会使人们从机械的计算机和运算规则中解放出来,从而认识更多的事物,发现更多的规律,获得更多的知识和洞察力。目前很多专家学者、咨询机构根据自身学科特点、分析
4、角度和学识态度给予了相关定义,综合起来主要有两种观点: 一是数据库观点(资源角度)。如美国咨询机构麦肯锡公司在大数据 : 创新、竞争和生产力的下一个前沿领域报告中指出,大数据 是无法在一定时间内使用传统数据库软件工具对其内容进行获取、管理和处理的数据集合 1。 Small等人认为,“大数据”是指传统的数据库技术(关系数据库系统)无法很好地提供管理工具的海量、非结构化或半结构化数据集 2。 二是技术性观点(工具角度)。如互联网数据中心( IDC)指出,“大数据”是为了更经济、更有效地从高频率、大容量、不同结构和类型的数据中获取价值而设计的新一代架构和技术,用它来描述和定义信息爆炸时代产生的海量数
5、据,并命名与之相关的技术发展与创新。维基百科则指出,大数据是所涉及的资料规模巨大到无法透 过目前主流软件工具,在合理时间内达到撷取、管理、处理、并3 整理成为帮助企业经营决策更积极目的的资讯 3。 无论是名词性质的数据库观点,还是形容词性质的技术性观点,事实上大数据的价值就在于数据本身的有用性。相较于传统数据,大数据一般被人们概况为这样五种特征,即大量性( volume)、高速性( velocity)、多样性( variety)、不确定性( veracity)和价值性( value)。其中,前两种特征随着计算机硬件技术的不断扩展会变得相对容易处理;后三种特征则因为非结构化数据的多样性、不确定性
6、以及数据质量追 求等原因,给现代审计带来的挑战愈来愈大。特别在审计全覆盖要求下,结合云计算技术,大数据在审计方式、审计抽样、审计证据搜集、审计数据分析、总体审计模式的应用、审计报告模式及审计成果应用等方面,将不断影响审计技术和方法的发展 4(秦荣生, 2014)。 2.大数据审计分析理念的转变 大数据改变了传统的数据采集、存储和应用技术,其精髓在于促使人们在采集、处理和使用数据时思维的转变,这些转变将改变我们理解和研究社会经济现象的技术和方法。牛津大学教授维克托 ( 2012) 在其合著的大数据时代一书中指出,大 数据的发展核心动力来自于人类测量、记录和分析世界的渴望,信息技术变革的重点在于“
7、 T”(技术)而不是“ I”(信息),人们应该更多的关注于某项技术的思维转变。传统的审计分析思想应做三大转变:一是转变抽样审计思想,要全体不要抽样,即要采集、分析与某事物相关的所有数据,而不是依靠少量样本来分析总体;二是转变审计数据利用的思想,即要效率不要精确度,审计师要欣于接受数据的芜杂多样,而不过分追求数据的精确度,只要在总体上把握事物的发展趋势即可;三是不再深入探求事物的直接因果关系,转而关注和利用事物的相关关系,通过分析和厘 清事物之间的相关关系,审计师可以找到事物的现状和未来发展趋势。 (二)关联数据的特点和分类 1.关联数据的特点 关联数据是一种推荐的最佳实践,用来在语义网 1中使
8、用 URI 和 RDF2发布、分享、连接各类数据、信息和知识,亦即互联网上发布和互联结构化数据。万维网之父、美国麻省理工学院教授伯纳斯 .李于 2006 年提出“数据网络”思想,他认为数据网络的核心和关键就是关联数据,且数据内在的价值和效用将随着其链接到其他数据的增多而大大增加 5。简而言之,数据之间的关联越是丰富,数据的价值越大。 由于互联网上 充斥着大量不同标准的结构化数据和非结构化数据,因此如何将这些数据转为己用变得尤为重要。一般而言,处于大数据、互联网体系下的关联数据具有一致性、相关性、可靠性的特点,通过语义技术和关联技术将不同类型的数据转化为使用者需求的数据,如国内电商淘宝公司、金融
9、业的四大国有银行、腾讯公司、各类搜索引擎,以及国外的零售业巨头沃尔玛、百思买、 BBC 新闻机构等,都试图在大数据中将客户分为不同类型,并通过客户端方式获取客户的基本资料和搜索习惯。一致性是关联数据的首要要求,也是关联的重要保证;相关性和可靠性则决定了获取数据的使用 目的,只有质量可靠、性质相关的数据才能通过特殊的关联技术取得数据关联。 2.关联数据的分类 关联数据的应用领域较为广泛。就政府审计而言,关联数据的应用目前仅限1 语义网:因特网同义概念,由伯纳斯 .李 (Tim Bemers-Lee)1998 年首先提出,是现有 Web 体系的一个延伸。 2 RDF:一种资源描述框架,使用 URI
10、 标识符来标识任何事物,并通过属性和属性值来描述 Web 资源。 4 于系统内部,而对系统外部的数据关联则较为薄弱。从数据库观点来看,由于数据口径、数据类型、数据状态等差异,审计师采集的数据并没有实现数据完全关联,这就导致数据的价值无法充分显现,甚至数据所反映的“事实”是错误的。这主要由于审计师对于数据关联的分类还不够清晰,从而导致数据分析和处理缺乏一致性,很显然这与大数据环境下对数据的关联性要求不甚相符。 对于当前政府审计 数据集中和分析工作,从数据来源来分,可以将审计关联数据分为系统内和系统外,其中系统外数据指的是处于被审计单位信息系统外,但又与审计目标相关的、具有内在联系的外部数据。从财
11、政资金的内容来看,刘家义( 2014)将关联数据分为五个方面 3:一是纵向关联,即从中央财政到省市县乃至每个乡镇的资金关联,以及从部门到项目具体执行单位的资金关联;二是横向关联,即从市财政、市发改委到一级、二级预算单位的各种专项资金关联;三是实体关联,即财政、金融和企业三方面的数据关联;四是行业关联,即财政与其他多部门、多行业的数据关联;五是综 合关联,即财政数据与业务数据、宏观经济数据的关联。无论从哪种角度来分,审计师都应该具备足够的能力解决好不同来源、不同类型、不同形式的数据之间的关联。 二、基于数据挖掘技术的大数据审计关联思路 在大数据环境中,由于审计数据牵涉到的部门多、数量大且不确定性
12、较高,数据之间的关联性显得尤为重要,审计师必须采取某种技术手段、有效利用采集的数据才能达到最初的审计目标。本文认为,数据挖掘技术提供了建立数据关联的思路,该技术也被称为数据库中的知识发现( Knowledge Discovery in Database, 简称 KDD),就其本质而言,数据挖掘仅仅是数据处理的中间过程,它能从大型的数据库和数据集合中发现比较有价值和有意义的数据,并通过既定定义或特定规则,将数据按照审计师的要求生成关联数据,从而达到最终审计目的。 (一)大数据关联规则的挖掘 数据的关联规则是指数据之间普遍存在的空间位置和时间序列的关联抽象,而关联规则的挖掘就是指从海量数据中项集之
13、间发现有趣的关联或相关,从而达到认识事物客观规律的技术方法 6。审计师必须在无序、无对应或无逻辑的数据中挖掘出数据的关联规则,且规则必须与审计目标呈现一定的关联 性,才能更好为后续审计分析提供帮助。审计实践中发现,关联性更强的关联数据,其证明力更强,得出的审计结论更为精确,反之亦然。因此,审计师的目标就是能够寻求数据之间更为针对性的关联关系,从关联数据中挖掘出符合审计目标要求的属性,进一步为审计取证提供强有力的支持。一般而言,数据关联规则的挖掘分为四个步骤,即确定业务目标(对象)、数据准备、数据挖掘、结果表达 7,如下图所示。 3 中央政府门户网站: http:/ 数据准备 数据搜集 数据整理
14、 确定业务目标 明确目标 规则清晰 数据挖掘 多维数据 既定模型 结果表达 可视化 关 联 规 则结论 图 1 数据关联规则的挖掘过程 5 1.确定业务目标。审计对象的性质是审计师界定数据挖掘规则的重要着手点,因此审计师在 执行具体审计方案的时候就必须理解审计对象的性质,这是大数据审计必须关注的重点。清晰地定义挖掘目标,对于挖掘规则目的的明确具有良好的指导意义,这是由数据挖掘技术的本质所决定的。同时,业务目标的确立也为数据规则算法的明确以及规则的生成给予结果上的保障。 2.数据准备。大数据审计的难点就在于数据的搜集和整理。就该步骤而言,数据准备工作是做好数据挖掘的基础,通常包括数据清理、数据集
15、成、数据选择和数据变换四个方面。一是数据清理,面对内部和外部不同信息源中数据呈现不同规范、不相一致甚至冗余的特点,必须要消除噪音数据,确保基 础分析数据的统一规范;二是数据集成,将剔除冗余、消除噪音后的数据按照挖掘规则的要求加以集成,形成结构统一、相对完备的数据集;三是数据选择,根据审计目标要求,选择与业务对象相关的数据集,这在内容上决定了后续的数据挖掘质量;四是数据变换,在确保不损失完整信息表示的前提下,将数据转化成基于挖掘算法的审计分析模型。 3.数据关联规则挖掘。审计师将转换的数据按照既定规则和算法进行挖掘,得出目标分析结论,该过程是数据挖掘算法执行的核心步骤。为确保各个信息源的数据得到
16、关联,首先要确保数据库后台的数据是有关同一审计目标的信息, 只有相关的数据融合才能确保数据被审计师整体利用。审计目标信息的融合是将多数据库信息进行的有效处理,从而得到比单一信息源更准确的审计结论,为此受数据规则的影响,规则算法影响的适用性和准确性将得到更充分的体现。 4.结果表达。通过关联算法规则执行后的结果即为审计师所要实现的结果表达,若数据关联规则不易表达,则可以通过可视化的技术方法,将结果转化为审计师的意思表示。这样得出的数据挖掘结果,基本上将隐藏在无规则数据中的信息以有价值的、新颖的且有潜在效用的模型及结构呈现出来。 (二)大数据审计关联规则挖掘的代表类型 数据关联规则的挖掘是关联数据
17、建立的基础,因此必须主观上认识到数据之间存在的客观规则,利用合理有效的算法计算规则,才能更准确把握关联数据在审计中发挥的作用。审计实践中,为实现审计目标,审计师一般先通过采集的数据提取与审计目标相关联的关联因子,如数据特征、身份特征、地理位置、目标群特征等,再利用合理的测度来实现数据间的关联确认。事实上,这些关联因子取决于审计师主观上对于审计结论的预期,审计师往往通过关联数据得出预期结论,从而证实自己最初的审计判断。在大数据时代,海 量的数据为关联因子的应用提供了丰厚的土壤,而审计师通过数据挖掘技术也拓展了更多的关联规则,进一步将数据和审计目标紧密结合起来。这种通过关联因子挖掘的关联规则在审计
18、应用上得到了众多的学者关注,也产生了很多具有代表性的关联规则类型。 1.量化属性关联规则。按照关联规则中关联因子的类别不同,关联规则一般分为布尔型和数量型。前者是离散的、种类化的,显示关联因子之间的关系,常用于事务性数据库,如购物篮分析技术 4;后者则对数值型字段进行处理,是数量关联规则的应用形态,研究的是“属性 -值”的关系。数量关联规则通过动态分割,将 审计关联因子量化值划分为若干区间,再者或直接通过对原始数据进行相关处理,从而得出“属性 -值”的关系。对于此类关联规则,如何有效的处理属性及其值是解决该类问题的重点和关键,如审计中经常用到的数值属性“收入”、“年龄”、“固定资产”等。 4
19、购物篮分析:通过发现顾客放入其购物篮中不同商品之间的联系,分析顾客的购买习惯。 6 2.限制关联规则。限制型关联规则指的是审计师通过赋予关联因子一定的约束条件来实现审计需求,如审计师指定的数据类型,数量上限或下限条件,自定义的 SQL 语句等。此类限制关联规则某种意义上是审计师根据自身需要和兴趣而量身定做的规则,不仅可以通过对数据库的预加工而提高审计效率,也可以通过完 善软件集成模块提高算法精确性。 3.因果关联规则。因果关联是 KDD 较为重要的一种知识类型,几乎在任何有逻辑性的领域都会有应用关系。审计师往往会假设事件 A 和事件 B 之间存在一定的因果关系,然后通过推理机制、运用数据分析技
20、术将二者进行关联。在应用因果关联规则的前提也是最需要把握的是:审计师需要对事件 A 和事件 B 之间的逻辑关系进行初步评估,然后在利用认证逻辑的分析办法将相应数据进行“对号入座”。 4.多层关联规则。由事件 A 和事件 B 产生的关联规则一般为初级关联规则,这在数据较少的情况下容易实现。在大数据环境下,由于数据较多,审 计师可合成的规则较为宽泛,一些事件不仅仅与另外单项事件产生关联,还会与其他事件产生关联,这样呈现多层的规则体系为审计师提供了层层递进的多层分析维度。如分析购买家用轿车时,审计师不仅要考虑收入层次因子的影响,还要考虑年龄、油价、家庭人数、通胀等因子。 (三)大数据审计关联规则应用
21、模式 近年来,审计署在全国范围内相继统一组织和开展了债务审计和土地出让金审计工作,在社会引起强烈反响,这是大数据时代离我们最近的两次全国性审计,也给国家审计人员带来了新的思考:一是数据获取技术,如何在海量的数据中提取我 们需要的数据;二是数据分析技术,如何在无关联的数据库中挖掘出有用的信息从而服务于我们的审计目标?一般意义上,前者可以通过建立以审计署为中心的统一数据指挥运作平台、审计分析中心等机制实现,后者则需要数据关联方法和技术的支撑。结合前文所述,基于“数值 -属性”量化关联规则,本文提出了如下图所示的审计数据关联规则的应用模式。 1.审计业务目标。无论何种审计主体,在审计实践中首先必须制
22、定审计业务目标,这是审计成果获得保障的有效前提。大数据审计中,受大数据五种 特征的影响,审计师必须能够寻求与审计目标相一致的数据信息,否则审计的效率和效果会大打折扣。同时,审计目标也是检验审计师的审计分析结论是否值得信赖的重要标准。 审计分析 算法优化 Apriori_PN 搜集整理 引导 审计业务目标 数据准备 初步整理结果集 正负频繁项集 强关联规则的挖掘结果集 审计师的分析结论 图 2 审计数据关联规则应用模式 对应 7 2.数据准备。通过统一的审计数字化指挥平台、各级审计数据中心及审计综合作业平台,将各级数据进行综合搜集和整理,初步形成整理后的有效数据集。由于审计数据的质量与关联规则的
23、挖掘结果正相关,那么如何保证有效地进行数据搜集和整理是该模式取得效果的重要基础。 3.正负频繁集合强关联规则集。频繁项集的产生通常是由 Apriori 算法 5得出,在执行该算法时,设 定不同最小支持度的阀值,得出正负项集出现和未出现的次数,并在引入数值属性规则的关联条件中,辅以关联因子的优化,获取强关联规则的挖掘数集。该两项步骤是技术推导过程,需要审计师设定不同值域得出多项数据集合,才能更好利用关联因子得出挖掘规则。 4.审计师的分析结论。审计师利用挖掘的关联规则结果,得出分析结论,从而证实最初审计设想并通过审计目标加以验证。审计分析结论的有效性取决于前步骤中的数据准备工作以及审计师自定义的
24、规则性质,只有将两方面的工作相统一,才可以在程序上表明审计师已经合理利用了关联数据挖掘规则。 三、审计关联数据技术应用的挑战 目前,数据挖掘技术在审计领域的应用和研究还不够成熟,审计师对于关联数据的认识和关注尚需进一步提高。随着大数据、云计算等新技术的不断发展和完善,关联数据挖掘技术在审计实务中将扮演越来越重要的角色。如何更有成效地将数据挖掘技术运用到审计领域,是审计治理机构以及每个审计师都必然会遇到的新挑战。 (一) 挑战一:数据产生和审计实践范式的拓展 大数据环境下的数据通常是海量的,且存储的形式和结构差异显著,特别在对文本、图像和互联网资源等一些异构数据进行挖掘时将面临很大挑战,这意味着
25、审计师在执 行数据选择和准备程序中,将会遇到更高维的搜索空间和数据层次。就目前审计师通常使用的数据并行处理和模拟数据等技术手段而言,在处理关系复杂、结构多变的大数据时,将难以获得良好的计算效率以及较低的审计成本。因而在实践中,审计师需要以问题为导向,将审计目标分解细化为风险因子属性从而降低数据维数,同时尽可能将不同数据结构的数据利用语义技术转化为审计师所需要的数据,从而进一步提高数据关联规则的挖掘效率和效果。 (二) 挑战二:领域知识和数据挖掘系统的复杂性 关联数据规则的产生过程往往需要进行多次的交互和反复。目前数据挖掘技术对 审计关联数据的支持性运用程度尚不能满足大数据的广泛性要求,这主要是
26、由于审计师的知识领域和工作背景并不能有效理解和运用关联数据挖掘的基本技术。由于数据挖掘的本身是基于对无序、无规则、复杂信息的再表达,只有当审计数据挖掘系统能提供合理的解释性功能,才能将数据规则、关系和逻辑以新的知识表示出来,审计师才能更有效利用算法生成感兴趣的关联规则。 (三) 挑战三:数据评估和数据生命周期管理的必要性 数据关联规则的运用基础就是对现有数据的存储和管理。随着时间的推移,审计师需要根据访问频率对现有数据进行价值评估,一般新数据的产生往 往也表明以前发现的知识信息已经失效,这时需要对这些数据进行动态维护和及时更新。数据生命周期管理是审计师依据数据在不同阶段的价值实施不同的管理行为
27、,主要目的是以可靠、经济、有效的方式来实现数据价值最大化,从而降低审计机构持有信息的总体成本。从大数据的产生速度来看,数据生命周期管理应提升到数据管理的战略层面,这不仅是对数据本身进行主动管理的过程策略,也是5 Apriori 算法:是一种最有影响的挖掘布尔关联规则频繁项集的算法。 8 数据系统化管理的必然要求。 (四)挑战四:数据同步和技术支持体系的匹配 数据关联规则运用的有效性,取决于大数据生态系统同步性和技术体系支持性的匹配程度。这需要审 计治理机构依据大数据的流动特点,有针对性地拓展大数据技术运用领域和资源共享机制,建立共享的大数据技术支持体系。目前数据挖掘系统还不能在多平台上运行,受
28、限于数据库的域或记录,需要数据挖掘系统与其他技术支持系统进行有机的集成,特别是将关联数据规则发现和分析性程序嵌入审计师已经熟悉的审计系统中,需要审计技术支持体系的建立和完善,这有助于进一步推进审计机关上下级之间的数据共享和联网审计。 (五) 挑战五:法规建设和数据挖掘技术的推广 大数据审计是综合性、全面性的现代审计,其最主要特征是在“互联网 +”时代运用了大数据、云计算 等相关领域的信息技术手段;由于现行法律法规和审计准则的建设和完善滞后于信息技术的运用和发展,导致信息技术的使用缺乏足够的法律支持。特别是电子审计证据层面,大数据挖掘分析结果及相关电子数据证明尚没有明确的法律说明,这些都是审计治
29、理机构需要及时解决和面对的。只有在普适性的法律环境中,审计师才能及时有效利用信息技术和数据挖掘技术,才能更充分发挥现代信息技术在审计中的运用和拓展。 参考文献: 1.Manyika,J.Chui M,Brown J. Big Data: The Next Frontier for Innovation, Competition and ProductivityR.McKinsey Global Institute, 2011:34 2.孟小峰 ,慈祥 .大数据管理:概念、技术与挑战 J.计算机研究与发展 ,2013(1):146 3.朱建平等 .大数据时代下数据分析理念的辨析 J.统计研究 ,2014(2):11 4.秦荣生 .大数据、云计算技术对审计的影响研究 J.审计研究 ,2014(6):25 5.Bemers-Lee T,Hendler J,Lassila O.The semantic webJ.Scientific American,2001(5):28-39 6.马超飞 .基于关联规则的遥感数据挖掘与应用 D.北京 :中国科学院 ,2002:22 7.万少飞 .基于社保的数据关联处理方法 D.广东:广东工业大学 ,2011:7