ImageVerifierCode 换一换
格式:DOC , 页数:6 ,大小:26KB ,
资源ID:2007247      下载积分:10 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-2007247.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(应用Benford法则和Apriori算法对海量数据的审计分析.doc)为本站会员(99****p)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

应用Benford法则和Apriori算法对海量数据的审计分析.doc

1、应用 Benford 法则和 Apriori 算法对海量数据的审计分析摘 要 随着信息时代的飞速发展,被审计单位财务和业务数据量爆炸式增长,审计技术必须不断发展和创新以适应信息时代审计的新要求。本文在这一背景下,对审计技术的创新作了探索性的研究,主要通过 Benford 法则和 Apriori 算法的关联数据挖掘的技术手段在审计中的应用,探讨了如何在被审计单位海量数据中进行挖掘分析,从而发现有业务意义的强规则,通过这些强规则解释数位发生偏离的原因,从而快速发现审计疑点。 关键词 Benford 法则; Apriori 算法;关联规则; 审计数据分析 技术简介 法则简介 1.1 法则的定义 年,

2、通用电气公司物理学家 收集了大量的数据集合后发现,人们处理较低数字开头的数值的频率较大。 1.1. 法则的分布 分布属于第二代( )分布,描述了数据总体的客观分布规律,数据总体由其他分布中的抽样数据组成的分布。 年 的 的研究表明: (1)数字出现概率的期望值的标准偏差为: (PP)Si (2)分布概率的 Z 统计量为: P0:实际的数据出现比率;Pe:根据法则的预期出现比率;Si:某个数字的标准偏差;n:目标数据集的记录数。 1.1.分布中的数字频率上下限 ()数字频率的上限: ()数字频率的下限: 1.1.法则的应用范围 ()可以针对海量数据进行挖掘分析,数据规模越大,分析结果越精确。 (

3、)会计舞弊调查 、审计 、税收监管 、金融分析和反洗钱 。 算法简介 算法是一种对布尔关联规则频繁项集进行挖掘的算法。算法使用一种逐层搜索的迭代方法,即使用项集用于探索()项集,其中,nN,直到最终无法找到频繁()项集,从而确定最终的频繁项集。 应用法则和算法对海量数据的审计分析 法则和算法的联合数据挖掘在审计中的应用主要围绕为以下两个核心步骤展开: 应用法则发现审计疑点 ()判断数据的来源是否符合法则的应用范围。 (2)对总体数据的一、二位有效数字进行法则的符合性测试,初步发现对数据进行深入钻取的线索。 (3)对标准分布频率和实际分布频率进行比较,分析频率偏差,确定合理的钻取重点。 (4)根

4、据分析结果和实际需要,进行更多位数字的进一步数据钻取和分析,直至发现目标数据。 钻取过程如图所示。 应用算法分析审计疑点 ()采集通过法则分析后输出的疑点数据集。 (2)整理疑点数据集以建立事务集,即算法要求输入的数据集合。 (3)扫描事务集产生候选数据集合,并依据最小支持度筛选出频繁项集。 (4)频繁项集进行自关联,迭代第三、第四步,确定最终的频繁项集。 (5)依据最小置信度从频繁项集产生强规则。 (6)对强规则进行人工审计业务分析。 应用案例 应用法则对审计疑点的发现过程 确定审计数据和目标字段 分析某企业的凭证数据,从其记账凭证表摘取字段结构如表所示: 数据导入 将相应的目标数据表导入审

5、计人员使用的数据库。 总体频率计算 数位的选取 以凭证和为例解释数位选取方式,如我们选取凭证编号的金额栏 元的第一、二位数值为” ,作为该笔记录的第一、二位数;我们选取凭证编号为的借方金额栏 元的第一、二位数值为” ,作为该笔记录的第一、二位数,如表所示: 数位分析 对记账凭证表中的借方金额字段前两位进行分析,第一、二数值为的凭证纪录有笔,全部记录有 笔,因此第一、二位数为”频率为( ) 。部分结果如图所示。 分析频率偏差 根据分布的数字频率上限、数字频率下限和分布概率 Z 统计量的公式计算得到图所示数据。 分析图数据可以得出: ()第一、二位数为”的实际频率为,高于法则的理论上限,计算其统计

6、量的值,值为 ,也大于,因此我们初步判定存在错误、潜在舞弊行为或者人为的偏差。 ()第一、二位数为”的实际频率为,低于法则的理论下限,虽然值为也大于,但可能是由于数位为”超过法则的理论频率过大从而导致其频率偏低,因此应该属于无异常。 应用算法对审计疑点的关联规则挖掘 获取并整理疑点数据 为了进一步明晰数据间的关系,观察数据的规律性,对疑点数据(首一二位数为“” )通过关联查询筛选出来,形成审计中间表,部分数据如表所示。 运用算法探索关联规则 步骤一:以表 3 中的第列、第列、第列和第列数据建立事务集,由建立候选项集,部分数据如表所示。 步骤二:假设最小支持记录数为,将支持度不足的项去掉,得到频繁项集,如表所示。 步骤三:循环步骤一和步骤二,得到最终的频繁项集,如表所示。 步骤四:根据最终的频繁项集 L3 和设置的最小置信度得出表所示的强规则。 步骤五:由业务审计人员确定强规则的业务价值,进行人工排查后,确定编号为的强规则为有意义的规则。 结论 在实际的审计项目中,对于大量的企业财务数据和业务数据,可以运用法则和算法的关联数据挖掘手段进行分析,一般能够发现有业务意义的强规则,这些强规则能够解释数位发生偏差的原因,而这种偏差一般是由于潜在的舞弊或违规行为所导致的。

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。