1、1基于分类回归树的会计信息失真识别研究摘要 会计信息失真现象将给投资者、政府、公司所有者等众多会计信息使用者带来很大的损失和麻烦。因此,科学地识别会计信息是否失真就很重要。本文选取 2008 年的 159 家上市公司的财务数据作为训练样本建立分类回归树模型,并以该模型对 2009 年沪深上市公司的 1 862 家企业进行了检测,实证研究表明:分类回归树算法具有很高的会计信息失真识别能力。 关键词 分类回归树;会计信息失真;审计意见 中图分类号 F234;F276.6 文献标识码 A 文章编号 1673 - 0194(2013)06- 0002- 02 1 文献综述 目前会计信息失真识别研究较多
2、集中在 2 个方面:多元统计分析方法发现会计信息失真企业的特征和利用特征指标变量建立识别模型对企业会计信息失真的可能性进行识别和预测。国内外学者都基于这两类方法通过建立多种模型对会计信息失真问题进行了研究。 多元统计分析方法被用来作为会计信息失真的侦测方法已经有较长的历史,并且取得了较好的识别效果。而利用特征指标变量来建立会计信息识别模型的国内外研究在近年来得到了快速发展。Imran Kurt 等1学者比较了分类回归树模型、logistic 模型、神经网络在预测方面的作用,发现分类回归树算法具有很高的准确率。Belinna Bai2证明分类2回归树模型对财务欺诈具有较高的识别能力。国内学者中,
3、刘君3、张玲4等也都运用特征变量建立会计信息分析模型。 本文就是运用分类回归树算法来进行会计信息的识别,首先选取2008 年的 159 家沪深上市公司的财务数据作为训练样本建立分类回归树模型,然后对 2009 年沪深上市公司的 1 862 家企业利用建立的分类回归树模型进行检测,进一步证实利用分类回归树算法进行会计信息失真识别的有效性和准确性。 2 分类回归树的构建步骤 分类回归树算法(CART)是一种有监督学习算法,即用户在使用CART 进行预测之前,必须首先提供一个学习样本集对 CART 进行构建和评估,然后才能使用。根据给定的样本集构建分类回归树的步骤由以下3 部分组成: (1)使用 L
4、 构建树 Tmax,使得 Tmax 中每个叶节点要么很小(节点内部所包含的样本个数小于给定的值 Nmin) ,要么它是纯节点(节点内部样本的 Y 同属于一类) ;要么是只有唯一的属性向量可以作为分支向量。本文在计算过程中采取最大杂度削减算法基尼系数寻找最佳的分支向量。从根结点开始进行分割,递归地对每个结点重复进行分割:首先对每一个结点选择每个属性最优的分割点,若基尼系数最小,则 Xi 就是当前属性的最优分割点;接着在这些最优的分割点中选取使上式最小的作为这个结点的最优的分割规则;最后继续对由该结点分割出来的两个结点继续进行分割。分割过程一直持续下去,直到具备以下任一条件时停止:每一个叶节点很小
5、;纯节点(节点内部样本的 Y 属于同一个3类别) ;仅有唯一属性向量作为分支选择。 (2)使用修剪算法构建一个有限的节点数目递减的有序子树序列。修剪是为了获得误分率低、大小合适、评估准确率高的子树。该过程应用最小代价复杂度算法,生成一系列 Tmax 的修剪子树。修剪过程主要完成生成有序树序列和确定叶节点的所属类两步骤工作。 (3)使用评估算法从第 2 步产生的子树序列中选出一棵最优树,作为最终的决策树。本文将使用 2009 年所有沪深上市公司年度报告中的财务数据进行对所建分类回归树的识别和评估。 3 基于分类回归树的会计信息识别实证研究 3.1 样本选择 将上市公司年度审计报告中被出具标准无保
6、留审计意见的公司划分为会计信息真实的企业样本,将年度审计报告中被出具非标准无保留审计意见的公司划分为会计信息失真的企业样本。本文的样本数据主要来自 CCER 中国经济金融数据库和 RESSET 金融研究数据库。 训练样本的选择中,会计信息失真的企业样本为沪深证券交易所2008 年年报被出具非标准无保留意见的 53 家上市公司,其中上交所 31家,深交所 22 家,具体审计意见包括保留意见、拒绝表示意见和保留意见带解释性说明。此外,训练样本中会计信息真实的企业样本为 2008 年沪深证券交易所中年报审计意见为标准无保留意见的 106 家上市公司,其中上交所 62 家,深交所 44 家。 测试样本
7、的选择中,将用 2009 年沪深证券交易所的 1 862 家上市公司作为测试样本,对所建立的分类回归树模型进行评估和检验,其中 1364家上市公司在年报中被出具了非标准无保留意见,即会计信息失真。 3.2 财务指标初选与处理 本文选择反映企业经营状况的财务指标来判定会计信息的失真。初步选取了一些常用的典型的可以反映这几个方面的财务指标,初步选取的规则是在反映企业偿债能力、盈利能力、成长能力、营运能力及其他各个方面的财务指标均选取一些,并且排除可直观判断具有相关重复性的指标。 初选财务指标及其描述见表 1。 如表 1 所示,初步选取了 19 个财务指标,其中 X1X5 是反映企业偿债能力的财务指
8、标,X6X10 是反映企业盈利能力的财务指标,X11X16 是反映企业成长能力的财务指标,X17X19 是反映企业营运能力的财务指标。 3.3 财务指标进一步筛选 本文采用 SPSS 软件进行建模,变量个数太多不利于最优回归树的生成,因此为了采用少量的变量个数得到最合理和科学的回归树模型,在建模之前需要对之前得到的财务指标进一步处理和筛选,剔除重复性和相关性较大的指标。本文采用相关性检验,对上述财务指标进行进一步处理,具体处理采用 Pearson 系数来反映和发现各个财务指标之间的相关性。利用 SPSS 软件求 Pearson 相关系数得到结果。根据相关系数计算结果,X2 与 X3 的相关系数
9、为 0.905,X6 与 X7 的相关系数为-0.967,X10与 X8 的相关系数为 0.921,其绝对值均显著大于 0.8,说明这三组的每两个财务指标存在非常显著的信息重叠和相关现象,因此在该步相关性检验中可以剔除 X3、X6、X8 三个财务指标。 3.4 最优分类回归树5的生成 经过财务指标的初步筛选和进一步筛选,本文最终确定以X1、X2、X4、X5、X7、X9、X10、X11、X12、X13、X14、X15、X16、X17、X18、X1916 个财务指标建立模型。该建模过程采用 SPSS 直接生成最优分类回归树,即分类回归树的生长、修剪过程直接由软件完成。通过SPSS 软件的数据导入分
10、析分类决策树等相关操作,得出最优分类回归树。 在分类回归树中,得到以 X7(销售期间费用率) 、X2(流动比率) 、X9(资本收益率) 、X11(每股收益增长率)4 个财务指标为拆分变量的具有 5 个节点的最优分类回归树。当 X738.603 5 时,将其归类为会计信息失真企业;当 X738.603 5X20.382 3 时,将其归类为会计信息失真企业;当 X738.603 5X20.382 3X91.597 4 时,将其归类为会计信息真实企业;当 X738.603 5X20.382 3X90.382 3X9-628时,将其归类为会计信息失真企业。 3.5 分类回归树的检验 3.5.1 利用训
11、练样本评估最优分类回归树 利用 SPSS 软件生成最优分类回归树的时候可以直接得出该分类回归树对训练样本(159 个样本)的识别准确率。样本中,会计信息真实企业和会计信息失真企业的识别准确率分别达到了 90.6%和 90.6%,可以看出该分类回归树对样本企业会计信息真实和失真具有很高的识别能力。 3.5.2 利用测试样本评估最优分类回归树 测试样本为 2009 年沪深证券交易所的 1 862 家上市企业,其中 1376家在年报中被出具非标准无保留意见,1 725 家在年报中被出具标准无保留意见。为了评估本文所得出的最优分类回归树对会计信息失真的识别准确度,本文根据这 1 862 家上市企业的
12、X7(销售期间费用率) 、X2(流动比率) 、X9(资本收益率) 、X11(每股收益增长率)得出的最优分类回归树来判断这 1 862 家企业会计信息是否真实:当 X738.603 5 时,将其归类为会计信息失真企业;当 X738.603 5X20.382 3 时,将其归类为会计信息失真企业;当 X738.603 5X20.382 3X91.597 4时,将其归类为会计信息真实企业;当 X738.603 5X20.382 3X90.382 3X9-628 时,将其归类为会计信息失真企业。此步骤主要使用 SPSS 采用上述规则进行数据筛选,经测试样本评估,得到测试样本会计信息失真和会计信息真实的识
13、别准确率分别为 88.32%和 88.98%,可以看出分类回归树算法对会计信息是否失真具有很高的识别能力。 4 结 论 本文运用 2008-2009 年度我国上市公司财务数据,建立并检验了分类回归树模型在上市公司会计信息失真识别中的有效性。实证研究表明:分类回归树算法对会计信息失真具有很高的识别能力,其识别准确率很高;销售期间费用率、流动比率、资本收益率和每股收益增长率 4个财务指标对会计信息失真具有很高的识别能力,因此可以将这 4 个财务指标作为判别标准,可以非常准确地判断会计信息是否失真。分类回归树模型是非参数非线性方法,使用简单方便,研究结果容易理解。本文研究的分类回归树模型为审计机构、
14、监管机构和广大投资者提供了一种识别会计信息失真状况的方便实用的方法。 7主要参考文献 1Imran Kurt, Mevlut Ture ,Turhan Kurum. Comparing Performances of Logistic Regression, Classification and Regression Tree, and Neural Networks for Predicting Coronary Artery Disease J. Expert Systems with Applications, 2008(34):366-374. 2Belinna Bai, Jerome
15、 Yen, Xiaoguang Yang. False Financial Statements: Characteristics of Chinas Listed Companies and CART Detecting ApproachJ. International Journal of Information Technology and Decision Making, 2008 (7):339-359. 3刘君,王理平. 基于概率神经网络的财务舞弊识别模型J. 哈尔滨商业大学学报:社会科学版,2006(3):102-105. 4张玲,陈收,张昕.基于多元判别分析和神经网络技术的公司财务困境预警J.系统工程,2005,23(11):49-56.