1、基于数据挖掘的二陈汤类方关联分析作者:杨烨,邢斌,高成勉,车立娟【关键词】 数据挖掘;二陈汤;关联分析方剂是历代医家临证经验的结晶,经数千年临床实践,其数量已突破十万。面对海量资源,如何进行高效和实效的研究,是一个令人困扰的问题。而从已有数据中提取模式、提高已有数据的内在价值为目的的医学数据挖掘技术的出现,为解决这一问题提供了新的方法和思路。应用数据挖掘技术进行中医基础理论研究、中医临床研究以及计算机辅助医学知识发现系统研究都取得了令人满意的结果1-4。我们则尝试应用数据挖掘技术开展对类方的研究。1 相关知识1.1 支持度与置信度数据挖掘是指使用自动化或半自动化的工具对现有数据进行分析并挖掘出
2、人们感兴趣的隐含的模式,这些模式可以是决策树、规则、聚类或者简单的数学公式。关联分析是一种常见的数据挖掘任务,也叫购物篮分析。关联的任务有 2 个,即找出频繁项集和关联规则。频繁项集常常被作为频数分析的手段来了解资料的分布情况。项集(itemset)是一组项,每个项都是一个属性值,比如项集陈皮,半夏。频繁项集是在数据集中出现频率相当高的那些项集,项集出现频率的域值是使用支持度(Surport)来定义的。项集木通,黄芩,甘草,车前子的支持度是指同时包含这 4 味药物的方剂数占考察样本中所有方剂数的比率,用来考察项集在样本中的普遍性。概率(Probability,记为 P)是关联规则的属性。规则A
3、-B 的概率是使用项集A,B的支持度除以A的支持度计算的,该概率在数据挖掘中称置信度(Confidence)。置信度可用公式(1)来度量。关联规则反映一个事务与其他事务之间的相互依存性和关联性。在进行关联规则挖掘之前需要对置信度指定最小值,表示用户只对某些规则感兴趣。重要性(Importance)也称兴趣度或者增益,规则的重要性用公式(2)定义如果重要性为 0,则 A 和 B 没有任何关联。如果重要性大于 0,表示当 A 为真时,B 的概率会上升。如果重要性小于 0 时,表示当 A 为真时,B的概率会下降。1.2 Apriori 算法的基本思想关联规则算法就是相关性计数引擎。Microsoft
4、 关联规则算法属于Apriori 关联规则算法家族5,该算法是一种最有影响的挖掘关联规则频繁项集的算法,它利用频繁项集性质的先验知识,使用一种称作逐层搜索的迭代方法 k-项集,用于搜索(k1)-项集。首先,找出频繁 1-项集的集合。该集合记作 L1。L1 用于找频繁 2-项集的集合 L2,而 L2 用于找 L3,如此下去,直到不能找到频繁 k-项集。找每个 Lk 需要扫描数据库一次6。2 研究步骤 2.1 数据准备确定二陈汤类方,包括确定中心方剂、设定相似条件和在中医方剂大辞典范围内查找二陈汤类方元三步,具体方法和过程参见文献7。根据邢氏8对方剂和处方概念的诠释,最后得到 462 张处方。2.
5、2 挖掘数据库构建本次研究以 Microsoft SQL Server 2005 Analysis Services(SSAS)为数据挖掘工具。根据数据分类的情况,采用已规范的数据,构建二陈汤类方数据库,包括二陈汤类方信息表、药物组成表、中医病名表、症状表、推导病因表、病位表。各表的字段分别为:二陈汤类方信息表(大辞典编号,方名);药物组成表(大辞典编号,中药);症状表(大辞典编号,症状);中医病名表(大辞典编号,中医病名);推导病因表(大辞典编号,推导病因);病位表(大辞典编号,病位)。每张表的逻辑主键均为中医方剂大辞典编号(在字段名中为大辞典编号),二陈汤类方信息表作为源(主键)表,其他表
6、为目标(外键)表。关系如图 1 所示。在进行数据挖掘时,二陈汤类方信息表作为事例表,其他表作为嵌套表。3 研究结果以下挖掘结果均是在支持度10%、置信度80%的参数设置下得到的。个别另外声明的除外。3.1 频繁项集(见表 1表 3)表 1 二陈汤类方用药频繁项集(略)表 2 二陈汤类方症状频繁项集(略)表 3 病位、推导病因频繁项集(略)3.2 关联规则3.2.1 症状与药物关联分析 6 个高频症状与核心药物半夏、陈皮、茯苓、甘草高度相关,见图2。3.2.2 症状与病位、推导病因的关联规则 通过对二陈汤类方的症状与推导病因、病位的关联规则分析发现,与推导病因、病位有关联意义的症状有 10 组。
7、见表 4。表 4 症状与推导病因、病位的关联分析(略)3.2.3 中医病名与药物关联分析 通过对中医病名与药物的关联分析发现,某些中医病名与以半夏、陈皮、茯苓、甘草 4 味药为基础的药物加味有高度关联。见表 5。 表 5 中医病名与药物关联(略)3.2.4 药物与药物关联分析4 讨论中医把每一首方剂不仅仅视为一张处方,而将它看作一个完整的中医诊疗过程,即包括诊断与治疗两个相关的方面9。诊断通常以辨证为主,也就是要辨明病机;治疗则在辨证用药的基础上,据病、据症用药;医家的用药,不仅要根据证、病、症,还要考虑药物与药物之间的关系,即药物之间七情关系。因此,本次研究首先着眼于挖掘症状和病机(包括推导
8、病因与病位)的关联规则,以期有助于二陈汤类方证群的辨证;着眼于挖掘药物和症状、药物和中医病名、药物和病机等 3 个方面的关联规则,希望发现一些基于二陈汤类方证群的用药经验;此外,还要挖掘药物与药物之间的关联规则,希望发现一些药物间配伍的经验。我们根据上述设想,通过数据挖掘平台发现了有关的关联规则,这些规则从数学模型的角度来看可以认为是成立的。但我们也发现,有些规则与人们印象中的中医理论或中医实践不完全符合。这或许就是数据挖掘的意义所在。数据挖掘应用特定方法对数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性。一般来说,数据挖掘所得到的信息应具有未知、有效和可用 3 个特征。先前未知的信息
9、是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,有时挖掘出的信息越是出乎意料,就可能越有价值10。但也可能因为数据噪声、数据缺失等原因,导致挖掘出的部分规则是失真的。实践是检验真理的唯一标准,我们期待临床工作者在临床运用二陈汤类方时加以检验。【参考文献】1 陈擎文.数据挖掘技术在古代名中医中风医案之应用研究J.中华中医药学刊,2008,26(l0):22542257.2 李文林,段金廒,赵国平,等.方剂配伍规律数据挖掘的研究现状及思考J.中国中医药信息杂志,2008,15(10):9294.3 李建生,胡金亮,王永炎.基于 2 型糖尿
10、病数据挖掘的中医证候诊断J.中国中医基础医学杂志,2008,14(5):367370.4 余 辉,张力新,刘文耀.计算机辅助医学知识发现系统研究J.生物医学工程学杂志,2008,25(2):295299.5 邝祝芳,焦贤龙,高升译.数据挖掘原理与应用M.北京:清华大学出版社,2007.193.6 吴绍函,余昭平.数据挖掘中关联规则的研究J.微计算机信息,2008, 24(1-3):185186.7 李 威,景 龙,邢 斌,等.二陈汤类方用药规律探析J.北京中医药大学学报,2008,31(7):445447.8 邢 斌.论方剂的形式与本质J.上海中医药大学学报,2008,22(2):1719.9 车立娟,高成勉,邢 斌.基于数据挖掘的龙胆泻肝汤类方关联分析J.辽宁中医杂志,2008,(6):8083.10 谢邦昌.商务智能与数据挖掘M.北京:机械工业出版社,2008.108109.