1、基于方剂数据挖掘的疾病与证候要素关系研究作者:张帆,任廷革,刘晓峰,孙 燕,汤尔群【关键词】 中医方剂数据库;证候要素;数据挖掘有研究者提出“证候要素”的概念1,认为证候要素是指辨证所要认识和确定的病位和病性,是通过对证候的辨识而确定的病理本质,是构成“证”的基本要素2。病位证候要素包括心、心神(脑)、肺、脾、肝、肾、胃、胆、小肠、大肠、膀胱、胞宫、精室、咽喉、口齿、鼻、耳、目、肌肤、筋骨、经络、胸膈等。病性证候要素包括传统意义上的病因和病机,如风、寒、暑、湿、燥、火(热)、脓、痰、饮、水停、食积、虫积、气滞、气逆、气闭、血瘀、血热、血寒、气虚、气陷、气不固、气脱、血虚、阴虚、亡阴、阳虚、亡阳
2、、阳亢、阳浮、津亏、精亏等3。尽管对证候要素的界定有多种不尽相同的意见,但有一点是一致的,即证候要素反映了证候的特征和本质。因此,研究疾病的证候要素分布规律,有重要的学术和临床意义,现将本研究方案叙述如下。1 研究方法古代方剂文献记载了大量的传世方剂,其中大多数是验之有效的。在这些方剂文献中,有与方剂相关的病名、病因、病机、病位和临床表现的描述,蕴含了丰富的医理信息。本研究以中医方剂数据库系统(下简称“方剂库”)为平台。方剂库是“中医药基础数据库”中的一个子系统,实现了中医古代方剂文献信息的高度结构化存储,可用主题词和关键词进行查询,并可对查询结果进行统计和关系分析,实现了基于频次的数据挖掘。
3、由此来释放中医方剂文献所蕴涵的信息,为我们的研究提供技术支持。1.1 方剂库数据的分布特点方剂库共收录了由先秦到民国 73种书籍中记载的共计 92 102条方剂文献,这些文献覆盖了历史上的绝大部分的经典方书,年代跨度在 2 000年以上。方剂库数据的分布有 2个特点:首先是公元 960年(宋元年)以前的方剂文献,采取拉网式过筛的方案,对国内有记载的所有方剂进行采集存储,使这 1 000多年的病证信息从方剂的层面得到全面的释放;其次是参考中国医学史 、 中医各家学说 、 中国古代主要医家现存著作大系表等文献,对公元 960-1919年期间的文献进行筛选,其原则是让各个朝代都有文献被采集,主要涉及
4、影响较大的方书、临证各科典籍等文献。由于上述这 2个特点,本研究在数据上具有了较好的代表性。1.2 方剂数据的预处理要让基于数据库的系统挖掘功能发挥作用,首先要让数据高度结构化。为此,我们研制了数据采集系统,这个系统的任务是完成非结构化数据(文本数据)向结构化数据(解析数据)的转换,同时为数据的一致化维护(主题标引)提供软件环境。其意义在于使数据在具备结构化(语法)的基础上,在“中医药主题词表”的帮助下,在不改变文献原义的准则指导下,尽可能实现数据语义上的一致。我们制定了严格的文献数据解析细则和数据标引操作规范,标引的内容包括方剂组成、功效、主治病证、症状体征、病因、病机、病位、发病特征等内容
5、,目前在方剂库的数据中至少有66 204条方剂记录满足挖掘需求。1.3 方剂库系统的挖掘功能方剂库系统提供了一个可以在局域网和互联网上使用的中医方剂文献信息的共享平台,该数据库具有检索、统计分析和归类集合功能。方剂库检索功能包括:支持多种检索方式,既可以用自由词检索,也可用主题词检索;满足多条件组合检索等方式,可实现较复杂的逻辑查询;设置有二次查询(在结果中筛选)功能,以减少查询结果的“噪音” 。方剂库统计分析功能包括:对查询所得方剂记录的种种属性进行频次统计和关系分析,如限定某种“病名”,分析病机、病位的情况,或限定某种“病位”,分析症状体征的情况等;可对统计出的数据进行归类集合,该功能是依
6、据“中医药学主题词表”的结构进行的,可实现符合中医学知识结构的归类分析。1.4 分析对象和目标的设计本研究选取方剂文献中出现频率较高的咳嗽、呕吐、中风、腹痛、泄泻、水肿、抑郁症和消渴等 8种疾病作为研究对象;对病位、病机、病因 3类证候要素各选 2种,以便进行比较,病位选择“肺”和“肾”,病机选择“气虚”和“阴虚”,病因选择“寒邪”和“湿邪” 。利用系统的数据挖掘功能,对上述选择的文献数据分别进行纵向、横向分析和不同历史阶段的分析。纵向分析:以数据库中符合挖掘条件的全部记录为分析对象,以“病名”为切入点,分别统计病位、病机、病因等证候要素分布规律;横向分析:以方剂库中符合挖掘条件的全部记录为分
7、析对象,以病位、病机、病因为切入点,分别对其涉及的疾病进行统计;不同历史阶段的比较分析:选取某一病种为切入点,分别取公元 960年前后 2个历史时期的数据进行分析,对该病种在不同历史阶段的病位、病机、病因进行比较。2 结果2.1 纵向分析以方剂库全部的方剂记录为调研对象,检索病名为咳嗽、呕吐、中风、腹痛、泄泻、水肿、抑郁症、消渴等 8种疾病的记录,分别对其病位、病机和病因进行统计。咳嗽病位出现频率最高是肺;呕吐病位出现频率最高的是胃、脾;中风病位出现频率最高的是心、肝、肾;腹痛病位出现频率最高的是脾、胃、肝;泄泻病位出现频率最高的是脾、胃;水肿病位出现频率最高的是脾;抑郁症病位出现频率最高的是
8、肺、心、胃;消渴病位出现频率最高的是肾、心。咳嗽病机出现频率最高是肺伤;呕吐病机出现频率最高的是风邪致病、寒邪致病、气虚;中风病机出现频率最高的是风邪致病、气虚、血虚;腹痛病机出现频率最高的是寒邪致病、气滞;泄泻病机出现频率最高的是寒邪致病、气虚;水肿病机出现频率最高的是水饮致病、气虚、气滞;抑郁症病机出现频率最高的是寒邪致病、气滞、热邪致病;消渴病机出现频率最高的是热邪致病。咳嗽病因出现频率最高是寒邪、热邪、痰;呕吐病因出现频率最高的是寒邪、热邪、食伤;中风病因出现频率最高的是风邪;腹痛病因出现频率最高的是寒邪、食伤;泄泻病因出现频率最高的是寒邪、食伤;水肿病因出现频率最高的是寒邪、风邪;抑
9、郁症病因出现频率最高的是寒邪、情志伤;消渴病因出现频率最高的是热邪、劳伤。具体以咳嗽数据为例(见表 1),限于篇幅只取序列前 5位。表 1 咳嗽病位、病机、病因分析示例2.2 横向分析分析方法:以方剂库全部的方剂记录为调研对象,分别以病位“肺”、 “肾”,病机“气虚” 、 “阴虚”,病因“寒邪” 、 “湿邪”为检索条件,对其病种进行统计和病系归类进行集合。肺:病种分布以咳嗽、喘出现频率最高;病系归类,呼吸疾病占55.1%,运化疾病占 8.8%,气血津液疾病占 6.0%。肾:病种分布以腰痛、腹痛、虚损等出现频率在前;病系归类,肌骨骼疾病占 18.7%,运化疾病占 18.1%,泌尿及男性生殖疾病占
10、 16.3%。气虚:病种分布以泄泻、呕吐、虚劳等出现频率在前;病系归类,运化疾病占 26.3%,妇人疾病占 13.6%,神志及脑疾病占 9.7%。阴虚:病种分布以虚劳、消渴、阳痿等出现频率在前;病系归类,虚劳占 17.2%,外感热病占 10.8%,泌尿及男性生殖疾病占 10.8%。寒邪:病种分布以伤寒、腹痛、咳嗽等出现频率在前;病系归类,外感热病占 33.5%,运化疾病占 22.9%,肌骨骼疾病占 7.3%。湿邪:病种分布以恶疮、湿癣、泄泻、水肿等出现频率在前;病系归类,肌骨骼疾病占 26.0%,运化疾病占 16.8%,皮肤疾病占 12.5%。2.3 疾病在不同历史阶段的比较对同一疾病在不同历
11、史阶段的病位、病机、病因进行比较,调研该病的发展变化情况。以咳嗽为例,分别取公元 960年以前和公元 960年以后 2个历史时期的数据进行分析,其结果显示:在不同历史时期,咳嗽在病位、病因上没有明显区别,在病机上略有差异,公元 960年以前的病机前 5位分别为:肺伤、气逆、风邪致病、寒邪致病、痰瘀,公元 960年以后的病机前 5位分别为:肺伤、寒邪致病、气逆、痰瘀、风邪致病。两者相比较,前 5位病机内容上完全相同,第 1位病机也相同,都是“肺伤”,仅25 位的排序上略有不同。3 讨论从分析结果来看,可以得出以下几点结论:每种疾病都涉及多个证候要素,通过数据库的数据挖掘,可以将这些证候要素提取出
12、来。不同疾病的病位、病机、病因等证候要素,呈现出不同的分布规律,反之亦然,并且这种分布规律在不同历史时期并无明显变化。由此,从古代文献记载的情况来看,证候要素是客观存在的。实验数据显示出大多数分析结果与现代中医学理论及临床认识相吻合,但也有一些不同,如抑郁症的病位分析结果主要在“肺”,这与今人多从“肝”治的认识不同。这有可能是疾病在历史长河中发生了变化,其发病特点随人们生活环境的变迁而有所改变。但是这样挖掘的结果提示我们,古人治疗抑郁症较重视和“肺”的关系,若用于临床或许会收到较好的效果。分析古代方剂文献,医家很可能只记载了其认为较重要的病证信息,而将次要的或无关紧要的信息有意地省略,这种情况
13、并不影响统计分析的结果,甚至可能更贴近医家的原意,更能够准确反映文献所包含的重要信息。方剂库收录的都是古代文献,这些文献对证候要素的记载往往不够完整,有些文献缺少病机的记载,有些文献缺少病因的记载,有些文献缺少病位的记载,因此数据的完整性受到历史的局限,这有可能影响到分析的结果。综上所述,本研究应用结构化的古代方剂文献数据库及其系统挖掘功能,能够实现对疾病的病位、病机、病因等辨证要素进行提取,从而总结出与疾病相关的证候要素。【参考文献】1 朱文锋.构建“证素辨证”新体系的意义J.浙江中医药大学学报, 2006,30(2):135-136.2 朱文锋.中医辨证体系及“证”的规范化研究J.天津中医,2002, 19(5):1.3 朱文锋.证素辨证学M.北京:人民卫生出版社,2008.53.