1、关联规则挖掘关联规则挖掘 以仲景方配伍规律挖掘为例以仲景方配伍规律挖掘为例杨雪梅 博士中医证研究基地yxm_目录目录n 解决的问题解决的问题n 关联规则相关理论基础关联规则相关理论基础n SPSS CLEMENTINE中实现的关联规则中实现的关联规则挖掘算法挖掘算法n 案例:仲景方配伍规律挖掘案例:仲景方配伍规律挖掘解决的问题解决的问题 关联关联n 购物篮问题:购物篮问题: 顾客购买了牛奶后,购买面包的可顾客购买了牛奶后,购买面包的可能性有能性有 多大多大n 药性规律问题:药性规律问题: 是否酸味的药常入肝经?比例是是否酸味的药常入肝经?比例是多少?如果具有酸味,那么该药入肝经的比例会多少?如
2、果具有酸味,那么该药入肝经的比例会比入肝经药占全部药物的比例提升多少?比入肝经药占全部药物的比例提升多少?n 处方问题:处方问题: *专家处方中开出专家处方中开出 生姜生姜 *桂枝桂枝 *白芍三白芍三味药用于治疗寒证的次数有多少?比例有多少?味药用于治疗寒证的次数有多少?比例有多少?专家处方中开出专家处方中开出 生姜生姜 *桂枝桂枝 *白芍三味药用于治疗白芍三味药用于治疗寒证的比例与所治疗病证中寒证出现的比例之间寒证的比例与所治疗病证中寒证出现的比例之间的比值是多少?的比值是多少?处方集举例处方集举例n 1麻黄麻黄 ;桂枝桂枝 ;白芍白芍n 2麻黄麻黄 ;桂枝桂枝 ;白芍白芍 ;干姜干姜 n
3、3麻黄麻黄 ;白术白术 ;干姜干姜 n 4桂枝桂枝 ;白芍白芍 ;白术白术 ;干姜干姜 n 5麻黄麻黄 ;桂枝桂枝 ;白术白术 ;干姜干姜 目录目录n 解决的问题解决的问题n 关联规则相关理论基础关联规则相关理论基础 关联规则关联规则 分类关联规则分类关联规则 兴趣度参数兴趣度参数n SPSS CLEMENTINE中实现的关中实现的关联规则挖掘算法联规则挖掘算法n 案例:仲景方配伍规律挖掘案例:仲景方配伍规律挖掘关联规则关联规则n 关联规则关联规则 (Association Rule)是形如是形如 R: A B的规则,的规则,满足满足 AB= P(AB)为为 A和和 B同时出现的概率;同时出现
4、的概率; 规则规则 R的的 置信度置信度 定义如下:定义如下:conf(R) = P(B|A); P(B|A)为在为在 A出现条件下出现出现条件下出现 B的条件概率。的条件概率。 规则规则 R的的 提升度提升度 定义如下:定义如下:lift(R)= P(B|A)/ P(B);条件条件 A的出现对的出现对 B出现概率的提升,说明出现概率的提升,说明 A与与 B之间之间的相关性,大于的相关性,大于 1为相关,小于为相关,小于 1则不相关则不相关兴趣度参数兴趣度参数n 支持度(支持度( support)、置信度()、置信度( confidence)、提升度(或作用度,)、提升度(或作用度, lift
5、)是描述分类关)是描述分类关联规则兴趣度的三项重要指标,支持度反映联规则兴趣度的三项重要指标,支持度反映规则的规则的 普遍性普遍性 ,置信度反映规则的,置信度反映规则的 可靠性可靠性 ,提升度反应规则两侧属性之间的提升度反应规则两侧属性之间的 相关性相关性 ,通,通常选择支持度、置信度、提升度均较高的规常选择支持度、置信度、提升度均较高的规则作为发现的有趣模式。则作为发现的有趣模式。n 关联规则挖掘算法通常需要设置两个参数:关联规则挖掘算法通常需要设置两个参数:即即 最小支持度阈值最小支持度阈值 min_sup为为 5%; 最小置最小置信度阈值信度阈值 min_conf为为 50%。关联规则关
6、联规则 举例举例n 例如:例如: 泽泻泽泻 白术白术 猪苓猪苓 = 茯苓茯苓 sup=0.1565; conf=0.9684; lift=2.24 共有共有 591首脾胃湿热方中有首脾胃湿热方中有 92首方剂同首方剂同时出现泽泻、白术、猪苓、茯苓四味中药,时出现泽泻、白术、猪苓、茯苓四味中药,故规则的支持度为故规则的支持度为 15.65%;因;因 95首同时出首同时出现泽泻、白术、猪苓三味中药的脾胃湿热方现泽泻、白术、猪苓三味中药的脾胃湿热方中有中有 92首方剂同时出现茯苓这味药,故上述首方剂同时出现茯苓这味药,故上述规则的置信度为规则的置信度为 96.84%。因茯苓出现的概。因茯苓出现的概率率 43%,则提升度为,则提升度为 2.24.