关联规则挖掘基本概念与算法从推荐系统(recommender system)说起频繁项集关联规则关联规则挖掘的兴起n 1993年,Agrawal提出了关联规则(Association Rule)问题,旨在发现顾客购货篮内商品间令人感兴趣的关系。n “啤酒和尿布” 沃尔玛利用NCR数据挖掘工具意外的发现:跟尿布一起购买最多的商品竟是啤酒!n 今天,关联规则已广泛应用于金融、营销以及生物信息学等领域。 主要内容n 关联规则的基本概念 n Apriori算法n 其它基于Apriori的关联规则挖掘算法关联规则挖掘的动机n 发现数据内在的关系 哪些商品往往被一起购买啤酒尿布 买了PC机之后,还会购买哪些商品 哪些DNA对新药较为敏感什么是关联规则n 关联规则是寻找给定的数据集中项目之间令人感兴趣的关系购物栏数据库例子Diaper Beer,Milk, Bread Eggs,Coke,Beer, Bread Milk,蕴含并不是因果关系频繁项集 项集 一个或多个项目的集合。例如: Milk, Bread, Diaper 包含k 个项目的项集称为k-项集 绝对支持度 ( ) 某一项集出现的次数比如