1、数据挖掘与商务智能Data Mining & Business Intelligence西安电子科技大学 软件学院主讲人:黄健斌第六章 序列模式挖掘 内容提纲n 序列模式挖掘简介n 序列模式挖掘的应用背景n 序列模式挖掘算法概述n GSP算法n SPADE算法n PrefixSpan算法n CloSpan算法n 利用 SPSS软件挖掘频繁序列模式序列模式挖掘简介n 序列模式的概念最早是由 Agrawal和 Srikant 提出的。n 动机:大型连锁超市的交易数据有一系列的用户事务数据库,每一条记录包括用户的 ID,事务发生的时间和事务涉及的项目。如果能在其中挖掘涉及事务间关联关系的模式,即用户
2、几次购买行为间的联系,可以采取更有针对性的营销措施。序列模式挖掘的应用背景o 应用领域: 客户购买行为模式预测 Web访问模式预测 疾病诊断 应用案例 1:客户购买行为模式分析oB2C电子商务网站可以根据客户购买纪录来分析客户购买行为模式,从而进行有针对性的营销策略。ID User transaction sequence1 .2 3 .4 .图书交易网站将用户购物纪录整合成用户购物序列集合得到用户购物行为序列模式相关商品推荐:如果用户购买了书籍 “UML语言 ”, 则推荐 “Visio2003实用技巧 ”应用案例 2: Web访问模式分析o大型网站的网站地图 (site map)往往具有复杂
3、的拓扑结构。用户访问序列模式的挖掘有助于改进网站地图的拓扑结构。比如用户经常访问网页 web1然后访问 web2,而在网站地图中二者距离较远,就有必要调整网站地图,缩短它们的距离,甚至直接增加一条链接。Index 网站入口web1web2应用案例 3:疾病诊断o医疗领域的专家系统可以作为疾病诊断的辅助决策手段。对应特定的疾病,众多该类病人的症状按时间顺序被记录。自动分析该纪录可以发现对应此类疾病普适的症状模式。每种疾病和对应的一系列症状模式被加入到知识库后,专家系统就可以依此来辅助人类专家进行疾病诊断。 例 : 通过分析大量曾患 A类疾病的病人发病纪录,发现以下症状发生的序列模式: 如果病人具有以上症状,则有可能患 A类疾病事务数据库实例n 例:一个事务数据库,一个事务代表一笔交易,一个单项代表交易的商品,单项属性中的数字记录的是商品 ID序列数据库n 一般为了方便处理,需要把事务数据库转化为序列数据库。方法是把用户 ID相同的记录合并,有时每个事务的发生时间可以忽略,仅保持事务间的顺序关系。基本概念n 项集 (Itemset)是所有在序列数据库出现过的单项组成的集合n 例:对一个用户购买记录的序列数据库来说,项集包含用户购买的所有商品,一种商品就是一个单项。通常每个单项有一个唯一的 ID,在数据库中记录的是单项的 ID。