1、挖掘在电子商务系统中的应用摘要 本文阐述了在电子商务应用中,利用 Web 挖掘技术,有效地将用户访问过程中的数据记录到日志文件中,并对日志文件进行有效地分析和挖掘;利用 Apriori 改进算法 FT树增长算法,找出对电子商务系统有指导作用的关联规律。 关键词 电子商务 数据挖掘 日志挖掘 知识发现 人工智能 随着电子商务的发展,企业的数据越来越多,而当其数据积累到一定程度时,必然会反映出一定规律性的东西,也就是说,企业的海量、分布、动态、复杂、非结构化的数据中蕴含有可以为其利用的规律。因此,人们迫切希望使用一种技术,从中挖掘出具有价值的规律来,形成对企业的技术和经营的指导。数据挖掘技术是可以
2、用来挖掘这些规律的一种有效工具。 Web 中包含的丰富和动态的超链接信息,以及 Web 页面的访问和使用信息,为数据挖掘提供了丰富的资源。如何对 Web 中的数据进行有效的资源和知识发现,是 Web 挖掘需要解决的问题。 一、Web 信息数据的特征 传统数据挖掘的信息局限于数据库中的结构化数据,而 Web 信息数据是半结构化或非结构化的,具有如下特征: 一是大规模海量数据信息。二是信息分布广泛。三是异质、动态的信息源。Web 及其数据的更新、增长速度极快, Web 上的信息几乎都是隐藏的、未知的。四是信息具有丰富的内涵。既有涉及各方面丰富的信息内容,又蕴涵着访问页面、路径、时间、用户 IP 地
3、址等这些潜在的访问信息。 二、数据挖掘及 Web 挖掘技术 1.数据挖掘 数据挖掘,又称数据库中的知识发现,近几年来已被数据库界所广泛研究。它是在数据仓库或大型数据库的基础上,从大量的、模糊的、随机的数据中提取出数据间重要的但容易被人工分析忽略的知识和信息。数据挖掘技术涉及数据库、人工智能、神经网络、预测理论、机器学习和统计学等多种相关技术。数据库中的知识发现(KDD)是从大量数据中提取出可信的、新颖的、有效的并能被人们理解的模式的高级处理过程。模式可以看作是我们所说的知识,它给出了数据的特性或数据之间的关系,是对数据包含的信息更抽象的描述。 2.Web 挖掘 Web 挖掘是对数据挖掘的一种新
4、的发展和应用,但不同于传统的数据挖掘,其主要区别在于传统的数据挖掘的对象局限于数据库中的结构化数据,并利用关系表等存储结构来挖掘知识,而 Web 挖掘的对象是半结构化或非结构化特征。 Web 挖掘就是从大量的 Web 文档和 Web 活动中发现、抽取感兴趣的、潜在的有用模式和隐含的、事先未知的、潜在的信息。它以数据挖掘、文本挖掘、多媒体挖掘为基础,并综合运用计算机网络、数据库与数据仓库、人工智能、信息检索、信息提取、机器学习、统计学、概率理论、可视化、计算机语言学、自然语言理解等多个领域的技术,并将传统的数据挖掘技术与 Web 结合起来。Web 挖掘分为:Web 内容挖掘、Web 结构挖掘和
5、Web 使用记录挖掘,如下图所示。 图 Web 挖掘的分类 三、基于 Web 日志挖掘的算法 Web 日志记录了用户访问的信息,包括用户的访问方式、访问时间、访问人数、用户 IP 地址、被请求文件的 URL HTTP 版本号、传输字节数、引用页的 URL 等。 1.符号与定义 Web 日志文件是由一条记录组成的,一条记录实际上记录的是用户对Web 页面的一次访问。 定义 1 关联规则:设 I 是 Web 日志的一条记录,即 I=i1,i2,im,其中 ij(1jm)是某用户访问一种商品的数据,每次访问一种商品都包含有如商品编号、访问时间、访问次数、客户号、客户 IP 地址等数据,称此类数据为数
6、据项。TiI 为 I 的一个子集。D=T1,T2,Tn是关于 Ti的集合,且 XI,YI,XY =,则记录 X=Y 为在集合 D 中 X 与Y 相互关联的规则。 定义 2 支持度:如果 X=Y 在 T 中的 S%成立,则称 XY 的支持度为 S%,即 S% =(|t|t 中含有 X,Y|/|T|)100% 支持度 S%表示 X=Y 中出现的普遍程度。 定义 3 置信度 C% C%=(|t|t 中含有 X,Y|/|t|t 中含有 X|)100% 置信度表征的是规则的强度。 定义 4 频繁模式:大于给定的支持度的模式 X=Y 称为频繁模式,并将它看成是 T 中一条有意义的关联规则。 2.算法描述
7、根据 FP增长或频繁模式增长(Frequent-pattern Growth)算法,将关联规则的挖掘分为两个步骤实施:根据所提供的最小支持度和最小置信度找出所有的频繁项集;利用所产生的频繁项集,产生合理的关联规则。 (1)FP增长算法的具体算法描述如下: 输入事务数据库 D,最小支持度阈值 min_sup 输出 D 中的所有频繁项集 方法 1 按以下步骤扫描构造 FP树: 扫描事务数据库 D 一次。收集频繁项的集合 F 和其支持度。对 F按支持度降序排序,结果为频繁项表 L。 创建 FP树的根节点,以“null”标记。对 D 中每个 Trans,执行:选择 Trans 中的频繁项,按 L 中的
8、次序排序。设排序后的频繁项表为pP,其中 p 是第一个元素,P 是剩余的元素表。调用insert_tree(pP ,T)。即:如果 T 有子女 N 使得 N.itemname = p.itemname,则 N 的记数增加 1,否则创建一个新节点 N,并将其计数设置为 1,链接到它的父节点 T,并通过节点链接结构将其链接到具有相同 itemname 的节点。如果 P 非空,递归调用 insert_tree(P,N) 。 方法 2procedure FT_growth(Tree,) if Tree 含单个路径 P then for P 中节点的每个组合(记作 )产生模式 ,其支持度support=
9、 中节点最小支持度; else for each i 在 Tree 的头部 产生一个模式 =i,其支持度 support =isupport; 构造 的条件模式基,然后构造 的条件 FP树 Tree; if Treethen 调用 FP_growth(Tree,); (2)产生频繁项集。本文主要介绍如何产生所有频繁项集。假设有一个两维的 Web 日志数据文件。一维是商品号,共有三种商品,分别标志为 T1,T2,T3;另一维包括商品的访问次数,为简化处理,分别标志为 Interview1,Interview2,Interview3,Interview4,Interview5。另假设 Min_sup=0.3,Minconf =0.5,表 1 给出了两维的事务数据库,表2 给出的是一维频繁项集,表 3 给出的是二维频繁项集。 四、结束语 本文提出了一种基于日志的 Web 数据挖掘方法,对电子商务系统具有较强的现实指导意义。Web 日志挖掘所得到的结果既有利于提高网站的性能和安全性,也可以作为优化站点拓扑结构和页面之间的超链接关系的依据,也是在 Web 上进行市场开发和开展电子商务活动的依据,也可以作为网站为用户提供个性化服务和构建智能化 Web 站点的依据。