1、多媒体数据挖掘 WEB 挖掘一 .多媒体数据挖掘的概念多媒体数据挖掘是:将数据挖掘技术和多媒体信息处理技术有机地结合起来形成的在多媒体数据中进行知识发现的信息处理方法。从大量的多媒体数据集中,通过综合分析视听特性和语义,发现隐含的、有效的、有价值的、可理解的模式,得出事件的趋向和关联,为用户提供问题求解层次的决策支持能力。基于多媒体数据的内容特性 C,以及这些特性的相关语义,从大型多媒体集 M中,发现和分析出隐含的、有效的、有价值的、可理解的模式 P。可以抽象地把挖掘用多维特征空间的一种映射 f来表示 :f(M|C)P图像挖掘 (视觉特性 ,空间特性)视频挖掘(时间特性 ,视频对象特性 ,运动
2、特性)音频挖掘WEB挖掘(内容挖掘 ,结构挖掘 ,日志挖掘)多媒体综合挖掘 (挖掘过程的各阶段,综合利用多媒 体的特性进行知识发现。使有机的复合效果大于效果之和 )二 .多媒体挖掘的内容1.Web数据挖掘Web Mining (Web挖掘 )这个术语是由 Etzioni于1996年首先提出来的。 Web数据挖掘是数据挖掘技术在 Web上的应用,它利用数据挖掘技术从与 Web相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及 Web技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。2. Web数据挖掘的分类作为 Web的对象, Web数据包含了内容数据(content da
3、ta)、结构数据 (structure data)和日志数据 (usage data)三种类型。因此,根据 Web数据源类型的不同, Web挖掘可以分为 :Web内容挖掘(Web Content Mining), Web结构挖掘 (Web Structure Mining)和 Web日志挖掘 (Web UsageMining).Web数据挖掘如图所示 :2.1 Web内容挖掘是对 Web页面数据 (包括文本、图像、音频、视频、多媒体和其他各种类型的数据 )的挖掘。Internet有各种类型的服务和数据源,如 :WWW, FTP, Telnet等,现在有更多的内容如 :政府信息服务、数字图书馆、
4、电子商务数据及其他各种通过Web形式访问的数据库。Web内容挖掘一般从两个角度进行研究 :从用户的角度,研究怎样提高信息质量和帮助用户过滤信息 ;从 DB的角度,研究怎样对 Web上的数据进行集成、建模,以支持对 Web数据的复杂查询。Web内容挖掘是从 Web资源中发现信息或知识的过程。在创建个性化服务系统时 ,人们通常应用Web内容挖掘对网页内容进行分析,其中网页的自动分类技术在搜索引擎、数字化图书馆等领域得到了广泛的应用。2.2 Web结构挖掘Web结构挖掘的对象是 Web本身的超连接,包括页面内部的结构以及页面之间的结构。对于给定的 Web文档集合,运用引用分析方法找到同一网站内部以及
5、不同网站之间的连接关系,通过算法发现他们之间连接情况的有用信息。挖掘 Web结构信息对于导航用户浏览行为、改进站点设计评价页面的重要性等都非常重要。 Web结构挖掘通常需要整个Web的全局数据,因此在个性化搜索引擎或主题搜索引擎研究领域得到了广泛的应用。如一个站点的入链数目远大于出链数目,那么这个站点可能是服务器 ;如果一个页面经常被引用,那么可以反映该页面的流行程度和重要性等。2.3 Web日志挖掘 (Web usage Mining)Web日志挖掘的对象是 Web使用记录数据,除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、 Cookie中的信息
6、、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录,因此Web使用记录的数据量是非常巨大的,而且数据类型也相当丰富。通过挖掘相关的 Web日志记录,从中发现用户访问 Web页面的模式 ;通过分析日志记录中的规律,来识别用户的忠实度、喜好、满意度,从中发现潜在用户,增强站点的服务竞争力。Web日志挖掘对源数据的处理方法可以分为两类,一种是将 Web使用记录数据转换并传递进传统的关系表里,再使用数据挖掘算法进行常规挖掘 ;另一种是将 Web使用记录数据直接预处理再进行挖掘。Web日志挖掘技术通常可以应用到两个领域 :当用来分析 Web服务器的访问日志时,可以利用挖掘得到的服务模型来设计适应性
7、 Web站点 ;当应用到单个用户时,通过分析用户的访问历史来发现有用的用户访问模式。 Web日志挖掘由于处理数据对象通常为用户的访问历史或服务器的访问日志,无法得知数据对象代表的内容,得到的结果一般比较粗糙,但是由于该方法比较成熟而且实现起来也较内容挖掘简单,在个性化系统中也得到了较广泛的应用。3.WEB数据挖掘的流程数据采集数据预处理模式挖掘模式评估 3.1数据采集Web挖掘的数据源来自于 Web页面上的信息、 Web访问形式的数据库、 Web页面内部的结构以及页面之间的结构信息以及 Web服务器上的使用记录数据,如服务器日志、用户会话信息、交易信息等。 Web数据挖掘,针对不同的采集对象,需要应用不同的数据采集技术。