个性化关键技术研究综述.doc

上传人:gs****r 文档编号:3051579 上传时间:2019-05-19 格式:DOC 页数:25 大小:64.50KB
下载 相关 举报
个性化关键技术研究综述.doc_第1页
第1页 / 共25页
个性化关键技术研究综述.doc_第2页
第2页 / 共25页
个性化关键技术研究综述.doc_第3页
第3页 / 共25页
个性化关键技术研究综述.doc_第4页
第4页 / 共25页
个性化关键技术研究综述.doc_第5页
第5页 / 共25页
点击查看更多>>
资源描述

1、1个性化关键技术研究综述摘 要:个性化研究的关键技术主要包括有三个方面的内容:用户建模、推荐系统和评价。首先,用户建模是收集用户数据,目的是为推荐系统提供用户的兴趣、偏好等建立模型;其次,推荐系统的作用是根据用户模型为用户推荐个性化内容,是个性化的核心内容;最后,评价系统根据用户对个性化应用的满意程度,反馈给推荐系统调整建模策略。个性化应用是一个不断反馈修正的过程。 关键词:个性化 Web 挖掘 推荐系统 用户建模 个性化评价 中图分类号: G350;TP311 文献标识码: 文章编号: 1003-69(11)10059-07 Survey of Key Technologies in Per

2、sonalization Application Su Yuahao (National Science Library, CAS, Beijing, 100190) Zhao Yan (Zhengzhou Institute of Aeronautical Industry Management, Zhengzhou, Henan, 450015) Abstract:The key technology of Personalization Application includes three aspects: User Modeling, Recommendation System, an

3、d Personalization Evaluation. First, User Modeling collects 2user personal data, and provides users interests and preference to Recommendation System. Secondly, Recommendation System is the most important part of Personalization, which recommends personalized content for individual. Finally, Evaluat

4、ion provides the feedback information of users evaluation for Recommendation System to help it modulating the strategy of User Modeling. Personalization application is a process with continuous modulating its recommend strategy according to users feedback. Key words:personalization; web mining; reco

5、mmendation system; user modeling; personalization evaluation number: G350;TP311Document code: AArticle ID: 1003-6938(201)01-0059-07 1 引言 个性化最初起因于基于 Web 应用的商务智能(BI)发展,获得商业利润最大化的需要。电子商务(e-commerce)和客户关系管理(CRM)网站采用数据挖掘的方法发现顾客与商品之间的关联和分析用户购物行为,销售更多的商品和吸引顾客而不断调整营销策略。随着数据挖掘理论及其技术进步不断深化,计算机网络和网络信息管理技术的发展,基

6、于客户/服务器模式为用户和网站提供更多的交互机会。于是针对每个用户的个性化服务便迅速发展起来。 3关于个性化概念,不同的学者和研究人员,在不同的时期对其理解、及其所持观点也各不尽相同。有些从事 IT 行业的专家认为个性化是一种能力,例如,前剑桥福雷斯特研究公司的分析师 Paul Hagen 在 1999 年的一次电子商务会议上说, “个性化是一种能力,根据每个用户的爱好和行为知识,对其提供简洁的内容和服务。 ” 长期从事 IT 行业实践和研究的专家 Jill Dyche 女士,2002 年由艾迪生-韦斯利出版公司出版的“CRM 指南” ,认为“个性化是一种定制用户交流的能力,这种能力的实现是借

7、助于用户进行交流时的爱好和行为知识的获得。 ”而有些计算机技术专家认为,个性化是一种服务。例如,前 IBM 沃森研究中心的研究人员 Doug Riecken 在 2000 年美国计算机协会(ACM)通信年会上提出,“个性化是关于通过建立一种有意义的一对一关系,从而建立用户的忠诚度。同时,通过理解每一个用户特殊需要的内容,为其提供高效、有价值的服务。 ”一些从事个性化技术研究的专家学者认为,个性化是一种技术。例如,在 2003 年的个性化智能技术国际研讨会上,各国的学者和研究人员就个性化概念达成共识,认为“个性化是一种技术,这种技术根据用户的信息定制商业和每个用户电子商务的交互。用户的信息可以是

8、以前获得的,也可以是实时方式获得信息。根据可用的用户信息,商业不同部门之间进行变更以适应用户的需求。 ” 还有的一些从事信息技术研究的专家和学者认为,个性化是一种过程。例如, Kwon 分别在2007 年和 2009 年美国信息技术协会(ITAA)年会上分别提出“个性化是一个过程,在电子服务应用方面,是一个应用用户信息为其发送目标方案的过程。 ” 这些关于个性化的概念重点是从个性化是什么和个性化能4够做什么方面定义,但是,这些观点没有从系统化、全面性定义个性化。美国芝加哥德保罗大学的 Bamshad Mobasher 教授从 20 世纪 90 年代就开始个性化的研究,他对个性化的特点、历史、现

9、状和未来的发展趋势具有全面和独到的见解。因此,Mobasher 对个性化的定义具有重要的参考价值,他认为:“在 Web 上下文中,个性化意味着动态内容的发送,例如文本元素、链接、广告和产品推荐等,这些内容专门为特定用户或者一部分用户的需要或者兴趣定制的过程” 。 1 他把个性化过程看作是一个包含数据挖掘循环所有阶段中的一个典型应用。这些阶段包括数据收集、预处理模式发现、性能评价和在用户和 Web 网站之间应用实时发现的知识。 主要研究个性化的 ITWP 国际会议重点内容是个性化理论和技术,其每一次会议的成果都体现了当时的研究方法和应用领域。典型的个性化研究代表是 Mobasher 教授和其他个

10、性化研究的专家学者等研究人员,同时,Mobasher 教授一直作为 ITWP 组委会主席,许多他本人及其合作者的研究成果及文献可以通过其个人网站获得。因此,他们的个性化研究成果具有权威性和代表性。研究他们的成果对于我们未来个性化研究具有借鉴意义。总结近几年个性化研究内容,其关键技术主要包括推荐系统、用户建模、评价等三个方面。 2 个性化推荐系统 个性化推荐是 Web 挖掘结果呈现给用户的应用,其使用的数据主要来自 Web 网站与用户行为交互生成的数据。其依据原理是数据挖掘理论5基础。因此,个性化推荐使用的算法主要来自数据挖掘理论的算法。通常,个性化推荐分为基于规则过滤、基于内容过滤、基于协作过

11、滤的方法、以及这三种方法混合的推荐方法。根据不同的个性化推荐方法,采用的挖掘算法也各不相同,常用的算法类型包括关联规则发现、聚类分析、序列模式挖掘和回归分析等。 2.1 Web 挖掘 许多学者认为,Etzioni 是第一个提出 Web 挖掘(Web Mining)技术的人, 2 他在 1996 年的描述中认为,Web 挖掘是应用数据挖掘技术,从 Web 文档和服务内容里自动发现并抽取有用信息。一般情况,Web 挖掘技术可以分为 3 种类型3 :Web 内容挖掘(Web Content Mining) 、Web 结构挖掘(Web Structure Mining)和 Web 使用挖掘(Web U

12、sage Mining) (Kosala&Blockeel,2000) 。Srivastava 等人对 Web 使用挖掘的定义是4 :Web 使用挖掘是应用数据挖掘技术,为了更好的理解和服务基于 Web 应用的需要,发现 Web 数据的使用模式。 Web 内容挖掘包括应用数据挖掘技术从 Web 对象中抽取模型,Web 对象内容包括普通文本、半结构化文档(如 HTML 和 XML) 、结构化文档(如数字图书馆) 、动态文档和多媒体文档。Web 结构挖掘的目标是发现隐藏在 Web 对象之间相互连接的拓扑结构建模,对 Web 网站进行分类和分级,以发现对象之间的相似性。Web 使用挖掘是应用数据挖掘

13、技术,从 Web 数据中发现用法模式。进行挖掘的数据通常来自用户与 Web 对象的交互行为,比如,Web 服务器或者代理服务器日志、用户查询、注册数据。Web使用挖掘工具发现并预测用户行为,帮助设计者进行统计分析、改进 Web6网站、吸引访问者或者为有规律的用户提供个性化服务。Web 使用挖掘与Web 结构挖掘和 Web 内容挖掘的区别在于,Web 使用挖掘反映的是人与网络交互的行为,对用户行为与 Web 网站交互的分析可以深入理解定制与个性化的用户 Web 体验。 Web 使用挖掘使用的数据可能来自 Web 服务器访问日志、代理服务器日志、引用页日志、浏览器日志、错误日志、用户资料、注册数据

14、、用户会话、用户交易、cookies、用户查询或者是用户书签数据(Gunduz,2003) 。通过分析这些文件和文档,我们可以获得用户感兴趣的使用模式和信息。Web 使用挖掘最初在电子商务领域,Web 使用挖掘吸引了销售决策者和电子商务专家的强烈兴趣。 5 随着数据挖掘理论和网络信息管理技术的发展,个性化研究现在已经渗透到各个行业和领域,例如,电信行业、银行金融机构、移动设备和反恐领域等。 2.2 基于规则过滤的技术 基于规则过滤方法的典型例子就是“购物篮”算法,通过查找购买物品之间的联系为用户推荐。其特点在于采用关联规则、回归算法,找到用户对相关联物品之间的兴趣度、发现用户偏好,预测用户未来

15、行为。Peng 等人提出的一种个性化推荐模型采用 apriori 算法和用于统计的 tf-idf 加权技术,包括三部分:资源描述、用户偏好抽取和个性化推荐。首先,通过分析挖掘用户 Web 访问日志获取的资源信息,生成资源文本空间向量;然后,采用 apriori 算法对这些向量进行计算,获得兴趣集;最后,根据推荐模型,把推荐过滤和存储的资源内容推荐给用户。76 2003 年华墨西哥阿卡普尔科举办的第 2 届个性化智能技术(ITWP2003)研讨会上, 7 Mobasher 等人基于关联规则和序列模式的个性化推荐模型对网站的影响进行了研究。 8 Forsati 等人提出一种用于个性化基于权重的关联

16、规则算法,该算法是对传统的关联规则算法的扩展,允许交易中的每一个项目分配一个权重以反映用户对该项目的兴趣度。在结果关联规则集里每一个项目都对应一个权重参数,根据用户的兴趣程度,为每个用户访问的 Web 页面分配一个时间权重和访问频率权重。这种方法能够客观地、更有效的表示预测结果,对推荐系统效率有很大改进。 9 2.3 基于内容过滤的技术 基于内容的过滤推荐技术特点是, 10 根据用户过去选择项目的特点,从项目描述、终端数据库里的项目属性关联抽取项目内容特点,系统为其推荐相似的项目。基于内容的过滤系统最大的缺点是用户模型的建立过度依赖于用户以前选择和点击的具体项目。此外,基于内容过滤技术要求项目

17、能够有效代表抽取的文本特点,Web 数据异构的特性决定了这种方法并不总是有效。更详细的基于内容的过滤系统内容参见文献。11 2.4 基于协作过滤的技术 维归约、关联挖掘、聚类和贝叶斯学习是协作过滤系统采用的一些技术。协作过滤推荐系统利用了用户的相似性进行推荐,而基于内容过滤的推荐系统根据商品内容的相似性进行推荐。 Amazon 是使用协作过滤推荐系统的先驱,作为市场战略的一部分,8提供“针对每位顾客的个性化商店” ,这种方法即有益于顾客又有益于公司。公司拥有顾客更准确的模型,可以对顾客的需求有更好的了解。而服务于这些需求则可在产品的交叉销售、提升销售、产品亲和力、一对一促销、大购物篮和顾客忠诚

18、度方面获得更大的成功。2001 年美国西雅图举办的第 1 届个性化智能技术(ITWP2001)研讨会上, 12 Mobasher 等人的根据匿名 Web 使用数据提高协作过滤效率的研究,根据数据挖掘和 Web 技术实现个性化协作过滤系统。Aghabozorgi 等人提出一种基于 Web 使用挖掘的离线个性化系统动态模型,该模型采用聚类算法。其特点是,根据用户交易,把离线模型周期性地转变为动态模型,解决了离线模型随着时间的流逝,一些新用户的加入和原有用户行为的改变引起的个性化用户行为预测精度下降问题。 13 协作过滤推荐系统14 寻找与目标顾客历史吻合的顾客群组(称为近邻) ,比如他们购买相似的

19、商品或对某种商品的评价。协作过滤推荐系统面临两个主要挑战:可伸缩性和确保对顾客推荐的质量。可伸缩性重要是原因是,电子商务系统必须能够实时搜索数以百万计的潜在近邻。如果网站使用浏览模式作为产品偏爱的指示,则对某些顾客可能会有数以千计的数据点。保证推荐质量是赢得顾客信任的基本要素。如果顾客听从了系统的推荐但是最终并不喜欢这些推荐的商品,那么他们就会对该推荐系统产生怀疑,甚至不用。有些推荐系统采用基于内容过滤和协作过滤的推荐技术,进一步改善系统的推荐。 2.5 基于混合过滤的技术 基于规则过滤和基于协作过滤技术的缺点是,通常需要离线学习训9练样本生成关联规则或者用户组的分类,这种方法具有可扩展性差和

20、动态变化缓慢的特点。因此,不适于在线的迅速响应,尤其不适合实时查询的响应。基于内容过滤技术的优点是及时响应快,总是处于在线状态,但是,其缺点是依赖于用户的历史操作记录,如果用户的兴趣偏好变化或者历史记录缺失,推荐给用户的结果将会产生严重的失真。因此,结合这三种方法,将会有较快的响应速度、较好的推荐准确性和较高的预测精度。 当前解决基于内容过滤和协作过滤不足的研究热点是采用混合推荐算法,目的是提高推荐的精度。Burke 提出的方法是混合基于内容和协作过滤技术,通过丰富变量的方法生成推荐系统,旨在提高推荐的质量。15 有的混合推荐系统,例如,Ardissono 等人的用户建模和个性化推荐技术研究,

21、 16 通过收集多种用户偏好的信息,采用多种异构推荐技术的方法实现。这种方法越来越多地被用于各种个性化服务中,例如,Nima 等人关于 Q-learning 的 Web 推荐系统研究, 17 Chen 等人的手机新闻混合推荐系统的普适访问研究。 18 Mobasher 等人提出一种框架,把在线用户访问 Web 页面的会话活动过程与在线数据准备和数据挖掘任务分开处理,基于聚类的技术把 Web 站点使用和内容模型采用统一的表示方法,用于实时的个性化操作。这种方法的优点在于 Web 站点的使用和内容特点集成到 Web 挖掘框架里,为推荐引擎提供统一的访问方式,从而提高了个性化的效率。 19 2009

22、 年美国帕萨迪纳举办的第 7 届个性化智能技术和推荐系统(ITWP2009)研讨会上, 20 Rosenthal 等人的提出的研究旨在提高推荐系统在线预测精度。 103 个性化用户建模 个性化推荐进行 Web 使用挖掘的基础是用户建模,根据用户模型进行挖掘,发现用户的兴趣和偏好,预测其未来的访问行为,并为其推荐个性化信息。个性化用户建模需要根据推荐系统的需求收集 Web 使用数据。所有个性化推荐方法的好坏在很大程度上依赖于收集的数据质量。如果收集到的数据能够准确地反映出用户兴趣和偏好,则有助于个性化推荐系统性能的提高,否则,个性化系统推荐给用户的信息不能满足要求,用户可能逐渐失去个性化推荐的兴

23、趣,也可能有糟糕的推荐会激怒用户,最终会导致用户根本不用该个性化推荐系统。 用户模型与用户偏好和兴趣的数据相关,这些数据的收集不应该过于强调用户自身数据。收集用户数据常用的方法有两个, 21 一是显式询问他们的偏好,二是隐式监测用户的行为推到他们的偏好。 显示询问用户偏好信息的方法有几种:具体兴趣的调查问卷,例如,喜欢体育新闻或者科技新闻;编辑用户关键词;或者直接询问用户具体的兴趣。这些方法都有其局限性,首先,因为这些方法都无法准确地动态反应用户兴趣和偏好的变化。并且,通过这些方法收集到的数据可能会引起对用户偏好错误的判断,因为并不是所有的用户提供可靠的信息。其次,这些方法重点都是依赖于来自用户的信息,因此,收集的用户模型数据片不全面。最后,并不是所有的用户都愿意显式地提供他们的偏好信息。 隐式收集用户偏好是通过一种特殊的智能代理监测用户行为,从收集到的用户信息推导用户的偏好。用户行为有几个方面可以被监测到,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 学科论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。