1、 本 科 毕 业 论 文 个性化电影推荐系统的设计及实现 协同过滤算法分析 Design and Implementation of Personalized Movie Recommender System Collaborative Filtering Analysis 姓 名: 学 号: 学 院:软件学院 系:软件工程 专 业:软件工程 年 级: 指导教师: 年 月I 摘 要 随着网络技术的应用和普及、电子商务的迅猛发展,越来越多的信息充斥在网络之上。如何在众多的资源中找到适合自己需求的信息,成为众多学者、专家和网络用户关心的核心问题之一。推荐系统根据用户访问项目的历史记录以及项目之间的
2、相关信息可以构建用户的兴趣模型,对繁杂的信息进行过滤,并向用户推荐其可能感兴趣的项目。推荐系统已经成为目前解决信息过载最有 效的工具之一。 协同过滤技术是推荐系统最为核心的技术之一,也是目前应用最为广泛和成功的技术。协同过滤算法可以分为基于全局的算法和基于模型的算法两种,其中基于全局的算法主要依赖最近邻算法,又可以分为基于用户的全局算法和基于项目的全局算法。 基于模型的方法则有贝叶斯网络方法、奇异值分解的方法等。 本文以推荐系统的协同过滤算法为研究目标,基于 MovieLens 数据集,通过对算法 MAE 值的计算,比较了基于全局的协同过滤算法中不同相似度算法的准确性,以及特征向量维度和迭代次
3、数的对奇异值分解方法的协同过滤算法的影响。 关键词: 个性化推荐;协同过滤; MAE 值 II Abstract As the increasing popularity of the network technology and the rapid development of e-commerce, more and more information is flooding in the network. How to find information adapted to their needs in huge resources has become the core issue of
4、 concern of many scholars, experts and Internet users. Recommender system builds the users interest model based on the history of user accesses and related information, filters the complex information, provides recommendations users may be interested in. Recommender system has become one of the most
5、 effective tool to solve information overload. Collaborative filtering is one of the most core technology in recommendation system, and currently the most widely used and successful technique in this field as well. Collaborative filtering algorithms can be classified as the neighbourhood based algor
6、ithm and the model-based algorithm. The neighbourhood based filtering relied on the global nearest neighbour algorithm can be divided into user-based filtering and item-based filtering. Model-based methods have Bayesian network method, singular value decomposition methods, etc. In this paper, the co
7、llaborative filtering algorithm in recommendation system is our mainly research objectives. We use MovieLens data set, calculate the MAE value of algorithms, compare the accuracy of different collaborative filtering algorithms for similarity, and analyse the influence of the feature vector dimension
8、 and the number of initial steps on the singular value decomposition on collaborative filtering algorithms. Key words: Personalized Recommendation; Collaborative Filtering; MAE III 目录 第 l 章 绪论 . 1 1.1 研究背景与意义 . 1 1.2 问题现状 . 1 第 2 章 个性化推荐系统 . 4 2.1 个性化推荐系统概述 . 4 2.2 个性化推荐系统结构 . 4 2.3 个性化推荐系统技术 . 5 第
9、3 章 协同过滤算法综述 . 8 3.1 协同过滤算法步骤 . 8 3.2 协同过滤算法分类 . 8 3.2.1 基于全局的协同过滤算法 . 9 3.2.2 基于模型的协同过滤算法 . 10 3.3 协同过滤算法的优势 . 12 3.4 存在问题 . 12 第 4 章 推荐模块及算法分析 . 14 4.1 推荐模块 . 14 4.2 Taste 工具简介 . 17 4.3 算法分析 . 19 4.3.1 基于全局的协同过滤算法 . 19 4.3.2 基于模型的协同过滤算法 . 25 4.4 实验与结果 . 29 4.4.1 实验数据 . 29 4.4.2 评价标准 . 29 4.4.3 实验过
10、程与结果分析 . 33 第 5 章 结论 . 39 5.1 总结 . 39 5.2 展望 . 39 致谢 . 43 参考文献 . 41 IV Contents Chapter 1 Introduction . 1 1.1 Background and Purpose. 1 1.2 History. 1 Chapter 2 Personalized Recommender System. 4 2.1 Outline. 4 2.2 Architecture . 4 2.3 Techiques. 5 Chapter 3 Summary of Collaborative Filtering Algor
11、ithms . 8 3.1 Procedure of Algorithms. 8 3.2 Classification . 8 3.2.1 Neighborhood-based Collaborative Filtering . 9 3.2.1 Model-based Collaborative Filtering . 10 3.3 Advantages . 12 3.4 Problems . 12 Chapter 4 Recommender Module and Algorithm Analysis. 14 4.1 Recommender Module. 14 4.2 Introductio
12、n of Taste. 17 4.3 Algorithm Analysis . 19 4.3.1 Neighborhood-based Collaborative Filtering . 19 4.3.2 Model-based Collaborative Filtering . 25 4.4 Experiments and Results . 29 4.4.1 Experimental Data. 29 4.4.2 Evaluation Criterias. 29 4.4.3 Experimental Procedures and Results Analysis . 33 Chapter
13、5 Conclusion. 39 5.1 Summary. 39 5.2 Prospect . 39 Acknowledge . 43 References . 41 个性化电影推荐系统的设计及实现 协同过滤算法分析 1 第 l 章 绪论 1.1 研究背景与意义 随着信息高速公路的发展和普及,信息量以指数规律迅猛地增长和扩展,因而形成了“信息过载” 1。对于普通的用户来说,信息过载己经成为日益严重的问题。信息过载是由于互联网提供的信息的复杂性和广泛性,并且限于浏览者的知识水平与认识能力,造成浏览者无法正确理解和使用信息。解决这些问题关键在于将互联网从被动接受浏览者的请求转化为主动感知浏览者的信
14、息需求,实现互联网系统对浏览者的主动信息服务。新一代的信 息服务将是个性化主动信息服务,如何从海量的数据和信息中高效地获取有用知识,如何从迅速爆炸的信息中及时地获取最新信息,如何提高信息检索与推送的智能水平,以及如何满足各种用户不同的个性化需求等,都是新的信息服务系统面临的挑战性课题。 推荐系统就是在这种背景下,应运而生。它可以为浏览者提供个性化的信息推荐服务。这同传统的“一对多”式的搜索引擎信息服务完全不同,返回的结果质量更高、用户参与程度更低,大大降低了用户寻找信息的成本。协同过滤是目前各种推荐系统中应用最为广泛和成功的技术。它解决问题的思路是:既然机器自动内 容分析不完全、不精确,那么可
15、以用人类自身的评价过滤掉那些杂乱、低质量的信息。协同过滤通过相似性计算找到相似用户群,根据兴趣相似用户的评价,产生对某些事物的预测评价。同传统的基于内容的过滤相比,协同过滤可以发现用户本身没有发现的新的兴趣;由于共享了他人的评价和经验,因此推荐质量较高。 1.2 问题现状 协同过滤推荐技术是推荐系统中应用最早和最为成功的技术之一。它一般采用最近邻技术,利用用户的历史喜好信息计算用户之间的距离,然后利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度, 系统从而根据这一喜好程度来对目标用户进行推荐。协同过滤最大优点是对个性化电影推荐系统的设计及实现 协同过滤算法分析
16、 2 推荐对象没有特殊的要求,能处理非结构化的复杂对象,如音乐、电影。协同过滤推荐技术也存在自身的不足,主要表现在用户评分数据比较少的时候推荐质量比较低。因此多种数据多种技术的有效集成得到研究者的重视。 Balabanovi 等人提出通过基于内容的过滤和协同过滤的复合型推荐系统提高推荐质量。文中提出基于 Web 使用挖掘和 Web 内容挖掘的推荐系统。 近几年电子商务的快速发展推动了推荐系统的发展,其商业应用不断的扩大,诸如互联网上最大的书店 Amazon corn, Web 上最大的 CD 商店 CDNow corn, 全球最大的 C2C 网站 淘宝网等等。由微软研究院开发的协同过滤工具己被
17、 集成在微软的 Commerce Server 产品中,并被许多站点使用。协同过滤技术作为 在线购物网站的一部分越来越流行,国际上著名的个性化推荐系统也很多,一些典型推荐系统的开发情况如表 1-1 所示。 表 1-1 典型推荐系统及开发人员和时间 2 Ringo 是由麻省理工学院的研究人员设计的一个音乐推荐系统。这个系统会要求用户首先对音乐家作出评比,再依据评比的结果计算用户的相似度,然后将用户分群,最后再由同一族群的用户互相推荐音乐 3。 系统名称 开发设计人员与时间 应用领域 Tapestry Goldberg 1992 邮件过滤 Grouplens Resnick 1994 网络新闻推荐
18、 Ringo Shardanand 1995 音乐推荐 PSUN Sorenson 1995 网络新闻过滤 InfoFinder Kruwilch 1996 信息推荐 LifeStyle Finder Krulwich 1997 购物向导、旅游推荐 Personal WebWatcher Mladenic 1998 网页和网站的推荐 Movielens Good 1999 电影推荐 ACR New Mobasher 2000 网络新闻过滤 WebSell Cunningham 2001 购物推荐 Amazon Amazon 2003 电子商务领域,书籍推荐 个性化电影推荐系统的设计及实现 协同
19、过滤算法分析 3 GroupLens 是由 Minnesota 大学开发的自动协同过滤推荐系统,用于新闻组信息推荐。 GroupLens 系统通过用户的评分信息自动搜索用户的最近邻,然后根据最近邻居的评分信息产生最终的推荐结果 4。 MovieLens 也是由 Minnesota 大学开发的研究型自动协同过滤推荐系统,用于推荐电影。与 GroupLens 不同, MovieLens系统是一个基于 Web 的荐系统,系统通过浏览器的方式收集用户评分数据和展示推荐结果。 个性化电影推荐系统的设计及实现 协同过滤算法分析 4 第 2 章 个性化推荐系统 2.1 个性化推荐系统概述 个性化推荐系统正式
20、的定义是 Resnick&Varian 在 1997 年给出的:“它是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程 5”,现在这个定义己被广泛引用。目前,个性化推荐系统己广泛运用到各行 业中,推荐对象包括书籍、音像、网页、文章、新闻等。推荐系统作为一种信息过滤的重要手段,其最典型的应用是在 B2C 电子商务领域,商家根据不同用户的兴趣、爱好推荐给顾客可能感兴趣或满意的商品,从而与用户建立长期稳定的关系,提供用户忠诚度,防止用户流失。 推荐系统是一种为了减少使用者在搜寻信息过程中所附加的额外成本而提出的信息过滤机制。 Resnick 认
21、为一般信息过滤系统也泛称为推荐系统,它不仅可以依据使用者的偏好、兴趣、行为或需求,推荐出使用者可能有所需求的潜在信息、服务或产品,还可以将推荐系统与企业电子商务的营运 架构整合,将为企业带来许多潜在的利益。 2.2 个性化推荐系统结构 个性化推荐系统主要由以下三个模块组成:输入模块、推荐模块、输出模块 3。 输入模块主要负责对用户信息的收集和更新。输入来源按时间来划分可以分 为用户当前的行为输入和用户访问过程中的历史行为输入,也可以分为个人输入 和群体输入两部分。用户个人输入主要指推荐系统的目标用户为了得到系统准确 的推荐结果而对一些项目进行评价,这些评价表达了用户自己的偏好。群体输入 主要指
22、以群体形式出现的评价数据。 推荐方法模块是整个电子商务个性化推荐系统的核心部分 ,它直接决定着推 荐系统的性能优劣。目前电子商务推荐系统中常用的推荐方法有:于主题分类查找方法的分类浏览、基于内容的检索、统计分析、关联规则、协同过滤。 输出模块负责将推荐结果输出给用户。电子商务推荐系统的输出形式主要包括:相关产品输出、个体文本评价输出、个体评分输出、平均数值评分输出、电子邮件输出、编辑推荐输出等。 个性化电影推荐系统的设计及实现 协同过滤算法分析 5 2.3 个性化推荐系统技术 根据实现途径不同,推荐技术还可以分为信息检索、基于规则的推荐、基于内容的推荐、协同过滤推荐 6。 ( 1)信息检索 信
23、息检索在推荐系统的应用点主要包括分类浏览和关键 字查询。商品分类浏览方法是基于主题分类的信息查找方法,其优点在于既方便网站进行商品信息管理,也符合人们认知事物的习惯。但是随着科学技术的不断发展,交叉学科越来越多,导致相当多的商品难以给出其明确分类,使得用户逐层浏览的结果是有可能找不到原以为应该属于该分类的商品。其次,商品分类浏览比较耗时,用户必须首先明确自身所需商品的分类,然后逐层查找。关键词查询的优点是查全率较高,查询速度快,且查询不限于特定领域,用户使用方便。但是关键词查询查准率较差,用户通常需要进行二次乃至多次查找才能得到自己真正所需内容。关键字查 询的个性化程度较低,任何用户只要给出相
24、同的关键词,系统都会返回相同的查询结果,因此不能实现新异发现 7。 ( 2)基于规则的推荐 关联规则作为数据挖掘领域的重要技术,已在零售领域应用多年,通过用户交易数据产生关联规则,再结合用户当前购买行为作出推荐,主要用于实现交叉销售。最典型的关联规则应用是购物篮分析,即通过研究用户购物篮中商品之间的关系,发现同时被频繁购买的商品,从而帮助电子商务网站在用户下订单和付款时向其推荐相关商品。关联规则还有助于网站调整商品在页面上的陈列位置。关联规则的缺点在于它是根据被购商品之 间的关系来建立商品项之间的关联,因此个性化程度不高,且在数据集高维、稀疏的情况下会导致弱规则。 Sarwar 等人 8的实验证明关联规则的推荐效果不如协同过滤。此外,关联规则属于基于规则的推荐系统范畴,基于规则的系统的缺点是规则质量很难保证且不能动态更新,随着规则的数量增多系统将变得越来越难以管理 9。 ( 3)基于内容的推荐 基于内容的过滤又称为认知过滤。基于内容的过滤根据信息的内容和用户模板之间的相关性向用户推荐信息,它们利用资源与用户兴趣的相似性来过滤信息。基于内容的过滤可以应用于过滤广告,过滤垃圾邮件 ,过滤反动、色情网页等等。
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。