基于RSS的个性化信息服务模型研究.doc

上传人:gs****r 文档编号:1713467 上传时间:2019-03-12 格式:DOC 页数:14 大小:119.50KB
下载 相关 举报
基于RSS的个性化信息服务模型研究.doc_第1页
第1页 / 共14页
基于RSS的个性化信息服务模型研究.doc_第2页
第2页 / 共14页
基于RSS的个性化信息服务模型研究.doc_第3页
第3页 / 共14页
基于RSS的个性化信息服务模型研究.doc_第4页
第4页 / 共14页
基于RSS的个性化信息服务模型研究.doc_第5页
第5页 / 共14页
点击查看更多>>
资源描述

1、1基于 RSS 的个性化信息服务模型研究摘要利用 RSS 技术实现一站式服务可以满足用户对信息时效性、检索高效性的要求。本文通过对个性化信息服务的过程分析,构建了基于 RSS 的个性化信息服务模型,该模型包括信息采集模块、资源获取模块、RSS 聚合模块、需求分析模块、信息处理模块、信息发布模块、反馈处理模块等 7 个模块,在资源获取模块、RSS 聚合模块、信息发布模块中运用了 RSS 技术,加入了自动生成 RSS Feed 和选择订阅、去重等处理。本文还分析了该模型的特点、作用并对模型进行了测试。 关键词个性化信息服务;RSS;服务模型 中图分类号G252文献标识码A文章编号1008-0821

2、(2013)02-0046-06 1982 年英国情报学家威尔逊(T.D.Wilson)在论文“信息用户模式:研究进展与前景”1中从模式的角度出发描述了自 19 世纪 50 年代以来30 年信息服务的发展和前景,此后模式因其简洁直观等特点经常被用于情报学领域。计算机技术和网络技术的高速发展一方面方便了用户对信息的获取,另一方面也给用户带来了“信息爆炸”的困扰,人们得到大量无用、不真实的信息,急切地需要满足自身需求的信息。这就导致了信息服务模式从以信息服务机构为中心,坐等用户上门的被动模式转向能满足个人需要的个性化需求模式即以用户为中心,使用户满意的主动模式。RSS 技术在信息推送方式上具有很好

3、的动态性、时效性,可以将个2性化的信息方便及时的推送给用户。同时其在信息聚合上的巨大优势,使他可以将用户需要的信息集中在一起,用户不用每天都上很多个网站去了解自己所需要的信息。因此,为了给用户提供更好的服务,减少用户登陆多个网站检索所需信息的时间,满足用户对信息时效性的需求,解决用户需求的个性化与信息资源“假过剩”之间的矛盾,将 RSS 技术引入个性化信息服务中,建立基于 RSS 的一站式个性化信息服务模型是有积极意义的。 1 相关研究 国内外学者对 RSS 的研究主要集中在两个方面:一是 RSS 聚合技术;二是 RSS 搜索引擎。 RSS 自 1999 年由 Netscape 创建以来一直都

4、是聚合技术的代表,文献2提出一个较完整的基于 XML 流的 RSS 个性化内容聚合运行模型,利用5 个模块的相互配合为用户提供 3 个层次的个性化内容聚合服务。文献3指出自 2003 年以来互联网上出现了一些中心化信息聚合服务商,以 Feed在线聚合、阅读为基础服务,派生出多种服务方式。文献4指出RSS(信息聚合)在电子商务网站中的应用方式:创建新型信息发布平台,提供 RSS 推送服务;提供个性化 RSS 服务;自动跟踪功能。 对于 RSS 搜索引擎国内专业的不多,国外除了主流的搜索引擎涉足RSS 搜索外,也出现了大量专业 RSS 搜索引擎5。柯青在基于 RSS 技术的个性化信息服务新方式由雅

5、虎看 RSS 在搜索引擎中的应用中通过对雅虎的 My Yahoo!的实证研究,探讨了 RSS 技术在搜索引擎中的应用原理。文献6通过对 Feedster、Daypop、BlogPulse 的分析指出专3业 RSS 搜索引擎的现状。 将 RSS 技术应用在信息服务中的主要集中在升级图书馆传统服务,建设“图书馆 2.0”中。应用较多的是7:(1)馆内新闻发布,如中国科学院国家科学图书馆的服务公告、台湾大学图书馆开通的 RSS 资讯服务,集馆内新闻与分类新到资料通告于一体;(2)专题指南/导航,如武汉理工大学图书馆的专题信息门户 RSS 推送服务;(3)预约通知,如厦门大学图书馆预约通知,可以根据借

6、书证号定制 RSS Feeds;(4)新资源通报,如 Ann Arbor 地区图书馆不但提供 RSS 通报服务,还能够对OPAC 搜索结果定制 RSS,使用户能够及时地掌握图书馆最新资源。吴航,庞跃霞通过访问 111 所“211 工程”高校图书馆的网站对高校图书馆 RSS应用的现状进行调研的结果显示:在被调研的 111 所“211 工程”高校馆中,有 42 所提供 RSS 服务,所占比例约为 38%,有 63 所未提供 RSS 服务,所占比例约为 57%,有 6 所网站无法访问,所占比例约占 5%。各高校馆RSS 服务项目主要是信息推送和信息聚合8。 也有学者将 RSS 技术应用在其他方面,文

7、献9就利用 RSS 技术设计了一个操作方便、功能完备的社区信息系统,实现了社区服务的高效运作。文献10则提出了基于 RSS 的个性化信息检索方式等。 个性化信息服务的整个过程是信息用户面临需要解决的问题,继而产生信息需求,希望服务者能提供满足自身个性化需求的服务内容。服务者根据用户的个性化需求采用某种策略生产信息产品,产生符合信息用户个性化需求的有针对性的服务内容,再运用适当的策略把这些服务内容提供给用户。用户接收到服务者提供的服务内容之后满足了自己的4个性化需求,遇到的问题得到解决,这样就完成了一次完整的个性化信息服务,如图 1 所示。 2.1 基于 RSS 的个性化信息服务模型架构 与传统

8、的被动型服务模式相比,本文探讨的基于 RSS 的个性化信息服务是以用户为中心,以用户的个性化需求 11 图 1 个性化信息服务过程图 11 为出发点,通过对用户的行为分析,建立用户兴趣模型库实时跟踪用户兴趣的变化,将用户兴趣模型与用户需求相结合,为用户提供最满意的、最具时效性的信息内容;通过对用户兴趣的挖掘,主动推送用户可能感兴趣的需求内容;同时充分利用 RSS 技术在信息推送方式和信息聚合上的巨大优势,一旦用户感兴趣的内容有更新,及时推送给用户,兼顾时效性和准确性。由此构建出基于 RSS 的个性化信息服务模型,见图 2,图中是一次完整的基于 RSS 的个性化信息服务的服务过程。 信息服务者为

9、信息用户提供的基于 RSS 的个性化信息服务模型的前提是:用户 i 成功注册该网站,网站已将用户 i 的基本信息存入用户信息库,并利用用户 i 所填初始兴趣信息和通过对用户 i 浏览行为和兴趣习惯分析得出的隐式信息构建了用户兴趣模型库,实时根据用户兴趣模型库更新用户兴趣模型库中的用户兴趣,完成用户个性化信息的采集。 模型的思想是:(1)用户 i 在产生个性化需求后,就会实施为满足其个性化信息需求的搜索查询行为;(2)信息服务者在接收到用户 i 的个性化需求之后定制用户需要的信息;(3)信息服务者调用用户兴趣模型库中的用户兴趣以及用户的个性化信息需求,确定用户的需求,完成主动5需求推荐;(4)确

10、定用户 i 的需求,与信息资源库交互得到查询结果,并将查询结果通过阅读器或浏览器以用户 i 指定的形式发布给用户i;(5)用户 i 通过反馈处理对收到的信息内容进行内容相关度和内容感兴趣程度的评价,服务者根据反馈信息调整用户信息模型,并完成用户兴趣模型库的更新;(6)信息服务者定期从网上下载信息资源,通过RSS 分类聚合,将分类 RSS Feed 存储在信息资源库。一旦资源有更新,就会自动进行需求询问,与用户兴趣模型库中用户的所有需求进行比对,查询用户是否订阅此信息资源,用户如有订阅立即将新资源发布给用户。该模型为三层 B/S 模式,用户只需要打开浏览器或者阅读器即可进行个性化的信息服务,所有

11、处理操作都在后台服务器端完成。模型包括7 个模块,分别是信息采集模块,资源获取模块,RSS 聚合模块,需求分析模块,信息处理模块,信息发布模块和反馈处理模块;3 个数据库,分别是用户信息库,信息资源库和用户兴趣模型库。其功能作用如下: 2.1.1 信息采集模块 11 图 2 基于 RSS 的个性化信息服务模型 11 这一步是个性化服务的基础,其收集信息的质量与数量将直接影响对用户的需求分析质量。采集的内容包括采集用户经常访问的地址与栏目、感兴趣的信息内容、用户的 IP 地址、停留时间、访问的时间频率、经常检索的关键词、进行电子讨论的话题、访问的时间段、用户必要的个人信息等11。信息采集模块负责

12、收集这些信息,并把这些采集的信息顺利地送往用户信息库和用户兴趣模型库。 2.1.2 资源获取模块 6这一模块就是从网上获取用户定制的资源,并将 Feed 存入 Feed 库。信息来源可以分为三大类:传统的网页信息(以 HTML 格式为主) 、RSS 信息源以及多年来积累的自有的信息资源。非 RSS 源的信息主要是 HTML 格式的,对于 HTML 信息的获取方法很多,也比较成熟,准确率也比较高12。对于用户定制的 RSS 源的资源,可直接将 Feed 存入 RSS 源 Feed库。如果用户想定制的是非 RSS 源的资源,就要先生成 Feed,再将 Feed存入对应的 Feed 库。可以使用 R

13、OME v0.9 来聚合和构造 RSS,其核心代码如下: 随着用户的增加,利用此方式生成 RSS 对服务器造成的负担比较大,可以通过动态缓存技术来有效解决这个问题,也就是每生成一个 RSS 就将它存入缓存中,当用户请求到来时可以直接使用,从而有效缓解服务器的负荷。 资源获取模块具体流程如图 3 所示:11 图 3 资源获取模块流程图 11 2.1.3RSS 聚合模块 该模块包括 RSS 解析和 RSS 分类聚合。 (1)RSS 解析:获得 RSS Feed 中的信息,输入参数包括 RSS 内容字符串、项的数量,输出为每个项的标题、URL 和描述。 (2)关键词提取:从标题中提取实词作为该信息的

14、关键词。 (3)RSS 分类聚合:依据“类间距离大,类内距离小”原则,提取标题、描述中的关键词,将 Feed 按照不同的类进行聚合,发送到信息资源库中。 2.1.4 需求分析模块 7用户信息需求只是用户总需求的一部分。所以在分析用户需求时,不仅要考虑用户信息需求,更要考虑到用户其他方面的需求,如情感、个性、动机等13。需求分析就是调用用户信息库中的信息,包括基本信息和经分析得到的用户兴趣信息等,结合用户提出的个性化信息需求在与用户不断地交互中分析得到用户的确定需求,并根据用户信息库中用户类的分析,为用户可能需要的信息需求提供推荐性服务。 2.1.5 信息处理模块 信息处理模块将信息资源库中的相

15、关资源与用户确定的信息需求进行匹配,根据相关性进行排序,相关度越高的越靠前。同时考虑发布时间,将最新发布的信息排在前面。当有新资源进入信息资源库时,也要把这些新资源与用户的所有需求进行匹配,将用户感兴趣的内容发送给信息发布部分。主要包括: (1)搜索算法和查询:从信息资源库中按类别搜索查询相关信息; (2)信息匹配、选择订阅:将检索到的信息集合与用户需求集合进行匹配,根据用户对信息的要求(关键词中包含某字段、禁止某字段)进行订阅选择; (3)去重(可选):用户在订阅频道时,要对频道进行优先级设置。当一些频道(频道数2)出现相同关键词的信息时,对这些信息进行去重,根据频道的优先级只选择优先级为最

16、高的频道的相关信息,在优先级都不相同的情况下,可去除 n-1 条重复信息。去重处理流程图如图 4所示: 11 图 4 去重处理流程图 11 8(4)查询结果处理:负责对最终接收的信息进行优先级排序等处理。根据用户对信息的排序要求进行相关度排序,同时考虑发布时间,将最新发布的信息排在前面。 如果用户选择去重处理,则去重处理之后直接将查询结果发送到信息发布模块。 2.1.6 信息发布模块 信息发布就是按照用户指定的或者最能接受的方式将最终的信息内容存储并展现在用户面前,用户先阅读摘要,然后根据自己的需要进一步阅读相关内容。基于 RSS 技术在信息推送方式的巨大优势,一旦用户感兴趣的内容有更新,及时

17、推送给用户。 2.1.7 反馈处理模块 用户获得信息内容后给出反馈,通过有效的反馈机制得到用户对内容的相关度和感兴趣程度的反馈和评价。这些反馈和评价情况也将再次影响用户需求,同时也关系到用户是否会再次使用该信息服务者提供的信息服务。所以根据用户对信息内容的感兴趣程度修改用户兴趣模型,根据用户对内容相关度的打分修改信息资源库中信息资源,保证兴趣模型更贴近用户的真实需求,信息资源库中信息更加精确。 2.1.8 信息资源库 信息资源库的信息要实现有序的组织存储,所以在信息分类时,考虑到实际的应用情况,参考中图分类法和网络上常用的划分,将科技信息按照学科(行业)划分为:信息技术、生物科技、农业科技、能

18、源技术、航天技术、环保科技、材料科学、军事科技、交通科技等大类12。9资源按照时间进行区分,进一步通过关键词的类别进行分类存储。 2.1.9 用户信息库和用户兴趣模型库 用户信息库用于用户沟通,用户分析与分类和用户管理。目的是让信息服务机构了解用户“是怎样的” ,帮助信息服务机构制定沟通策略。对于这部分信息,信息服务机构一定要明确哪些用户信息对于用户分析与分类是有帮助的,且这些信息以及用户分析与分类是否可以指导信息服务机构制定沟通策略。否则,再多的信息都是没有效率的14。用户信息库存储用户的显式基本信息,是用户需求分析的基础。 用户兴趣模型库存储用户兴趣模型。用户兴趣模型是反映用户兴趣特征的数

19、学模型,也即用户信息需求的计算机语言描述,是个性化信息服务的直接对象15。信息服务者对用户的兴趣、爱好、行为习惯等建模和表示,以便更好地“理解”用户的需求,兴趣模型库中不但存储用户自身的信息,还存储相似用户类的信息。作用是:帮助用户发现和筛选信息,通过对用户过去和当前的行为,预测用户将来的操作习惯和感兴趣的信息,即实现用户目标的识别。在主动需求推荐时,根据相似用户类的兴趣进行推荐。 总之,基于 RSS 的个性化信息服务就是各模块智能匹配的过程。该模型中用户作为信息服务的主要参与者是模型的初始节点,用户的个性化信息需求是服务的产生原因,7 个模块是信息服务者的主要工具,其功能作用就是信息服务策略

20、,3 个数据库是信息服务者提供信息服务的保障,信息发布模块发送给用户的最终结果就是满足用户个性化需求的信息内容。在整个模型中最终结果即信息内容是根据用户个性化需求定制的,10也是通过对用户的兴趣分析及需求分析个性化生产的,与信息用户是一一对应的。本模型中加入了主动需求推荐,根据用户信息库中用户类的信息需求为用户的潜在需求提供推荐。 2.2 基于 RSS 的个性化信息服务模型的特点 (1)针对一些阅读器无法直接订阅非 RSS 源信息资源和部分 RSS Feed 生成网站无法登陆等问题,在模型中加入了 RSS Feed 自动生成程序。用户可以不用考虑自己订阅的网站是否是 RSS 源,只需要将希望订

21、阅的网站网址输入,即可完成相关资源的订阅,节省了用户的时间,同时也在一定程度上降低了用户对 RSS Feed 生成网站的依赖。该模型还将 RSS源和非 RSS 源分开管理,分开检索,提高了资源获取模块的效率; (2)RSS 分类聚合将相同类别的信息聚合在一起,为检索提供了便利; (3)信息匹配、选择订阅处理可以根据用户对信息的要求(关键词中包含某字段、不包含某字段)进行订阅选择,满足用户对信息的精确度需求; (4)去重处理在一定程度上降低了用户对重复信息的获取,有效地减少了用户阅读重复信息的时间; (5)从感兴趣程度和内容相关度两方面收集用户反馈,增强了用户的参与度,激发了用户“服务自己,服务他人”的意识。 2.3 基于 RSS 的个性化信息服务模型的作用 (1)互联网上各种信息资源无法统一表示造成资源利用率低,利用RSS 来统一表示信息,对信息资源进行有效组织,对非结构化信息的处理

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 学科论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。