1、毕业设计文献综述 计算机科学与技术 基于 Java的 “博客 ”论坛系统的 设计与实现 一、前言部分 “ 博客 ” 一词源自英文 Blog,是其最常用的中文译名。 Blog 是 Web log(网络日志)的简称,即以 Web(网页)的方式显示和发布的日志,一个 Blog 就是一个网页。拥有或撰写这些 Blog 的人称为 Blogger 或 Blog writer,中文称为博主。博客中每一篇日志或博主写的文章、记录就是一个 Post(帖子),中文称之为博文。博文一般较简洁,而且经常更新,按照时间倒序排列,内容以超链接为表达方式。对每个博客而言,其链 接地址不变,但其包含的内容不断被更新。 1.
2、新的传播方式。博客的传播方式是一种多对多的传播,与传统媒体一种一对多的传播方式相反。正因为如此,它被称为“新媒体”。连线杂志给“新媒体”下的定义很简单:由所有人面向所有人进行的传播( communications for all,by all)。它使每个人不仅有听的机会,而且有说的条件。博客从不孤立出现,在浏览博客的时候,你很快会意识到它们构成了网络社区 尤其是那些关系紧密的社区 的基础交流平台 1。社区内的人利用博客分享彼此的信息。网络一向带给人们无障 碍沟通的承诺,但博客却真正将此承诺化作了现实1。 2. 开放性和共享性。技术上的突破,使博客具备开放性,进而使人们在信息世界中的角色也发生了
3、巨大改变。成为博客一族不需要具备某一领域的专业能力,例如计算机编程能力、新闻搜集分析能力、美术设计能力等等,只要有兴趣就足够。并且从被动的信息接收者,变成信息的首发者、传播者。另一方面,博客的超级链接功能从而使博客这一新兴媒体完全面向所有人群。博客作为内容的开放源代码,向外的链接解放了文档,使文档的表现力实现质的飞跃 1。正是从这个意义上说,博客比其他网络媒体有更 好的优势去实现“个人孤岛”的连接 1。 3. 个人化和丰富性。从内容上说,博客区别于其他媒体的另一特征是完全归属于个人,而不由社会组织、企业等团体所拥有。它从个人角度得到信息、表述信息、发布信息。现在人们的生活越来越丰富,不仅有文化
4、讲座、音乐会等各方面的活动充实精神生活,提升文化修养、精神境界,更有日常生活中上下班路上的所见所闻、自身的经历、工作学习的状况、随感、周围的新鲜事、生活中的精彩瞬间和温馨时刻等等,都有让人忍不住想要与他人分享的喜悦、想要倾诉的烦恼。于是,博客的出现极大地满足了博主们记录生活点滴 、思想感悟的需求。因为在内容的表现技术上,博客不仅支持文字、图片,还支持音频、视频等多媒体信息,使得其内容具有极大的丰富性。 4. 传播渠道多样化、信息即时性和交互性。博客的传播可以通过网络、特定客户端访问,也可以通过手机访问 WAP 网站或手机客户端。伴随这一多样性的是信息的即时性。信息发布者可以通过手机、电脑,迅速
5、发布即时信息,而有关接收者也能在第一时间了解好友等相关发布者的情况、做出回应。虽然报纸、杂志、电视等传统信息传播媒体有其难以替代的独特之处,但是从信息的获得到发出再到收到反馈,必需经历一定的时间, 因而相对滞后。而且传统媒体是通过职业人士获取信息、素材,而人人都可以成为博主,随时随地自主发布信息。 博客的这些特性是传统媒体难以超越的,是它的特色,但也存在一些争议。比如:虽然这种新的传输方式可以输是一种巨大的变革,但它带来的信息无法保证真实性、准确性,一旦众说纷纭,很容易就让人觉得无从选择,难以下手。没有限制的开放性,潜在可能的风险,例如不怀好意者随意发布他人隐私,而法律在网络监管方面出台有效办
6、法需要一定时间,只能寄希望于博客技术上的改进。 二、主题部分 2.1 历史背景 博客最古老的原形要算 NCSA 的“ What s New Page”网页,主要是罗列 Web 上新兴的网站索引 3。 1997 年 4 月 1 日, Dave Winer 开始出版 Scripting News,这个网站是从早期的 Davenet 演变而来的,是一个介绍技术界的一些动态的站点。同年 12 月, Jorn Barger运行“ RobotWisdom Weblog”,第一次使用 Weblog 这个名字。 1998 年正式成为通过网页或网站链接进行个人化信息发布和思想表达的一种方式。它充分利用了网络双向
7、互动、超文本链接、动态更新、覆盖范围广的特点,将使用者的工作过 程、思路经历、思想精华、闪现的灵感等及时记录和发布,选取并联接全球互联网中最有价值、最相关、最有意思的信息与资源,它的出现标志着互联网从传统的信息共享开始渐渐跨过“思想共享”的门槛 4。 1999 年,PeterMerholz 以缩略词“ blog”来命名博客,成为今天最常用的术语。 世界第一次真正感受到 Blog 的力量始于 1998 年 1 月 17 日, Matt Drudge 通过其个人主页率先引爆克林顿性丑闻事件 5。 2001 年震惊世界的“ 9.11”事件也直接推动了 Blog 的普及和发展。由于事发的突然性,大量主
8、流媒体 因访问量过大而瘫痪,而传统的电视媒体的报道内容被批评为不够深入和全面。此时, Blog 网站史无前例地担起传递最新消息的重任,在事件发生的第一时间就提供了有价值的相关信息。其中最典型的是 Dave Winers 的Scripting New 网站。整个 9 月 11 日早晨这里一直是获取第一手资料的最佳地点,甚至成为了传统站点和主流媒体的一些消息的来源。 而这些信息的源头都是目击者 Blog。除了传播即时,目击者 Blog 的内容常常可以挖掘到记者遗漏的东西,还得益于其强大的传播力量,能对传统媒体的报道进行事实验证和重新过滤。传统 媒体的记者有时会因为职业道德的缺失或个人疏忽,进行不实
9、报道,普通的读者难以对这种报道进行验证和监督 6。比如纽约时报的丑闻就是由 Blog 揭开的。 自 9.11 事件后,博客正式步入主流社会。 2002 年美国多数党领袖洛特下台、 2003 年的伊拉克战争等大事推动 Blog 真正走向世界。 2002 年被称为“互联网的博客之年”,各大媒体都注意到了 Blog 的迅猛发展。 2004 年,随着 AOL、 Google、 Yahoo 等全球几家最大的互联网公司开始全面提供 Blog 服务,随着欧洲、日本、韩国等国家最主要的 ISP 服务商也加入 Blog 服务阵营, Blog 浪潮将越来越给主流媒体带来影响和冲击 1。这是 Blog 完全进入主流
10、的一年。 Blog 形成引发社会变革的重要力量。 2002 年 8 月方兴东与王俊秀首次将 Blog 引入中国,随即便在中国网民中掀起了狂潮,以飞快的速度成长起来。 2005 年伊始,各大门户网站纷纷加入博客阵营,博客开始步入草根繁荣时代, 2005 年也往往被人们称作“中国博客元年” 5。 2.2 现状和发展方向 博客在我国的迅速发展,已成为人们的一种生活方式和学习方式。据中国互联网络信息中心 (CNNIC)发布了 2008-2009 博客市场及博客行为研究报告 报告显示, 截至 2009 年 6 月底,拥有个人博客或个人空间的用户规模已经达到 1.81 亿人,博客空间的规模已经超过三亿 7
11、。有企业建立内部博客网,不但能随时了解员工工作情况、对工作的感想、创意,以利于公司的管理及发展,更能打造或强化公司文化。有学校依靠博客实现过程管理,了解学生的学习过程的情况、心理状况,帮助学生解决问题,摆脱了只依赖成绩的单一评价方式。鉴于博客的开放共享性,人们通过访问不同类型的博客和相关博客的超链接可以阅读一系列相关的所需内容进行学习。 我国博客 的活跃程度稳中有升,在参与公共事件时表现的积极主动 7。 CNNIC 发布 08-09 中国博客市场及博客行为研究报告表明, 博客应用率在长期高速增长后趋于稳定, 半年用户增长率为 12%。博客活跃程度进一步提高,经常更新博客的用户比例为 62.7%
12、,活跃博客作者规模达到 1.13 亿 7。 人们认识到博客的作用与价值。 CNNIC 发布 08-09 中国博客市场及博客行为研究报告指出,在听说过实名制的人群中,不反对实行有限实名制的使用者约占 65.0%,中立观望态度的被访者占到 21.7%,只有 13.3%的被访者持反对态度,中国博客使用者总体对博客实名制表现出积极的态度。这充分说明大多数人已经意识到博客的言论自由是在一定道德和规则约束下的自由,这与当时实名制提出时的 “震惊” 形成了鲜明对比 7。 (1)完善博客技术的研究趋势例举 目前的博客还存在一些不足和缺陷,专业人士正在提出、尝试新的各项技术来完善博客,为了使其具备更强的功能、更
13、人性化。比如博客排序、文章分类、博客的倾向性检索、动态信息组织、垃圾信息过滤等,列举如下。 博客的内容千差万别 , 对文章进行系统的、有效的分类具有重要的意义。文章 9认为目前一些博客网站通过人工编辑或者用户选择的方式存在人的主观误差的缺点,并且随着博客数量的增长,工作量日趋加重。也有一些博客网站是采用自由分类法( Folksonomy),用TAG 云( TAG Cloud)等较为自由的形式组织博客,这种方法实际上是利用 Tag 对文章进行聚类。 Tag 能够高度概括博客文章的内容,并且已经被证明对于博客分类起到积极作用 10。但这种方法的缺点在于没有考虑 Tag 之间的关联性,单纯通过 Ta
14、g 聚类得到的类别数量非常庞大。在博客文章分类方面已经开展了一些相关的研究。 Aix in Sun 等 对博客进行分类 , 指出使用 Tag 有助于改进分类的结果。他们还考察了 Tag 的数量对分类结果的影响,并通过对Tag 扩充进一步改善了分类效果 10。 Christopher H.Brooks 等用 Tag 对博客文章进行聚类 , 并指出使用从文章中提取关键词取代 Tag 可以得到更好的聚类效果 11。文章认为前者的不足在于以博客而不是博客文章作为分类对象 , 由于用户兴趣的多样性 , 通常一个博客中会包含多个类别的文章 , 因此这种方法的分类粒度不够细致。后者的缺点是聚类得到的类别数量
15、太大并且结构混乱 , 缺乏层次性和条理性。因此 ,解决博客文章分类的方法将朝着使用机器学习进行自动分类的方向发展。 在博客排序问题上 ,文献 12有如下归纳 :文献 13首先根据博客之间的信息传播途径推导出潜在信息流图然后基于此图对博客的重要程度进行排序。文献 14采用特征向量计算方法为每个博文计算其得分,由好的博主所提交的博文会得到较高的分数,从而肯定了博主以前的工作。 BlogRank15是个基于加权博客图的 PageRank 修改版,其中连接的权值取决于连接的数目和连接源与目的之间相同标签的数目等因素。 B2Rank16侧重于研究博主的行为并 用其分析结果来进行博客排序。文献 17认为一
16、个博客重要与否取决于在相关话题讨论中其所占据的地位。文献 18基于博客信息源之间的链接关系来分析博客的重要性。文献 19定义一个框架来评估博客的可信性并且列出了影响其可信度性的因素。文献 20对这些因素进行深入评估并验证了其评估有效性。 关于博客倾向性检索,国内外众多研究者依托博客这个巨大的倾向性知识库,开展对其相关的研究。自 2006 年以来 NIST 组织的国际文本评测比赛连续三年举办了博客倾向性检索 ( BlogOpinion Retr ieval) 评测比赛 21。该评测侧重于挖掘博客空间中博主对特定主题所体现的意见和情感。国内中科院计算所、中科院自动化所和复旦大学联合举办的第一届中倾
17、向性分析评测 ( COAE2008)中也设置了倾向性检索任务。与传统的检索不同 ,博客倾向性检索的目标是检索出与给定查询既要主题相关又要具有倾向性的博文单元 ( 包含博文和评论两部分 ) 21。它更侧重于挖掘博客空间中博主对特定查询所体现的意见和情感。倾向性检索是信息检索和倾向性分析技术的融合。 目前国内外博客倾向性检索的研究主要两大类。第一类,对每个博文单元直接建立模型度 量其对特定查询的评论程度 22。第二类 ,先度量博文单元与特定查询的主题相关性得到主题相关分数,然后在此基础上计算博文单元对博文的评论强弱得到倾向性分数,最后融合二者分数得到最终倾向性检索分数进行排序。这类算法取得比较好的
18、结果 22。 (2)博客大方向发展趋势 博客网站与专业传媒机构之间将形成一种互补竞争、相互渗透的关系。因为只有专业机构才能通过规范的、持续的信息采写、发布活动,满足整个社会的信息需求 23。非专业人士参与网络传播,容易受到主观的影响或是缺乏专业全面的评价等,因而导致信息的复杂化。一旦对 同一事件出现不同描述,则让人很难判断信息的准确性。因此,从无数传播者中凸现出具有权威性、可靠性的发布者,必然成为形势所趋。不难理解,因为博客的特性,博客新闻成为专业媒体重要信源,在同题报道中揭露另一部分真相。从受众注意力集中度和信息覆盖面来看,博客还远逊于专业大众传播机构 23。博客报道将成为专业媒体报道的延续
19、 24。 博客将具有更强的娱乐性、综合性。从网络技术方面来看,有博客和 Wiki 的深度结合,博客和网络书签以及 Rss 聚合的结合,博客与社区的嵌套结合形成的 SNS( Social Networking Service)新模式等 23。在技术支持下,博客将在形式类别、内容上扩展,文字博客将不再一枝独秀。摄影博客、旅游博客等以图片为主的博客不再受限于容量与传送速率,音频博客、视频博客、博客游戏、博客电影等也会有大步地发展。 目前,全球活跃的移动博客网站有上百家,以分布式的互联网和手机为技术平台,以开放的个人为主体,以自组织的弱纽带为主要连结方式,双向度、多媒体方式的博客传播方式,不但将重新塑
20、造媒体,也将变革整个社会 23。未来的博客将是集成各种网络应用的中心:包括电子邮件、即时短讯、 博客应用、 协同办公 以及留言讨论等,而且除了电脑,还可以通过手机、电视、电话等各种终端无所不在地进行博客 23。 2.3 评述 博客已进入人们的生活,渐渐开始成为生活中不可缺少的一部分,并带来许多积极的改变和影响。人们利用它可以更好的学习、工作。知识、思想可以获得超越时间、空间的限制,得到在可链接达到的最大范围的共同探讨、交流。博客将继续与其他媒体、交流方式互补优劣,丰富内容,共同为人们提供服务。现有的技术有待完善,附加的娱乐休闲的功能有待扩展。手机博客将成为主要发展方向之一。 三、总结部分 作为
21、一种新型的网络传播媒体,博客只 有短短十多年的历史。它以独特的姿态出现,令世界耳目一新,印象深刻。由于其同时具备开放性、即时性、个人性、公共性、共享性、交互性,迅速在全球范围发展壮大,广受追捧。 单一的思想和群体的智慧的结合,实现了互联网内高度的信息与思想的交流和共享。博客为人们提供了广阔的存储信息的空间,并引导着人们自觉对知识进行组织整理。从博主的角度,可以自由按照自身喜好在个人布置博客风格,并及时把想要分享的各种知识信息分类整理,汇集存储在相应版块中。从博客群体的角度,有序的分类管理有益于共享的便利与查找。 因为博客群体的特殊存在,将 不同专业、不同阅历、不同背景的人联系起来。通过博主与群
22、体的交流互动,往往可以从不同的角度和层面对同一问题进行探讨和分析。有助于修正原来的思想,加强认识,促进思维发散,扩展原问题的深度和广度,利于知识的创新,更好地实现知识转化和应用。群体之间的交流的方便、快速,往往能聚集同一领域、同一专业人士,大大加深了信息的可信度。 博客诸多不可替代的优势显示出了它巨大的发展潜力和可应用前景,但是它不会取代其他媒体。就博客本身而言,还存在不少有待完善的地方,需要继续在实践中发现问题,解决问题,以更健全、更人性化、更自由的精 神独树一帜。其他媒体也是各有千秋,也有博客替代不了的影响力和独到之处,能满足人们的不同需求。他们将以各自的特色并存于网络,更好地为大众提供服
23、务。 四、参考文献 1 李萌 .走向主流的网络传播方式 从传播学角度探析 Blog 的发展趋势 J.新闻爱好者 ,2004,(06):12-13. 2 周旋 .论微博客的新媒体特征 J.新闻传播 ,2010,(03):45-47. 3 徐涌 ,燕辉 .博客与 BBS 的差异研究 J.现代情报 ,2005,(05):198-200. 4 吕青 .协作学习与博客技术 J.福建电脑 ,2005,(06):87. 5 吴英劼 .博客传播模式探究 J.当代传播 ,2004,(06):57-58. 6 陈劲宏 .走进博客的世界系列之一 博客的由来 J.电脑知识与技术 ,2003,(21):77-79. 7
24、 王俊琴 ,王佳 ,邱娟 ,王发裕 ,龚玲芝 .浅谈我国博客的现状与发展 J.科协论坛 (下半月 ),2010,(01):191-192. 8 CNNIC.08-09 中 国 博 客 市 场 及 博 客 行 为 研 究 报 告 DB. http:/ 9 麦林 ,俞能海 .多特征融合的博客文章分类方法 J.小型微型计算机系统 ,2010,(06):1130-1132. 10 Sun Aixin,Suryanto M A,Liu Ying.Blog classification using tags:an empirical studyC.ICSDL,2007,LNCS 4882, 307316,
25、2007. 11 BrooksCH, MontanezN. Improved annotation of the blogo sphere via autotagging and hierarchical clusteringA. WWW,2006,625632C.ACM Press,2006. 12 韩丽 ,岑松祥 ,马建 ,马严 .基于博主之间社会关系的博客排序算法 J.计算机工程 ,2010,36(05):52-53. 13 Adar E.Implicit Structure and the Dynamics of BlogspaceC/Proc. of the Workshop on
26、the Weblogging Ecosytem. New York, USA: s.n.,2004. 14 Fujimura K.The Eigenrumor Algorithm for Ranking BlogC/Proc. of the Workshop on the Weblogging Ecosystem.S.l.:IEEEPress,2005. 15 Kritikopoulos A.BlogRank:Ranking Weblogs Based on Connectivity and Similarity FeaturesC/Proc. of the 2nd International
27、 Workshop on Advanced Architectures and Algorithms for Internet Delivery and Application.S.l.:IEEE Press,2006. 16 Tayebi M A. B2Rank: An Algorithm for Ranking Blogs Based on Behavioral FeaturesC/Proc. of IEEE/WIC/ACM International Conference on Web Intelligence. Berlin, Germany:s.n.,2007. 17 Nakajim
28、a S. Discovering Important Bloggers Based on Analyzing Weblog ThreadsC/Proc. of the 2nd Annual Workshop on the Weblogging Ecosystem: Aggregation,Analysis and Dynamics.S.l.:IEEE Press,2005. 18 杨宇航 ,赵铁军 ,郑德权 .基于链接分析的重要 Blog 信息源发现 J.中文信息学报 , 2007,21(5): 68-72. 19 Rubin V. Assessing Credibility of Weblo
29、gsC/Proc. of the AAAI Spring Symposium on Computational Approaches to Analyzing Weblogs. Berlin, Germany: s.n.,2006. 20 Weerkamp W.Credibility Improves Topical Blog Post RetrievalC/Proc. of ACL-08: HLT. S.l.: Association for Computational Linguistics,2008. 21 Ounis Iadh,de Rijke Maarten, etal. Overv
30、iew of the TREC 2006 Blog Track C/OL/Proc. of the Fifteenth Text Retrieval Conference(TREC 2006).Gaithersburg,Mary land,USA:NIST 2006. 2007 01 23 ,http:/trec.nist.gov/pubs/trec15/ papers/BLOG06.OVERVIEW.pdf 22 廖祥文 ,许洪波 ,钟尚平 .基于博主背景的博客倾向性检索归一化策略 J.中文信息学报 , 2010, 24(03):75-80. 23 金雯雯 .博客发展方向预测 J.青年记者
31、,2006,(20):67-68. 24 Dan Gillmor.We the Media:Grassroots Journalism by the People,for the PeopleM.OReily Media,2004:110-111. 25 J. P. Shim,Chengqi Guo.Weblog Technology for Instruction,Learning,and Information DeliveryJ. Decision Sciences Journal of Innovative Education,2009,7(01):172-178. 26 Margo Seltzer.Beyond Relational DatabasesJ. Communications of the Acm,2008,51(07):55-57.