1、 本科毕业论文 (科研训练、毕业设计 ) 题 目: 广告阅读行为分析系统 姓 名: 学 院: 软件学院 系: 软件工程 专 业: 软件工程 年 级: 学 号: 指导教师: 职称: 年 月 日 摘 要 电子杂志行业又是一个充满了跟随者和模仿者的市场,在这个广阔的市场中如何能抢先定位并锁定客户,是在现尚处于发展阶段的电子杂志行业中成功的关键 ,在此数据挖掘的技术得到了广泛的使用 。对于一个电子媒体,了解读者的行为及背景,有利于准确地投放 广告,提高广告的点击率。同时,提供一份较 合理 的读者分类系统,也有助于在广告定价。 可以 借助建模、数据挖掘等技术 ,在网络公司现有数据的基础上 建立模型 ,并
2、 进行数据挖掘分析,得出有价值的信息,并以可视化的图形和报表形式提供 科学决策 。 本 项目 旨在通过研究和分析读者的阅读行为,建立合适的数据分析模型,挖掘出有用的信息, 以助于 相关企业 选择更好的内容,改善阅读便利性,增加广告投放的针对性等 ,并给出数 据收集 的 一些建议。总而言之,通过研究分析,给用户的决策管理提供有力的理论支持和实践指导。 在此 主要采用的是基于 Apriori算法 的关联规则 挖掘 ,即 从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识 ,在开发过程中,使用了多种排序和剪枝的方法,尽量降低了内存和 CPU 的使用。 随着收集和存储在数据库中的数据规模越来越
3、大,对从这些数据中挖掘相应的知识越 来越重要, 从大量的 数据 中发现有价值的知识 有利于科学的决策,特别是对电子杂志商务公司而言具有积极重要的意义。 关键词 :关联规则 ,数据挖掘 ,Apriori算法 An Analysis System of Advertisement Reading Behavior Abstract Electronic magazine is an industry full of followers and imitators, in the broader market, how to pre-empt and lock customers is the ke
4、y to success in the developing stage of the electronic magazine industry; here data mining technology has been widely used. For an electronic media company, to understand the behavior and background of reader helps to accurately put advertisements. Meanwhile, to provide a more a reasonable reader cl
5、assification system is also important to fix a price of advertisement. It is able to mine the dataset collected by the company and provide some scientific decision, using mathematical model and data mining technology. The project aims at Mining out useful information to help company select better ma
6、gazine to improve reading status, by build reasonable models through research and analysis the reading characters. In short, we could provide the theoretical support and practical guidance to managers by analyzing the correlated data. We utilize the some methods based on algorithm Apriori to Mining
7、Association Rules, and use a variety of sorting and pruning methods in the mining process to minimize the memory and CPU usage. It is becoming more important to mining useful knowledge from the increasing database, which can provided some scientific decision-making, especially for electronic magazin
8、e companies. Key words: Association Rules, Data Mining, Apriori Algorithm 目 录 目 录 第一章 绪言 . 1 1.1 项目背景和意义 . 1 1.2 行为分析系统现状 . 2 1.3 电子杂志行业所面临的问题 . 3 1.4 主要工作和论文结构 . 3 第二章 行为分析系统的框架设计 . 5 2.1 项目需求和主要工作 . 5 2.2 项目的解决方案 . 6 2.3 数据采集 . 6 2.4 分析功能框架 . 7 2.5 拟建立的挖掘模型 . 8 2.6 项目的系统构架 . 9 2.7 系统功能模块详细设计 . 9 2
9、.8 小结 . 11 第三章 广告阅读行为分析系统框架设计 . 12 3.1 ARB 系统模型设计 . 12 3.1.1 ARB 系统项目需求 . 12 3.1.2 ARB 系统模块划分 . 12 3.2 关联规则原理介绍 . 13 3.2.1 Apriori 算法 . 13 3.2.2 关联规则的生成 . 17 3.3 小结 . 18 第四章 ARB 系统开发与测试 . 19 4.1 引言 . 19 4.2 ARB 系统模块设计 . 20 4.2.1 数据导入模块 . 20 4.2.2 频繁项集生成模块 . 21 4.2.3 关联规则挖掘模块 . 24 4.3 ARB 系统结果 展示 . 2
10、5 4.3.1 用户版块访问记录 . 25 4.3.2 杂志访问记录 . 27 4.4 ARB 系统开发环境 . 29 4.5 小结 . 29 第五章 结论与展望 . 30 参考文献 . 31 致 谢 . 32 CONTENTS CONTENTS Chapter 1 Introduction. 1 1.1 Backgroud and Significance . 1 1.2 Research Status. 2 1.3 Problems of Electronic Magazine . 3 1.4 Main works and Construction of Paper . 3 Chapter
11、2 Frame Design. 5 2.1 Project Need and Major Work . 5 2.2 Project Solution. 6 2.3 Data Collection. 6 2.4 Analysis Frame. 7 2.5 Mining Model. 8 2.6 System Frame of Project . 9 2.7 Desine of System. 9 2.8 Conclusion. 11 Chapter 3 ARB System Frame of Advertisement Reading Behavior . 12 3.1 ARB Syetem M
12、odel Design . 12 3.1.1 ARB Syetem Project Need . 12 3.1.2 ARB Syetem Modular Division . 12 3.2 Assolution rule Introduction . 13 3.2.1 Apriori Algorithm. 13 3.2.2 Assolution Generation . 17 3.3 Conclusion. 18 Chapter 4 ARB System Development and Test . 19 4.1 Introduction. 19 4.2 ARB System Design.
13、20 4.2.1 Data Import Module. 20 4.2.2 Frequent Set Generation Module . 21 4.2.3 Mining Association Rules Module . 24 4.3 ARB System Result Display . 25 4.4.1 Records of Users visit plate . 25 4.4.1 Records of Magazine. 26 4.4 System Development Environment . 29 4.5 Conclusion. 29 Chapeter 5 Conclusi
14、ons. 30 Reference. 31 Acknowledgement. 32 第一章 绪言 1 第一章 绪言 网络数据分析是网络信息计量学的重要组成部分,也是当前网络界、新闻传播界、信息管理界都十分关注的热点研究领域之一。 对网站而言,其点击率可以反映出该网站的影响力,收集某个网站相关的详细数据,并进行挖掘,通常可以得到合理的、有用的结果。例如 对读客网( )而言 ,收集数据并进行合理的分析,通常可以给 读客网管理者提供理论决策支持。 1.1 项目背景和意义 2005 年下半年 ,一种新形式的电子杂志开始出现在国内互联网上。从 2006 年开始,关于这种新型电子杂志的讨论逐渐成为传媒行业
15、和 IT 界的热门话题。 2006 年 3 月 26 日下午在上海复旦大学举办的首届中国传媒创新年会上,作为新兴电子杂志领域领跑者的 POCO 荣获2005 年 “最具发展潜力创新传媒 ”奖,它同时也是这个领域唯一获此殊荣的杂志 。 而 Zbox( 鹏泰传播 ) 网络互 动杂志传播平台 也一个成功的例子。 MagBox( 魔幻盒子 ) 依托 POCO 强势平台、超过 1800 万的海量宽带用户、先进的第三代 P2P 核心引擎技术及雄厚的研发实力, 广州数联软件技术有限公司于 2005 年 8 月推出新一代电子发行平台 MagBox(魔幻盒子),是中国顶级电子杂志传播分享平台。 其实, 可以 认
16、为不应把电子杂志简单地视为一种新的杂志形式,事实上,更应视其为一种新的媒介技术和工具。一份优秀的电 子杂志绝不仅仅是一份杂志,而是一个优质多媒体信息传播平台。 此外读客网作为一个网络电子杂志的传播者得到了迅速的发展。 目 前有关新型电子杂志的研究主要集中在其盈利模式的讨论,而忽视了对这一新的媒介形式特征和传播效果的研究。第三代电子杂志区别于前两代最大的特点在于同时具有互动性、多媒体性、利用 P2P 平台发送三个特点。多媒体和 P2P 发送平台都只是技术问题,各大杂志制造商之间最大的竞争恰是在于对自己杂志互动性的开发上。提到互动,不能忽视在电子杂志背后网络虚拟社区的强大支撑。正是基于这一点, 可
17、以 看到越来越多有远见的电子 杂志策划人员对自己产品的定位已经超越了杂志。例如,知名电子杂志澜,其终极目标就是最终形成有吸引力的时尚知识女性的网络社区。对互动多媒体网络杂志而言,最重要的不再是杂志的内容,而是如何增强用户对由杂志而形成的网络社区的认同感和归属感,进而形成对该品牌的忠诚度。 网络电子媒体的发展成为一种潮流, 比如 读客网的目标是成为新一代网络分众媒体 。 对广告阅读行为分析系统 2 读客网而言, 谁是最好的客户?怎样做能留住他们?怎样吸引其它这样的 用 户?怎样改进 运行方式提高竞争力 ,这些问题日趋紧迫。为了获得可靠回答,需要在每天收集的毫无关联的数据 中生成情报。识别正确的人
18、群,正确的渠道,及正确的出价,来获得最大收益。 通过 建立一套完整 的程序: 数据导入 、 建立模型和 进行 数据挖掘,结果展示 。从帮助 企业 阐明 以用户 为重的战略来瞄准最好的前景, 建立一套能 在 用户 关系上获得最大回报的解决方案。 通过分析用户 阅读 行为,了解杂志的 被 阅读 状况 , 对 读客网 公司而言 意义重大。 本项目通过研究和分析读客的阅读行为,建立数据分析模型,挖掘出有用的信息,以助于读客网选择更好的杂志内容,改善阅读便利性,增加广告投放的针对性等,并给读客网的数据收集提供一些建议。总而言之,本项目通过采用现代数 据挖掘技术 20,力求给读客网的决策管理提供有力的理论
19、支持和实践指导方针。 1.2 行为分析系统现状 在新一代电子商务网站的发展进程中,往往能够投入大量精力收集信息,并将信息以各种形式保存下来,往往缺乏相关的分析模型,空有大量信息却无法加以应用。例如, 虽然大部份的数据库都有点击率的统计 ,但这说明不了太大的问题。首先 ,点击率可以通过技术手段来虚加 ;其次不能作读者行为分析 ,即读者对这些数据的关心度 ,读物内容是否真的符合读者的口味,能否长期吸引读者 等等。 网站采用电子读物的 依据 ,网站 的发展方针、 规则 制定的依据 ,价 格的定位 ,都应该建立在科学的决策数据之上。只有满足 用户 和读者的需要才能符合 现代电子商务网站的 目标。作为
20、电子商务 网站 ,应该关注读者在网站的访问行为 ,访问规律甚至访问动机 。知道网站的哪些部分最为读者喜爱、哪些让读者感到厌烦。网站有没有安全漏洞 ,怎样的改动能显著地提高读者的满意度、什么样的改动反而会丢失读者。 对电子商务网站进行数据挖掘,通常可以给企业提供有力的理论支撑, 比如对电子杂志的商务网站收集相关数据,并进行挖掘,成为了企业决策的一种常用手段。 目前关于行为挖掘的方法众多,比较典型的有关联规则 1, 2, 8、 回归模型 3,4、聚类分析 5-7等等。特别是 Agrawal等于 1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行
21、了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率 。关联规则的应用领域 主要是商业领域,比如交易数据分析、网络流数据分析,读客阅读行为也可以用关联规则来进行挖掘。目前关联规则挖掘的研究很多,有比较成型的软件,比如 SAS、SPSS等。 第一章 绪言 3 1.3 电子杂志行业所面临的问题 现在 的电子杂志行业还 处于探索阶段,对于盈利只有模糊的方向,就如同当初的门户 网站 一样 。 电子杂志的发行平台公司要充分的挖掘盈利模式 仍然 还需要更多的时间 。但是 这 又是一个充满了跟随者和模仿者的市场, 在这个广阔的市场中如何能抢先定位并锁定客户
22、,是在 现 尚处于发展阶段的 电子杂志行业 中成功的关键。对于一个电子媒体,了解读者的行为及背景,有利于准确地投放广告,提高广告的点击率 6, 9。同时,能够提供一份较完整的读者分类系统,也有助于在广告的定价议价方面,占据主动。但由于网络的虚拟性和不确定性,读者资料的采集到最后分类,往往充满了不确定性。为了 提高网络商务公司对读者的把握,需要借助建模、数据挖掘等技术的帮助 8-12。 对众多的企业也而,当然也包括读客网公司等网络电子杂志领域的众多企业, 谁是企业最好的客户?企业怎样做能留住他们?企业怎样吸引其它这样的客户?企业怎样改进 企业运行方式提高企业竞争力 ,这些问题日趋紧迫。为了获 得
23、可靠回答,企业需要在企业每天收集的毫无关联的客户数据中生成情 报。识别正确的人群,正确的渠道,及正确的出价,来获得最大收益。 建立一套 闭环的 CRM 程序:计划,目标,行动和学习。从帮助 企业 阐明客户为重的战略来瞄准企业最好的前景, 建立一 套能使得企业 在客户关系上获得最大回报的解决方案。 网络 电子杂志 公司 的目标是成为新一代网络 观众 媒体,通过分析 读客 的阅读行为,了解杂志的 具体 阅读 情况 ,对于 网络 电子杂志 公司的进一步发展 是很有意义的 ,也是十分必要的 。比如对读客网而言, 要成为一个成功的挖掘案例,我们首先 需要能回答 多个 方面问题 ,比如读客网的 赢利模式
24、是什么 , 在过去的几个月里有多少人使用读客网 , 每本杂志的具体阅读情况如何 等。 本项目的研究,主要是对读客网的一个 初步的 研究和探讨, 并建立相应的数据挖掘模型(比如关联规模型,分类模型 14-18, 20) , 为此我 们需要进行相应的数据收集,搭建相应的数据分析框架,建立相应的挖掘模型等工作,才能完整地完成本项目的需求。 1.4 主要工作和论文结构 本项目 主要是对读客网的一个初步的研究和探讨,其 最终工作将是提供一个用户行为分析系统,能够在已有收集的数据基础上,可以进行数据挖掘,挖掘出有用的信息,并提供可视化的结果和相应报表功能。 系统整体构架 包括 : 用户行为分析系统从总体上
25、分为数据预处理 、数据分析和分析结果输出与展示三个功能。 在此项目中, 本人 负责的主要工作是设计并实现基于关联规则的广告阅读行为分析系统。包括数据导入,数据预处 理,频繁项集生成,广告阅读行为分析系统 4 真子集生成及关联规则生成等工作。 在开发的过程中,从优化程序效率的角度考虑,多处采用排序,中间变量介入等简单而实用的编程技巧,降低了对数据库的重复次数。 同时设计有简单实用的输出界面,可以在脱离整体系统的情况下,直接观察数据计算的结果。主要工作包括如下: ( 1) 参与设计读客网用户阅读行为追踪与分析系统的方案设计; ( 2) 建立适合读客网的广告阅读行为的 关联规则挖掘模型 ; ( 3)
26、 设计并开发出 一个 广告 阅读 行为分析系统 。 本文 内容 共分为 五 个章节,各章节安排如下: 第一章 绪论,介绍了课题的 开发 背景及 情况 、 行为分析系统 的 现状以及存在的问题等,最后简述了本文的研究内容以及创新点。 第二章 介绍 行为分析系统的框架设计。包括 项目背景,项目需求,模块划分和框架设计。 第三章 是本论文的核心内容,详细介绍了 广告阅读行为分析系统框架设计 。 包括 Apriori算法介绍,关联规则生成介绍,模型设计,框架设计。 第四章 是系统开发的详细描述。包括了整个 基于关联规则的分析系统的函数设计,计算流程,界面介绍,功能介绍,结果演示。 第五章 对本论文的一
27、个总结和展望,同时分析 本系统 存在的不足并对该模型的进一步研究进行了展望。 第二章 行为分析系统的框架设计 5 第二 章 行为分析系统的框架设计 根据实际的行为分析需求,设计出相应的解决方案,包括系统整体框架 。 特别 是 本项目通过对读客网的需求分析,设计出一套合适的方案,主要功能包括了数据预处理模块、数据分析模块和分析结果输出展示模块三大功能。 2.1 项目 需求和主要工作 电子杂志 成为新一代网络分众媒体,通过分析用户的阅读行为,了解杂志的 被 阅读 状况 , 对电子杂志商务公司而言 意义重大。 从赚钱的角度来看, 电子 杂志的 商务公司 盈利来源不外乎三点:一个是广告,一个是发行,一
28、个是增值服务 。 多媒体杂志,或者说电子杂志,正在成为风险投资商的新 宠。伴随着这股热潮的则是多媒体杂志内容提供商和发行平台的风起云涌。仅从 2005 年底到 2006 年初, 2个月就出现了 20 多家电子杂志的发行平台。广告收费目前几乎是多媒体杂志主要的盈利途径。即便如此,在目前出现的上千家多媒体杂志中,能够有广告收入的也不超过十家。这一方面在于多媒体杂志刚刚起步,广告商还没有意识到它们的价值,另一方面则在于旗舰性的多媒体杂志并不多见。 而对广告而言,读者的多少可以从很大程度上反映出其成败,因而对广告阅读行为的挖掘已经成为众多电子杂志商务公司的关注点之。 本项目旨在通过研究和分析读客的阅
29、读行为,建立数据分析模型,挖掘出有用的信息,以助 电子杂志的商务公司 选择更好的杂志内容,改善阅读便利性,增加广告投放的针对性等,并给数据收集提供一些建议。总而言之,本项目通过采用现代数据挖掘技术,力求给电子杂志的商务公司 的决策管理提供有力的理论支持和实践指导方针。对读客网而言, 谁是最好的客户?怎样做能留住他们?怎样吸引其它这样的 用 户?怎样改进 运行方式提高竞争力 ,这些问题日趋紧迫。为了获得可靠回答,需要在每天收集的毫无关联的数据中生成情报。识别正确的人群,正确的渠道,及正确的出价,来获得最大收益。 建立一套完整 的程序 (图 2.1): 数据导入 、数据预处理、 建立模型和数据挖掘 、 结果展示 ,其中本 人 主要参与了 建立模型 和进行挖掘的相关工作 。从帮助 企业 阐明 以用户 为重的战略来瞄准最好的前景, 建立一套能 在 用户 关系上获得最大回报的解决方案。 主要的工作有以下一些: ( 1) 读客网原始数据需求 ( 2) 用户阅读行为分析 ( 3) 建立相应的数据挖掘模型