1、基于网页浏览的兴趣行为研究,主讲人:米雪 指导老师:张宁,摘要,通过研究某高校访问互联网的真实记录,深入挖掘人们上网行为的特征,统计群体用户访问所有网站和单个网站的时间间隔分布,并选择8个典型网站和5个典型用户,从群体和个体两个层面上比较用户访问不同网站的行为规律特征。结果显示网页浏览行为具有明显的规律性,且不同层面的用户访问不同类型的网站的时间间隔的幂指数表现出了明显的差异。,数据来源,本文研究的数据来自国内某高校局域网内师生访问互联网的记录,时间跨度为半个月。统计表明该高校在观测期内一共访问的主站数量为82,153个,平均每天的访问用户有2,631个,平均每天会发出1,510,381个访问
2、请求,较大的数据量足以反映真实的统计规律。,图1表示一周中各个时刻的网页访问量(时间单位为小时,每种颜色代表一天),图2表示群体用户对所有网站的访问量拟合的幂指数为-1.55。从群体用户的角度看,人们对网站访问的选择具有幂律特性,即对少数网站有大量的访问量,同时对大多数网站则偶尔才会光顾。,表1列出了总体访问量前20名的网站,网页浏览的兴趣行为分析,排队系统中的等待时间分布是标志动力学的中心标量,很大程度上取决于任务到达和服务的随机过程,特别是任务到达和服务的时间间隔分布。同理,人类活动中的时间间隔分布也是人类动力学的研究的重中之重。,根据是否有明确的信息获取目的将用户的访问行为分为两类,一类
3、为兴趣驱动行为,另一类为任务驱动行为,两种行为下访问的网站分别称之为兴趣类网站和任务类网站。,(一)群体用户访问特定网站的时间间隔,图3 群体用户访问四个典型兴趣类网站的时间间隔分布,图4 群体用户访问四个典型任务类网站的时间间隔分布,表2表示的是各个网站的时间间隔的幂指数与加权平均值:,显然,平均幂指数越大平均时间间隔就越短。从理论上解释,幂指数越大,双对数坐标下的图形就越陡,数据点更倾向于在图形左边即时间间隔数值较小的区域集中,时间间隔的均值必然越小。,(二)个体用户访问特定网站的时间间隔,统计每个用户访问量排前20的名的网站,再从每个用户访问最多的20个网站中分别选择排名第一、第十和最后一位的网站统计访问的时间间隔,求出的幂指数归纳如下表:,与表2相比,个体用户的幂指数小于群体用户。,如图5所示,个体用户访问单个网站的时间间隔服从幂律分布。可见在个体层面上也存在这样的规律即访问的兴趣越大,幂指数也越大。,结论与讨论,1 从群体和个体两个层面分析了用户访问群体网站和单个网站的时间间隔,发现人们的网页浏览行为都服从幂律分布,幂指数和网站类型、访问频率有着密切的关系。2 访问兴趣驱动的网站的时间间隔的幂指数大于访问任务驱动的网站的时间间隔的幂指数。3 平均幂指数越大平均时间间隔就越短。,研究的不足和展望,谢谢,