1、键入文字 百度内部文档,未经允许,请勿转发1百度网页搜索 Query-Url 质量评估标准该文档是 query-url 质量评估的详细标准指南,内容较详细,当你遇到问题可以随时查看,建议您可以先阅读 Part6 的快速导读,了解本标准核心内容。本文档主体内容包括以下方面: 评估基础知识:part1、part2、part3; Query-url 打分核心标准:part4; 分类别举例参考:part5; 标准快速导读:part6。目录Part1 前言:百度网页搜索质量评估 .81、评估必备软件 .81.1 firefox 浏览器 .81.2 杀毒软件 .81.3 adobe flash playe
2、r、windows media、qvod、百度影音等播放器 .81.4 迅雷、QQ 旋风、快车(flashget)等下载软件 .92、评估必备基础知识 .92.1 什么是 query-url 质量评估 .92.2 搜索质量评估的目的 .92.3 常用术语解释 .9Part2 query-url 质量评估概述 .101、Query-Url 质量评估介绍 .102、Query-Url 质量评估考虑的维度 .112.1 相关性:query 与结果说的是不是一回事 .112.2 需求强度:抓住主要需求 .112.3 丰富程度:详细全面 .112.4 有效性:能否真正满足 .122.5 时效性:新 .1
3、22.6 便捷性:找到目标信息要花多少时间和成本 .132.7 权威度:英雄也要问出处 .132.8 总结:不同维度适用 query 范围 .133、Query-Url 打分分档介绍 .144、Query-Url 打分原则 .145、Query-Url 评估步骤 .14Part3 理解用户需求 .141、如何判断 query 需求 .142、query 背后的实际需求意图 .153、query 主体表意是否确定与需求是否多样 .164、query 需求的主次之分 .164.1 主需求 .164.2 重要需求/次要需求 .17键入文字 百度内部文档,未经允许,请勿转发24.3 小众/冷门需求 .
4、174.4 特殊情况:泛需求 .175、query 需求意图类型 .175.1 寻址需求 .175.2 信息需求 .185.3 交互操作需求 .18Part4 五档打分标准 .181、各档打分定义 .182、4 分 官方 .192.1 4 分的定义 .192.2 举例说明 .192.2.1 4 分典型例子 .192.2.2 没有 4 分的典型情况 .222.2.3 有多个 4 分结果的典型情况 .222.2.4 其他考量 .233、3 分 很好,对大多数人都非常有用 .243.1 3 分的定义 .243.2 举例说明 .244、2 分 比较有价值,对部分人较有帮助 .274.1 2 分的定义
5、.274.2 举例说明 .275、1 分 稍沾边,略微有帮助 .285.1 1 分的定义 .285.2 举例说明 .285.3 表面相关的差结果 .296、0 分 不相关或无用资源 .306.1 0 分的定义 .306.2 举例说明 .307、死链 .327.1 死链类型:网页安全提示 .327.2 死链类型:空页面或未能访问页面 .327.3 死链类型:页面报错提示 .327.4 死链类型:标准报错页面 .33Part5 特定类型打分举例说明 .341、打分一些重要原则 .342、query 主体是否确定与需求是否多样 .352.1 query 主体确定,需求维度单一 .352.2 quer
6、y 主体确定,需求多样 .362.2 query 主体表意不确定,需求多样 .382.4 特殊说明:需求维度的泛化与具体 .393、特定类型的 query 打分举例说明 .413.1 实体类 query.413.1.1 名人类 .413.1.1 非名人 .42键入文字 百度内部文档,未经允许,请勿转发33.1.2 地点名 .423.1.3 公司名 .433.1.4 产品名 .433.1.5 学校名 .443.2 信息类需求 .453.2.1 Key-Value 需求 .453.2.2 原文需求 .453.2.3 问答类 query.473.3 交互操作需求 .473.3.1 在线预订、购买需求
7、 .473.3.2 游戏需求 .483.3.4 图片浏览 .483.3.5 小说阅读 .483.3.6 软件下载需求 .493.3.7 视频观看需求 .503.4 寻址类型 .503.5 其他特定类型 query.513.5.1 色情需求 .513.5.2 Url 查询的 query .513.5.3 输入错误的 query.523.5.4 列表页需求 query.533.5.5 时效性需求 query.543.5.6 地域需求 query.573.5.7 纯英文 query.574、特定 url 页面打分说明 .574.1 百科类结果 .574.2 搜索结果页 .584.2.1 什么是搜索结
8、果页 .584.2.2 搜索结果页的打分 .614.3 权限页面 .624.4 垃圾、作弊等低质页面 .63Part6 Query-Url 质量评估快速导读 .701、评估必备软件 .702、评估必备基础知识 .703、query-url 质量评估概述 .703.1 什么是 query-url 质量评估 .703.2 Query-Url 质量评估考虑的维度 .703.3 Query-Url 打分分档介绍 .713.4 Query-Url 评估步骤 .724、理解用户需求 .724.1 Query 需求的主次之分: .724.2 query 需求意图类型: .725、五档打分标准 .735.1
9、4 分 官方 .73键入文字 百度内部文档,未经允许,请勿转发45.2 3 分 很好,对大多数人都非常有用 .735.3 2 分 比较有价值,对部分人较有帮助 .735.4 1 分 稍沾边,略微有帮助 .745.5 0 分 不相关或无用资源 .745.6 死链 .746、特定类型打分说明 .74键入文字 百度内部文档,未经允许,请勿转发5Part1 前言:百度网页搜索质量评估欢迎你加入百度网页搜索质量评估团队,作为百度搜索质量评测员,在接下来的日子里,你会参加众多类型的评测任务。本文主要介绍“Query-Url 质量评估”的评估指南说明。请你接下来花些时间仔细阅读如下内容,这将非常有助于你完成
10、“query-url 质量评估”的评测任务。同时, “Query-Url 质量评估”是其他众多评测任务的基础,做好该评测类型也将有助于你很好完成其他类型评测任务。1、评估必备软件 y为了你能正常进行评估任务,请确保安装如下软件:1.1 firefox 浏览器浏览器是我们工作中最基本的软件。为了保证你正常的工作,请使用 firefox 浏览器,并且一般升级到最新的版本。可从此处下载:http:/ 但因为 firefox 对某些页面支持不够好,导致页面内容异常,如遇此情况请更换 IE 浏览器查看。常见的Firefox 支持不够好的页面包括音乐播放页、视频播放页、软件下载页等。如下几个例子: Fir
11、efox 不支持迅雷下载需要更换 IE:http:/ Firefox 不支持在线听歌需要更换 IE:http:/ Firefox 不支持在线观看需要更换 IE: http:/www.ddoo.cc/jq/14134/play-0-0.html1.2 杀毒软件在评估中,你需要浏览打开各种各样的 url 网页,其中有些可能会含有病毒、损害你的电脑,所以建议你安装好杀毒软件。下面一些类型在页面抓取中常常有问题,需要你实际点击 url 来重新下载查看,这些格式的文件一般安全的,不太可能有病毒,比如: .txt (text file) .ppt 或 .pptx (Microsoft PowerPoint
12、) .doc 或 .docx (Microsoft Word) .xls 或 .xlsx (Microsoft Excel) .pdf (PDF file)1.3 adobe flash player、windows media、qvod、百度影音等播放器现在互联网上有很多网页,特别是含有视频、音乐等页面,需要已经安装了 Adobe 的 flash player 为最新版本,才可正常访问;部分视频需要安装 qvod 播放器等才能播放,举例说明:键入文字 百度内部文档,未经允许,请勿转发6 需要安装 flash player 的: http:/ 需要安装 Qvod 的:http:/ 需要安装百度
13、影音的:http:/ 迅雷、QQ 旋风、快车(flashget )等下载软件有些评估需要确认下载链接是否有效,而且通常会限定使用特定软件来下载,所以您要安装迅雷、QQ旋风、快车等常用下载软件来验证是否为有效下载。比如:需要安装迅雷才能下载的:http:/ 什么是 query-url 质量评估本问说的 query-url 质量评估,核心是根据 query 需求,衡量搜索结果(即一个 url 页面)的好坏。评估的标准是看搜索结果是否能提供用户想找的信息,满足了用户的需求,以及在多大程度上满足了用户的需求。这里面包含两个层次:(1 )搜索结果是否可以提供用户想找的信息。如果结果正是用户所找,可以满足
14、用户需求,则是好结果;如果结果里没有用户想要的信息,没有用户关心的内容,则是差结果。(2 )多大程度上满足了用户的需求。在能满足用户需求的前提下,用户获取信息越丰富、全面、权威越好;成本越低越好,成本包括花费的时间、操作的步骤、用户需要的信息是否可以明显的展现出来等。2.2 搜索质量评估的目的百度的使命是“让人们最便捷地获取信息,找到所求” ,目标是最大程度的满足用户需求,不断完善搜索质量,提升用户体验。Query-url 质量评估是提升搜索质量的一个基础且核心步骤,我们需要通过评估来发现目前的缺陷,从而提高搜索质量。搜索质量评估工作的成果,将影响到包括您在内的数亿百度用户的搜索体验。2.3
15、常用术语解释为了便于理解本文档, 对一些常用的名词术语等进行如下说明: Query也可称查询词、关键词、搜索词,指用户输入到搜索框想要查找的字、词、符号等。以后作为 Query出现的词,一般都会用“【” 、 “】 ”括起来。 Term即组成一个 query 的字、词,如 query【新浪微博】 ,拆开后的 “新浪” 、 “微博” ,我们称为 Term。 用户需求/用户需求意图简称“需求” ,对于用户来说,来到搜索引擎是带着目的来的,他们键入搜索词是希望获得相应的满足,比如获得相应的信息、网上购物等,我们把用户 query 背后的这种诉求称为用户需求。 键入文字 百度内部文档,未经允许,请勿转发
16、7如搜索【新浪微博】 ,用户需求是找站点 http:/ ,是想减肥,找减肥的方法产品活动等。我们把用户输入的“query”背后表达的意图称为“用户需求” 。 搜索结果指搜索引擎(如百度、google 等)根据 Query 返回的搜索结果,可以指具体某一条 Url 页面,也可以指所有的搜索结果。 URL也称为网页地址,简称网址。百度主页页面的 url 是“http:/ 。本文用 url 指就是我们需要评估的一个页面,但是需要注意,我们要评估的是这个 url 页面载入后这个页面上所提供的内容,而不是 url 本身。所以 query-url 评估打分,即根据 query,对该 url 页面的打分。
17、网站主页我们也将网站的主页面称为网站首页,这是我们登入、浏览该网站时最先看到的主要页面。网站主页的 url 往往以 .com.edu.org.gov 等结尾,如 http:/ http:/ http:/ 网站子页面网站中凡是非主页的页面,我们都称之为该网站的子页面。比如说 http:/ 就是苹果公司网站的一个子页面,又例如麦当劳的一个子页面为: http:/ 主题也称为 query 表意,一个 query 的主题即 query 表达的意思是什么,用户输入一个 query 是想在搜索引擎中找到与该 query 主题相关的网页等内容。 页面内容在页面上,广告、赞助商链接等不作为页面内容来进行评估,
18、我们需要评估的是页面的主体信息,如站长发布的内容,即网页自身上所能提供的信息,评分时不应该根据广告来进行评估,即使某些广告可能看上去是相关的。 需求满足度也称需求满足、满足程度,即一个 url 页面对用户需求满足有多大帮助和价值的衡量,满足程度高的页面对用户非常有帮助,反之满足程度低的页面对用户价值很低。需求满足是衡量搜索引擎质量的最重要因素,是在评估打分中需要重点考虑的。 有效性在评估网页时,资源有效性是非常重要的评估要素,如视频是否能播放、软件是否能下载。一个资源有效高质量网页才能满足用户的需求,一个实际失效的网页,对于用户来说是没用的。Part2 query-url 质量评估概述1、Qu
19、ery-Url 质量评估介绍Query-URL 质量打分是最重要的一种打分方式,是评价各搜索引擎好坏的基本方式之一。这种评估是根据 Query 背后的需求,去评价某条结果(即 URL 页面)对用户需求的满足程度。 键入文字 百度内部文档,未经允许,请勿转发82、Query-Url 质量评估考虑的维度Query-Url 质量评估,即评价结果的需求满足,看结果能给用户带来多少的帮助和价值。影响用户需求满足的因素很多,我们列出常见的七种。 2.1 相关性: query 与结果说的是不是一回事相关性,是指结果主题跟用户需求的主题匹配程度,两者说的是不是一回事,有没有跑题。相关,是一个好结果最基本的要求
20、。后面其它的因素都建立在其之上。如果不相关,那肯定是差的结果。下面列举几种典型的不相关的情况:(1 )丢了 Query 中的重要成分。搜【阈怎么发音】 , “阈 ”没了。(2 )拆散了 Query,意思完全偏离。查【林字有多少笔画 】 ,出来“爨字共有多少笔” 。虽然 query 中的 term 在页面都有命中,但是因为拆散后主题完全偏离。(3)含意转变(转义) 。搜【李文】 ,出来“李文和” 。2.2 需求强度:抓住主要需求搜同一个 Query,不同用户的需求可能不同。此时,要站在多数用户的角度来判断,越多人查找的需求越重要。主要需求是最多人找的,满足主要需求的结果,是最好的结果;满足冷门需
21、求,则结果差些。如【苹果】 ,主要需求是苹果品牌、产品相关,而水果、电影的主题表意需求较少。2.3 丰富程度:详细全面多数的查询,越详细的资料内容越好,例如文档、材料、介绍、评论、相关内容等泛需求、又或者一些本身有多种方法需求的 query,举几个简单例子: 搜【感动的作文】 ,通常用户会参考多篇作文,这时提供多篇结果比一篇好; 找某个新闻事件,专题要比单篇好;键入文字 百度内部文档,未经允许,请勿转发9 搜索某部电视剧,如【一起又看流星雨】 ,全集通常比某一集好; 搜索【电脑无法开机】 ,由于原因可能有多种,分析地越详尽越好。 但是要注意,但也有一些 case,由于所求内容相对简单单一,可能
22、一两句话就能满足的很好,这种情况不应当认为文字很少丰富度低,而做出降档打分。Query 需求 URL 与打分 说明横看成岭侧成峰的下一句信息需求。找这个诗句的下一句是什么http:/ 分,完全满足了用户需求这个 query 需求很明确,不需要有非常丰富的要求,只要能满足用户需求就是较好的结果2.4 有效性:能否真正满足用户需求的满足是完整的过程。一定要注意用户搜索的最终需求是什么,这个结果能不能满足最终的需求,只有能满足最终需求的结果才是好结果。(1 )需要检查资源是否有效,如 搜软件下载,不能看到页面上出现“下载”这几个字就到此为止。用户需求是下载安装使用该软件,要准确地评估,必须尝试下载,
23、看其是否真实可用;若是冒牌伪装,或者有病毒木马,那么就不是好的结果。 搜【小学数学教学论文】 ,出来列表页,都是小学数字方面的论文,看起来很好,但是请再点击一两篇论文,看看其是否相关,能否查看阅读。(2 )查看资源是否权限限制,如 找某文档,要注册、或花钱才能下载; 想看电影,要装插件。多数用户都希望直接、免费、快速地得到;装软件、注册、花钱,大大增加了用户的成本,不能算高质量。 2.5 时效性: 新有些查询,对时间有着较高的要求,期望得到最新的信息,常见的是突发新闻的搜索。哪怕没有明确指定什么新闻,给出最新的内容也是很好的。如【上海大火】 ,自 20101115 后相当长一段时间,都是找 20101115