1、YJS 项目页面抓取需求文档版 本 1.0批 准 人文件状态草稿正式修改 生效时间应届生页面抓取需求第 2 页 共 20 页版本:1.0 版本历史记录版本 制订者 生效时间 更改内容 审核人 审核意见1.0 骆安 20130219 创建文档应届生页面抓取需求第 3 页 共 20 页版本:1.0 目 录1. 设计目的 .42. 适用范围 .43. 参考文档 .44. 设计稿路径 .45. YSJ 项目抓取 .55.1. YSJ 页面抓取 .55.1.1. 需求描述 .55.1.2. 页面抓取解析 .55.1.3. 文本摘要 .6文档1. 设计目的抓取 YJS 全职与实习项目,补充网站校园招聘项目
2、为运营提供审核、编辑后台内容素材2. 适用范围本文档适用于 YJS 抓取项目团队,预期读者产品人员、UI 设计师、前端工程师、开发工程师、测试工程师等。3. 参考文档无4. 设计稿路径无5. YSJ 项目抓取5.1. 内容抓取5.1.1. 需求描述对应届生每天更新的全职和实习的校园招聘项目进行内容抓取,并根据大街网字典匹配和基本的语意匹配出相关字段帮助运营审核项目。抓取来源:应届生网站()直接抓取应届生网站的项目,包括全职和实习项目全职项目列表页:http:/www.yingjieshen ttime-1.html 抓取频率:一个小时抓取一次,新增项目内容抓取后入库5.1.2. 页面抓取以为
3、 http:/ 项目为例说明。项目抓取字段项目名称 方括号内作为工作地点抓取,应届生用河南|天津分割方括号后作为项目名称抓取Page 5项目描述发布时间、工作地点、来源:名称+链接、职位类型:全职 OR 实习项目内容清除 YSJ 内容页面中非项目描述其他所有广告、链接、iframe 等干扰内容抓取项目描述内容清除原来字体大小、行间距等样式,保留加粗、颜色、超链接等样式内容转换成统一格式,清除含应届生链接,同时保证图片、表格、附件链接等重要信息完整有 附 件内 容 中 包 含 表 格内 容 中 包 含 样 式 不 兼 容 的 表 格所 有 内 容 包 含 在 有 样 式 的 表 格 里所 有 内
4、 容 包 含 在 表 格 里 , 但 展 示 有 误内 容 里 包 含 “iframe“?内 容 表 格 过 宽 , 减 少 页 面 右 侧 推 荐 内 容页 面 表 格 过 宽 , 展 示 不 全页 面 有 富 文 本 样 式 的内 容 采 集 配 错 字 段 的超 长 页 面标 准 内 容 主 体 的 各种 情 况备注 表格有无更好的处理方式5.1.3. 文本摘要系统对抓取的内容进行摘要处理,为运营审核后台提供相关数据参考支持。摘要内容要求专业项目内容中招聘目标用户的专业要求与大街字典库比对摘要保存 预期摘要举例:市场营销、财务管理、会计学、金融学、工商管理等要求学历项目内容中招聘目标用户
5、的学历要求与大街字典库比对后摘要保存预期摘要举例:本科、学士、硕士、研究生、博士等截止时间项目内容中申请截止、到期、结束、停止时间等时间预期摘要举例:截止时间:2013 年 6 月 30 日Page 65.2. 项目页审核后台5.2.1. 页面入口处理抓取的 YJS 项目数据,为运营提供查询、审核、创建、修改、删除等操作;页面入口用户场景 运营人员审核抓取项目功能入口 大街网后台系统企业俱乐部功能描述 使用抓取项目审核功能交互 点击左侧导航,右侧呈现相应内容备注 无Page 75.2.2. 审核列表页审核页表页为运营提供抓取项目查询,审核操作,完成对抓站项目的内容审核管理,操作流程如下图:待
6、审 核 项 目当 前 页 面 打 开审 核 页 面 编 辑点 击 审 核 /按 钮选 择 操 作审 核 功 能返 回 到 审 核 列表 页返 回新 开 窗 口 预 览抓 取 内 容 预 览审 核 操 作项 目 数 据 同 步 到 项 目 后 台项 目 数 据 状 态 改 为 审 核 通 过通 过项 目 数 据 不 同 步 项 目 后 台项 目 数 据 状 态 改 为 审 核 不 通 过不 通 过图 1:待审核项目运营处理流程图备注:不同的审核状态进入审核页面的按钮状态不同Page 8审核列表页原型:审核列表页面用户场景 运营人员使用审核后台管理抓站项目功能入口 大街网后台系统企业俱乐部抓取项目
7、招聘功能描述查询工具抓站项目 ID:用户输入项目 ID 点击查询后,下方刷新出查询结果更新时间:用户选择更新时间(日期)点击查询后,下方刷新出查询结果项目名称:用户输入项目名称(模糊匹配)点击查询后,下方刷新出查询结果数据列表功能样式:与项目招聘保持一致,显示结果数量、页数,可选择每页显示数量、首页尾页后一页等页面跳转审核状态:用户可选择未审核和审核通过,默认显示为未审核+审核通过列表区域抓站项目 ID:抓站项目流水 ID项目标题:抓取的项目标题发布日期:抓取来的项目发布日期,格式 YYYY-MM-DD行业:显示运营后台添加项目公司所属行业地区:显示运营后台添加项目工作地点,如北京、上海、南京
8、审核日期:最后一次审核日期,格式 YYYY-MM-DD审核 ID:最后一次审核操作者 ID审核状态:未审核、审核通过、审核不通过审核(重新审核)操作:点击审核(重新审核)文字按钮,当前页面跳转去审核详情页面查看页面:点击修改查看页面文字按钮,新开窗口打开项目页面功能交互 后台字典、日期控件、交互保持统一Page 9备注5.2.3. 审核详情页审核列表页面用户场景 审核人员使用的抓站内容详细审核页面功能入口 大街网后台系统企业俱乐部抓取项目招聘Page 10功能描述操作功能审核通过:点击按钮后项目状态置成审核通过状态,数据一次性同步到项目后台审核不通过:点击按钮后项目状态置成审核不通过状态,数据
9、不同步到项目后台返回:返回上一级页面审核列表页面预览:新开页面预览项目页内容CMS 编辑区域*项目标题:从应届生抓取的项目标题,提交时判断字数小于 30 个汉字抓站地址:抓取应届生的 URL*来源地址:应届生项目中的来源字段链接对应的地址网申地址:应届生项目 URL 中需要登录点击“立即申请”后跳转出去的真实网申地址,如无数据需运营人工填写*项目类型: radio 选择全职或实习*日程开始时间:应届生中“发布时间”,后台时间控件选择*日程结束时间:按照日程开始时间后推 3 个月,后台时间控件选择*工作地点:创建项目时读取算法匹配出的数据,审核人员可从字典修改*内容编辑器:采用目前的编辑器,在 760px 宽度时添加一条辅助线,帮助运营填写表格*专业要求:创建项目时读取算法匹配出的数据,运营可从专业字典修改*公司行业:创建项目时读取算法匹配出的数据,运营可从专业字典修改学历要求:创建项目时读取算法匹配出的数据,运营可从学历字典修改目标院校:创建项目时读取算法匹配出的数据,运营可从院校字典修改毕业年份:checkbox 选择毕业年份,下拉选择之前 or 之后功能交互 后台字典、日期控件、交互与目前后台保持统一备注 带星号的为必填字段,各字数长度控制等前端设计稿出后补充