温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-13556830.html】到电脑端继续下载(重复下载不扣费)。
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。 2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。 3: 文件的所有权益归上传用户所有。 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。 5. 本站仅提供交流平台,并不能对任何下载内容负责。 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
本文(内容网数据采集接口定义及自动处理流程.doc)为本站会员(晟***)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!
数据采集及自动处理流程1 概述本文主要描述内容网库对外定义的数据采集接口以及对于这些采集数据的自动处理流程。通过对现速网的分析,我们认为对于数据的采集主要是通过手工方式,爬虫爬取方式进行的,对于其他的采集方式,网信虽然有提及,但是我们在现在的速网后台没有发现相应的模块,希望网信相关人员通过对该文档的阅读,对于我们欠缺的采集接口做及时的补充。对于我们下面所设计的接口,希望网信相关人员可以提供测试数据供我们测试,2 采集接口定义2.1 爬虫BT接口2.1.1 待确认问题因为在原有的速网后台中,我们没有发现该接口的设置界面,所以请相关人员就一下几个问题给与解答1.爬虫是否会去爬取BT的信息2.如果爬虫会爬取BT的信息,那么和HTTP爬取的信息是否一致?3.Bt爬虫爬取的数据与Bt主动缓存解析的数据有什么区别基于上述的问题,在没有获得网信相关人员答复的前提下,我们按照如下条件设计1.爬虫会爬取BT信息2.爬虫爬取的信息仅包含资源信息。2.1.2 接口设计调用方:爬虫系统调用频率:当发现爬取到新的数据时实时调用或者每天
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。