内容网数据采集接口定义及自动处理流程.doc

上传人:晟*** 文档编号:13556830 上传时间:2022-08-17 格式:DOC 页数:11 大小:546KB
下载 相关 举报
内容网数据采集接口定义及自动处理流程.doc_第1页
第1页 / 共11页
内容网数据采集接口定义及自动处理流程.doc_第2页
第2页 / 共11页
内容网数据采集接口定义及自动处理流程.doc_第3页
第3页 / 共11页
内容网数据采集接口定义及自动处理流程.doc_第4页
第4页 / 共11页
内容网数据采集接口定义及自动处理流程.doc_第5页
第5页 / 共11页
点击查看更多>>
资源描述

数据采集及自动处理流程1 概述本文主要描述内容网库对外定义的数据采集接口以及对于这些采集数据的自动处理流程。通过对现速网的分析,我们认为对于数据的采集主要是通过手工方式,爬虫爬取方式进行的,对于其他的采集方式,网信虽然有提及,但是我们在现在的速网后台没有发现相应的模块,希望网信相关人员通过对该文档的阅读,对于我们欠缺的采集接口做及时的补充。对于我们下面所设计的接口,希望网信相关人员可以提供测试数据供我们测试,2 采集接口定义2.1 爬虫BT接口2.1.1 待确认问题因为在原有的速网后台中,我们没有发现该接口的设置界面,所以请相关人员就一下几个问题给与解答1.爬虫是否会去爬取BT的信息2.如果爬虫会爬取BT的信息,那么和HTTP爬取的信息是否一致?3.Bt爬虫爬取的数据与Bt主动缓存解析的数据有什么区别基于上述的问题,在没有获得网信相关人员答复的前提下,我们按照如下条件设计1.爬虫会爬取BT信息2.爬虫爬取的信息仅包含资源信息。2.1.2 接口设计调用方:爬虫系统调用频率:当发现爬取到新的数据时实时调用或者每天

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 公文范文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。