数据采集及自动处理流程1 概述本文主要描述内容网库对外定义的数据采集接口以及对于这些采集数据的自动处理流程。通过对现速网的分析,我们认为对于数据的采集主要是通过手工方式,爬虫爬取方式进行的,对于其他的采集方式,网信虽然有提及,但是我们在现在的速网后台没有发现相应的模块,希望网信相关人员通过对该文档的阅读,对于我们欠缺的采集接口做及时的补充。对于我们下面所设计的接口,希望网信相关人员可以提供测试数据供我们测试,2 采集接口定义2.1 爬虫BT接口2.1.1 待确认问题因为在原有的速网后台中,我们没有发现该接口的设置界面,所以请相关人员就一下几个问题给与解答1.爬虫是否会去爬取BT的信息2.如果爬虫会爬取BT的信息,那么和HTTP爬取的信息是否一致?3.Bt爬虫爬取的数据与Bt主动缓存解析的数据有什么区别基于上述的问题,在没有获得网信相关人员答复的前提下,我们按照如下条件设计1.爬虫会爬取BT信息2.爬虫爬取的信息仅包含资源信息。2.1.2 接口设计调用方:爬虫系统调用频率:当发现爬取到新的数据时实时调用或者每天