大数据体系一般分为:数据采集、数据计算、数据服务、以及数据应用 几大层次。在数据采集层,主要分为 日志采集 和 数据源数据同步。日志采集根据产品的类型 又有可以分为: 浏览器页面 的日志采集 客户端 的日志采集 浏览器页面采集: 主要是收集页面的 浏览日志(PV/UV等) 和 交互操作日志(操作事件)。这些日志的采集,一般是在页面上植入标准的统计JS代码来进执行。但这个植入代码的过程,可以在页面功能开发阶段由开发同学手动写入,也可以在项目运行的时候,由服务器在相应页面请求的时候动态的植入。事实上,统计JS在采集到数据之后,可以立即发送到数据中心,也可以进行适当的汇聚之后,延迟发送到数据中心,这个策略取决于不同场景的需求来定。页面日志在收集上来之后,需要在服务端进行一定的清晰和预处理。 比如 清洗假流量数据、识别攻击、数据的正常补全、无效数据的剔除、数据格式化、数据隔离等。客户端日志采集: 一般会开发专用统计SDK用于APP客户端的数据采集。客户端数据的采集,因为具有高度的业务特征,自定义要求比较高,因此除应用环境的一些基本