1、从草根到云端 TalkingData 数据库技术进化,TalkingData Tech VP 周海鹏,“人们”眼中的TalkingData,App Analytics,Game Analytics,Mobile Ad Tracking,Enterprise,游戏运营分析,移动广告监测,企业解决方案,移动应用统计分析,11500+,应用款数,7.5亿+,累计覆盖,2500万+,日活设备,35%覆盖,Top盈收游戏,2.5亿+,玩家覆盖,1000万+,日活玩家,49家,网盟对接,40%覆盖,行业广告主,1500万点击,日监测点,两大一线应用市场,三大运营商,四大银行,业务模型,计算需求,草根时代(
2、HelloWorld),草根时代(统计分析系统计算模型),group by,multi join,distinct count,青铜时代,草根时代,了解业务模型清晰计算模型,青铜时代,支持业务横向扩展数据量支持亿级表,2011,2012,2013,2014,青铜时代,基于Hadoop生态的批处理系统,数据库批量Insert/Update,压力大,数据库读压力小,Schema 更新多,青铜时代(TokuDB),大数据量 Insert/Update/Delete/优化,均是message,lazy式操作,自上而下逐步Flush到leaf节点,天然多版本,无需做undo log,Fast inser
3、t/ Fast update,延迟小,Schema更改,例如Column增加/删除/更改,青铜时代,青铜时代,大数据量插入能力,更新能力的确比较突出,InnoDB也不差,和索引、数据Layout、操作模式有关,青铜时代,针对SSD有一定优化,如果考虑随机查询能力,不少专门针对SSD优化的KV库更合适,例如AeroSpike,黄金时代,草根时代,了解业务模型清晰计算模型,青铜时代,支持业务横向扩展数据量支持亿级表,2011,2012,2013,2014,黄金时代,数据量支持百亿表查询能力到毫秒级支持多维交叉业务,黄金时代(从行式到列式),黄金时代,Infobright,InfiniDB,Mone
4、tDB,Vertica,黄金时代,select avg( score ) from example where class =Junior and grade = A group by gender;,黄金时代,查询速度(ms),存储能力(G),黄金时代,left outer join,(select devid from activeuser where job_time=20141008001501 and productid=3012470 group by devid) l on (n.devid=l.devid) where l.devid is not null;,(select
5、devid from newuser where job_time=20141007001501 and productid=3012470) n,select count(*) from,黄金时代:Join操作的难点和解决思路,以Bitmap计算替换原始日志扫描(优化存储,降低成本),高效的内存计算(优化速度,优化功能),优化:逻辑计算等价优化:串行改并行,黄金时代,Select count(*) from user where status = married and region = central or region = west,status =“married”,region =“
6、central”,region =“west”,黄金时代,云端时代,草根时代,了解业务模型清晰计算模型,青铜时代,支持业务横向扩展数据量支持亿级表,2011,2012,2013,2014,黄金时代,数据量支持百亿表查询能力到毫秒级支持多维交叉业务,云端时代,支持统一数据查询能力支持多数据库混合存储面向场景的数据库研发,云端时代,云时代,列式数据库(count/Group by),HDFS/Kafka等文件存储(scan),搜索引擎(文本随机查询),Redis/LMDB/RocksDB等KV数据库,传统关系型数据库,云时代,JDBC client,JDBC server,SQL parser /
7、validator,Query optimizer,3rd party ops,3rd party ops,3rd party data,3rd party data,Optional,Core,Pluggable,Metadata SPI,Pluggable rules,云时代,潜在高价值客群,居住城市:北、上、广、深等一线城市生活半径:上海内环以外,中环以内,年龄:22 30岁生活特征:宅男腐女,至少拥有一张信用卡招行、交通、中信卡用户更为优质,iphone用户较多三星galaxy、note系列用户较多,总结,不同的时期不同的选型,每种数据库都有它特定的场景-读写优化的平衡,数据库和计算紧密捆绑在一起-存储和计算的平衡,自主创新和产品使用珠联璧合-底层研究和应用能力的平衡,官网 / 微博 / TalkingData,微信 / TalkingData服务支持 / ,Q&A,