1. 大数据时代的思维变革 1. 大数据时代的思维变革更杂“更杂”不是精确性,而是混杂性 执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是有框架且能适用于传统数据库的。如果不能接受混乱,剩下95%的非框架数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户 允许不精确 大数据的简单算法比小数据的复杂算法更有效 纷繁的数据越多越好 混杂性,不是竭力避免,而是标准途径 新的数据库设计的诞生允许不精确 对“小数据”而言,最基本、最重要的要求是减少错误,保证质量。 允许不精确 容错标准的放松能获取更多数据 大量数据创造更好的结果 混乱 错误的数据 格式的不一致“大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。计算机的速度 摩尔定律 每块芯片上晶体管的数量每两年就会翻一番。 驱动各类系统的算法 在很多领域算法带来的进步胜于芯片进步 大数据 2000年,微软研究者,改进word语法检查的方法,数据的增多提高了算法的表现。 发展算法还是丰富语料库?大数据的简单算法 小数据的复杂算法 无所不包的google翻译系统 2006年 Google 上万亿的语料库 翻译