1、数据挖掘基础培训浪潮通信 李文栋 2016年 7月 21日数据挖掘发展 数据丰富和知识匮乏- 信息爆炸、混沌信息空间、数据过剩数据挖掘发展数据挖掘概念 数据挖掘是啥? 数据挖掘 ( Data Mining, DM),简单的讲就是从大量数据中挖掘或抽取出知识,其表示形式有规则、概念、模式等; 又称为 KDD( Knowledge Discovery from Database),它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。数据挖掘是多种学科交叉数据挖掘技术分类数据挖掘流程数据挖掘算法常用算法回归算法 1、线性回归 2、逻辑回归线性回归 假设要找一个 y和 x之间的规
2、律,其中 x是鞋子价钱, y是鞋子的销售量。已知一些往年的销售数据( x0,y0), (x1, y1), . (xn, yn)做样本集 , 并假设它们满足线性关系: y = a*x + b (其中 a,b的具体取值还不确定),线性回归即根据往年数据找出最佳的 a, b取值,使 y = a * x + b 在所有样本集上误差最小。 事实上一元变量的确很直观,但如果是多元就难以直观的看出来了。比如说除了鞋子的价格外,鞋 子的质量,广告的投入,店铺所在街区的人流量都会影响销量,我们想得到这样的公式: sell = a*x + b*y + c*z + d*zz + e。这个时候画图就画不出来了,规律也十分难找,那么交给线性回归去做就好。需要注意的是,这里线性回归能过获得好效果的前提是 y = a*x + b 至少从总体上是有道理的(因为我们认为鞋子越贵,卖的数量越少,越便宜卖的越多。另外鞋子质量、广告投入、客流量等都有类似规律);但并不是所有类型的变 量都适合用线性回归,前提是选好回归公式。总之: 如果我们的公式假设是错的,任何回归都得不到好结果。