1、机器学习与数据挖掘,基本问题,何为机器学习、数据挖掘?,计算机的功能替代人的大脑进行思维最简单的:+-*/稍复杂:圆、方、直线按规则推理传统的人工智能更复杂的思维能力?学习、综合、推广、创新用计算机全面替代人的大脑进行思维是计算机学界的终极理想,何为机器学习、数据挖掘?,计算机的功能计算机“思维”水平的现状人类已深刻理解的过程使用准确的数学模型进行计算各种运算:+ - * / sin log边缘提取:各种算子几何形状提取:Hough 变换,y=ax+b,X,Y,A,B,a,b,何为机器学习、数据挖掘?,计算机的功能计算机“思维”水平的现状人类尚未深刻理解的过程?尚未有好的办法解决人类是如何解决
2、的?学习如果计算机可如人类一样学习,则可极大提高计算机应用范围和效果机器学习,何为机器学习、数据挖掘?,何为“学习”?H. Simon: Any process by which a system improves its performanceM. Minsky: Learning is making useful changes in our mindsR. Michalsky: Learning is constructing or modifying representations of what is being experiencedL. Valiant: Learning is
3、the process of knowledge acquisition in the absence of explicit programming,何为机器学习、数据挖掘?,学习的基本模型人类是如何学习的?基本过程:观察响应,热,红色,跳动,火,何为机器学习、数据挖掘?,学习的基本模型人类是如何学习的?学习过程的本质是对因果律求逆,火,内在实体:不可直接观测,因果律,热,红色,跳动,可观测特征,学习,意识中的实体,何为机器学习、数据挖掘?,学习的基本模型,概念空间,特征空间,因果律,物理过程,学习过程,何为机器学习、数据挖掘?,学习的基本模型基本要素问题:所需要的输出(类别、数值)特征属性
4、:可观测的物理量样本:特征组合和输出类别的一些对应关系,何为机器学习、数据挖掘?,学习的基本模型目标通过对少量样本的分析,获得一个特征和输出类别的一般性对应关系基本数学模型强:给定一组(X, F(X),求F如不对F进行很强的限制,一般难以实现弱:给定一组(X, F(X),对新的X,求F(X)“举一反三”仍然是很难的问题,何为机器学习、数据挖掘?,学习的基本模型应用过程,原始数据,人工分析,机器学习,训练样本,模型,新数据,结果,离线过程,在线过程,数学方法,决定性步骤尚无有效的理论指导,机器学习与数据挖掘研究内容,样本准备对象分割对象在文档中可能只占很小比例用整个文档提取的特征含有大量噪声特征与特征提取使用什么样的特征?如何计算?如何进行预处理?样本选择正负样本数可能严重失衡(1:10,1:100)样本可能包含噪声,机器学习与数据挖掘研究内容,样本预处理特征选择并非所有特征都对学习有帮助过多的特征会带来大量噪声特征降维消除特征之间的相关性,降低特征维数过多的特征会带来大量噪声,机器学习与数据挖掘研究内容,训练算法算法选择概率的/几何的?产生式/区分式?参数选择算法参数的选择直接决定了训练出的模型的优劣Boost是否需要Boost?用哪种Boost方法?,