1、2018/9/25,谭营-机器学习研究及最新进展,1,机器学习研究及最新进展,谭营 教授北京大学智能科学系视觉与听觉信息处理国家重点实验室,2018/9/25,谭营-机器学习研究及最新进展,2,目录,机器学习的定义和任务机器学习的发展历史机器学习的主要方法机器学习面临的挑战最新发展方向,题目:机器学习研究及最新进展,2018/9/25,谭营-机器学习研究及最新进展,3,学习系统基本构成,学习环节,知识库,执行环节,学习环节: 感知环境,获取知识常用的学习方法机械式学习指导式学习归纳式学习类比学习,一个基于知识库的智能系统,环境,2018/9/25,谭营-机器学习研究及最新进展,4,机器学习的定
2、义,通过经验提高系统自身的性能的过程(系统自我改进)。机器学习的重要性:机器学习是人工智能的主要核心研究领域之一, 也是现代智能系统的关键环节和瓶颈。很难想象: 一个没有学习功能的系统是能被称为是具有智能的系统。,2018/9/25,谭营-机器学习研究及最新进展,5,入侵检测系统IDS:是否是入侵?是何种入侵?,如何检测?历史数据:以往的正常访问模式及其表现、以往的入侵模式及其表现对当前访问模式分类,这是一个典型的机器学习问题常用技术:神经网络,决策树,支持向量机,贝叶斯分类器,k近邻,聚类,序列分析,免疫网络等 ,实例1:网络安全问题,2018/9/25,谭营-机器学习研究及最新进展,6,如
3、何预测?气象历史数据:以往的各种气象数据及其变化特点对未来一周天气的预报,这是一个典型的机器学习问题常用技术:统计多参数模型,神经网络, 贝叶斯分类器,k近邻,聚类,实例2:天气预报,2018/9/25,谭营-机器学习研究及最新进展,7,实例3:搜索引擎,Google的成功,使得Internet搜索引擎成为一个新兴的产业出现有众多专营搜索引擎的公司(例如百度等专门针对中文搜索),而且Microsoft等巨头也开始投入巨资进行搜索引擎的研发,机器学习技术正在支撑着各类搜索引擎(尤其是贝叶斯学习技术),Google掘到的第一桶金,来源于其创始人Larry Page和Sergey Brin提出的Pa
4、geRank算法,2018/9/25,谭营-机器学习研究及最新进展,8,Application 4,2018/9/25,谭营-机器学习研究及最新进展,9,Application 4,Automatic Car DriveClass of Tasks: Learning to drive on highways from vision stereos.Knowledge: Images and steering commands recorded while observing a human driver.Performance Module: Accuracy in classificati
5、on,2018/9/25,谭营-机器学习研究及最新进展,10,Application 5,Learning to classify astronomical structures.,galaxy,stars,Features: Color Size Mass Temperature Luminosity,unkown,2018/9/25,谭营-机器学习研究及最新进展,11,Application 6,Classifying Astronomical ObjectsClass of Tasks: Learning to classify new objects.Knowledge: databa
6、se of images with correct classification.Performance Module: Accuracy in classification,2018/9/25,谭营-机器学习研究及最新进展,12,Other Applications,Bio-Technology Protein Folding Prediction Micro-array gene expression Computer Systems Performance Prediction Banking ApplicationsCredit Applications Fraud Detection
7、 Character Recognition (US Postal Service) Web Applications Document Classification Learning User Preferences,2018/9/25,谭营-机器学习研究及最新进展,13,机器学习的任务,令W是这个给定世界的有限或无限所有对象的集合,由于观察能力的限制,我们只能获得这个世界的一个有限的子集QW,称为样本集。机器学习就是根据这个有限样本集Q ,推算这个世界的模型,使得其对这个世界为真。,Q,W,Model,建模,泛化,2018/9/25,谭营-机器学习研究及最新进展,14,机器学习的三要素,(
8、1)一致性假设:机器学习的条件。(2)样本空间划分:决定模型对样本集合的有效性。(3)泛化能力:决定模型对世界的有效性。,2018/9/25,谭营-机器学习研究及最新进展,15,要素1:一致性假设,假设世界W与样本集Q具有某种相同的性质。原则上说,存在各种各样的一致性假设。在统计意义下,一般假设:W与Q具有同分布。或,给定世界W的所有对象独立同分布。,2018/9/25,谭营-机器学习研究及最新进展,16,要素2:对样本空间的划分,样本集合模型: 将样本集放到一个n维空间,寻找一个超平面(等价关系),使得问题决定的不同对象被划分在不相交的区域。,2018/9/25,谭营-机器学习研究及最新进展
9、,17,要素3: 泛化能力,通过机器学习方法,从给定有限样本集合计算一个模型,泛化能力是这个模型对世界为真程度的指标。,2018/9/25,谭营-机器学习研究及最新进展,18,关于三要素,不同时期,研究的侧重点不同划分:早期研究主要集中在该要素上泛化能力(在多项式划分):80年代以来的近期研究一致性假设:未来必须考虑,2018/9/25,谭营-机器学习研究及最新进展,19,机器学习是多学科交叉,机器学习,统计学,人工智能,哲学,信息论,生物学,计算复杂性,数学,认知科学,控制论,其他学科,应用领域,2018/9/25,谭营-机器学习研究及最新进展,20,THE QUESTIONS-The To
10、p 25,What Is the Universe Made Of?What is the Biological Basis of Consciousness?Why Do Humans Have So Few Genes?To What Extent Are Genetic Variation and Personal Health Linked?Can the Laws of Physics Be Unified?How Much Can Human Life Span Be Extended?What Controls Organ Regeneration?How Can a Skin
11、Cell Become a Nerve Cell?How Does a Single Somatic Cell Become a Whole Plant?How Does Earths Interior Work?Are We Alone in the Universe?How and Where Did Life on Earth Arise?What Determines Species Diversity?What Genetic Changes Made Us Uniquely Human?How Are Memories Stored and Retrieved?How Did Co
12、operative Behavior Evolve? .,http:/www.sciencemag.org/sciext/125th/,On 25 big questions facing science over the next quarter-century.(1 July 2005),2018/9/25,谭营-机器学习研究及最新进展,21,记忆的模型与过程,记忆的模型与过程通常包括三个相互联系的阶段:1、编码(encoding),2、存储(storage)3、提取(retrieval),记忆的模型,2018/9/25,谭营-机器学习研究及最新进展,22,工作记忆(Working Mem
13、ory),工作记忆系统能同时储存和加工信息,这和短时记忆概念仅强调储存功能是不同的。工作记忆分成:中枢执行系统、视空初步加工系统和语音环路。工作记忆与语言理解能力、注意力及推理能力等联系紧密,工作记忆蕴藏智能的玄机。,2018/9/25,谭营-机器学习研究及最新进展,23,Working Memory Model,2018/9/25,谭营-机器学习研究及最新进展,24,机器学习的分支,数据挖掘:利用历史数据来改进决策例如:医学记录 医学知识软件应用(不能手工编程的应用)汽车自动驾驶语音识别 等自用户化程序新闻阅读器学习用户的阅读兴趣。,返回,2018/9/25,谭营-机器学习研究及最新进展,2
14、5,机器学习早期研究,Rosenblatt的感知机(1956)。Widrow的Madline (1960)。Samuel的符号机器学习(1965)。Minsky的“Perceptron”著作(1969,1988)。,2018/9/25,谭营-机器学习研究及最新进展,26,Perceptrons,Devised by Frank Rosenblatt in the late 1950sA single-layer network where all inputs and activation values are either 0 or 1, and the weights are real v
15、aluedActivation function is a simple linear threshold1 if xiwi t0 otherwiseSupervised learning, perceptron changes weights based on correct resultsIf output is correct, do nothingIf output is 0 and should be 1, increment weights on the active lines (input of 1) by some amount d.If output is 1 and sh
16、ould be 0, decrement weights on the active lines by some amount d.,2018/9/25,谭营-机器学习研究及最新进展,27,Limits of Perceptrons,Single-layer networks are only capable of learning classes that are linearly separableFor example, exclusive-or is not linearly separable, and thus cannot be represented by a perceptr
17、onFor any n-dimensional space, a classification is linearly separable if these groups can be separated with a single n-1 dimensional hyperplane,2018/9/25,谭营-机器学习研究及最新进展,28,二十世纪八十年代的研究,符号机器学习取得进展。神经网络的研究。计算学习理论-PAC(概率近似正确)。,2018/9/25,谭营-机器学习研究及最新进展,29,两类最重要的符号机器学习算法,覆盖算法与分治算法。七十年代末,Michalski基于带等号的逻辑演
18、算,提出了AQ11算法,称为符号机器学习的覆盖算法。1986年,Quinlan提出了决策树算法,也称为分治算法(树结构表示的最早研究是CLS,概念学习系统)。,2018/9/25,谭营-机器学习研究及最新进展,30,神经网络,Hopfield模型。Kohonen模型。Goldberg的ART模型。最有影响的是Remulhart等人提出的BP算法(1986)。,2018/9/25,谭营-机器学习研究及最新进展,31,计算学习理论,1984年,Valiant提出机器学习应该以模型概率近似正确(1-)为指标,而不是以概率为1为指标。学习算法必须对样本集合的规模呈多项式。统计机器学习、集成机器学习等方
19、法的理论基础。,2018/9/25,谭营-机器学习研究及最新进展,32,机器学习 学科,1983年,R.S. Michalski等人撰写机器学习:通往人工智能的途径一书1986年,Machine Learning杂志创刊1997年以Tom Mitchell的经典教科书(McGraw Hill Press, 1997)中都没有贯穿始终的基础体系,只不个是不同方法和技术的罗列机器学习还非常年轻、很不成熟,返回,2018/9/25,谭营-机器学习研究及最新进展,33,机器学习的主要方法,传统分类归纳机器学习解释机器学习遗传机器学习连接机器学习现代分类(1997年,Dietterich)符号机器学习。
20、统计机器学习。集成机器学习。增强机器学习。,2018/9/25,谭营-机器学习研究及最新进展,34,学习方法的传统分类,传统上,大致可分为4类:归纳学习解释学习遗传学习连接学习,2018/9/25,谭营-机器学习研究及最新进展,35,归纳学习,是从某一概念的分类例子集出发归纳出一般的概念描述。这是目前研究得最多的学习方法,其学习目的是为了获得新的概念、构造新的规则或发现新的理论。这种方法要求大量的训练例,而且归纳性能受到描述语言、概念类型、信噪比、实例空间分布、归纳模式等的影响。包括:有变型(版本)空间、决策树方法、AQ11算法,一阶Horn子句等,2018/9/25,谭营-机器学习研究及最新
21、进展,36,解释学习,解释学习(分析学习)是从完善的领域理论出发演绎出有助于更有效地利用领域理论的规则。 其学习目的是提高系统性能,而不是修改领域理论。它与归纳学习相反,只需要少量的训练例,但要求有完善的领域理论,而且学习效果也与例子表示形式、学习方法(正例学习或反例学习)、概括程度等有关。,2018/9/25,谭营-机器学习研究及最新进展,37,遗传学习,是通过模拟自然界遗传与变异机制,利用进化论的自然选择原理进行分类和优化。优点:可以使一些用传统的精确的符号方法无法解决的问题变得易解缺点:在学习过程中会产生大量数据,如何对这些数据进行挑选和记忆?,2018/9/25,谭营-机器学习研究及最
22、新进展,38,连接学习,通过以某种形式连接的大量神经元根据训练模式集调整连接和阈值进行学习,这种学习方式就是通常所说的人工神经网络学习,也称为“并行分布式学习”,其出发点是著名的MP模型。该方法在50、60年代陷入沉寂,但在80年代解决TSP问题后得到复兴(BP,HNN,etc.)。这得益于隐结点的使用使其突破了早期Perceptron的限制。优点:在模式识别、语音处理等许多方面已得到成功应用。缺点:难以处理高层次的符号信息,使得应用范围受到了限制。,返回,2018/9/25,谭营-机器学习研究及最新进展,39,机器学习方法的现代分类,1997年,Dietterich的分类符号机器学习统计机器
23、学习集成机器学习增强机器学习,返回,2018/9/25,谭营-机器学习研究及最新进展,40,符号机器学习,1959年Solomonoff关于文法归纳的研究应该是最早的符号机器学习。1967年Gold证明,这是不可能的实现的。Samuel将分段划分引入对符号域的数据处理, 形成了一类基于符号数据集合的约简算法,这是现代符号机器学习的基础。约简:规则长度越短,覆盖对象越多,但是,不能增加对象矛盾。,2018/9/25,谭营-机器学习研究及最新进展,41,符号机器学习的基础-划分,机器学习的本质是对样本空间的划分。这需要定义一个等价关系,将样本空间划分为等价类。,2018/9/25,谭营-机器学习研
24、究及最新进展,42,符号机器学习的等价关系,定义在给定符号对象集合U上的等价关系a(x, y) : a(x)=a(y), x, yU,2018/9/25,谭营-机器学习研究及最新进展,43,Rough Set理论,Pawlak在1982年提出的一种数学理论,包含了两个方面的内容:基于roughness的不精确知识表示理论。Reduct理论与边缘理论。可以证明:覆盖算法和分治算法与Reduct理论等价。Reduct理论是符号机器学习的理论基础。,2018/9/25,谭营-机器学习研究及最新进展,44,Reduct理论的贡献,给出了在结构上“非最小”解的精确数学定义-Reduct。Core的概念。
25、根据上述两个概念,引出边缘区域的概念。,2018/9/25,谭营-机器学习研究及最新进展,45,Reduct,是一个属性集合,当从这个集合中删除一个属性,则至少出现一个新的矛盾样本对。因此,它是在的不增加新矛盾对的最小属性集合。rR, POSR(D)POSR-r(D)。,2018/9/25,谭营-机器学习研究及最新进展,46,Core,是一个属性集合。如果删除一个这样的属性,必然出现一个新的样本矛盾对。反映了信息系统的本质。,2018/9/25,谭营-机器学习研究及最新进展,47,边缘区域,边缘区域是信息系统所有矛盾样本的集合。如果C(x)=C(y),但是,D(x)D(y),x与y是样本集合中
26、的矛盾对。这为我们提供了研究矛盾信息结构的机会。,2018/9/25,谭营-机器学习研究及最新进展,48,性质,根据reduct可以建立一个新的信息系统,这个信息系统的所有属性是core。这个性质对形成不同简洁程度文本有重要的应用。,2018/9/25,谭营-机器学习研究及最新进展,49,符号机器学习的限制,算法定义在符号域,连续量必须被映射到这样的域上,算法才有效学习算法本身无法刻画泛化能力,而依赖于与算法本身无关的上述映射目前,它是数据分析与数据挖掘的基础,返回,2018/9/25,谭营-机器学习研究及最新进展,50,统计机器学习,算法的泛化能力Vapnik的有限样本统计理论线性空间的学习
27、算法(划分)SVM,2018/9/25,谭营-机器学习研究及最新进展,51,泛化误差,由于问题世界的统计分布未知(如果已知,无需机器学习,Vapnik),解析地计算最小期望风险是不可能的。机器学习以最小经验风险与期望风险之差为统计基础,称为泛化误差。泛化能力以此进行估计。,2018/9/25,谭营-机器学习研究及最新进展,52,Duda(1973),Vapnik(1971),泛化能力描述,2018/9/25,谭营-机器学习研究及最新进展,53,“泛化误差界”研究的演变,PAC界(Valiant1984)VC维界(Blumer1989)最大边缘(Shawe-Taylor1998),2018/9/
28、25,谭营-机器学习研究及最新进展,54,最大边缘(Shawe-Taylor1998),M0,边缘不能等于零。这意味着,样本集合必须是可划分的。边缘最大,误差界最小,泛化能力最强。泛化能力可以使用样本集合的边缘刻画。,这个不等式依赖于边缘M。贡献:给出了有几何直观的界描述,从而为算法设计奠定基础。,2018/9/25,谭营-机器学习研究及最新进展,55,研究趋势,算法的理论研究已经基本完成,目前主要集中在下述两个问题上:泛化不等式需要样本集满足独立同分布,这个条件太严厉,可以放宽这个条件?如何根据领域需求选择核函数,有基本原则吗?,2018/9/25,谭营-机器学习研究及最新进展,56,有限样
29、本统计理论的优点,所需满足的条件相对较少,尽管需要满足独立同分布,但无需考虑问题世界的先验分布这意味着,这个理论可以仅以样本集(数据)为基础,2018/9/25,谭营-机器学习研究及最新进展,57,要求“线性算法”的原因,对计算,非线性算法一般是NP完全的。对世界认识,只有在某个空间可以描述为线性的世界,人们才能够说,这个世界已被认识。,2018/9/25,谭营-机器学习研究及最新进展,58,非线性问题的数学方法,寻找一个映射,将非线性问题映射到线性空间,以便其可以在线性空间中线性表述。例如,牛顿万有引力定律:映射:线性表示:,2018/9/25,谭营-机器学习研究及最新进展,59,在机器学习
30、中的方法,方法:寻找具有一般意义的线性空间目前,机器学习主要采用两种方法:整体线性:Hilbert空间分段线性:在流形意义下的线性子空间,2018/9/25,谭营-机器学习研究及最新进展,60,线性可分问题,如果一个样本集合是线性可分的,它们一定可以构成两个不相交的闭凸集。这样,线性可分问题变为计算两个闭凸集的最大边缘问题。,2018/9/25,谭营-机器学习研究及最新进展,61,线性不可分问题-核函数,可以证明,一定存在一个映射,称为核函数,将在欧氏空间定义的样本映射到特征空间(一个更高维的空间),使得在特征空间上,样本构成两个不相交的闭凸集。,2018/9/25,谭营-机器学习研究及最新进
31、展,62,SVM,线性可分为基础。给定核函数,如果它可以保证将样本集合在特征空间变换为两个不相交的闭凸集,则对这个样本集合的最大边缘可以通过二次规划、代数几何、计算几何等方法获得。由此,可以获得支持向量。这就是SVM。,2018/9/25,谭营-机器学习研究及最新进展,63,存在问题,SVM只从存在上解决了划分问题,并没有真正在划分上解决核函数的构造问题。泛化问题不仅需要解决划分问题,还需要解决最大边缘问题。这意味着,需要在满足线性划分的核函数中选择一个满足最大边缘的核函数(模型选择)。,返回,2018/9/25,谭营-机器学习研究及最新进展,64,集成机器学习动机(Ensembles),在形
32、式上与Madline类似,其泛化理论来自PAC的弱分类器理论。使用多个容易设计的简单PAC弱分类器代替一个较难设计的PAC强分类器。,2018/9/25,谭营-机器学习研究及最新进展,65,研究背景,Valiant84introduced theoretical PAC model for studying machine learningKearns&Valiant88open problem of finding a boosting algorithmSchapire89, Freund90first polynomial-time boosting algorithmsDrucker,
33、 Schapire&Simard 92first experiments using boosting,2018/9/25,谭营-机器学习研究及最新进展,66,背景 (cont.),Freund&Schapire 95introduced AdaBoost algorithmstrong practical advantages over previous boosting algorithmsexperiments using AdaBoost:Drucker&Cortes 95Schapire&Singer 98Jackson&Cravon 96Maclin&Opitz 97Freund&
34、Schapire 96Bauer&Kohavi 97Quinlan 96Schwenk&Bengio 98Breiman 96Dietterich98continuing development of theory & algorithms:Schapire,Freund,Bartlett&Lee 97 Schapire&Singer 98Breiman 97Mason, Bartlett&Baxter 98Grive and Schuurmans98Friedman, Hastie&Tibshirani 98,2018/9/25,谭营-机器学习研究及最新进展,67,A Formal View
35、 of Boosting,Given training set X=(x1,y1),(xm,ym)yi-1,+1 correct label of instance xiXfor t = 1,T:construct distribution Dt on 1,mFind weak hypothesis (“rule of thumb”) ht : X -1,+1 with small error t on Dt: output final hypothesis Hfinal,2018/9/25,谭营-机器学习研究及最新进展,68,集成机器学习,1990年Shapire证明,如果将多个PAC弱分类
36、器集成在一起,它将具有PAC强分类器的泛化能力。进而,又说明,这类集成后的强分类器具有统计学习理论的基础。,2018/9/25,谭营-机器学习研究及最新进展,69,弱分类器,如果一个分类器的分类能力(泛化)稍大于50%,这个分类器称为弱分类器。这意味着,比掷硬币猜正面的概率稍好,就是弱分类器。,2018/9/25,谭营-机器学习研究及最新进展,70,集成,在分类时,采用投票的方式决定新样本属于哪一类。由于每个分类器的分类能力不同,在集成时,需要对所有分类器加权平均,以决定分哪类。,2018/9/25,谭营-机器学习研究及最新进展,71,集成分类器,2018/9/25,谭营-机器学习研究及最新进
37、展,72,为什么吸引人,弱分类器比强分类器设计简单。有统计学习理论的基础。典型方法:加权多数算法,Bootstrap, ADABOOST 等。,返回,2018/9/25,谭营-机器学习研究及最新进展,73,AdaBoost Freund&Schapire 97,constructing Dt: given Dt and ht:where: Zt = normalization constantfinal hypothesis:,返回,2018/9/25,谭营-机器学习研究及最新进展,74,增强机器学习,增强机器学习最早提出是考虑“从变化环境中”学习蕴含在环境中知识,其本质是对环境的适应开始的动
38、机主要是为了解决机器人规划、避障与在环境中适应的学习问题1975年,Holland首先将这个概念引入计算机科学。1990年左右,MIT的Sutton等青年计算机科学家,结合动态规划等问题,统称其为增强机器学习,2018/9/25,谭营-机器学习研究及最新进展,75,目前,由于网络用户是更为复杂的环境,例如,如何使搜索引擎适应用户的需求,成为更为重要的应用领域Q学习,动态规划,遗传学习,以及免疫网络都成为实现增强机器学习的有效方法。,返回,2018/9/25,谭营-机器学习研究及最新进展,76,机器学习面临的挑战,随着应用的不断深入,出现了很多被传统机器学习研究忽视、但非常重要的问题(下面将以医
39、疗和金融为代表来举几个例子)机器学习正与众多学科领域产生了交叉,交叉领域越多,问题也越多,也正是大有可为处,2018/9/25,谭营-机器学习研究及最新进展,77,医疗:以癌症诊断为例,“将病人误诊为健康人的代价”与“将健康人误诊为病人的代价”是不同的金融:以信用卡盗用检测为例,“将盗用误认为正常使用的代价”与“将正常使用误认为盗用的代价”是不同的传统的ML技术基本上只考虑同一代价如何处理代价敏感性?在教科书中找不到现成的答案。,例子1:代价敏感问题,2018/9/25,谭营-机器学习研究及最新进展,78,医疗:以癌症诊断为例,“健康人”样本远远多于“病人”样本金融:以信用卡盗用检测为例,“正
40、常使用”样本远远多于“被盗用”样本传统的ML技术基本上只考虑平衡数据如何处理数据不平衡性?在教科书中找不到现成的答案,例子2:不平衡数据问题,2018/9/25,谭营-机器学习研究及最新进展,79,医疗:以乳腺癌诊断为例,需要向病人解释“为什么做出这样的诊断”金融:以信用卡盗用检测为例,需要向保安部门解释“为什么这是正在被盗用的卡”传统的ML技术基本上只考虑泛化不考虑理解如何处理可理解性?在教科书中找不到现成的答案,例子3:可理解性问题,返回,2018/9/25,谭营-机器学习研究及最新进展,80,机器学习的最新进展,算法驱动(建模与数据分析)应用驱动,2018/9/25,谭营-机器学习研究及
41、最新进展,81,算法驱动,海量非线性数据(108-10)算法的泛化能力考虑学习结果数据的解释代价加权的处理方法不同数据类型的学习方法,返回,2018/9/25,谭营-机器学习研究及最新进展,82,应用驱动,自然语言分析、网络与电信数据分析、图像数据分析、金融与经济数据分析、零售业数据分析、情报分析。Web信息的有效获取(新一代搜索引擎)。由此导致各种学习任务:数据流学习、多实例学习(部分放弃独立同分布条件)、Ranking学习。 蛋白质功能分析, DNA数据分析, SNP数据分析. 它们需要使用各种不同方法,解决实际问题。,2018/9/25,谭营-机器学习研究及最新进展,83,应用驱动机器学
42、习,流形机器学习半监督机器学习多实例机器学习Ranking机器学习数据流机器学习图模型机器学习 ,结束语,2018/9/25,谭营-机器学习研究及最新进展,84,流形机器学习,很多问题的表示方法,使得信息十分稀疏,如何将信息稠密化是一个困难的问题(“维数灾难”),PCA是一种方法,但是,只对线性情况有效流形学习是解决上述问题的非线性方法,2018/9/25,谭营-机器学习研究及最新进展,85,高微数据的低微表示,线性方法PCA (Principal Component Analysis)ICA (Independent Component Analysis)FDA (Fisher Discri
43、mination Analysis)MDS (Multi-Dim Scale analysis)非线性方法LLE (Local linear Embeding)(Roweis, Science,2000)Isomap (Tenenbaum, Science, 2000),由于流形的本质是分段线性化,因此,流形学习需要解决计算开集、设计同胚映射等问题,2018/9/25,谭营-机器学习研究及最新进展,86,半监督机器学习,在观测数据中,可能有很多观测不能决定其类别标号。这需要根据数据中已知类别标号的样本与领域知识来推测这些样本的类别标号,并建立问题世界的模型,这就是半监督学习这类问题直接来自于实
44、际应用:例如,大量医学影像,医生把每张片子上的每个病灶都标出来再进行学习,是不可能的,能否只标一部分,并且还能利用未标的部分?,2018/9/25,谭营-机器学习研究及最新进展,87,多示例机器学习,传统的机器学习中,一个对象有一个描述,而在一些实际问题中,一个对象可能同时有多个描述,到底哪个描述是决定对象性质(例如类别)的,却并不知道。解决这种“对象:描述:类别”之间1:N:1关系的学习就是多示例学习,2018/9/25,谭营-机器学习研究及最新进展,88,Ranking机器学习,其原始说法是learning for ranking问题主要来自信息检索,假设用户的需求不能简单地表示为“喜欢”
45、或“不喜欢”,而需要将“喜欢”表示为一个顺序,问题是如何通过学习,获得关于这个“喜欢”顺序的模型。,2018/9/25,谭营-机器学习研究及最新进展,89,数据流机器学习,在网络数据分析与处理中,有一类问题,从一个用户节点上流过的数据,大多数是无意义的,由于数据量极大,不能全部存储,因此,只能简单判断流过的文件是否有用,而无法细致分析如何学习一个模型可以完成这个任务,同时可以增量学习,以保证可以从数据流中不断改善(或适应)用户需求的模型,2018/9/25,谭营-机器学习研究及最新进展,90,研究现状,主要以任务为驱动力,学习方法有待创新以上这些机器学习方式还处于实验观察阶段,缺乏坚实的理论基
46、础实际应用效果仍有待研究,2018/9/25,谭营-机器学习研究及最新进展,91,存在的理论问题,统计类机器学习需要满足独立同分布条件,严厉!寻找问题线性表示的空间,没有一般的原则。信息向符号的映射,没有好的方法。机器学习没有一劳永逸的解决方案。领域知识与数据分析不可避免。,2018/9/25,谭营-机器学习研究及最新进展,92,研究趋势,尽管“学习机制”还是研究的动力,然而, “烦恼网络”的危机,使得更为重要的推动力来自“有效利用”信息。传统领域借用机器学习提高研究水平。应用驱动的机器学习方法层出不穷。基于机器学习的数据分析方法成为解决复杂问题的关键之一。,2018/9/25,谭营-机器学习研究及最新进展,93,结束语,当前,机器学习所面临情况是: 数据复杂、海量,用户需求多样化。从而, 要求:需要科学和高效的问题表示,以便将其学习建立在科学的基础上应用驱动成为必然, 从而针对某个或某类应用给出特定的学习方法将不断涌现对机器学习的检验问题只能在应用中检验自己对机器学习的结果的解释, 将逐渐受到重视,2018/9/25,谭营-机器学习研究及最新进展,94,谢谢!,返回,