1、数据挖掘中的数学方法,1. 数据挖掘简介2. 非线性规划及其对偶理论3. 支持向量机理论、算法与应用,数据挖掘简介,3,一、数据挖掘概念-定义,数据挖掘-从大量数据中寻找其规律,提取感兴趣的、有用的或潜在有用的信息的技术,是统计学、数据库技术和人工智能技术的综合。,是多学科交叉的统计学、人工智能、机器学习、数据库技术、最优化技术数据挖掘与KDD(Knowledge Discovery in Databases ) 知识发现,4,数据挖掘的原由,国民经济和社会的信息化,社会信息化后,社会的运转是软件的运转社会信息化后,社会的历史是数据的历史,政府提出:“信息化”和“发展软件产业”,有价值的知识,
2、可怕的数据,数据采集技术越来越成熟!,5,数据爆炸,知识贫乏,苦恼: 淹没在数据中 ; 不能制定合适的决策!,数据,知识,决策,6,数据挖掘的技术,技术分类预言(Predication):用历史预测未来描述(Description):了解数据中潜在的规律数据挖掘技术关联分析序列模式分类(预言)聚集(聚类)异常检测,7,http:/ Mining)是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。,8,数据挖掘一般是指从大量的资料中自动搜索隐藏于其中的有着特殊关联性(属于
3、Association rule learning)的信息的过程。资料挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。数据挖掘维基百科,自由的百科全书,9,数据挖掘问题的数学表述,10,四、数据挖掘应用,调查报告(2002.6.3-6.16),11,数据挖掘软件的现状,2001/5/142001/5/24(实际),2001/11/262001/12/9(预测),12,13,http:/ 有效约束(紧约束、积极约束)active constraint,在x*处有,则称在x*处ci(x)是紧约束。,x*处有效
4、约束指标集,梯度的线性表示,25,向量化表示,约束规划最优性必要条件,Karush-Kuhn-Tucker条件KKT条件,26,Lagrange函数,Karush-Kuhn-Tucker条件KKT条件,Lagrange乘子:,互补松弛条件:,约束规格约束限制(规范)条件,27,约束规划最优性充分条件,鞍点条件,同时,的最优解!,证明:,由 的任意性知:,且,进一步由不等式的后两部分知:,28,凸规划最优性充要条件,Karush-Kuhn-Tucker条件KKT条件,29,1) 所有规划解的最优性必要条件=KKT条件+约束规格,2) 凸规划解的最优性充分条件=KKT条件,最优性条件总结,最优性必要条件证明:需要用到凸集分离定理、择一性定理(Farkas引理)严格证明凸分析与最优化理论课程,最优性充分条件证明较简单,但对非凸规划结果没有实际指导意义,蕴含着对偶原理Langrange对偶(下节讨论),30,最优性条件举例,线性规划,最优性条件,是充分的?是必要的?,标准形式:,练习:推广形式的最优性条件,作业,31,最优性条件举例,二次规划,最优性条件,什么条件下是充分的?,什么条件下是必要的?,推广一:,推广二:,简化:,作业,