1、1,统计学习基础,卿来云中国科学院研究生院信息学院 / ,2,概率 vs. 统计,概率:研究随机事件出现的可能性的数学分支,描述非确定性的正式语言基本问题:给定以一个数据产生过程,输出的性质? 统计推断:处理数据分析和概率理论的数学分支,与数据挖掘和机器学习是近亲基本问题:给定输出数据,该数据的产生过程?,数据产生过程,观测到的数据,概率,统计推断,3,统计学习,统计学 根据数据进行推理的学科统计学习 多元统计分析 + 计算统计学多元统计分析 基于一个多元变量数据集,预测函数值计算统计学 统计问题的计算方法 (a.k.a. 统计计算) + 计算繁重的统计方法数据挖掘 研究数据分析,尤其是大数据
2、量/复杂的数据集,4,学习的主要目的:预测,通过学习,得到训练数据的某种模型然后利用该模型,预测未见过的测试数据假设测试数据与训练数据来自相同分布,5,统计学习的任务,概率密度估计:预测概率密度回归:预测连续目标变量的值分类:预测离散目标变量的值其他:聚类、降维有监督/无监督学习有监督学习:回归、分类无监督学习:概率密度估计、聚类、降维,6,统计学习的主要部分,模型类别参数模型、非参数模型损失函数L2损失、0-1损失、log似然损失推广性训练误差(学习)、测试误差(预测)优化计算,7,例:回归,数据产生过程为加上 的高斯噪声目标:用多项式模型拟合 ,使得最小。,8,例:回归(续),拟合函数,样
3、本数据点,9,例:回归(续),10,例:人脸形状,ICCV2001: Learning inhomogeneous Gibbs models of faces by minimax entropy,11,一些问题,怎样表示误差?(损失函数)怎样保证在未来的数据集上误差最小?(推广性)对特定的数据,应该选择哪个模型/方法?(模型选择、假设检验)我们的方法在未来数据集上的误差是多少?(误差估计、置信带、学习理论),12,课程目的,为计算机专业的学生快速提供广泛的概率和统计背景概率统计统计学习为学习其他课程打好统计学基础机器学习数据挖掘模式识别人工智能,13,数学基础的重要性,研究数据分析必须打好概
4、率和统计基础Using fancy tools like neural nets, boosting and support vector machines without understanding basic statistics like doing brain surgery before knowing how to use a band-aid.,14,教材/参考书,AOL Larry Wasserman, All of Statistics: A Concise Course in Statistical Inference中译本:统计学完全教程主要教材:内容很全,但有些部分篇幅
5、略少,更偏向于从统计的角度讲述Chp1-13, Chp20ESL Trevor Hastie, Robert Tibshirani, Jerome Friedman,The Elements of Statistical Learning Data Mining, Inference, and Prediction中译本:统计学习基础数据挖掘、推理与预测统计学习部分的主要教材:主要从机器学习的角度讲述Chp1-7PRML Bisshopr,Pattern Recognition and Machine Learning,15,课程内容(1),第一部分:概率随机变量及其概率分布概率不等式和收敛性第二部分:统计推断统计推断基本知识非参数估计、Bootstrap、Jackknife参数估计假设检验,16,课程内容(2),第三部分:统计学习统计学习概述线性回归核方法统计判决理论模型选择和模型评估,17,作业和考试,助教:池晨 作业:40%每次作业留2周时间请按时交作业,鼓励讨论,但NO COPY期末考试: 60%,开卷,