ImageVerifierCode 换一换
格式:DOCX , 页数:10 ,大小:657.93KB ,
资源ID:1378052      下载积分:5 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-1378052.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(机器学习练习题与答案.docx)为本站会员(h****)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

机器学习练习题与答案.docx

1、机器学习练习题与解答1. 小刚去应聘某互联网公司的算法工程师,面试官问他“回归和分类有什么相同点和不同点”,他说了以下言论,请逐条判断是否准确。1)回归和分类都是有监督学习问题单选题 必答题 对 错参考答案:对。解析:这道题只有一个同学做错。本题考察有监督学习的概念。有监督学习是从标签化训练数据集中推断出函数的机器学习任务。有监督学习和无监督学习的区别是:机器学习算法的图谱如下:在回归问题中,标签是连续值;在分类问题中,标签是离散值。具体差别请看周志华机器学习书中的例子,一看便懂:2. 背景同上题。请判断2)回归问题和分类问题都有可能发生过拟合 单选题 必答题 对 错答案:对解析:这题有两个同

2、学做错。过拟合的英文名称是 Over-fitting(过拟合)。为了说清楚“过”拟合,首先说一下“拟合”【拟合的几何意义】:从几何意义上讲,拟合是给定了空间中的一些点,找到一个已知形式未知参数的连续曲线或曲面来最大限度地逼近这些点。一个直观的例子,是下面的电阻和温度的例子。我们知道 在物理学中,电阻和温度是线性的关系,也就是 R=at+b。现在我们有一系列关于“温度”和“电阻”的测量值。一个最简单的思路,取两组测量值,解一个线性方程组,就可以求出系数 a、b 了!但是理想是丰满的,现实是残酷的!由于测量误差等的存在,我们每次测量得到的温度值和电阻值都是有误差的!因此,为了提高测量精度,我们会测

3、量多次,得到多组的值,这样就相当于得到二维平面上的多个点,我们的目标是寻找一条直线,让这条直线尽可能地接近各个测量得到的点。拟合的数学意义:在数学的意义上,所谓拟合(fit)是指已知某函数的若干离散函数值f1,f2,fn(未必都是准确值,有个别可能是近似甚至错误值),通过调整该函数中若干待定系数 f(1, 2,n),使得该函数与已知点集的差别(最小二乘意义)最小。【说说过拟合】古人云“过犹不及”。所谓“过”拟合,顾名思义,就是在学习的集合(也就是训练集)上拟合的很不错,但是有点过头了,什么意思?他能够在学过的数据上判断的很准,但是如果再扔给它一系列新的没学习过的数据,它判断的非常差!比如古时候

4、有个教书先生教小明写数字,“一”字是一横,“二”字是两横,“三”字是三横。然后,小明说,老师你不用教我写数字了,我都会写。老师很惊讶,那你说“万”字怎么写,结果小明在纸上写下了无数个“横”。用台湾大学林轩田老师的话说,过拟合是“书呆子”,“钻牛角尖”。如果用过于复杂的模型来刻画简单的问题,就有可能得到“聪明过头”的结果。比如下面预测房子的价格(price)和size 之间关系的问题(来源于 andrew ng 的 ppt)通过五组数据,我们通过肉眼直观地看,可以初步判断房屋的价格和 size 之间是二次函数的关系,也就是中间这幅图所拟合的情况。而右边这幅图中,自作聪明地用了一个四次函数来拟和这

5、五组数据,虽然在已知的五个数据上都是 100%准确,却得出了“当房子的 size 大于某个值时 房子的价格会随着房屋面积增大而越来越低”这样的荒谬结论!这样的是过拟合。左边这个用一条直线来拟合 但是拟合的误差很大 也不置信,这叫“欠拟合”。在周志华老师的书中,举的例子是这样的:发现了没有?周志华老师用的是“是不是树叶”这样的分类问题举例,andrew ng 用的是“房价和房屋面积的关系”这样的回归问题举例。这说明,分类和回归都有可能过拟合。3. 背景同上题。请判断3) 一般来说,回归不用在分类问题上,但是也有特殊情况,比如 logistic 回归可以用来解决 0/1 分类问题 单选题 必答题

6、对 错答案:对解析:Logistic 回归是一种非常高效的分类器。它不仅可以预测样本的类别,还可以计算出分类的概率信息,在一线互联网公司中广泛的使用,比如应用于 CTR 预估这样的问题中。这里我们不详细说明其原理,后续课程会讲到。很多人对它的名字会产生疑问,挂着“回归”的头,卖的是“分类”的肉,别扭的慌。其实我们不用纠结它到底是“回归”,还是“分类”,非得二选一。可以参考一下百度百科 关于“logistic 回归”的词条其中举了一个富士康员工“自杀的日期”与“累计自杀人数”之间关系的例子,并通过logistic 回归分析来拟合出一条曲线。这说明 logistic 回归本身也有一定的解决“回归”

7、问题的能力,只是工业界都用它来解决分类问题。4. 背景同上题。请判断4)对回归问题和分类问题的评价 最常用的指标都是 准确率和召回率 单选题 必答题 对 错答案:错解析:本题有四个同学选错。这道题的用意 是提醒大家注意,对回归问题的评价指标通常并不是准确率和召回率,从“房价与房屋面积之间关系预测”这个例子来说,一个已知数据点离预测的曲线之间的距离是多少时能够判定为“准确”,距离为多少时判定为“不准确”?没办法区别。准确率对于度量回归问题的效果其实并不适用。回归问题的误差一般通过“误差”来评估,比如 RMSE 等。在滴滴大数据竞赛中 用的是这样的一个指标很显然不是用的“准确率”来评定。5. 背景

8、同上题。请判断5)输出变量为有限个离散变量的预测问题是回归问题;输出变量为连续变量的预测问题是分类问题; 单选题 必答题 对 错答案:错解析:说反了6. 向量 x=1,2,3,4,-9,0的 L1 范数是多少 单选题 必答题 1 19 6 sqrt(111)答案:19解析:这题错了三个同学,其实很简单。请记住:L0 范数是指向量中非 0 的元素的个数。 L1 范数是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。 L2 范数是指向量各元素的平方和然后求平方根。7. 小明参加某公司的大数据竞赛,他的成绩在大赛排行榜上原本居于前二十,后来他保持

9、特征不变,对原来的模型做了 1 天的调参,将自己的模型在自己本地测试集上的准确率提升了5%,然后他信心满满地将新模型的预测结果更新到了大赛官网上,结果懊恼地发现自己的新模型在大赛官方的测试集上准确率反而下降了。对此,他的朋友们展开了讨论,请将说法正确的选项打勾(不定项选择题) 多选题 必答题 小芳:从机器学习理论的角度,这样的情况不应该发生,快去找大赛组委会反应 小刚:你这个有可能是由于过拟合导致的 小月:早就和你说过了,乖乖使用默认的参数就好了,调参是不可能有收益的 小平:你可以考虑一下,使用交叉验证来验证一下是否发生了过拟合答案:选择第二项、第四项解析:大家都同意第二项,是过拟合导致的。设

10、置第四项的目的,是提醒大家,交叉验证可以用于防止模型过于复杂而引起的过拟合。具体什么是交叉验证,请期待后续课程。8. 关于 L1 正则和 L2 正则 下面的说法正确的是 多选题 必答题 L2 范数可以防止过拟合,提升模型的泛化能力。但 L1 正则做不到这一点 L2 正则化标识各个参数的平方的和的开方值。 L2 正则化有个名称叫“Lasso regularization” L1 范数会使权值稀疏答案:第二项、第四项解析:同第 6 题 9. 判断这个说法对不对:给定 n 个数据点,如果其中一半用于训练,另一半用于测试,则训练误差和测试误差之间的差别会随着 n 的增加而减小 单选题 必答题 对 错答

11、案:对解析:训练数据越多,拟合度越好,训练误差和测试误差距离自然越小八卦:亲们,这道题曾经出现在百度 2016 研发工程师笔试题。咱们有四个同学做错。10. Consider a problem of building an online image advertisement system that shows the users the most relevant images. What features can you choose to use? 单选题 必答题 concrete, abstract concrete, raw, abstract concrete, raw conc

12、rete答案:B解析:本题源于林轩田机器学习基石课件,给在线图片广告系统挑选特征。concrete user features, raw image features,and maybe abstract user/image IDs大致理解一下 特征的几种类型,请做错的同学去看一下林轩田老师的视频11. 【附加题】考虑回归一个正则化回归问题。在下图中给出了惩罚函数为二次正则函数,当正则化参数 C 取不同值时,在训练集和测试集上的 log 似然(mean log-probability)。请判断这个说法是否正确:随着 C 的增加,图中训练集上的 log 似然永远不会增加 单选题 必答题 对 错答案:对

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。