这是用户在 2025-6-29 20:27 为 https://mooc1.chaoxing.com/mooc-ans/mooc2/work/view?courseId=250129479&classId=115241867&cpi=2646392... 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?

机器学习作业1(rev.2)

题量: 18 满分: 100

作答时间:03-25 10:3904-01 23:55

100

一. 单选题(共11题,60.8分)

1. (单选题)下列有关机器学习的说法,错误的是?

  • A. 机器学习和人工智能是同一个概念,其研究对象就是人工智能的算法
  • B. 机器学习算法是通过经验数据自动的学习的计算机算法
  • C. 机器学习也会得到错误的结论
  • D. 深度学习是以深度神经网络为模型的一种机器学习的类型
我的答案:A :机器学习和人工智能是同一个概念,其研究对象就是人工智能的算法; 正确答案:A :机器学习和人工智能是同一个概念,其研究对象就是人工智能的算法;
5.5
AI讲解

2. (单选题)以下是我们的一份数据集,则‘青绿’表示的是?

  • A. 特征
  • B. 特征值
  • C. 样本
  • D. 特征向量
我的答案:B :特征值; 正确答案:B :特征值;
5.5
答案解析:
  • 我们把数据中的每一行称为一个示例或样本;

  • 反映事件或对象在某方面的表现或性质的事项,如:色泽、根蒂、敲声,称为属性或特征;

  • 属性上的取值,例如:青绿、乌黑。称为属性值或特征值;

  • 我们把一个示例(样本)的所有特征值称为一个特征向量。

AI讲解

3. (单选题)通过历史数据预测股票价格是哪一种机器学习任务类型

  • A. 监督学习;分类
  • B. 监督学习;回归
  • C. 无监督学习;聚类
  • D. 无监督学习;降维
我的答案:B :监督学习;回归; 正确答案:B :监督学习;回归;
5.5
AI讲解

4. (单选题)关于训练误差和泛化误差正确的说法是

  • A. 训练误差是模型在训练样本集上的整体误差,训练误差越小越好
  • B. 泛化误差是模型在任务相关的全部样本上的整体误差,泛化误差是可以精确计算的
  • C. 测试误差是模型在测试样本集上的整体误差,通常用测试误差近似替代泛化误差
  • D. 可以将测试样本加入训练样本来提高模型的评价分数
我的答案:C :测试误差是模型在测试样本集上的整体误差,通常用测试误差近似替代泛化误差; 正确答案:C :测试误差是模型在测试样本集上的整体误差,通常用测试误差近似替代泛化误差;
5.5
答案解析:
  1. 不断增加训练强度减小训练误差到一定程度后,继续减小训练误差可能导致泛化误差上升,称为“过拟合”

  2. 一般不能将测试样本用于对模型的训练,测试样本参与训练称为“样本泄露”,通俗的说就是“漏题了”

AI讲解

5. (单选题)

请问,图中A点和B点分别处于什么状态:

我的答案:B : 欠拟合,过拟合; 正确答案:B : 欠拟合,过拟合;
5.5
AI讲解

6. (单选题)提高模型容量(模型复杂度)一定会导致如下效果,但不包括

  • A. 降低偏差
  • B. 增大方差
  • C. 降低泛化误差
  • D. 降低训练误差
我的答案:C :降低泛化误差; 正确答案:C :降低泛化误差;
5.5
答案解析:

模型容量(模型复杂度)表示模型能拟合的输入到输出的映射关系的多少的能力。比如模型y=ax^2+bx+c的容量大于模型y=bx+c。模型容量大的直观表现为,模型的参数数目多或参数的取值范围大,模型容量与方差、偏差和泛化误差的关系如下图,模型容量(模型复杂度)太高将导致过拟合,即训练误差底但泛化误差高。


AI讲解

7. (单选题)关于面向分类任务模型的评价指标,下面说法错误的是:

  • A. 分类任务的评价指标有正确率、或错误率
  • B. 正确率是指分类结果正确的样本数占测试样本总数的比例
  • C. 正确率和错误率之和恒为1
  • D. 正确率高的模型一定是好的模型
我的答案:D :正确率高的模型一定是好的模型; 正确答案:D :正确率高的模型一定是好的模型;
5.5
答案解析:

对于不平衡样本(正类与负类比例相差很大),仅用正确率或错误率评估是不全面的。如对癌症病人的判断,假设只有不到10%的人患有癌症,将全部病人都判为健康也有大于90%的正确率。这种情况下我们更关其中某个类别的统计指标的好坏,我们把关心的类别如“有癌症”设为正类,用召回率、精准率、F1、ROC、AUC等指标评价模型在这个关注的分类上的性能。

AI讲解

8. (单选题)关于面向分类任务模型的评价指标,下面说法正确的是:

  • A. 查全率(召回率)越高越好
  • B. 查准率(精准率)越高越好
  • C. F1,AUC两个指标都可以用来评价模型的综合性能
  • D. 可以通过F1指标换算得到AUC的值
我的答案:C :F1,AUC两个指标都可以用来评价模型的综合性能; 正确答案:C :F1,AUC两个指标都可以用来评价模型的综合性能;
5.5
答案解析:

查全率和查准率不可能同时最优,评估模型(选择模型)用查全率还是查准率是根据具体业务的需要,是更看重不要漏判还是不要错判。比如判断癌症病人时追求不要漏判,判断股票是否会涨时追求不要错判。在不清楚业务目标的情况下就使用综合指标F1或AUC来评估。

AUC是计算ROC曲线下的面积得来的,而ROC曲线是调节模型的判断阈值绘制出来的,因此AUC值不能用F1值直接换算出来。


AI讲解

9. (单选题)关于面向回归任务模型的评价指标,下面错误的说法是

我的答案:C : R2 (R-Squared) 指标值越小精确度越高; 正确答案:C : R2 (R-Squared) 指标值越小精确度越高;
5.6
答案解析:

MSE是平均平方误差,RMSE是均方根误差就是MSE开根号,由于误差值的单位和原始单位一样因此可解释性更好。

R2 (R-Squared) 指标衡量的是模型的平方误差与用实际输出的均值作为预测值的平方误差相比较的相对精度,模型不犯任何错误时R2为最大值 1,模型误差与均值模型误差相同时取 0,模型误差比均值模型误差还大时为负值。

AI讲解

10. (单选题)关于训练集和测试集的划分,下面比较好的做法是:

  • A. 将手头上所有的数据拿来训练模型,预测结果正确率最高的模型就是我们所要选的模型
  • B. 将所有数据中的前百分之80拿来训练模型,剩下的百分之20作为测试集,测试集预测结果正确率最高的模型就是我们所要选的模型
  • C. 将所有数据先随机打乱顺序,百分之80用来训练模型,剩下的百分之20作为测试集,测试集预测结果正确率最高的模型就是我们所要选的模型
  • D. 将所有数据先随机打乱顺序,平均分成5份,轮流拿出其中1份作为测试集,其余的4份做为训练集,各次测试集预测的正确率求均值,正确率均值最高的模型就是我们所要选的模型
我的答案:D :将所有数据先随机打乱顺序,平均分成5份,轮流拿出其中1份作为测试集,其余的4份做为训练集,各次测试集预测的正确率求均值,正确率均值最高的模型就是我们所要选的模型; 正确答案:D :将所有数据先随机打乱顺序,平均分成5份,轮流拿出其中1份作为测试集,其余的4份做为训练集,各次测试集预测的正确率求均值,正确率均值最高的模型就是我们所要选的模型;
5.6
答案解析:

答案D所用的样本划分法就是K折交叉验证

AI讲解

11. (单选题)关于样本划分下列说法错误的是?

我的答案:A :相比于自助法,在初始数据量较小时交叉验证更常用; 正确答案:A :相比于自助法,在初始数据量较小时交叉验证更常用;
5.6
答案解析:

1.样本数量较少时用自助法构造测试集和训练集更合适

2.另外一种采用自助法的情况是,bagging集成学习,通过自助随机采样构造训练样本子集训练出多个具有一定差异的弱学习器,再将这些弱学习器集成为一个具有较强泛化性的强学习器。

AI讲解

二. 多选题(共3题,16.8分)

12. (多选题)连续型特征的标准化(归一化)缩放有哪些作用

  • A. 将有量纲的数据转化为无量纲数据
  • B. 将不同维度的特征值缩放到相同的范围,避免数量级大的特征被模型误认为占主导地位
  • C. 提升模型优化的收敛速度
  • D. 过滤数据中的噪声
我的答案:ABC :将有量纲的数据转化为无量纲数据; 将不同维度的特征值缩放到相同的范围,避免数量级大的特征被模型误认为占主导地位; 提升模型优化的收敛速度; 正确答案:ABC :将有量纲的数据转化为无量纲数据; 将不同维度的特征值缩放到相同的范围,避免数量级大的特征被模型误认为占主导地位; 提升模型优化的收敛速度;
5.6
答案解析:

原始的数据不同维度的特征值可能因为单位的不同其数值的取值范围有很大的差异,有些模型对特征值的大小异常敏感(如SVM,神经网络,k-means),不同维度特征值间数量级的差异将显著影响模型的效果和求解速度,所以要将所有不同维度的特征值缩放到相同的取值范围,特征值的标准化(归一化)缩放方法常用的有:

Z-score缩放,公式:

Min-Max缩放,公式:

MaxAbs缩放,公式:                  

AI讲解

13. (多选题)关于离散型特征的表述哪些是正确的

  • A. 离散型特征是指特征不是连续数值型的而是分类型的
  • B. 对于某些模型离散型特征需要编码为数字才能使用
  • C. 离散型特征的常用编码方式有One-Hot编码
  • D. 某些情况下离散型特征更适合用整数编码
我的答案:ABCD :离散型特征是指特征不是连续数值型的而是分类型的; 对于某些模型离散型特征需要编码为数字才能使用; 离散型特征的常用编码方式有One-Hot编码; 某些情况下离散型特征更适合用整数编码; 正确答案:ABCD :离散型特征是指特征不是连续数值型的而是分类型的; 对于某些模型离散型特征需要编码为数字才能使用; 离散型特征的常用编码方式有One-Hot编码; 某些情况下离散型特征更适合用整数编码;
5.6
答案解析:

某些模型的输入必须是数字,所以要将分类特征编码为数字后输入给模型。One-Hot码又称为N取一码,其思想是将一个分类特征变换为多个新特征(新特征数量和类别数相同),如原颜色特征有“红”,“黄”,“蓝”三种取值。转换为One-Hot码后用“红”,“黄”,“蓝”三个新特征表示,是哪种颜色对应特征值为1,其它特征值为0,如颜色为“红”色的新特征值为100。如果不同的类别简单地用整数编码如1,2,3表示,则可能让模型潜在地学习到黄色比红色大,而实际上不同的颜色地位是平等的。但如果分类本身含有有等级信息如“星级评价”,则更适合用整数编码。

AI讲解

14. (多选题)生成多项式特征的作用有哪些:

  • A. 增加特征的维度
  • B. 在模型中加入非线性映射关系
  • C. 可以在模型中加入特征间的交互关系
  • D. 将多项式特征输入线性回归模型就是多项式回归模型
我的答案:ABCD :增加特征的维度; 在模型中加入非线性映射关系; 可以在模型中加入特征间的交互关系; 将多项式特征输入线性回归模型就是多项式回归模型; 正确答案:ABCD :增加特征的维度; 在模型中加入非线性映射关系; 可以在模型中加入特征间的交互关系; 将多项式特征输入线性回归模型就是多项式回归模型;
5.6
答案解析:

生成多项特征可以有效提升模型的复杂度,以二维特征()为例,生成二阶多项式特征后转化为(, , , , , ),  将转化后的特征向量输入给线性回归模型学习就是多项式回归模型,而且还引入了非线性关系和特征间的交互关系。

AI讲解

三. 填空题(共4题,22.4分)

15. (填空题)机器学习有哪3个基本流程(基本问题)1._____ 2._____ 3.______

我的答案:
5.6
(1) 特征提取
(2) 规则构造
(3) 模型评估
正确答案:
(1) 特征提取
(2) 规则构造
(3) 模型评估
AI讲解

16. (填空题)机器学习映射规则的构造,有哪三个要素1._____ 2.______ 3._______

我的答案:
5.6
(1) 模型
(2) 策略
(3) 算法
正确答案:
(1) 模型结构;  模型
(2) 目标函数;  策略
(3) 优化算法;  算法
答案解析:

模型结构:确定模型映射函数的基本结构

目标函数:根据数据和模型特点,确定合适的模型优化目标,构造模型优化的目标函数

优化算法:用合适的算法对目标函数最优化,求解模型参数

AI讲解

17. (填空题)

根据下面的某个分类任务模型预测结果的混淆矩阵,计算查准率P(f)_______、查全率W(f)_________及F1分数_______,结果以小数表示精确到小数点后3位。


我的答案:
5.6
(1) 0.966
(2) 0.875
(3) 0.918
正确答案:
(1) 0.966
(2) 0.875
(3) 0.918
答案解析:


AI讲解

18. (填空题)

根据下面的某个回归任务模型的预测值与实际值数据,计算模型评估的R2分数,结果精确到小数点后3位,R2=_________。

我的答案:
5.6
(1) 0.926
正确答案:
(1) 0.926
AI讲解
一. 单选题(60.8分)
二. 多选题(16.8分)
三. 填空题(22.4分)