1、以下说法中错误的是()
A SVM对噪声(如来自其他分部的噪声样本)具备鲁棒性
B 在adaboost算法中,所有被分错样本的权重更新比例不相同
C boosting和bagging都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率确定其权重
D 给定n个数据点,如果其中一半用于训练,一半用户测试,则训练误差和测试误差之间的差别会随着n的增加而减少的
2、你正在使用带有 L1 正则化的 logistic 回归做二分类,其中 C 是正则化参数,w1 和 w2 是 x1 和 x2 的系数。当你把 C 值从 0 增加至非常大的值时,下面哪个选项是正确的?
A 第一个w2成了 0,接着 w1 也成了 0
B第一个w1成了 0,接着 w2 也成了 0
C w1和 w2 同时成了 0
D即使在C成为大值之后,w1 和 w2 都不能成 0
3、在 k-均值算法中,以下哪个选项可用于获得全局最小?
A尝试为不同的质心(centroid)初始化运行算法
B调整迭代的次数
C找到集群的最佳数量
D以上所有
4、假设你使用 log-loss 函数作为评估标准。下面这些选项,哪些是对作为评估标准的 log-loss 的正确解释。
A如果一个分类器对不正确的分类很自信,log-loss会严重的批评它
B 对一个特别的观察而言,分类器为正确的类别分配非常小的概率,然后对log-loss的相应分布会非常大
C log-loss越低,模型越好
D 以上都是
5、下面哪个选项中哪一项属于确定性算法?
A PCA
B K-Means
C 以上都不是
6、两个变量的 Pearson 相关性系数为零,但这两个变量的值同样可以相关。这句描述是正确还是错误?
A 正确
B 错误
7、下面哪个/些超参数的增加可能会造成随机森林数据过拟合?
A 树的数量
B 树的深度
C学习速率
8、下列哪个不属于常用的文本分类的特征选择算法?
A卡方检验值
B互信息
C信息增益
D主成分分析
9、机器学习中做特征选择时,可能用到的方法有?
A卡方
B信息增益
C平均互信息
D期望交叉熵
E以上都有
10、下列方法中,不可以用于特征降维的方法包括
A主成分分析PCA
B线性判别分析LDA
C深度学习SparseAutoEncoder
D矩阵奇异值分解SVD E最小二乘法LeastSquares
1正确答案是:C,您的选择是:空
解析:
A软间隔分类器对噪声是有鲁棒性的。
B请参考http://blog.csdn.net/v_july_v/article/details/40718799
C boosting是根据分类器正确率确定权重,bagging不是。
D训练集变大会提高模型鲁棒性。
2.正确答案是:C,您的选择是:空
解析:
答案是C。
之前图没显示,目前已修改好。
L1范数是向量中各个元素的绝对值之和,L1正则化就是向损失函数中添加权重向量的L1范数(即正则化项)。
60个数据点的L1正则化函数图像:
1000个数据点的L1正则化函数图像:
由图像可知,C值从 0 增加至非常大的值时,w1 和 w2 同时变成 0。
3.正确答案是:D,您的选择是:空
解析:
答案(D):之前的解析略有问题,特修改如下。
传统K均值算法随机选取初始聚类中心,往往会造成聚类结果陷入局部最优解,改进初始类中心的选取方法可以提升K均值算法的聚类效果,获得全局最优解。
A选项,尝试为不同的质心初始化实际就是在寻找最佳的初始类中心以便达到全局最优;
B选项,迭代的次数太少无法获得最优解,同样也无法获得全局最优解,所以需要通过调整迭代次数来获得全局最优解;
C选项,集群的最佳数量也就是K值是人为定义的,事先不知道多大的K值能够得到全局最优,所以需要调试K值,以达到全局最优。
综上所述,D选项为正确答案。
4 正确答案是:D,您的选择是:空
5 答案为(A):确定性算法表明在不同运行中,算法输出并不会改变。如果我们再一次运行算法,PCA 会得出相同的结果,而 k-means 不会。
6答案为(A):Pearson相关系数只能衡量线性相关性,但无法衡量非线性关系。如y=x^2,x和y有很强的非线性关系。
7答案为(B):通常情况下,我们增加树的深度有可能会造成模型过拟合。学习速率并不是随机森林的超参数。增加树的数量可能会造成欠拟合。
8 正确答案是:D,您的选择是:空
解析:
常采用特征选择方法。常见的六种特征选择方法:
1)DF(Document Frequency) 文档频率
DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性
2)MI(Mutual Information) 互信息法
互信息法用于衡量特征词与文档类别直接的信息量。
如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向"低频"的特征词。
相对的词频很高的词,得分就会变低,如果这词携带了很高的信息量,互信息法就会变得低效。
3)(Information Gain) 信息增益法
通过某个特征词的缺失与存在的两种情况下,语料中前后信息的增加,衡量某个特征词的重要性。
4)CHI(Chi-square) 卡方检验法
利用了统计学中的"假设检验"的基本思想:首先假设特征词与类别直接是不相关的
如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度。
5)WLLR(Weighted Log Likelihood Ration)加权对数似然
6)WFO(Weighted Frequency and Odds)加权频率和可能性
9正确答案是:E
10 主成分分析(PCA)通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维;
线性鉴别法(LDA)通过降维找到一个类内距离最小、类间距离最大的空间实现分类;
稀疏自编码(SparseAutoEncoder)就是用少于输入层神经元数量的隐含层神经元去学习表征输入层的特征,相当于把输入层的特征压缩了,所以是特征降维;
在PCA算法中用到了SVD,类似于PCA降维;
至于最小二乘法是用来回归的,不能用于特征降维,答案选E。
网友评论