1. 标准化,为什么要标准化
2. 怎么检测异常值,或者判断其为异常值:散点图、箱型图、还有一些统计学方法
基于分类模型的异常值检测:
根据已有的数据,然后建立模型,得到正常的模型的特征库,然后对新来的数据点进行判断。
从而认定其是否与整体偏离,如果偏离,那么这个就是异常值。
建立贝叶斯模型、神经网络模型、分类模型、决策类分类、SVM的方法
3。怎么进行特征选择
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。
好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。
特征选择主要有两个功能:
1)减少特征数量、降维,使模型泛化能力更强,减少过拟合
2)增强对特征和特征值之间的理解
要从两方面考虑来选择特征:
1.特征是否具有发散性:
如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。
2.特征与目标的相关性:
如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。
Filter方法
过滤法的主要思想是查看特征的发散性和特征与目标的相关性,通过设定阈值的方法,过滤发散性低、相关性不强的特征。
过滤法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关,即先选好特征,再用过滤后的特征来训练模型。
方差法、person系数、互信息、卡方检验
Wrap法
过滤法在选择特征时不考虑特征对学习器的效果,包裹式选择就很灵性了。
包裹式通常根据预测效果评分来为学习器“量身定制”特征子集,相较于过滤法,能使学习器的性能更佳,缺点即是计算开销往往也更大。
Embedded法
嵌入式特征选择方法也很灵性。
嵌入式的特征选择方法将特征选择和学习器的训练过程融为一体,即学习器自动的进行了特征选择。
比如决策树的信息增益、信息增益比、基尼指数,求解最优解时的L1、L2正则化等思想,都能选取对学习器有价值的特征,过滤价值不大的特征。
4. 人脸定位
人脸定位,一般是指人脸关键点定位。人脸识别包含了:人脸检测,人脸定位,人脸比对
5. 2个项目具体内容(自己做过的2个项目)
6. pca过程
7. 缺失值处理(类别型,连续型)
8. 怎么解决线性回归中的共线性问题
9. 交叉验证怎么进行特征选择
10. 不均衡数据处理方法
11. 有没深度学习实战经验
12. 随机生成大数据集数据,求前10个数据(一次性无法放入内存中,你怎么做?)。
外部排序指的是大文件的排序,即待排序的记录存储在外部存储器上,在排序过程中需进行多次的内、外存之间的交换。
首先将打文件记录分成若干个子文件,然后读入内存中,并利用内部排序的方法进行排序;
然后把排序好的有序子文件(称为:归并段)重新写入外存,再对这些归并段进行逐个归并,直到整个有序文件为止。
13. spark技能掌握程度
网友评论