最近在学习用python运算机器学习,顺便开始系统的学习机器学习。
暂时通过教学视频和阿里音乐比赛的总结博客得到几点以前忽略的重点。
1.关于数据分析的目的,要明确业务方向,比如银行信用卡调查问卷,是要去明确找到会办理信用卡的潜在客户的特征,而不是那些不办信用卡的。往往目标人数是少数。
2. 关于数据清洗,以前总喜欢选择删除一些outliers,或者特征值不全的数据。其实不应该删除,missing value 可以用-999之类的无意义值去填充,数据不能少,否则其他特征值就损失了。
3. one hot在建立特征时还是应用挺多的。比如阿里音乐比赛中,先把用户用kmeans聚类,得到十个类以后,把类转化成特征one hot。这个是个很好的用法,比我们当时分类以后按照每个类再进行预测的方法好。基本特征值最后会是一个极大的稀疏矩阵。
4. 归一化和标准化。特征值之间的数值还是要保持在一个数量级上,否则模型会打破每个特征值是同等重要的原则。比如收入和年龄,收入远比年龄数值大,这时候就要标准化特征。
5.模型选取上svm, rf, adaboost,xgboost等。得学习。
6. 模型评估还是很重要的。 一般通过f1评估。 像阿里音乐比赛,那大神用的就是评估函数的极值加到每个播放量上进行预测,分数提高很多。
7. supervised—labled well
unsupervised- cluster well
reinforcement- behavior well
网友评论