2018-04-02第二周分析数据并预处理

作者: 土豆土豆我是potato | 来源:发表于2018-06-14 16:31 被阅读0次

2018-04-02第二周分析数据并预处理
1分钟了解数据分析挖掘体系
CPDA_数据的获取_2019-07-15
knn约会实例2
数据分析领域常提到的数据预处理，说的到底是什么？
R数据分析实战—LOL中游戏时长对双方阵营胜率的影响
【代谢组学】代谢组学原始数据的预处理
DAY4-肝癌的生存分析3
不懂编程没关系，用Excel也可以进行数据清洗
数据挖掘算法（一）

本周的任务为分析数据并且清洗数据

按照我做项目的经验，来了项目，首先是分析项目的目的和需求，了解这个项目属于什么问题，要达到什么效果。然后提取数据，做基本的数据清洗。第三步是特征工程，这个属于脏活累活，需要耗费很大的精力，如果特征工程做的好，那么，后面选择什么算法其实差异不大，反之，不管选择什么算法，效果都不会有突破性的提高。第四步，是跑算法，通常情况下，我会把所有能跑的算法先跑一遍，看看效果，分析一下precesion/recall和f1-score，看看有没有什么异常（譬如有好几个算法precision特别好，但是recall特别低，这就要从数据中找原因，或者从算法中看是不是因为算法不适合这个数据），如果没有异常，那么就进行下一步，选择一两个跑的结果最好的算法进行调优。如下流程图