经典的结构化数据挖掘
什么是结构化数据
结构化数据即表格数据(tabular data),绝大多数数据都是表格数据。虽然现在有很多非结构化数据,但大多数是结构化数据,也会从非结构化中提取非机构化数据。
每列为一个字段(变量),变量可以分为离散型、连续型。
传统建模流程
主要建立在业务理解上,90%时间用在DC(数据清洗)和EDA上。
存在的问题
业务理解是一个悖论——科学的业务理解需要来自对数据宏观的分析,而分析又来自对业务的理解。
一些实际的问题:
- 高维稀疏变量(人不能很好地处理高维的特征,没法得到很好的业务理解)
- 较差的变量质量(数据不准确、少)
- 业务的多变性(实际面临各种各样的业务,任何人不可能面面俱到)
现在的结构化数据挖掘
数据挖掘竞赛简介
主办方提供训练集,测试集(评分用),挑战:
无业务理解,对提交次数限制,测试集和训练集有出入,时间有限制需充分利用,最终根据精度来评价。
与实际业务的区别:给定了变量。
新的流程
- 数据清理和EDA
- 半自动的变量构建和手动构建
- 一类模型用来提高准确率,一类模型做集成备选(提高多样性)
- 传统主要靠集成树(xgboost,lightGBM)
- 神经网络越来越多
说明
- 流程需要反复进行
- 基本原则:尽可能利用算力和时间(训练的时间用来进一步EDA或别的事情,即不要到最后再去训练模型)
- EDA的重要性没有定论,最好结合实际的试验结果来做。
- 结合全局和局部信息(极度稀疏的特征在不稀疏的时候的重要性)
网友评论