美文网首页
结构化数据挖掘

结构化数据挖掘

作者: AntiGravity | 来源:发表于2020-05-25 14:42 被阅读0次

    经典的结构化数据挖掘

    什么是结构化数据

    结构化数据即表格数据(tabular data),绝大多数数据都是表格数据。虽然现在有很多非结构化数据,但大多数是结构化数据,也会从非结构化中提取非机构化数据。
    每列为一个字段(变量),变量可以分为离散型、连续型。

    传统建模流程

    主要建立在业务理解上,90%时间用在DC(数据清洗)和EDA上。

    存在的问题

    业务理解是一个悖论——科学的业务理解需要来自对数据宏观的分析,而分析又来自对业务的理解。
    一些实际的问题:

    • 高维稀疏变量(人不能很好地处理高维的特征,没法得到很好的业务理解)
    • 较差的变量质量(数据不准确、少)
    • 业务的多变性(实际面临各种各样的业务,任何人不可能面面俱到)

    现在的结构化数据挖掘

    数据挖掘竞赛简介

    主办方提供训练集,测试集(评分用),挑战:
    无业务理解,对提交次数限制,测试集和训练集有出入,时间有限制需充分利用,最终根据精度来评价。
    与实际业务的区别:给定了变量。

    新的流程

    • 数据清理和EDA
    • 半自动的变量构建和手动构建
    • 一类模型用来提高准确率,一类模型做集成备选(提高多样性)
      • 传统主要靠集成树(xgboost,lightGBM)
      • 神经网络越来越多

    说明

    • 流程需要反复进行
    • 基本原则:尽可能利用算力和时间(训练的时间用来进一步EDA或别的事情,即不要到最后再去训练模型)
    • EDA的重要性没有定论,最好结合实际的试验结果来做。
    • 结合全局和局部信息(极度稀疏的特征在不稀疏的时候的重要性)

    相关文章

      网友评论

          本文标题:结构化数据挖掘

          本文链接:https://www.haomeiwen.com/subject/hufcahtx.html