美文网首页科学技术
【BitTiger读书会】·第二期《数据挖掘导论》

【BitTiger读书会】·第二期《数据挖掘导论》

作者: 线上读书会 | 来源:发表于2018-03-14 10:52 被阅读17次

    【BitTiger读书会简介】

    BitTiger读书会,以书会友。以报告方式,加强组织表达力;以讨论方式,激荡思考判断力,期能扩充知识领域,养成读书习惯。

    每周一本好书,一年阅读50本书,集众智,挑好书,留精华内容,创优质社群。

    BitTiger读书会,欢迎您的加入!

    在上一期的读书活动中,我们读了吴军博士的《智能时代》。接下来四月份的读书活动,我们将以数据为主题,和大家分享《数据挖掘导论》,《Recommender System Handbook》(推荐系统手册)和《Bad Data Handbook》(坏数据处理实用宝典)这三本书的精华。


    【分享书籍】

    【BitTiger读书会】·第二期《数据挖掘导论》

                          《数据挖掘导论》


    【书籍介绍】

    豆瓣评分8.4的Data Mining经典读物;

    无需数据库背景也可以读懂的数据挖掘书;

    从数据、分类、关联分析、聚类和异常检测五个方面,

    全面解析数据挖掘;

    在一小时的时间里,数据分析师田华与你分享此书的精华、心得和实例。


    【嘉宾介绍】

    田华(数据分析师)


    【电子书下载】

    点击此处下载:数据挖掘导论 完整版.pdf

    或者从Google网盘下载(国内需翻墙):

    https://drive.google.com/file/d/0Bzu4H4u37WXSRDBDcXRmQU1JajA/view


    【加入读书会】

    获取BitTiger读书会系列读书分享信息,请添加微信ID: saraincs,备注“读书”加入BitTiger读书会活动群

    【BitTiger读书会】·第二期《数据挖掘导论》

    【分享文稿】

    《数据挖掘导论》,本书主要分5个主题:数据、分类、关联、聚类、异常检测。这是一本很不错的数据挖掘入门教材,有些地方还是需要结合自己实际的业务去补充知识。

    我是按照自己需要的东西去看的,初略的看了一遍,用了关联和聚类的K-MEANS算法。

    数据部分:

    我分数据预处理、数据汇总统计、数据可视化三个部分去补充书本外的东西。

    大概的总结方法:数据预处理的方法:1.值清洗(确定缺失值范围、去除不需要的字段、填充缺失内容、重新取数),2.内容清洗(时间、日期、数值、全半角显示格式不一致,内容中有不该存在的字符,内容与该字段应有内容不符),3.逻辑错误清洗(去重、去除不合理值、修正矛盾内容,4.非需求数据清洗(看上去不需要实际对业务很重要的字段删了)。————也可以按照少多乱的思路去总结自己的数据处理工作。

    数据探索:数据特征分析:分布分析、对比分析、统计量、周期性、贡献度

    相关性分析:散点图、散点图矩阵、偏相关性、简单相关分析(pearson、spearman、判定系数)—————这部分还是需要看统计学的课本。

    数据可视化:原则:最短时间获取信息,尽量的展现最多的信息,图表内容近可能少。————可视化基础报表主要是研究别人做的好的表做模板学习。

    分类部分

    分类任务就是通过学习一个目标函数(分类模型)f,把每个属性集x映射到预先定义的类标号y。主要的目标是建立很好的泛化功能,即建立能够预测未知样本类标号的模型。这部分挺重要的,实际应用的地方也多。

    分类法的例子:决策树分类法、基于规则的分类法、神经网络、支持向量机和朴树贝叶斯分类法。

    关联部分

    关联规则:如果两个或者多个事物之间存在一定的关联关系,其中一个事物就可以通过其他事物预测。这部分常用的就是购物篮分析,可以拿找订单数据练手,我反正是这么做的。

    聚类部分

    组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内相似性越大,组间差别越大,聚类就越好。常见的聚类方法:K均值、层次聚类和DBSCAN。

    我用的是K均值,容易上手,做了一个基于RFM的客户分群的分析。

    客户分群建模步骤:

    1.变量预处理(缺失、极值),分类变量转化哑变量(0/1数值)——聚类不支持缺失值。

    2.变量标准化:变量的量纲不一样会引起计算距离的偏差。比如年龄(18-100)

    3.变量筛选:变量相关、多个维度、商业意义

    4.确定分类的个数(3-8个)以下5个指标:ccc值越大越好,差别越大越好,分群越好;F值:F值越大越好;保证分群结果的覆盖率;重复多次分群,看结果稳定;结合业务场景。

    相关文章

      网友评论

        本文标题:【BitTiger读书会】·第二期《数据挖掘导论》

        本文链接:https://www.haomeiwen.com/subject/cvjygxtx.html