美文网首页
#Python3组数据挖掘实战总结#

#Python3组数据挖掘实战总结#

作者: DrBear_smile | 来源:发表于2018-01-12 20:13 被阅读0次

    数据挖掘实战课程

    章节1 课时2

    定义

    Data mining, DM

    大量的数据中,通过统计学、人工智能、机器学习等方法挖掘出未知的、且有价值的信息和知识的过程。

    • 案例:啤酒与尿布

    • 可视化

    • 算法

    • 数据库

    • 机器学习

    • 统计学

    • 市场营销

    • 其他学科

    数据挖掘工程师往往是熟悉和理解业务的人

    数据挖掘 VS 数据分析

    • 分析重统计,挖掘偏预测
    • 分析[现状、原因、预测]
    • 挖掘[分类、聚类、关联、预测]
    • 分析[对比、分组、交叉、回归]
    • 挖掘[决策树、审计网络、关联规则、聚类分析]
    • 分析[指标统计量]
    • 挖掘[输出模型或规则]

    模型VS规则

    • 模型:Y=f(X)
    • 规则:Y={y|age>30 & income>10000}

    算法则是求解模型的步骤与方法

    章节1 课时3

    常见问题

    商业角度的问题->数据挖掘

    • 用户流失,促销活动 -> 分类
    • 目标市场 -> 聚类
    • 交叉销售 -> 关联
    • 未来销量 -> 预测

    各方法特点

    • 分类:有监督学习,已知目标分类的样本训练
    • 决策树、贝叶斯、KNN等
    • 用户流失,促销响应等
    • 聚类:无监督,物以类聚的思想
    • 层次、网格、密度等
    • 目标市场细分、现有客户细分等
    • 关联:无监督,别称购物篮分析,识别频繁发生的模式
    • Aprior、Carma、序列
    • 交叉销售
    • 预测:有监督学习
    • 线性回归、时间序列
    • 气温、GDP、收入、用户数预测等

    章节1 课时4

    CISP-DM

    1. 商业理解

    • 确定商业目标:商业背景,成功标准
    • 确定挖掘目标:口径,数据,维度,成功标志
    • 制定项目方案:算法,时间安排

    2. 数据理解

    • 收集
    • 描述
    • 探索
    • 质量描述

    3. 数据准备

    • 导入、抽取、清洗、合并、变量计算

    4. 模型构建

    • 训练集,验证集
    • 建模技术
    • 建立模型
    • 模型对比

    5. 模型评估

    • 技术层面:设计对照组比较;评估指标要设计合理[命中率、覆盖率、提升度]
    • 业务经验

    6. 模型部署

    • 营销过程跟踪
    • 观察模型衰退变化
    • 引入新的特征优化模型
    • 程序固化

    章节2 课时5

    文本挖掘

    案例

    常用词汇统计

    语料库

    待分析文档的集合

    • 通过循环将路径全部读入
    filePaths = []
    for root, dirs, files in os.walk(
        "D:\\PDM\\2.1\\SogouC.mini\\Sample"
    ):
        for name in files:
            filePaths.append(os.path.join(root, name))
    
    

    章节2 课时6

    中文分词

    • jieba

    利用命令行pip install jieba即可

    • jieba.cut('我在用文本分析')
    • jieba.add_word('文本分析')

    增加自定义分词,词库构建

    • jieba.load_userdict()

    章节2 课时7

    词频统计

    • 词频:Term Frequency

    dataframe.groupby()

    • 词云
    • 无效词语的过滤
    • 最终统计剔除~isin(stopwords)
    • 分词时直接剔除

    章节2 课时8

    词云绘制

    • 词云:图形化表达词频
    • word cloud

    章节2 课时9

    词云梅花

    • 词云配合形状
    • 准备好词频数据
    wordcloud
    mask
    
    • 调整图片质量,尺寸

    章节2 课时10

    关键词提取

    jieba.analyse.extract_tags(content, topK)
    

    章节2 课时11

    关键词提取原理

    TF-IDF原理

    • 词频TF
    • 逆文档频率(权重),log(文档综述/(包含该词的文档数+1) IDF
    • TF-IDF = TF * IDF

    文档向量化

    • d_m 文档
    • w_n 分词
    • f_{ij}: 第i篇文章,分词j出现的次数

    正则表达式

    import re
    re.complile(u'[\u400-u9fa5]+')
    

    章节2 课时12

    sklearn

    scikit-learn, bsd-开源许可

    • 利用空格人工先做分词,仿照英文
    • 保留最短长度:中文单字可成词
    • sort by TF-IDF方法
    • 向量化:sklearn.feature_extraction.text.CountVectorizer
    • TF-IDF计算:sklearn.feature_extraction.text.TfidfTransformer

    章节2 课时13

    相似文章推荐

    推荐

    • 好的人+事物,相似推荐+协同过滤推荐
    • 相似推荐:用户表现出对某人/物的兴趣,为它推荐类似的人/物--人以群分,物以类聚
    • 协同过滤:已有用户群历史的行为与偏好,预测当前用户的偏好

    理论依据:余弦相似度

    • pairwise_distance

    章节2 课时14

    自动摘要

    短文,全面准确反映

    • 原理:类似余弦定理
    • 算法:
    • 获取到需要摘要的文章
    • 对该文章进行词频统计
    • 对该文章进行分句(跟进标点)
    • 计算分句与文章之间的余弦相似度
    • 取相似度最高的分句,作为文章的摘要

    章节3 课时15

    • 相关系数

    关联程度的基本测度之一

    • 相关分析基本特征
    • 方向:正、负相关
    • 量级:低度(0,0.3) 中度 [0.3,0.8) [0.8,1]
    numpy.corrcoef(X,Y)
    

    相关文章

      网友评论

          本文标题:#Python3组数据挖掘实战总结#

          本文链接:https://www.haomeiwen.com/subject/unfqoxtx.html