美文网首页
Python学习笔记-3群18组-杜杜狼-2017.8.1

Python学习笔记-3群18组-杜杜狼-2017.8.1

作者: 渡笃狼 | 来源:发表于2017-08-01 23:53 被阅读17次

    What a heck! 终于开始学习数据挖掘实战课程了!!!

    Lesson 2 数据挖掘概况

    数据挖掘(data mining),指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的,且有价值的信息和知识的过程。
    数据挖掘是人们处理商业问题的某些方法,我们通过它来获得有价值的结果

    模型
    定量:数学公式 e.g. Y = a*X
    定性:规则 e.g. (年龄>30岁 and 收入>1万元)

    算法
    实现数据挖掘技术、模型的具体步骤与方法

    Lesson 3 数据挖掘常见问题

    从商业角度,需要解决哪些问题?

    • 用户流失预测 (分类问题)
    • 促销活动响应 (分类问题)
    • 目标市场细分 (聚类问题)
    • 交叉销售提升 (关联问题)
    • 未来销量预测 (预测问题)

    分类问题

    分类型目标变量(Y) -- 有监督学习
    使用已知目标分类的历史样本来训练
    需要对未知分类的样本预测所属的分类

    常见分类方法:决策树,贝叶斯,KNN, 支持向量机,神经网络,逻辑回归
    解决的商业问题:预测用户流失,促销活动响应,用户信用评估


    聚类问题

    无分类目标变量(Y) -- 无监督学习
    物以类聚思想

    常见分类方法:划分聚类,层次聚类,密度聚类,网格聚类,基于模型聚类
    解决的商业问题:目标市场细分,指定营销发展策略
    现有客户细分


    关联问题,又称购物篮问题

    无目标变量(Y)
    基于数据项关联,描述数据项之间的密切程度,识别频繁发生的模式
    解决的商业问题:哪些商品同时购买的几率高,如何提高商品销售和交叉销售


    预测问题

    数值型目标变量(Y)-- 有监督学习
    需有已知目标值的历史样本来训练模型
    对未知的样本预测其目标值
    常见预测方法:简单线性回归分析,多重线性回归分析,时间序列
    解决的商业问题:未来气温预测,GDP增长预测,收入、用户数预测

    Lesson 4 数据挖掘流程

    CRISP-DM数据挖掘方法论

    1. 商业理解
    • 确定商业目标 (商业背景,成功标准)
    • 确定挖掘目标 (相关数据统计口径,数据时间窗口成功标准)
    • 制定项目方案(项目计划,确定建模工具,选用算法)
    1. 数据理解
    • 数据收集:形成收集报告
    • 数据描述:求 均值,最大值,最小值等,形成数据描述报告
    • 数据探索:形成直方图
    • 质量描述:形成数据质量报告
    1. 数据准备 (数据宽表,又称一维表)
    • 数据导入
    • 数据抽取
    • 数据清洗(缺失,重复,异常)
    • 数据合并 (记录合并,字段合并,字段匹配)
    • 变量计算 (求均值,占比,标准化值
    1. 模型构建
    • 准备模型的训练集和验证集
    • 选择并使用建模技术和算法
    • 建立模型
    • 模型对比(调整参数)
    1. 模型评估
    • 技术层面:设计对照组进行比较,评估指标:命中率,覆盖率,提升度
    • 业务经验
    1. 模型部署
    • 营销过程跟踪记录
    • 观察模型衰退变化
    • 引入新的特征优化模型
    • 模型写成程序固化到平台

    Lesson 5 文本挖掘

    语料库 (Corpus)

    要分析的所有文档的集合

    语料库的构建

    构建方法

    os.walk(fileDir)
    #fileDir是文件夹路径
    

    文件读取

    codecs.open(filePath, method, encoding)
    #filePath: 文件路径
    #method: 打开方式,r, w, rw
    #encoding: 文件的编码,中文文件使用UTF-8编码打开
    

    相关文章

      网友评论

          本文标题:Python学习笔记-3群18组-杜杜狼-2017.8.1

          本文链接:https://www.haomeiwen.com/subject/uorslxtx.html