美文网首页统计
【挖掘模型】:Python-决策树-对销售高低的影响因素

【挖掘模型】:Python-决策树-对销售高低的影响因素

作者: dataheart | 来源:发表于2017-05-21 11:57 被阅读78次

数据源:sales_data.xls

sales_data.xls

代码结果:

决策树模型

源代码

    # 比较简陋,没有决策树剪枝
import os
os.getcwd()
os.chdir('D:\\完成的任务')
import pandas as pd

#参数初始化
inputfile = 'F:/python 数据挖掘分析实战/Data/sales_data.xls'
data = pd.read_excel(inputfile, index_col = u'序号') 

#数据是类别的标签,要将它转换为数据
# 1   代表 好  是  高
# -1  代表 坏  否  低
data[data == u'好'] = 1
data[data == u'是'] = 1
data[data == u'高'] = 1
data[data != 1] = -1 # 牛逼,将数据集中的非选项转化为-1
x = data.iloc[:,:3].as_matrix().astype(int)
y = data.iloc[:,3].as_matrix().astype(int)

from sklearn.tree import DecisionTreeClassifier as DTC
dtc = DTC(criterion='entropy') # 建立决策树模型,基于熵
dtc.fit(x, y) # 训练模型

# 导入相关函数,可视化决策树
# 导出的结果是一个dot文件(在系统默认路劲),需要安装Graphviz才能将它住哪华为PDF或png格式
from sklearn.tree import export_graphviz
x = pd.DataFrame(x)
from sklearn.externals.six import StringIO
with open("tree.dot", 'w') as f:
  f = export_graphviz(dtc, feature_names = x.columns, out_file = f)
            
# 需要修改格式
'''
digpraph Tree {
    edge[fontname = 'SimHei'];
    node[fontname = 'SimHei']; # 添加这两行,指定中文字体(黑体)
    0 [label ="是否周末 <= 0.0000\nentropy = 0.997502546369\nsamples = 34",shape = 'box'];
    1 [label ="是否有促销 <= 0.0000\nentropy = 0.934068055375\nsamples = 20",shape = 'box'];
}
'''
# 将它保存为UTF-8格式,为了进一步将它转化为可视化格式,需要安装Graphviz(跨平台的,基于命令行的绘图工具),然后命令行中加如下编译方式
# dot -Tpdf tree.dot -o tree.pdf
# dot -Tpng tree.dot -o tree.pdf

# 开始->所有程序->Grapgviz->gvedit.exe   将DOT中的格式粘贴进去或者修改一下

参考资料:《Python数据分析与挖掘实战》

相关文章

  • 【挖掘模型】:Python-决策树-对销售高低的影响因素

    数据源:sales_data.xls 代码结果: 源代码 参考资料:《Python数据分析与挖掘实战》

  • 学习使用Microsoft决策树创建 OLAP 数据挖掘模型

    微软决策树-挖掘模型建立及应用;学习使用Microsoft决策树创建OLAP数据挖掘模型;深入理解决策树分类的数据...

  • 机器学习 - 决策树算法[一]

    1 决策树模型与学习 1.1 决策树模型 决策树定义: 分类决策树模型是一种描述对实例进行分类的树形结构。决策树由...

  • 李航统计学习方法(五)---决策树

    决策树模型与学习 决策树模型 分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两...

  • 变量选取

    变量选取 数据挖掘模型中的IV和WOE详解我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛...

  • 泰坦尼克乘客生存预测

    决策树算法是经常使用的数据挖掘算法,这是因为决策树就像一个人脑中的决策模型一样,呈现出来非常直观。基于决策树还诞生...

  • 2020-03-22

    市场宏观环境调查: 政治法律因素对影响: 在能够对房地产销售构成影响的各种因素中,政治法律因素是一个极其重要的组成...

  • 第5季散文组15号投稿:“孟母三迁”,子圣即母圣

    当今社会,对居住环境的思考因素,注意点大多是大小,朝向,高低,出行,贵贱等,却很少考虑对人(特别是孩子)的影响因素...

  • GPU support for XGBoost and Ligh

    GBDT 是表格型数据挖掘比赛的大杀器,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效...

  • 决策树

    决策树 决策树模型与学习 特征选择 决策树的生成 决策树的剪枝 CART 算法 决策树模型呈树形结构,在分类问题中...

网友评论

    本文标题:【挖掘模型】:Python-决策树-对销售高低的影响因素

    本文链接:https://www.haomeiwen.com/subject/flimxxtx.html