美文网首页
Weka在数据挖掘中的运用 02 Getting Started

Weka在数据挖掘中的运用 02 Getting Started

作者: jenye_ | 来源:发表于2020-09-25 00:25 被阅读0次

    Weka的发音不是Weaker


    • 安装Weka
    • 研究“Explorer”接口
    • 研究一些数据集
    • 创建一个分类器
    • 解释输出
    • 使用 filters(过滤器)
    • 可视化数据集

    安装Weka

    • java环境
    • 安装包
      • 选择适合你电脑系统的版本。

    Explorer界面


    对于这门课程指用到Exploer界面。

    • Experimenter界面针对基于不同数据集的不同机器学习方法的大规模性能比较。
    • KnowlegeFlow界面是Weka的图形界面
      和命令行界面。

    Weka界面上方有五个不同的面板(Panel)
    Preprocess:预处理
    Classify:分类面板
    Cluster:据类面板
    Associate:关联规则
    Select attributes:属性选择
    Visualize:可视化面板
    在这门课中,我们只学习使用预处理面板打开文件,用分类面板做数据分类,用可视化面板来打开一个数据集。

    数据集

    eg:天气数据集


    14个样本,14天的天气,五个属性,其中四个与天气相关,第五个属性Play(玩),代表适不适合做某件事。

    我们要做的就是同个其他属性来预测可以Play(玩)的可能性。

    打开数据集

    [图片上传中...(image.png-ca03db-1600935667732-0)]

    通过open file打开数据集,例子中的数据集在Weka安装目录中的data中。

    数据集在Weka的展示

    属性值的数量

    先不管彩色的图像是什么。
    我们看左边的信息。
    有15个Instances(实例、样本),每个样本有5个属性。
    分别是outlook(阴晴)、temperature、humidity、windy、play。
    我们点击了一个属性之后, 右上方可以看看到属性的数值有哪些。
    如图,outlook,属性为sunny有5个,overcast(多云)有4个,rainy有5个。一共就十四个样本。
    点击其他属性就可以看到不同属性的属性值在样本中所占的数量。

    Weka柱状图的含义

    我们点击play属性,可以看到。



    图像play的属性显示了9个yes,5个no。

    回到outlook,就可以看到


    属性值为sunny的样本有5个,其中3个样本play属性值为no(红色),2个样本为yes(蓝色)。outlook属性值为cloudy的时候4个样本play的属性值都是yes(蓝色)

    编辑面板



    点击Edit就可以打开编辑面板直接修改数据集的数值。



    编辑完之后点击Save就会保存(这里不要点,之后实验还需要用到这个数据集)

    相关文章

      网友评论

          本文标题:Weka在数据挖掘中的运用 02 Getting Started

          本文链接:https://www.haomeiwen.com/subject/phazyktx.html