美文网首页1 生物信息学生物学知识
【生信课程】08数据挖掘-山东大学-生物信息学

【生信课程】08数据挖掘-山东大学-生物信息学

作者: leadingsci | 来源:发表于2018-01-01 22:44 被阅读39次

    什么是数据挖掘

    image.png

    数据库系统

    image.png image.png
    image.png
    image.png

    --

    机器学习:主要任务

    image.png
    image.png
    image.png
    image.png
    image.png
    image.png
    image.png

    机器学习:K 次交叉检验

    K 次交叉检验(K-fold cross validation)。所谓 K 次交叉检验就是把所有能够搜集到的已知结果的数据,分成 K 份。


    image.png
    image.png

    机器学习:常见算法

    image.png

    所谓贝叶斯法就是基于贝叶斯原理的一种概率统计算法。


    image.png image.png image.png image.png

    WEKA:WEKA 中的术语

    image.png

    一款做数据挖掘的傻瓜级软件 WEKA(http://www.cs.waikato.ac.nz/ml/weka/)。
    WEKA 的全名是怀卡托智能分析环境。WEKA 也是新西兰一种鸟的名字。WEKA 的主要开发者来自新西兰怀卡托大学。WEKA 是免费的,它可以完成各种各样的数据挖掘任务,就像傻瓜相机一样,算法的事儿完全不需要你操心,你只要输入数据,告诉 WEKA 你要完成什么样的挖掘任务,再选择现成的算法,WEKA 就会为你返回想要的结果模型。

    要让 WEKA 替你完成挖掘任务,你需要先给 WEKA 你的数据。目前我们大多数人手里的数据可能都存储在 Excel 表格里。非常遗憾,WEKA 不能读取 Excel 数据。WEKA 的数据存储格式是 ARFF 格式。这种格式的文件其实就是一个纯文本文件,可以用写字板或记事本打开。在 WEKA 安装目录下的 data 文件夹里有许多 ARFF 文件。我们用记事本打开其中的weather_numeric.arff。

    image.png
    image.png

    WEKA 读取 ARFF 文件的重要依据是分行和空格,因此不能在这种文件里随意的断行,以及随意加入空格。空行以及全是空格的行将被忽略。打开一个 ARFF文件,经常会看到大段%开头的内容,这些是关于数据的注释。WEKA 在读取文件时会自动忽略这些行。除去注释后,整个 ARFF 文件可以分为两个部分,第一部分头信息(headinformation)是对关系和属性的定义,第二部分数据信息(data information)就是数据值。

    image.png image.png
    image.png
    image.png

    WEKA:属性类型及 ARFF 格式转化

    image.png
    image.png
    image.png image.png

    WEKA:Explorer 界面介绍

    image.png

    WEKA:数据预处理

    image.png image.png
    image.png
    image.png
    image.png
    image.png
    image.png
    image.png
    image.png
    image.png

    相关文章

      网友评论

        本文标题:【生信课程】08数据挖掘-山东大学-生物信息学

        本文链接:https://www.haomeiwen.com/subject/csitnxtx.html