美文网首页
生物信息神奇网站系列(十二):机器学习数据集

生物信息神奇网站系列(十二):机器学习数据集

作者: 基因学苑 | 来源:发表于2019-07-14 21:54 被阅读0次

    天天都被媒体的大数据,机器学习,人工智能忽悠,但是常言道“巧妇难为无米之炊”,要实现这些,数据才是重点;有时候想测试一些算法,手头没有现成的测试数据也比较麻烦。不过,加州大学欧文分校提供了一个机器学习的数据集,可以从中下载大量数据,用于机器学习研究。

    十二:加州大学欧文分校机器学习数据集 

    http://archive.ics.uci.edu/ml/index.php

    1、登录网站,可以看到“Welcome to the UC Irvine Machine Learning Repository!”。下面是对网站的一些介绍,目前收入418个数据集。

    2、这些数据集可以根据多个维度进行分类,例如分析类型,数据类型,研究领域,属性,文件类型等,并且每个分类数据的数量。

    3、我们可以使用Life Science分类下的数据,目前已经收录97个数据集。

    4、这其中乳腺癌的数据集Breast比较常用,在多个利用机器学习进行诊断的案例中都会用到。点击Breast的连接就会看到这个数据集相关的内容。包括数据介绍以及FTP下载目录。

    http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Original%29

    5、页面中会给出页面详细的介绍。

    6、点击Download: Data Folder,链接到数据下载ftp页面,直接点击文件就可以下载了。

    7、也可以鼠标右键点击,直接复制下载链接,直接在程序中进行下载,例如在R中,直接利用read.table()函数下载即可。

    ---------- END ----------

    欢迎订阅我们的微信公众号:基因学苑

    相关文章

      网友评论

          本文标题:生物信息神奇网站系列(十二):机器学习数据集

          本文链接:https://www.haomeiwen.com/subject/lzzikctx.html