经常使用的数据挖掘软件/软件包大盘点

作者: 网易数帆 | 来源:发表于2018-07-24 12:53 被阅读4次

数据挖掘软件首推R，它的优点在于函数都给你写好了，你只需要知道参数的形式就行了，有时候即使参数形式不对，R也能“智能地”帮你适应。这种简单的软件适合想要专注于业务的人。

R作为一款用于统计分析和图形化的计算机语言及分析工具，为了保证性能，其核心计算模块是用C、C++和Fortran编写的。同时为了便于使用，它提供了一种脚本语言，即R语言。R支持一系列分析技术，包括统计检验、预测建模、数据可视化等等。

R软件的首选界面是命令性界面，通过编写脚本来调用分析功能。如果缺乏编程技能，也可使用图形界面，比如使用R Commander。

其次是Python，Python几乎都可以做（通用性语言），函数比R多，比R快。但是缺点是比R难学一点。它是一门语言，R更像是一种软件，所以python更能开发出flexible的算法。它的语言简单易懂，做分析方便，而且可以开发大型软件。

其它数据挖掘软件用的并不是很多，但是可以结合知友的回答推荐几款，常用的数据挖掘软件还是有很多的，各有千秋。

SAS Data Mining:

发掘数据集的模式，其描述性和预测性模型为用户更深入的理解数据提供了基础。用户不需要写任何代码，它们提供易于使用的GUI，并提供从数据处理、集群到最终环节的自动化工具，用户可以从中得出最佳结果做出正确决策。

WEKA:

一款非常复杂的数据挖掘工具，也可能是名气最大的开源机器学习和数据挖掘软件。其原生的非Java版本主要是为了分析农业领域数据而开发的。该工具基于Java版本，支持多种标准数据挖掘任务，包括数据预处理、收集、分类、回归分析、可视化和特征选取。高级用户可以通过Java编程和命令行来调用其分析组件。同时，Weka也为普通用户提供了图形化界面。

同时它还支持几种经典的数据挖掘任务，显著的数据预处理，集群，分类，回归，虚拟化，以及功能选择。其技术基于假设数据是以一种单个文件或关联的，每个数据点都被许多属性标注。 Weka 使用Java的数据库链接能力可以访问SQL数据库，并可以处理一个数据库的查询结果。高级用户可以通过Java编程和命令行来调用其分析组件。同时，Weka也为普通用户提供了图形化界面。和R相比，Weka在统计分析方面较弱，但在机器学习方面要强得多。

Software – R:

R软件是另一种较为流行的GNU开源数据挖掘工具，它主要是由C语言和FORTRAN语言编写的，是一款针对编程语言和软件环境进行统计计算和制图的免费软件。除了可以为科学家、研究人员以及学生提供数据挖掘和分析功能外，它还可以提供统计和制图技术，包括线性和非线性建模，经典的统计测试，时间序列分析、分类、收集等等。

NLTK:

NLTK（Natural Language Tool Kit）最适用于语言处理任务，因为它可以提供一个语言处理工具，包括数据挖掘、机器学习、数据抓取、情感分析等各种语言处理任务。而您需要做的只是安装NLTK，然后将一个包拖拽到您最喜爱的任务中，您就可以去做其他事了。因为它是用Python语言编写的，你可以在上面建立应用，还可以自定义它的小任务。

RapidMiner:

最受欢迎的免费数据挖掘工具之一，它是一个开源的数据挖掘软件，由Java语言编写而成，提供一些可扩展的数据分析挖掘算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。该款工具最大的好处就是，用户无需写任何代码。它是作为一个服务提供，而不是一款本地软件。

另一方面，它提供的实验由大量的算子组成，而这些算子由详细的XML 文件记录，并被RapidMiner图形化的用户接口表现出来。RapidMiner为主要的机器学习过程提供了超过500个算子，并且，其结合了学习方案和Weka学习环境的属性评估器。它是一个独立的工具可以用来做数据分析，同样也是一个数据挖掘引擎可以用来集成到你的产品中。

KNIME

一款基于Eclipse开发环境来精心开发的数据挖掘工具。无需安装，方便使用。用Java语言开的一款开源的数据分析、报告和综合平台，拥有数据提取、集成，处理，分析、转换以及加载所需的所有数据挖掘工具。此外，它具有图形用户界面，可以扩展使用Weka中的挖掘算法。KNIME采用的是类似数据流（data flow）的方式来建立分析挖掘流程。挖掘流程由一系列功能节点（node）组成，每个节点有输入/输出端口（port），用于接收数据或模型、导出结果。可以帮助用户轻松连接节点进行数据处理。

Orange数据挖掘软件:

Orange是一个开源数据挖掘和机器学习工具，它的图形环境称为Orange画布（OrangeCanvas），用户可以在画布上放置分析控件（widget），然后把控件连接起来即可组成挖掘流程。这里的控件和KNIME中的节点是类似的概念。每个控件执行特定的功能，但与KNIME中的节点不同，KNIME节点的输入输出分为两种类型（模型和数据），而Orange的控件间可以传递多种不同的信号。Orange的控件不象KNIME的节点分得那么细，也就是说要完成同样的分析挖掘任务，在Orange里使用的控件数量可以比KNIME中的节点数少一些。Orange的好处是使用更简单一些，但缺点是控制能力要比KNIME弱。

除了界面友好易于使用的优点，Orange的强项在于提供了大量可视化方法，可以对数据和模型进行多种图形化展示，并能智能搜索合适的可视化形式，支持对数据的交互式探索。

此外，它包含了完整的一系列的组件以进行数据预处理，并提供了数据帐目，过渡，建模，模式评估和勘探的功能。Orange的弱项在于传统统计分析能力不强，不支持统计检验，报表能力也有限。Orange的底层核心也是采用C++编写，同时允许用户使用Python脚本语言来进行扩展开发。

在使用数据挖掘软件/软件包的过程中，若能结合大数据分析处理平台，

并能将经常使用的软件包嵌入其中，分析处理数据必会事倍功半。

利益相关：网易的猛犸大数据平台是一站式的数据开发平台，支持各种常用的数据挖掘软件/软件包，敏捷的开发模式，简单的拖拽节点即可进行任务开发，支持数据库传输节点、SQL、Cube、MR、Spark、Script等多种节点任务，内嵌的软件包简化了数据开发人员和数据分析人员冗余的工作环境，使他们更加关注业务本身。

欢迎点击这里免费试用网易猛犸。

网友评论

本文标题：经常使用的数据挖掘软件/软件包大盘点

本文链接：https://www.haomeiwen.com/subject/kkvemftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

经常使用的数据挖掘软件/软件包大盘点

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据，机器学习，人工智能

大数据学习专题

大数据学习+数据库知识