这期介绍下使用 KNIME 的基础知识,下期接着聊基础数据分析。
微信公众号:数据分析指北
数据分析指北 - 附录二 KNIME 使用基本介绍
这期介绍下 KNIME 的基本使用方法
历史回看:
数据分析指北 - 前言(03)
方法论 之 问题的解,科学方法,以及 然后呢?
基础(基础数据操作之一)
计算机是怎么处理表数据的,以及一些小学数学题?
基础(基础数据操作之二,读取数据源)
如何读取文件数据(以CSV文件举例)和数据库数据。
*KNIME*
KNIME 简介
KNIME(/naɪm/,和knife一样,k不发音)是德国康斯坦茨大学开发的一款功能强大的免费开源分析工具。在对统计分析需求一直比较旺盛的生物,医学领域,声名显赫。比如前一阵刚刚上市的独角兽 -- 药明康德,招聘化学信息研究员的要求中就有这么一项:
*化学信息研究员*再或者某某500强公司招聘80-100万年薪的 Data Business Interpreter 时, 也要求对 KNIME 熟悉:
*Data Business Interpreter招聘*KNIME 究竟有什么过人之处呢?个人总结大概有这么几点,一,商业模式。采用开源的方式来免费分发软件,但给付费客户提供更多具有特定附加值的服务,相比于某些如果只要处理超过一万行的数据就需要付费的软件,不知道高明到哪里去了(抠鼻子表情);二,提供了良好的插件机制(PlugIn)。你可以去开发一些没有的新功能,并通过官方渠道以免费或收费的形式发布出去,官方抽成一部分,类似苹果的 AppStore;三,设计理念。当你无知无畏的用过,写过很多工具,突然间有那么一款让你出现 "啊哈" moment 的软件,那一定是他里面有一些视角或前瞻性是你从来没有想到过,但仔细再想想这就是最好的方案,KNIME 就能给你带来这种体验;四,和其他工具的互联互通性。在 Unix/Linux 的世界中,有一个重要的理念(philosophy)就是,Do one thing, and do it well,做一个大而全的工具是很困难的,这个理念就是要让制作工具的人(程序员)在做功能的时候只做一个功能,并把它做好。复杂的功能,由简单功能一个串一个就好了。KNIME 知道自己擅长哪些,知道自己不擅长哪些,所以他做了不少和其他工具,语言互通互联的接口,比如他可以调用 Python,把 Python 的代码块组织到当前的流程(workflow)中,等等这类互联互通的工作,所谓,他山之石,可以攻玉。
当然也不是说 KNIME 没有缺点,缺点以后有时间再聊。
KNIME 界面介绍
KNIME 是一款java,Eclipse 环境下开发出的工具,所以界面带有浓浓的 Eclipse 味道,如下图所示:
*KNIME 主界面*主界面虽然很多窗口,但组织的比较有逻辑性。左上,KNIME Explorer,是你所有的 KNIME 的工程目录,还有官方的例子服务器,里面内容很详尽,可以用来做学习的参考。
左下,就是 KNIME 的模块了,模块是通过IO,Manipulation,Views等方式来划分开的。如果你要装了什么新的 KNIME 插件,那么插件中对应的模块也会在这里出现。
左中,就是一个比较有意思的功能了,Workflow Coach,比如在上图的这一个分析任务中,已经放入了一个读取CSV文件的模块,这个模块接下来需要连接什么模块,在 Workflow Coach 中会根据社区的统计信息,给出建议,比如在 CSV Reader 之后,他给出了如下的建议:
*让人啊哈的 Workflow Coach*对于众多的 KNIME 模块,这个功能可以帮助分析人员更快的选择模块,组织模块。如果不愿意用社区中的推荐信息,也可以让 KNIME 分析之前自己使用的 Worflow 中的模块信息,根据自己的习惯,给出相应的推荐。
继续讲回主界面,中间的画布就是你分析数据,组织分析流程的场地;中下的 Outline 能让你在一个很大的 Workflow 中定位到相应的模块位置;右上的 Node Description 能让你了解选中模块的功能,右下的 Console 位置,在你运行 Workflow 时会给你一些额外的信息,或者哪里出错了,都会在这里展示出来。
还有一个重要的功能就是右键,当你在一个模块上右键之后:
*模块点击右键之后*你可以对模块进行配置,运行,复原,等等一系列操作,在模块运行之后,选择 File Table 就可以查看当前模块的输出结果了。
很简单有没有!
回头聊
反馈,转发或赞赏?
网友评论