![](https://img.haomeiwen.com/i64542/d4bc660609bc159b.jpg)
硬件平台、软件环境和算法模型的一站式支持,可以让各学科的研究都能从数据科学的发展获益。
开放
今天是北得克萨斯大学(University of North Texas, UNT)科研信息技术服务中心(Research IT Services)的开放日(Open House)。
![](https://img.haomeiwen.com/i64542/c93e63bbb19f1b18.jpeg)
昨天丁老师告诉了我们这个消息。于是今天上午,我们实验室的几个小伙伴,就过来参观学习了。
在工作人员的带领下,我们参观了高性能计算机房。那里面真是壮观。
![](https://img.haomeiwen.com/i64542/7b8c75449706bc4e.jpeg)
磁盘阵列都在高速运转。拉开抽屉,里面整整齐齐数十个6TB的硬盘。用户的数据可以同时在上面读取。
走近机架,CPU和GPU们制造的热风铺面而来;旁边就是冷却管线。从一排排服务器中间穿梭,真有冰火两重天的感受。
因为噪声很大,讲解人员不得不提高音量。他告诉我们,因为要保证冷却、供电等设施的持续正常运转,整个建筑的结构都是独特的。单单是买来设备之后做布线,就是一个十足的技术活儿。
10点钟,我们在535房间,听了科研信息技术服务中心4名工作人员联合做的报告。报告的内容,极大地改变了我对服务中心功能的印象。
原本以为,他们不过就是网络管理员。为学校里面的师生,提供基础设施。设置用户账号,预装软件,然后解决一些需要重启电脑之类的问题而已。就像英剧《IT》里面这帮家伙一样。
![](https://img.haomeiwen.com/i64542/de5cbfc3b0c4555d.jpeg)
然而,Richard 用一个案例,说明了他的工作,令我感觉到了震撼。
案例
![](https://img.haomeiwen.com/i64542/d2f4a07e7a117453.jpeg)
案例来自于一个研究生,叫做 Sheela ,学生物的。
她自己的 LinkedIn 页面,有不少内容没有更新。当初她给自己的预计,是 2017 年底毕业。
![](https://img.haomeiwen.com/i64542/849ef23fb93d87f3.jpeg)
事实上,她不仅没有按照预期时间毕业,而且差点儿就没法毕业了。
她的研究方向是生育。希望对比4种不同的治疗方法,在不同条件下对生育的促进影响。
我是外行,不知道这里面数据采集究竟需要多高的成本。但是 Richard 告诉我们,很贵。
Sheela 用了好几年的时间,终于采集到了 104 个样本,每个样本包括 29 个特征变量。
然后,她就试图采用回归和方差分析(Analysis of variance,ANOVA)的手段,来构造模型。结果发现——一点儿显著关系都没有!这几年白干了。
欲哭无泪啊。
是不是就此放弃毕业呢?
Sheela 跑来服务中心,找到 Richard 所在的数据科学与分析(Data Science and Analysis)部门求援。
Richard 发现,由于数据量小,可能的相互作用和潜在模型数量却很多,因此传统方法不适合这个研究的数据分析。
而 Richard 的爱好,恰好就是玩儿各种新鲜的统计工具。
于是,他很快帮助 Sheela 设定了新的分析思路:基于决策树的监督学习+遗传算法,然后采用 BIC 做模型选择。
Sheela 一听就懵了:这说的都是什么?……
没错,这就是具体研究领域人员面临的现实问题——追踪本领域前沿,已经让他们投入了全部精力。他们没有余力,在研究方法和工具上时刻刷新自己的知识和技能。
但是, Richard 说,数据科学与分析(Data Science and Analysis)部门就是在这种情况下,体现自身价值的。
我们参观了 Richard 的办公室。里面就如同一座小型图书馆,摆满了各种书籍和资料。他平时乐此不疲地追踪数据科学进展,因此对于他来说,新的数据分析思路,其实无非对应着 3.5 个 R 软件包(其中有一个软件包,可视化模块独立,所以他认为算半个)而已。
不过,如果你拿普通的电脑试图做这种数据分析,依然是很困难的。 Richard 的电脑是一台配置不错的 Macbook Pro ,16GB的内存,6核CPU。但是为了帮 Sheela 跑这个分析,连续运转了25个小时,依然看不见尽头。
这时候,高性能计算设备的作用就来了。 Richard 旋即把任务扔到了服务器集群上面,同时使用超过200个核心……就是这样,依然跑了10多个小时,才完成。
出来的结果,让 Sheela 欣喜不已。这是 ROC 曲线图:
![](https://img.haomeiwen.com/i64542/f96b428e6818e8a3.jpeg)
那 0.5 个软件包,还顺便把决策树的可视化做了。
![](https://img.haomeiwen.com/i64542/eda71294480ab211.jpeg)
在这张图里面,4种不同疗法,在不同的条件下,对应的效果差别,一目了然。
Sheela 不仅顺利毕业,而且还把论文发在了一份很好的期刊上面。
![](https://img.haomeiwen.com/i64542/326c66dac51699bc.jpeg)
这是个皆大欢喜的结局。
功能
Richard 是这样描述部门使命的:
![](https://img.haomeiwen.com/i64542/d9f7377056233db9.jpeg)
可以看到,数据科学与分析部门,从软件、硬件、算法和模型构造,全方位为有需要的师生提供支持。
不仅帮助学生搞定毕业论文,他们还和教授们合作,共同申请科研项目经费。
![](https://img.haomeiwen.com/i64542/70ff08b9b3f79540.jpeg)
他们还利用教程的方式,把数据科学的基础知识与技能分享给大家。
这种分享,是超越学校范围的,每个人都可以获取。你可以访问这个链接,看看他们精心制作的 R 语言教程。
![](https://img.haomeiwen.com/i64542/ee44b77a15b8cbde.jpeg)
每一段教程里面,都不仅给出了完整的代码,可以拷贝粘贴直接用,而且还有详细的注释,甚至是附带数据的下载链接。
![](https://img.haomeiwen.com/i64542/eb79c4f7d5fc7b06.jpeg)
师生们可以根据自己的需求,找到相应的教程,直接应用到自己的研究问题和数据上面。
数据科学与分析部门还会经常提供培训讲座。例如明天,就会有利用服务集群做机器学习和深度学习的教学演示。我听了很兴奋。
![](https://img.haomeiwen.com/i64542/8c086619512f6ca3.jpeg)
Richard 的同事 Jon 介绍说,他们不仅有 R 语言教程,还有 SPSS 和 SAS,甚至是 Latex 的教程。这些教程会经常更新,并且不断补充新的应用场景。
![](https://img.haomeiwen.com/i64542/176793b5fef123bb.jpeg)
我很兴奋地询问,有没有 Python 教程?
Jon 面露难色,告诉我说“不好意思,我们属于 R 阵营”。
小结
一上午的参观学习,让我们收获良多。令我们印象最深刻的,并不只是那些硬件基础设施,而是这种数据科学对科研的真正有效推动。
数据科学是专业领域,并非每个人都需要成为数据科学家。门槛的降低,可以让更多人应用数据科学提供的便捷工具,来推进自己的科研,尤其是其中的数据分析环节。
更可宝贵的,是这种一站式咨询与合作方式,不仅可以帮助有困难的师生解决燃眉之急,更有助于形成良性互动循环,使得科研项目做大做强。就像下图中展现的一样。
![](https://img.haomeiwen.com/i64542/3d6985313dac7653.jpeg)
喜欢请点赞和打赏。还可以微信关注和置顶我的公众号“玉树芝兰”(nkwangshuyi)。
如果你对 Python 与数据科学感兴趣,不妨阅读我的系列教程索引贴《如何高效入门数据科学?》,里面还有更多的有趣问题及解法。
网友评论