作为一个BI，为什么我要做IT的事情

作者: BFX山姆大叔 | 来源:发表于2017-09-22 17:23 被阅读0次

作为一个BI，为什么我要做IT的事情
BI报表分析平台搭建一：报表体系
表达营工作小结
第0篇 -- 谈谈我为什么要做生涯咨询
superset 1. 安装篇
2017-06-02
灯塔？还是SABER吧
挑战
为什么要做喜欢的事情？
为什么要做更多的事情？

2006年，高中生物老师口中的一句话铺就了我以后的职业轨迹。

……21世纪是生命科学的世纪，生命科学历史上一一发展起来的分子生物学、基因组学、生物信息学就是生命科学发展的见证。哦，对了，生物信息学你们还没听过吧。简单来说就是通过计算机科学和数据帮助生物学家从大量数据中筛选出可供检测分析的小批量数据的一门学科……

-某高中生物老师

不知不觉，在生物信息圈混了10来年了，生物学也已经从“世纪学科”变成了候局长口中“学生物可惜了”的学科。

NIH的一张基因组测序价格与计算机届鼎鼎大名的摩尔定律对比图和最后更新于2016年5月的文章向大家展示了生命科学，尤其是基因组学在近15年来发展的速度之快。

dbSNP页面

你默默的用Excel打开早就准备好的从UCSC的FTP下载下来的txt文件，，，然后

通过标准Linux命令行查找SNP

看到这里的位置和浏览器中的差别了吗？呃，这个是另外一个"one-based / zero-based"的问题，回头再说。

你默默的切回刚刚的命令行，链接了早早导入数据的数据库，经过简单的SQL语句，就可以瞬间找到相应信息；

通过MySQL数据库查询SNP

需要说明的是，我在将UCSC数据导入到数据库前对数据做了一些处理，所以微店看起来是和浏览器上查到的一致的，而不是源文件中原始数值。

对于HiSeq X测序仪的用户，查看下机数据产量是再频繁不过的事情，经过bcl2fastq程序识别碱基后怎么看每个Lane的产量？
1. 你登陆服务器，打开碱基识别后的文件夹，下载./Reports/html文件夹，用浏览器打开了index.html文件，大概长这个样子；

一个流动槽的产量统计信息

如果你是一个极客，讨厌把东西下载到本地或者用ssh -X ...的形式打开浏览器看表格，你可以进入刚刚的碱基识别输出文件夹，在Stats文件夹里躺着一个DemultiplexingStats.xml文件，这是标准化的文本统计文件，长这样；

XML统计文件样式

新版的bcl2fastq会生成一个Stats.json文件，看起来更简洁

JSOn统计文件样式

既然你已经拿到这个统计文件了，用几行JavaScript代码后，8个Lane的数据产量就变成这样了。

8个Lane的数据产量统计

这次就分享两个简单的栗子，不是说明数字越大，方法越好，只是想说明同一个事情可以有更多的解决办法。

身为生信，做好基本数据分析的同时，借用一些已经成熟的IT技术往往可以让我们做事事半功倍，让自己想展现的东西更加直观。我们是理科生，但也有情怀，也有对大众美的追求，不是吗？

参考：

摩尔定律， https://en.wikipedia.org/wiki/Gordon_Moore#Moore.27s_law；
NIH对2001-2015年测序价格变化的统计文章，https://www.genome.gov/sequencingcostsdata/；
本人最后一个图使用的JavaScript作图工具，HighCharts，https://www.highcharts.com。

网友评论

本文标题：作为一个BI，为什么我要做IT的事情

本文链接：https://www.haomeiwen.com/subject/rzjosxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

作为一个BI，为什么我要做IT的事情

参考：

相关文章