美文网首页
2019-12-27 Biostar I-C6

2019-12-27 Biostar I-C6

作者: 王子威PtaYoth | 来源:发表于2019-12-27 17:02 被阅读0次

生物信息学需要广泛的技能,大致包括:
1.数据管理
accessing获取, combining合并, converting转换, manipulating操作, storing储存, annotating注释数据
routine data quality checks原始数据的质量检查, summarizing large amounts of information大量信息的总结归纳, automating existing methods已有方法的自动化
2.原始数据分析
数据分析需要running alignments, variation callers, RNA-Seq quantification, finding lists of genes。
分析中还须预见到哪里会有坑,知道如何填坑,对分析方案进行customize
3.数据解释
没有准确而富有洞察力的解释,数据的管理和分析将毫无意义。
生物信息学家需要通过解释结果,为生物学假设提供支持。

电脑配置
MacOS电脑:用于develop and test the methods
高性能的Linux工作站或计算机集群:用于对数据执行pipeline
↑以上我都没有↑
Windows10也不是不可以,通过安装Linux Bash shell,参见本书62页。

电脑的算力要求
32GB内存,8核的Mac机,只使用hisat2比对软件,可以1天做完RNA测序数据分析
基因组组装(genome assembly)则需要更多内存
分析低质量数据(污染,错误的样品准备)花费的时间远多于高质量数据

所以我要为了学习生信去买高性能电脑吗?
不需要,支持Unix的一般笔记本电脑就能做到很多事,足够让你了解这个领域,并成为这个领域的专家。

Cloud 云计算
可以使用Amazon Web Services这样的云计算平台上用tools跑data
运行云服务涉及了解对象存储object stores,虚拟私有云virtual private clouds,文件系统file systems和安全性security。 建立和维护实例云cloud instance需要您成为兼职系统管理员system administrator,这可能会分散您学习生物信息学的注意力。 在后面的章节中,我们将介绍云计算cloud computing和基于云的堆栈cloud-based stacks——通常称为软件即服务(SaaS),平台即服务(PaaS)和基础架构即服务 (IaaS)。 这些产品与容器化的应用程序containerized application和分析相结合,已因其为可重复的研究提供可扩展平台的潜力而受到重视。

原文:https://www.bmc.com/blogs/saas-vs-paas-vs-iaas-whats-the-difference-and-how-to-choose/ 从小型企业到全球企业,云都是一个非常热门的话题,它是一个非常广泛的概念,涵盖了很多在线领域。 无论是应用程序还是基础架构部署,当您开始考虑将业务转移到云时,了解各种云服务的差异和优势比以往任何时候都更加重要。通常有三种云服务模型:SaaS(软件即服务),PaaS(平台即服务)和IaaS(基础架构即服务)。 每个都有自己的好处和差异。为了您的组织能作出最佳选择,您有必要了解SaaS,PaaS和IaaS之间的差异。
如果这些概念不那么倒胃口的话,基于云的服务可以成为你学习生信的帮手,但学习生信并不一定需要云。

学习生息需要懂Unix吗
生物信息学的发展离不开Unix平台上编写的免费工具,多数新进展都用到针对Unix操作系统编写的软件,作为生物信息学者不了解命令行是不行的。
2016年开始,Windows平台已开始提供“Windows Bash”应用,该应用允许Windows 10操作系统运行几乎所有基于Unix的软件。
使用Unix并不那么复杂。Unix讲究准确和逻辑性,甚至有些死板教条。 根据经验,没有计算背景的人也可以在几周内熟练使用Unix。

我是不是应该学一门编程语言
是的!最好能有入门级的编程能力。
所有编程语言表面看起来不同,底层逻辑却是类似的。入门级的编程知识有助于你了解计算机分析的思维过程。

Unix的替代
有两大类
第一类为命令行工具提供一个Web interface,这些命令行工具也可以直接在Unix系统上运行(使分析更为直观)

第二类是“Systems that offer custom implementations of bioinformatics methods.” 运行于本地系统的独立软件

Bioconductor是什么?
基于R的开源软件项目,通过在R中调用函数进行数据分析

利用基于Bioconductor脚本进行RNA-Seq数据分析

Galaxy是什么
简而言之给命令行工具command line tools加上基于网络的user interface,帮助没有编程经验的生命科学家入门用的。

左面板为工具列表,中间面板为工具描述,右面板为展示用户数据

注意:Galaxy不是分析工具,它只是用来方便地加载命令行工具和管理数据的用户界面user interface和平台platform,但理解命令行工具背后的概念及正确地使用这些工具都是用户的事。
忌讳:不要说“我用Galaxy做分析”,这句话听起来和“我拿电脑做生信”没什么区别,首先需要引用的是命令行工具本身,作者和相关文献,然后才要提到Galaxy。
没有生信专家会主动要求用Galaxy做分析,随着你学习的深入,你会发现Galaxy带来的“便利”不过是幻觉。当然初学阶段Galaxy用的顺手你可以接着用,但某天当你感觉到Galaxy的掣肘,你的想象力开始被一股无形的力量束缚,说明你毕业了,你要从Galaxy转战真正的command line tools了。
到那时候,你就开始不讲人话了:

bwa mem file1.fq file2.fq | samtools view -F 68 | samtools sort > result.bam

BaseSpace是什么
基于云的基因组学分析和数据储存平台,illumina公司的,和illumina测序仪整合了。所以只支持illunmia测序仪产生的数据。

商业化的生信软件贵吗
对个人而言肯定是贵的,但对科研组织而言,这笔钱很快就回笼了

生物信息学家适合作为自由职业吗
不适合

生物信息学家长什么样
长得很好看

相关文章

  • 2019-12-27 Biostar I-C6

    生物信息学需要广泛的技能,大致包括:1.数据管理accessing获取, combining合并, convert...

  • mysql批量修改时间格式

    即将2019-12-27 15:43:19批量转为2019-12-27,或者其它格式,字段类型为datetime。...

  • biostar handbook: 第六周笔记汇总

    我突然发现我自己忘了整理第六周的笔记,好尴尬,趁现在补上。。 Biostar 第七课01 模式识别 Biostar...

  • bed文件转换为gtf文件

    参考自 https://www.biostars.org/p/64346/[https://www.biostar...

  • 第1课 Python学习资料收集整理

    生信宝典廖雪峰的Python教程biostar numerical python -> numpydata sci...

  • Biostar(2)

    SET UP A MACos COMPUTER 一、首先分享几个在跟随书进行设置时出现的错误和解决办法: 1、xc...

  • Biostar(3)

    NCBI数据库 NCBI编号的解释 AC:一些可供选择的注释的基因组序列,主要用来标记病毒和原核生物。 A...

  • Biostar(1)

    浅谈生物信息学 伴随着互联网、大数据和人工智能的日益发展,计算机科学正成为当今世界上最重要的学科之一,与其...

  • (避坑)samtools bedcov 和 bedtools c

    今天在Biostar上看到了这个关于samtools bedcov vs. bedtools coverage ...

  • 对fasta/fastq进行一些小操作

    刘小泽写于18.12.27参考biostar handbook以及Wei Shen的SeqKit(处理fa/fq领...

网友评论

      本文标题:2019-12-27 Biostar I-C6

      本文链接:https://www.haomeiwen.com/subject/yyjroctx.html