前言
生信中达到某一个目的有很多方法,如果我是一个小白,我会首先想一下自己该怎么解决,再搜索有没有相同的问题,或者记录自己的问题。
遇到别人的经验贴就记录下来,不同的方法解决同一个问题,最后,等到我积累足够多的经验就知道那一种最适合我。
要敢于尝试和比较不同的方法,要力求一次达到目的!!!
今天翻以前看别人的笔记,突然想吐槽~
还有后续,懒得记录啦~
记住:罗马不是一天建成的~
情景一:计算染色体长度
1.获取染色体长度(基因家族分析需要):这是我在公众号看到的方法,两步~既然有这么优秀的软件,就不要给自己找麻烦啦
pengzw@super-server:~/reference/watermelon$ samtools faidx watermelon_v1.genome
pengzw@super-server:~/reference/watermelon$ awk '{print $1"\t"$2}' watermelon_v1.genome.fai |head
Chr1 34083085
Chr2 34414252
Chr3 28939167
Chr4 24315960
Chr5 33714806
Chr6 27018480
Chr7 31477646
Chr8 26149438
Chr9 34986854
Chr10 28419553
2.某次看到的方法(伏笔人设,详见我的总结帖):一个个计算,要是有一百条也是爽歪歪
pengzw@super-server:~/reference/watermelon$ sed -n 2p watermelon_v1.genome |wc
1 1 34083086
pengzw@super-server:~/reference/watermelon$ sed -n 4p watermelon_v1.genome |wc
1 1 34414253
pengzw@super-server:~/reference/watermelon$ awk 'NR==2 { print $0 }' watermelon_v1.genome |wc
1 1 34083086
pengzw@super-server:~/reference/watermelon$ awk 'NR==4 { print $0 }' watermelon_v1.genome |wc
1 1 34414253
情景二:得到bed文件
1.我利用awk的提取方法,我以前觉得gft、gff3的文件格式很复杂,现在看觉得是很有规律啦~
pengzw@super-server:~/reference/phytozome/at$ awk -F "[= \t]" '$3 == "gene" {print$1"\t"$4"\t"$5"\t"$11}' Athaliana_167_TAIR10.gene.gff3|head -n 5
Chr1 3631 5899 AT1G01010
Chr1 5928 8737 AT1G01020
Chr1 11649 13714 AT1G01030
Chr1 23146 31227 AT1G01040
Chr1 31170 33153 AT1G01050
2.一言难尽的方法,我实在是没耐心解读~genefamily.bed
pengzw@super-server:~$ genefamily = sorted.myb
pengzw@super-server:~$sort $genefamily | join -t $ '\t' -o 1.1 1.2 1.3 1.4 1.5 1.6 -1 4 -2 1 clpromoter.gff - | sort --version -sort > $genefamily.bed
学习心得
我也遇到很多坑,但是我从来不会做伸手党,被坑了,下一次我只会找更多更好的方法解决同一个问题,不论问题多么简单。
不要以为自己的命令行多复杂就显得自己多厉害,呵呵呵呵,伏笔人设的垃圾作为~我生信学习路上的遇到的自视甚高的人~
废话那么多,就是想说见多识广,不要被局限在一个小框框里。
网友评论