美文网首页
Day 6 下载数据

Day 6 下载数据

作者: 陈宇乔 | 来源:发表于2018-12-13 10:45 被阅读0次

任务

  1. 统计fa ID信息,并打开看看fa格式
  2. 探究gtf注释信息,
    第一:用grep awk 统计自己需求的内容,如提取各数据库的ID信息 到一个文本,
    第二:比较gencode 与 gatk ncbi gtf注释信息的差异;第三统计一下 gtf内gene、转录本、其他类型(如假基因,lnRNA)等信息的个数

操作记录:

  1. gtf格式第九行非常精彩,包含了gene的各种名字,包括重要的有:entrID,gene symble name,bio_type,gene_ID等!
    2.gtf默认是\t分隔的,所以第一次操作必须要用cut分隔,不然有一些数据会出现不整齐的情况。
####第一次分隔不要用awk错误例子示范
zless -NS Homo_sapiens.GRCh38.86.gtf.gz | awk -F ';'  '{print$3,$4,$5,$6,$7}'|awk -F '"' '{print$2,$8}'|awk '/^ENST/{print$0}'|cut -f2|sort|uniq |wc -l
####正确的方法:
less -S /home/vip25/database/NCBI/Homo_sapiens.GRCh38.86.gtf.gz|grep -v '^#'|head -n 50|cut -f 9
########gtf文档的第九列内容很丰富包括了各种基因的名字
less -S /home/vip25/database/Homo_sapiens.GRCh38.86.gtf.gz|grep -v '^#'|awk '$3=="gene"{print $0}'|cut -f 9|cut -d ';' -f 1,3,5|cut -d ' ' -f 2,4,6|less -S 

数据下载

下载参考基因组ensemble、UCSC、NCBI、Genecode的hg38参考基因组和gtf注释文件

google:ensemble ftp hg38
ftp://ftp.broadinstitute.org/bundle/hg38/Homo_sapiens_assembly38.fasta.gz

NSBI


第一种方法 第二种方法

下载地址
ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh38_latest/refseq_identifiers/GRCh38_latest_genomic.fna.gz
ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh38_latest/refseq_identifiers/GRCh38_latest_genomic.gff.gz

UCSC:


hg38参考基因组 hg38参考基因组

ensemble ftp


image.png

genecode感觉很精彩呀


genecode

相关文章

  • Day 6 下载数据

    任务 统计fa ID信息,并打开看看fa格式 探究gtf注释信息,第一:用grep awk 统计自己需求的内容,如...

  • DAY4-肝癌的生存分析3

    DAY2-用TCGAbiolinks下载肝癌数据并做预处理1DAY2-用TCGAbiolinks做生存分析2正值春...

  • Day6-Gloria-FLY

    Day6-Gloria-FLY:1、下载R包:1.镜像设置:(1)> options("repos" =c(CRA...

  • Day5-7 产品工作实习

    Day5-6:整体状态略上升,对业务逻辑越来越熟悉,数据更新基本无误。独立运用数据调查一些现状和问题。Day7:整...

  • 2020-02-21

    重新下载数据:2019-11-03 11:30 H: 18, V: 6反射率数据:MOD09温度数据:MOD11_...

  • 2020-02-15

    下载非洲温度数据MOD11_L22019-11-03 11:30H: 18, V: 6 尝试使用pyhdf处理下载...

  • day18 关于电商的推荐标签

    day18 6月17日 晴 数据按用户使用过程和结果的类型分可以分为:用户行为数据和业务数据。 用户行为数据主要是...

  • 【MySQL必知必会】学习笔记Day6

    【MySQL必知必会】学习笔记Day6&1.28&D13章&P83-89页 11、分组数据 (1) 数据分组 分组...

  • 2020-06-20

    学习小组Day6笔记--马小林 1、如何配置RStudio的下载镜像 基础 在RStudio中,选择Tools——...

  • 禅陀螺day 6-10

    day 10 day 9 day 8 day 7 day 6

网友评论

      本文标题:Day 6 下载数据

      本文链接:https://www.haomeiwen.com/subject/utlvhqtx.html