背景:使用10x的cellranger-arc实现10x单细胞ATAC和单细胞RNA的上游分析。
-
为什么做单细胞ATAC分析
单细胞转录组是单细胞技术中较为常用的方法,它分析的是单个细胞的mRNA转录信息,缺乏上游调控信息。由中心法则可以知道,生物发生的过程,从基因组、RNA转录到蛋白质翻译中任何差异都可能是细胞类型差异的原因。
ATAC是染色质开放性的意思,染色质开放性属于基因组表观修饰,也就是作用在中心法则中的基因组上,因此它是转录组的上游调控信息。从单细胞转录组的差异分析中,可以得到不同细胞类型的基因的转录组表达差异,那么往上游去探索,可以了解不同细胞类型的染色质开放性差异,其中最关键的是其与转录因子TF相关。
转录因子是一类可以调控基因表达的特殊蛋白质,在基因组上,它要与基因位点结合需要满足一定的条件:
1.对应的DNA区域有特点的结合位点——也就是常说的motif(ATAC分析可以关联)
2.对应的DNA区域属于开放状态——那么就是ATAC -
10x cellranger-arc
软件安装:
10x官网:Overview -Software -Single Cell Multiome ATAC + Gene Exp
对于单独的ATAC数据其实是cellranger-atac,而这里的cellranger-arc是多组学对应单细胞ATAC和单细胞转录组。
下载cellranger-arc:
wget -O cellranger-arc-2.0.2.tar.gz "https://cf.10xgenomics.com/releases/cell-arc/cellranger-arc-2.0.2.tar.gz?Expires=1703258168&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1hcmMvY2VsbHJhbmdlci1hcmMtMi4wLjIudGFyLmd6IiwiQ29uZGl0aW9uIjp7IkRhdGVMZXNzVGhhbiI6eyJBV1M6RXBvY2hUaW1lIjoxNzAzMjU4MTY4fX19XX0_&Signature=QUDqivAjffP26fWZfgzhAxg0Y5vZpzVdJ4i77qRDg8X0peWAEmP8zkHmVMmkCMyMtD5iWJgbcnr6pNTrLpBEgqnWo1Fh13iciHm2mPj3SZp2Mc-1FCSuLL9H29QjOPs1foSINl5cCroXVFL0OjxWF5JvZaScVFu1JcySD0eZzZBwtoE1-UnO38jQENfl~-2yFU~0bTgQV0KLE4XCVRovBipb7TPAvtiq7GZjN~Ut4MZ6j-NTJ-N~OHcia34zUilc~rv2bVJie2AqKkzhKFo2ti-kngiI2h16rgzaOEsrP5fS-nuW7ETy9m1rrmW7IhcKX3fBXj5J-mI~1hO71nPQaQ__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"
下载人类CRGh38参考基因组:
wget https://cf.10xgenomics.com/supp/cell-arc/refdata-cellranger-arc-GRCh38-2020-A-2.0.0.tar.gz
下载小鼠mm10参考基因组:
wget https://cf.10xgenomics.com/supp/cell-arc/refdata-cellranger-arc-mm10-2020-A-2.0.0.tar.gz
解压命令:
tar -zxvf 以上带解压文件夹.tar.gz
将cellranger-arc所在目录写入到系统环境中:
export PATH=/自己的cellranger的绝对路径/cellranger-arc-2.0.2:$PATH
写入bashrc:
echo "PATH=/自己的cellranger的绝对路径/cellranger-arc-2.0.2:\$PATH" >> ~/.bashrc
source ~/.bashrc
测试cellranger-arc运行环境:
cd 某个工作路径
cellranger-arc sitecheck > sitecheck.txt
配置成功:
数据下载:
mkdir 00.database && cd 00.database
vim download.sh
wget https://cf.10xgenomics.com/supp/cell-arc/cellranger-arc-tiny-bcl-atac-1.0.0.tar.gz
wget https://cf.10xgenomics.com/supp/cell-arc/cellranger-arc-tiny-bcl-gex-1.0.0.tar.gz
wget https://cf.10xgenomics.com/supp/cell-arc/cellranger-arc-tiny-bcl-atac-simple-1.0.0.csv
wget https://cf.10xgenomics.com/supp/cell-arc/cellranger-arc-tiny-bcl-gex-simple-1.0.0.csv
wget https://cf.10xgenomics.com/supp/cell-arc/cellranger-arc-tiny-bcl-atac-samplesheet-1.0.0.csv
wget https://cf.10xgenomics.com/supp/cell-arc/cellranger-arc-tiny-bcl-gex-samplesheet-1.0.0.csv
投递任务下载:nohup bash download.sh >download.sh.o 2>download.sh.e &
查看示例数据:
解压文件:
tar -zxvf 需要解压的文件.tar.gz
可以看见,示例文件即有基因表达文件*-gex-*,也有atac文件*-atac-*。这是因为:
image.png
cellranger-arc需要多组学数据,也就是同一批次的样本,一部分用于单细胞转录组建库,一部分用于单细胞ATAC建库。
- cellranger-arc mkfastq
从原始bcl文件生成fastq文件:
cellranger-arc mkfastq --id=tiny-bcl-atac \
--run=/home/yanyt/02.data/10.cellranger_arc_test/01.example_data/01.database/cellranger-arc-tiny-bcl-atac-1.0.0 \
--csv=/home/yanyt/02.data/10.cellranger_arc_test/01.example_data/01.database/cellranger-arc-tiny-bcl-atac-simple-1.0.0.csv
生成与id参数中一样名字的文件夹:
cd tiny-bcl-atac && tree
生成表达量exp的fastq文件:
cellranger-arc mkfastq --id=tiny-bcl-gex \
--run=/home/yanyt/02.data/10.cellranger_arc_test/01.example_data/01.database/cellranger-arc-tiny-bcl-gex-1.0.0 \
--csv=/home/yanyt/02.data/10.cellranger_arc_test/01.example_data/01.database/cellranger-arc-tiny-bcl-gex-simple-1.0.0.csv
生成与id一样名字的文件cd tiny-bcl-gex && tree
-
cellranger-arc count
构建文库信息文件:
image.png
三列信息,分别是上一步生成的fastq文件路径,样本名字,基因表达或者染色质可及标签。
生成矩阵:
cellranger-arc count --id=test_sample \
--reference=/home/guoyuh/biosoft/refdata-cellranger-arc-GRCh38-2020-A-2.0.0 \
--libraries=libraries.csv \
--localcores=16 \
--localmem=64
此测试数据集存在bug,这一步没有跑通。
不过如果运行成功,生成的文件将可用于下游分析。
单细胞转录组下游分析常用Seurat或者scanpy流程;
单细胞ATAC下游分析常用Signac或者ARCHR流程。
总结:以上基于初学者的理解也许会存在错误。
网友评论