1. 文章
Deep learning of cross-species single-cell landscapes identifies conserved regulatory programs underlying cell types
image.png
2. 官网
image.png
2.1 Labels
截屏2023-04-03 21.52.30.png
Dataset.Dmel_train_test.cells.csv
一个物种所有细胞的细胞名和细胞类型注释
Dataset.Dmel_train_test.genes.csv
一个物种所有细胞表达的所有基因和其作为Train
,Valid
和Test
数据集的分类
Dataset.Dmel_train_test.label.npz
一个物种所有细胞中所有基因的表达情况(二值化)
2.2 Datasets
截屏2023-04-03 21.46.02.png
3. Dataset.Species_train_test.h5
以
Dataset.Dmel_train_test.h5
为案例进行讲解
Dataset.Dmel_train_test
Dataset.Dmel_train_test.h5
: 长度为11的列表
- 包含一个物种的所有细胞的细胞名和细胞类型类型注释
Train
,Valid
和Test
数据集中的所有基因的基因名和TSS上下10Kb的序列Train
,Valid
和Test
数据集中的所有基因在所有细胞里的表达情况(二值化)
image.png
Dataset.Dmel_train_test[[1]]
:
4
行77337
列 的矩阵或数组;77337
为果蝇数据中所有的细胞- 第一行是细胞 Barcode;其余三行为物种名和两个细胞类型定义的层次下的细胞名称
kkkkkkkkkkkkkk.png
Dataset.Dmel_train_test[[2]]
:
1
行77337
列 的数组(向量);- 其中的每个元素为一个细胞的 Barcode
test 基因数据集:
image.png
Dataset.Dmel_train_test[[3]]
:
20000
x4
x1000
的数组,用来表示1000
个基因的TSS
上下游各10Kb
的序列信息- 用
One-Hot
方式编码而成,其中1
用True
表示,0
用False
表示image.png
Dataset.Dmel_train_test[[4]]
:
1
x1000
数组,Dataset.Dmel_train_test[[3]]
中所有基因的基因名image.png
Dataset.Dmel_train_test[[5]]
:
77337
x1000
数组- 表示
Dataset.Dmel_train_test[[3]]
中所有的基因在77337
个细胞中的表达情况,用1
和0
来表示在所有细胞中的开闭情况
train 基因数据集:
image.png
Dataset.Dmel_train_test[[6]]
:
20000
x4
x14227
的数组,用来表示14227
个基因的TSS
上下游各10Kb
的序列信息- 用
One-Hot
方式编码而成,其中1
用True
表示,0
用False
表示image.png
Dataset.Dmel_train_test[[7]]
:
1
x14227
数组,Dataset.Dmel_train_test[[6]]
中所有基因的基因名image.png
Dataset.Dmel_train_test[[8]]
:
77337
x14227
数组- 表示
Dataset.Dmel_train_test[[6]]
中所有的基因在77337
个细胞中的表达情况,用1
和0
来表示在所有细胞中的开闭情况
valid 基因数据集:
image.png
Dataset.Dmel_train_test[[9]]
:
20000
x4
x1000
的数组,用来表示1000
个基因的TSS
上下游各10Kb
的序列信息- 用
One-Hot
方式编码而成,其中1
用True
表示,0
用False
表示image.png
Dataset.Dmel_train_test[[10]]
:
1
x1000
数组,Dataset.Dmel_train_test[[9]]
中所有基因的基因名image.png
Dataset.Dmel_train_test[[11]]
:
77337
x1000
数组- 表示
Dataset.Dmel_train_test[[3]]
中所有的基因在77337
个细胞中的表达情况,用1
和0
来表示在所有细胞中的开闭情况
4. GitHub
图片.png
1_train/ 1_hyperopt_BCE_best.py
- 用来训练数据集
用法:
python 1_train/1_hyperopt_BCE_best.py ./Dataset.Dmel_train_test.h5
2_explain/ 1_run_explain.py
- 用来发现训练后网络中的有用特征
用法:
python 2_explain/1_run_explain.py ./Dataset.Dmel_train_test.h5
网友评论