Nvwa: 学习+理解+复现

作者: LET149 | 来源:发表于2023-04-03 09:36 被阅读0次

1. 文章

Deep learning of cross-species single-cell landscapes identifies conserved regulatory programs underlying cell types

10.1038/s41588-022-01197-7

https://www.nature.com/articles/s41588-022-01197-7

image.png

2. 官网

https://bis.zju.edu.cn/nvwa/index.html

image.png
2.1 Labels

https://bis.zju.edu.cn/nvwa/dataset.html

截屏2023-04-03 21.52.30.png

Dataset.Dmel_train_test.cells.csv
一个物种所有细胞的细胞名和细胞类型注释

Dataset.Dmel_train_test.genes.csv
一个物种所有细胞表达的所有基因和其作为Train, ValidTest 数据集的分类

Dataset.Dmel_train_test.label.npz
一个物种所有细胞中所有基因的表达情况(二值化)

2.2 Datasets

https://bis.zju.edu.cn/nvwa/dataset.html

截屏2023-04-03 21.46.02.png

3. Dataset.Species_train_test.h5

Dataset.Dmel_train_test.h5 为案例进行讲解

Dataset.Dmel_train_test.h5 : 长度为11的列表

Dataset.Dmel_train_test
  • 包含一个物种的所有细胞的细胞名和细胞类型类型注释
  • Train, ValidTest 数据集中的所有基因的基因名和TSS上下10Kb的序列
  • Train, ValidTest 数据集中的所有基因在所有细胞里的表达情况(二值化)

Dataset.Dmel_train_test[[1]]:

image.png
  • 477337 列 的矩阵或数组;77337 为果蝇数据中所有的细胞
  • 第一行是细胞 Barcode;其余三行为物种名和两个细胞类型定义的层次下的细胞名称

Dataset.Dmel_train_test[[2]]:

kkkkkkkkkkkkkk.png
  • 177337 列 的数组(向量);
  • 其中的每个元素为一个细胞的 Barcode

test 基因数据集:

Dataset.Dmel_train_test[[3]]:

image.png
  • 20000 x 4 x 1000 的数组,用来表示 1000 个基因的 TSS 上下游各 10Kb 的序列信息
  • One-Hot 方式编码而成,其中 1True 表示,0False 表示

Dataset.Dmel_train_test[[4]]:

image.png
  • 1 x 1000 数组,Dataset.Dmel_train_test[[3]] 中所有基因的基因名

Dataset.Dmel_train_test[[5]]:

image.png
  • 77337 x 1000 数组
  • 表示 Dataset.Dmel_train_test[[3]] 中所有的基因在 77337 个细胞中的表达情况,用10来表示在所有细胞中的开闭情况

train 基因数据集:

Dataset.Dmel_train_test[[6]]:

image.png
  • 20000 x 4 x 14227 的数组,用来表示 14227 个基因的 TSS 上下游各 10Kb 的序列信息
  • One-Hot 方式编码而成,其中 1True 表示,0False 表示

Dataset.Dmel_train_test[[7]]:

image.png
  • 1 x 14227 数组,Dataset.Dmel_train_test[[6]] 中所有基因的基因名

Dataset.Dmel_train_test[[8]]:

image.png
  • 77337 x 14227 数组
  • 表示 Dataset.Dmel_train_test[[6]] 中所有的基因在 77337 个细胞中的表达情况,用10来表示在所有细胞中的开闭情况

valid 基因数据集:

Dataset.Dmel_train_test[[9]]:

image.png
  • 20000 x 4 x 1000 的数组,用来表示 1000 个基因的 TSS 上下游各 10Kb 的序列信息
  • One-Hot 方式编码而成,其中 1True 表示,0False 表示

Dataset.Dmel_train_test[[10]]:

image.png
  • 1 x 1000 数组,Dataset.Dmel_train_test[[9]] 中所有基因的基因名

Dataset.Dmel_train_test[[11]]:

image.png
  • 77337 x 1000 数组
  • 表示 Dataset.Dmel_train_test[[3]] 中所有的基因在 77337 个细胞中的表达情况,用10来表示在所有细胞中的开闭情况

4. GitHub

https://github.com/JiaqiLiZju/Nvwa

图片.png

1_train/ 1_hyperopt_BCE_best.py

  • 用来训练数据集

用法:
python 1_train/1_hyperopt_BCE_best.py ./Dataset.Dmel_train_test.h5

2_explain/ 1_run_explain.py

  • 用来发现训练后网络中的有用特征

用法:
python 2_explain/1_run_explain.py ./Dataset.Dmel_train_test.h5

相关文章

网友评论

    本文标题:Nvwa: 学习+理解+复现

    本文链接:https://www.haomeiwen.com/subject/pkarddtx.html