美文网首页
转录因子预测-4分析过程中需要注意的问题

转录因子预测-4分析过程中需要注意的问题

作者: oceanandshore | 来源:发表于2023-06-23 21:27 被阅读0次

1、runGenie3 太慢!!!

这个博主( SCENIC单细胞转录因子分析 - 简书 (jianshu.com))用的不知道什么数据,调用了10个线程,还跑了7天!!!看到另一个博主4.精简版流程,用reticulate包调用了py的grnboost2包,据说可以大大加快此步骤。(视频2:07秒开始讲)

用reticulate包,可以调用基于python的arboreto模块
这里首先要安装reticulate包,安装了之后再用函数 reticulate::py_install('arboreto') ,出现报错

+ "C:/Users/Administrator.DESKTOP-NN3NDT8/.conda/envs/r-reticulate/condabin/conda.bat" "install" "--yes" "--prefix" "C:/Users/Administrator.DESKTOP-NN3NDT8/.conda/envs/r-reticulate" "-c" "conda-forge" "arboreto"
Collecting package metadata (current_repodata.json): ...working... done
Solving environment: ...working... failed with initial frozen solve. Retrying with flexible solve.
Collecting package metadata (repodata.json): ...working... done
Solving environment: ...working... failed with initial frozen solve. Retrying with flexible solve.

PackagesNotFoundError: The following packages are not available from current channels:

  - arboreto

Current channels:

  - https://conda.anaconda.org/conda-forge/win-64
  - https://conda.anaconda.org/conda-forge/noarch
  - https://repo.anaconda.com/pkgs/main/win-64
  - https://repo.anaconda.com/pkgs/main/noarch
  - https://repo.anaconda.com/pkgs/r/win-64
  - https://repo.anaconda.com/pkgs/r/noarch
  - https://repo.anaconda.com/pkgs/msys2/win-64
  - https://repo.anaconda.com/pkgs/msys2/noarch

To search for alternate channels that may provide the conda package you're
looking for, navigate to

    https://anaconda.org

and use the search bar at the top of the page.


Error: one or more Python packages failed to install [error code 1]

以上报错解决了,在这里转录因子预测-5reticulate调用python的arboreto包安装及报错

用下面的代码开始跑,6.27开始跑的

############################# reticulate调用arboreto ################################## 

#devtools::install_github("rstudio/reticulate") 
library(reticulate)

#install_miniconda()

#reticulate::py_install('arboreto')

# 进入python
repl_python()
quit

#查看是否安装python
py_available()

#查看python路径
Sys.which("python")


#查看conda版本
conda_version()


### 这个命令work
#conda_install(envname = 'SCENIC', 'arboreto', forge = TRUE, pip = T)


#查看模块是否安装成功
py_module_available("arboreto")





###########################################################################################################################

mymethod = 'runGenie3'

if(mymethod = 'runGenie3'){runGenie3(exprMat_filtered_log,scenicOptions)
}else{
    arb.algo = import("arboreto.algo")
    tf_names = getDbTfs(scenicOptions)
    tf_names = Seurat::CaseMatch(
      search = tf_names,
      match = row.names(exprMat_filtered))
    adj = arb.algo$grnboost2(
      as.data.frame(t(as.matrix(exprMat_filtered))),
      tf_names = tf_names, seed=123
    )
    colnames(adj) = c("TF","Target","Weight") # 修改列名
    saveRDS(adj, file= getIntName(scenicOptions,
                                  'genie311') )
            
  }

2023.6.29更新,上面的用reticulate调用arboreto,前天开始跑的,现在还在跑。 没什么CPU占用率。昨天下午同时用runGenie3开始跑。今天早上来看到出现报错,看了下应该是内存不够。nParts = 4 这个参数的意思是,把数据分成多少份跑。我的电脑128G内存,昨天跑的时候以为没啥问题,就设置了4。 今天设置成20,早上10点开始跑。我的数据是 7320个基因,18578个细胞,16核全跑。按照别人的数据和时间估算,我这个运算量应该一天差不多可以跑完。

> runGenie3(exprMat_filtered_log, scenicOptions, nParts = 4)
Using 785 TFs as potential regulators...
Running GENIE3 part 1
Running GENIE3 part 2
Error in { : task 54 failed - "无法分配大小为111.3 Mb的矢量"

2、后续的分析方向,得到的结果如何分组去比较

2.1【单细胞测序21】scenic转录因子应用全解析和代码讲解

时间表
8:45秒 分析内容解读

image.png
最终可以用到的就是0.2这个表格。
image.png
image.png
分析思路:1、单个regulon筛选。如果有目标的regulon,就在上面的热图里面找目标regulon。如果没有特定的regulon,就看哪些regulon在特定的分组里面高表达,后续就把这些regulon筛选出来,看下游的靶基因,或者是针对这些regulon进行后续的验证。
image.png
image.png
可以做功能和pathway富集
image.png
分析思路:2、regulon共调节探索。
image.png
image.png
image.png
image.png
代码 29:50开始
分组(48分钟开始)
映射AUC值的降维图
小提琴图山脊图
RSS预测的与细胞的对应关系
细胞特异性的regulon展示
2.2单细胞SCENIC分析原理和流程介绍

1、降维聚类发现新亚群(cell type/state由转录调控网络的差异决定)
2、case-control之间的regulons差异分析
3、寻找cell type/state特异性的regulon/TF
转自:

相关文章

  • 2019-07-19

    启动子及转录因子结合位点预测和转录终止信号预测

  • KnockTF:转录因子敲除数据库(一)

    很多转录因子预测预测的数据库是基于转录因子的chip-seq的数据来进行构建的。这样的结果能说明某一个转录因子结合...

  • 预测某个基因的转录因子

    JASPAR预测靶基因与多个转录因子的结合:搜索到一个转录因子之后,add to chart

  • 一招搞定启动子序列查找

    在研究基因转录调控的过程中,科研汪经常需要构建某个基因启动子的荧光素酶报告质粒或者预测与某基因启动子结合的转录因子...

  • 大麦转录因子分析

    转录因子分析的流程 一、从转录因子数据库下载大麦转录因子CDS序列 PlantTFDB - Plant Trans...

  • 如何批量预测转录因子

    如何批量预测转录因子 前一段时间看文献,想预测转录因子,搜索发现Y叔的clusterProfiler的R包具有批量...

  • 转录因子靶基因互相预测全网最全,没有之一

    转录因子靶基因互相预测全网最全,没有之一 还记得先前提到的基因转录调控数据库“转录因子靶基因预测,不用到处搜了,都...

  • 跟着Cell学单细胞转录组分析(十二):转录因子分析

    转录因子分析可以了解细胞异质性背后的基因调控网络的异质性。转录因子分析也是单细胞转录组常见的分析内容,R语言分析一...

  • 转录因子富集分析

    转录因子富集分析 转录因子因子富集分析背后的原理与GO,KEGG等富集分析是一样的。 这里还是使用Y叔的R包“cl...

  • 2018-11-18

    转录调控的信息学分析 0. 引言 1. 转录因子结合位点的信息学预测方法 大量的实验证据表明,TFBS的长度一般在...

网友评论

      本文标题:转录因子预测-4分析过程中需要注意的问题

      本文链接:https://www.haomeiwen.com/subject/vkimydtx.html