转录因子预测-4分析过程中需要注意的问题

作者: oceanandshore | 来源:发表于2023-06-23 21:27 被阅读0次

2019-07-19
KnockTF:转录因子敲除数据库(一)
预测某个基因的转录因子
一招搞定启动子序列查找
大麦转录因子分析
如何批量预测转录因子
转录因子靶基因互相预测全网最全，没有之一
跟着Cell学单细胞转录组分析(十二):转录因子分析
转录因子富集分析
2018-11-18

1、runGenie3 太慢！！！

这个博主（ SCENIC单细胞转录因子分析 - 简书 (jianshu.com)）用的不知道什么数据，调用了10个线程，还跑了7天！！！看到另一个博主4.精简版流程，用reticulate包调用了py的grnboost2包，据说可以大大加快此步骤。（视频2:07秒开始讲）

用reticulate包，可以调用基于python的arboreto模块
这里首先要安装reticulate包，安装了之后再用函数 reticulate::py_install('arboreto') ，出现报错

+ "C:/Users/Administrator.DESKTOP-NN3NDT8/.conda/envs/r-reticulate/condabin/conda.bat" "install" "--yes" "--prefix" "C:/Users/Administrator.DESKTOP-NN3NDT8/.conda/envs/r-reticulate" "-c" "conda-forge" "arboreto"
Collecting package metadata (current_repodata.json): ...working... done
Solving environment: ...working... failed with initial frozen solve. Retrying with flexible solve.
Collecting package metadata (repodata.json): ...working... done
Solving environment: ...working... failed with initial frozen solve. Retrying with flexible solve.

PackagesNotFoundError: The following packages are not available from current channels:

  - arboreto

Current channels:

  - https://conda.anaconda.org/conda-forge/win-64
  - https://conda.anaconda.org/conda-forge/noarch
  - https://repo.anaconda.com/pkgs/main/win-64
  - https://repo.anaconda.com/pkgs/main/noarch
  - https://repo.anaconda.com/pkgs/r/win-64
  - https://repo.anaconda.com/pkgs/r/noarch
  - https://repo.anaconda.com/pkgs/msys2/win-64
  - https://repo.anaconda.com/pkgs/msys2/noarch

To search for alternate channels that may provide the conda package you're
looking for, navigate to

    https://anaconda.org

and use the search bar at the top of the page.


Error: one or more Python packages failed to install [error code 1]

以上报错解决了，在这里转录因子预测-5reticulate调用python的arboreto包安装及报错

用下面的代码开始跑，6.27开始跑的

############################# reticulate调用arboreto ################################## 

#devtools::install_github("rstudio/reticulate") 
library(reticulate)

#install_miniconda()

#reticulate::py_install('arboreto')

# 进入python
repl_python()
quit

#查看是否安装python
py_available()

#查看python路径
Sys.which("python")


#查看conda版本
conda_version()


### 这个命令work
#conda_install(envname = 'SCENIC', 'arboreto', forge = TRUE, pip = T)


#查看模块是否安装成功
py_module_available("arboreto")





###########################################################################################################################

mymethod = 'runGenie3'

if(mymethod = 'runGenie3'){runGenie3(exprMat_filtered_log,scenicOptions)
}else{
    arb.algo = import("arboreto.algo")
    tf_names = getDbTfs(scenicOptions)
    tf_names = Seurat::CaseMatch(
      search = tf_names,
      match = row.names(exprMat_filtered))
    adj = arb.algo$grnboost2(
      as.data.frame(t(as.matrix(exprMat_filtered))),
      tf_names = tf_names, seed=123
    )
    colnames(adj) = c("TF","Target","Weight") # 修改列名
    saveRDS(adj, file= getIntName(scenicOptions,
                                  'genie311') )
            
  }

2023.6.29更新，上面的用reticulate调用arboreto，前天开始跑的，现在还在跑。没什么CPU占用率。昨天下午同时用runGenie3开始跑。今天早上来看到出现报错，看了下应该是内存不够。nParts = 4 这个参数的意思是，把数据分成多少份跑。我的电脑128G内存，昨天跑的时候以为没啥问题，就设置了4。今天设置成20，早上10点开始跑。我的数据是 7320个基因，18578个细胞，16核全跑。按照别人的数据和时间估算，我这个运算量应该一天差不多可以跑完。

> runGenie3(exprMat_filtered_log, scenicOptions, nParts = 4)
Using 785 TFs as potential regulators...
Running GENIE3 part 1
Running GENIE3 part 2
Error in { : task 54 failed - "无法分配大小为111.3 Mb的矢量"

2、后续的分析方向，得到的结果如何分组去比较

2.1【单细胞测序21】scenic转录因子应用全解析和代码讲解

时间表
8:45秒分析内容解读

image.png
最终可以用到的就是0.2这个表格。
image.png
image.png
分析思路：1、单个regulon筛选。如果有目标的regulon，就在上面的热图里面找目标regulon。如果没有特定的regulon，就看哪些regulon在特定的分组里面高表达，后续就把这些regulon筛选出来，看下游的靶基因，或者是针对这些regulon进行后续的验证。
image.png
image.png
可以做功能和pathway富集
image.png
分析思路：2、regulon共调节探索。
image.png
image.png
image.png
image.png
代码 29:50开始
分组（48分钟开始）
映射AUC值的降维图
小提琴图山脊图
RSS预测的与细胞的对应关系
细胞特异性的regulon展示