看到这个标题,大家可能会觉得奇怪,我们生信技能树的视频不都是免费的吗,一直在宣传2020学习主旋律,B站74小时免费教学视频为你领路 吗?实际上,如果你进去B站仔细看,就会发现我们的免费视频课程已经满100个小时啦,不过我们还有另外一个社群,就是单细胞天地。在单细胞天地我们有一个单细胞转录组数据分析基础课程和单细胞进阶课程,很少在生信技能树宣传罢了。
昨天有一个华科同济医院的学员问我,购买的单细胞视频因为各种原因还没来及看,最近四五个月也不太可能抽出时间了,能不能把有效期延长。因为当初我写的是视频有效期两年,2018年6月份开始,理论上2020年6月就结束了。实际上呢,他误会了这个有效期的定义,我写的是两年有效,并不是说两年后就不能继续学了,而是这个视频两年后就免费了,无需购买!
也许是因为疫情,闲得发慌,顺手看了看这位学员的朋友圈,发现原来他是上了一线,穿着防护服,戴着护目镜和口罩。
新闻里说近1000名奋斗在武汉疫情一线的医护人员都面临交叉感染的风险,感谢政府的高效运转,火神山和雷神山医院都已经启用,良好的病人收治环境有利于保护好为我们拼命的医护人员。
很敬佩他们,也很心疼他们,所以想把原定于2020年6月就前面公开的单细胞转录组数据分析基础课程提前4个月公开。主要是因为我也不知道自己除了自我隔离在家外还可以为这次全民抗争疫情做些什么,我看到很多机构都在免费发学习视频,比如秋叶学PPT啊,百度云免费给湖北用户提供费用,中国大学MOOC大量免费学习视频,还有一些新上映的电影免费给湖北地区朋友观看。但是我这边呢,这些2020学习主旋律,B站74小时免费教学视频为你领路 本来就是免费的,我总不能说倒贴钱让大家看,回馈社会?
想了想,就这个单细胞转录组数据分析基础课程可以免费了,因为本来就很早停止出售了,全网第一个单细胞课程(基础)满一千份销量停止发售 本来我都不想收费,浪费时间精力来管理和维权,咸鱼或者网盘搜索上到处是盗版视频。但是大家众筹委托我录制了这个单细胞转录组数据分析基础课程系列视频教程,我收了第一批学员,就不太可能给后面的朋友免费,这样不公平,我也确实想不出其它解决方案,只能是硬着头皮撑下去!
距离原定于2020年6月的全面公开反正也就4个月了,而且我们也在B站发布过免费的3小时前奏,https://www.bilibili.com/video/av38741055
对我来说,视频的成本其实就是雇了学习者来为课程写配套笔记:
- 由表达矩阵看内部异质性
- 重复平均表达量和变异系数相关性散点图
- 聚类算法之PCA与tSNE
- 统计细胞检测的基因数量
- 乳腺癌领域之PAM50分类
- 生物学背景知识之细胞周期推断
- RPKM概念及计算方法
- 差异分析及KEGG注释简介
这个成本早就被第一年的收费cover掉了,所以我是非常乐意公开这些视频,让更多人学习的。
但是我有两个已经付费的学员交流群,本来呢,参加课程就是要提前学习到单细胞转录组技能,尽早把自己当课题发表出去,如果我免费,相当于给大家增加了大量的竞争对手。不过,还是那句话,反正已经是4个月,我希望你同意。
这样吧,大家可以在这个推文下面留言,说出你的想法,比如假如我们最后协定的结果是提前4个月让单细胞转录组数据分析基础课程免费,你希望得到什么样的补偿方案!我提前说好,退钱是不可能的,这辈子都不可能退钱的!
这个课程并不是单细胞数据挖掘
如果是处理公共数据库里面的单细胞数据集,区分一下10x数据和Smart-seq2技术即可
如果是10X
在数据集的GEO界面需要下载每个样本3个文件,示例代码是:
rm(list=ls())
options(stringsAsFactors = F)
library(Seurat)
sce1 <- CreateSeuratObject(Read10X('../10x-results/WT/'),
"wt")
重点就是 Read10X 函数读取 文件夹路径,比如:../10x-results/WT/ ,保证文件夹下面有3个文件。这3个文件,需要你从GEO界面下载。比如 GSE128033 和 GSE135893,就是10x数据集,随便下载其中一个,就能看到每个样本都是走流程拿到10x单细胞转录组数据的3个文件的表达矩阵。
2.2M Mar 8 2019 GSM3660655_SC94IPFUP_barcodes.tsv.gz
259K Mar 8 2019 GSM3660655_SC94IPFUP_genes.tsv.gz
26M Mar 8 2019 GSM3660655_SC94IPFUP_matrix.mtx.gz
2.2M Mar 8 2019 GSM3660656_SC95IPFLOW_barcodes.tsv.gz
259K Mar 8 2019 GSM3660656_SC95IPFLOW_genes.tsv.gz
31M Mar 8 2019 GSM3660656_SC95IPFLOW_matrix.mtx.gz
2.2M Mar 8 2019 GSM3660657_SC153IPFLOW_barcodes.tsv.gz
259K Mar 8 2019 GSM3660657_SC153IPFLOW_genes.tsv.gz
33M Mar 8 2019 GSM3660657_SC153IPFLOW_matrix.mtx.gz
2.2M Mar 8 2019 GSM3660658_SC154IPFUP_barcodes.tsv.gz
259K Mar 8 2019 GSM3660658_SC154IPFUP_genes.tsv.gz
31M Mar 8 2019 GSM3660658_SC154IPFUP_matrix.mtx.gz
如果是Smart-seq2技术
需要下载的是一个count矩阵,比如GSE117988,就下载GSE117988_raw.expMatrix_PBMC.csv.gz文件,然后走代码:
rm(list=ls())
options(stringsAsFactors = F)
# install.packages('R.utils')
# install.packages('data.table')
library(data.table)
a=fread('GSE117988_raw.expMatrix_PBMC.csv.gz',header = TRUE)
length(a$V1)
length(unique(a$V1))
hg=a$V1
dat=a[,2:ncol(a)]
rownames(dat)=hg
hg[grepl('^MT-',hg)]
colnames(dat)
rownames(dat)
meta=as.data.frame(colnames(dat))
colnames(meta)=c('cell name')
rownames(meta)=colnames(dat)
head(meta)
## 前面大量的代码,都是数据预处理
library(Seurat)
dat[1:4,1:4]
class(dat)
# 重点是构建 Seurat对象
pbmc <- CreateSeuratObject(counts = dat,
meta.data = meta,
min.cells = 3, min.features = 200,project = '10x_PBMC')
pbmc
head(colnames(dat))
head(rownames(dat))
rownames(GetAssayData(pbmc,'counts'))
pbmc[["percent.mt"]] <- PercentageFeatureSet(pbmc, pattern = "^MT-")
两种单细胞转录组数据,都是走Seurat流程,只不过是构建 Seurat对象的代码不一样,注意仔细分辨!
Seurat流程,及其它单细胞转录组数据分析常用R包,在我的单细胞转录组数据分析基础课程有详细讲解,希望所有人都可以学习到!
网友评论