从excel中提取肽段

作者: Decoding_Bugs | 来源:发表于2021-06-24 16:16 被阅读0次

从excel中提取肽段
从图片中提取文字，转到Excel表格中，利用OCR技术将图片转表
插件：从多个WORD文档提取带下划线的值，整理到Excel表中
2018-12-12 Excel2010问题---从身份证号中提
《玩转Excel，就是这么简单》--随机抽题器
微猫企业名录搜索平台，企业业务员客户搜索软件
Excel实战：提取重复字节段
清酸肽主要成分鹅肌肽(组胺酸及丙胺酸的二肽)能不能降尿酸
《美丽秘籍——营养美学的每日问答》Day11
快速提取有效信息之分列方法

这个小脚本的主要目的是因为实验室一个师妹被一个测蛋白组的公司给坑了。。然后人家扔给他原始数据就不管了，她没法和数据库进行比对
所以需要从excel中提取出来多肽的序列，并且按顺序命名，和我们的目的的库进行比对。

if (!requireNamespace("BiocManager", quietly = TRUE))
  install.packages("BiocManager")
BiocManager::install("Biostrings")

library(Biostrings)
library(seqinr)

library(readxl)
test1 <- read_excel("F:/YJQ/test1.xlsx")
View(test1)


a <- read.csv("test1.csv",sep = ",",header = T,stringsAsFactors = F) # 注意下不要变成因子

b <- a[,c("Sequence")] # 注意下变成字符串就行，不要变成数据框

b <- as.list(b)


b <- a[,1] # 注意下变成字符串就行，不要变成数据框

test2 <- as.list(b)

SeqName<-1:788 #文件有多少行就写到多少数字
write.fasta(test2, names=SeqName, file="test.fasta", open='w', nbchar=60)

#这个脚本参考了简书上一个大佬的，后续补上参考链接
#后续使用blastp -db XXX -query test.fasta -out result -outfmt 7 进行比对就行了，时间也很快