美文网首页
2021-05-17文献爬取教程

2021-05-17文献爬取教程

作者: bcl_hx | 来源:发表于2021-05-17 16:25 被阅读0次

1.Github上下载WOS_Crawler

https://github.com/tomleung1996/wos_crawler

2.WOS_Crawler使用

#先将main.py文件第33行的crawl_by_gui()取消注释,执行程序启动图形界面
python main.py
#报错1:ModuleNotFoundError: No module named 'qt5reactor'
解决方法:pip install qt5reactor
#报错2:ModuleNotFoundError: No module named 'scrapy'
解决方法:pip install scrapy
#报错2:ModuleNotFoundError: No module named 'bibtexparser'
解决方法:pip install bibtexparser
#启动图形化界面
python main.py
#填写爬取内容
这里以爬取2000-2020年Genome Biology上发表的有关基因组变异相关主题文献为例,填写完检索式和保存路径后直接爬取即可。
图一:填写检索式
图二:爬取过程

3.提取DOI

cat 1-122.txt | grep ^DI * | awk '{print $2}' > DOI.txt

4.根据DOI批量下载文献

https://github.com/bibcure/scihub2pdf

# scihub2pdf安装
pip3 install scihub2pdf
# download.py文件中domain_scihub修改为"https://scihubtw.tw/"
# PhantomJS安装(mac)
brew install phantomjs
# 测试
scihub2pdf doi:10.1186/s13059-020-02125-w
# 批量从SCI-HUB上下载(根据DOI)
scihub2pdf -i DOI.txt --txt
rm *.png
图三:测试

相关文章

网友评论

      本文标题:2021-05-17文献爬取教程

      本文链接:https://www.haomeiwen.com/subject/rcodjltx.html