爬虫小项目之三学术文献爬虫+词云（上）

作者: Charles_ye | 来源:发表于2020-08-18 21:34 被阅读0次

爬虫小项目之三学术文献爬虫+词云（上）
爬虫小项目之三学术文献爬虫+词云（下）
python requests爬取必应学术
python模拟登陆urp教务处抓取课表
Scrapy框架实战-爬取文章
Golang实现简单爬虫框架（2）——单任务版爬虫
scrapy crawl spider
【压岁钱来买服务器玩云爬虫】把Scrapy爬虫一步一步通过Scr
爬虫系列——使用scrapy爬取伯乐网文章
2018-05-13

八月已经过了一半，答辩完之后，sci小论文也刚写完，今天难得休息。今天就来填上个月的坑，power bi做文献爬虫。这里先解释一下原理，首先使用学术搜索引擎搜索关键词，然后翻页下载所有的标题，作者，出版年份，引用次数，最后将下载完的数据用powerquery清洗，powerpivot建模，powerview可视化。词云的制作使用的是powerbi的可视化插件完成的，非常简单。另外，为了从词云中剔除非关键词，我使用了一个stopwordlist。大概就是这么多。先展示一下我的作品，以CAR T作为关键词检索bing学术：

https://app.powerbi.com/view?r=eyJrIjoiOTE4ZWMwNzMtODZhNi00NTBiLWE0NDctNmFiNDUzODk1ZWI5IiwidCI6ImUyZmFkYTNhLWZiNjktNGJkZS1hZmE4LWNlM2M2YWU2YjkyYiIsImMiOjZ9

值得一提的是powerbi制作的整个模型最后会保存为一个流程，这样只要换一个关键词再回车一下就可以更新整个流程。是不是很方便很刺激？唯一的限制就是蜗牛一般的网速。

为了方便理解，我把整个流程分为两部分：第一部分，讲网页爬取，难点是翻页爬取和二级链接爬取。第二部分，讲powerquery数据清洗和powerpivot数据建模。这里要用一点powerquery M语言和powerpivot DAX语言的知识，一点点就行。

OK废话不多讲，马上开始干活！

第一部分power bi爬虫

理论和软件安装的东西自己找资料看，我就直接上操作了。

Step 1 找网页链接规律

打开百度学术，搜索关键词：CAR T

我主要想拿的其实是网址：

https://xueshu.baidu.com/s?wd=Car+T&tn=SE_baiduxueshu_c1gjeupa&cl=3&ie=utf-8&bs=CAR+T&f=8&rsv_bp=1&rsv_sug2=0&sc_f_para=sc_tasktype%3D%7BfirstSimpleSearch%7D看到没，这个链接就是把检索的关键词用是s?wd=CAR+T的语法链接起来了。但是翻页的信息没有找到，所以要翻个页看。点到第二页，链接是这样的：

https://xueshu.baidu.com/s?wd=Car%20T&pn=10&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_f_para=sc_tasktype%3D%7BfirstSimpleSearch%7D&sc_hit=1

这是第二页，但是pn=10，这说明啥？每页有10个文章，第二页就是从11开始了。知道这个规律就可以翻页爬取了。

Step 2 网页爬取

打开powerbi，选择获取数据->web->粘贴网址->确定->连接，选择表1。这张表格包含了标题、引用次数、刊出时间、杂志名称，还有一些其他我不关心的信息。

选择转换数据，就可以将数据导入到powerquery中，修改列名，删除其他不重要的信息。

到这里，需要根据前面的步骤创建一个函数。首先创建一个页码参数

然后，在“源”这个文件下修改函数命令

=Web.BrowserContents("https://xueshu.baidu.com/s?wd=Car%20T&pn=" & Text.From(Page) & "&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_f_para=sc_tasktype%3D%7BfirstSimpleSearch%7D&sc_hit=1")

绿色的文本Page就是刚才的参数，Text.From(Page) 将Page转换为文本，&是连字符。这样整个流程就是一个根据Page抓取页面并清理文本的函数了。接下来，将这个流程生成一个以Page为参数的函数：