爬虫获取 js 动态数据（万方数据库文献下载）

作者: anye137 | 来源:发表于2018-06-07 00:32 被阅读283次

python下载万方数据库文献
爬虫获取 js 动态数据（万方数据库文献下载）
万方数据库，文献下载的准备
爬虫初窥
知网万方文献下载
知网、维普、万方文献免费下载
获取文献原文网站
如何免费获取知网万方等文献下载
文献数据库-硕士论文
记录 ghost.py 设置proxy的过程

今天讲讲用爬虫下载万方数据库文献。

这是我们要爬取的文献链接:
http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zgtx201803009

右键那个下载按钮 -> 检查，我们可以看见，按钮的点击事件是一个 js 函数 upload()。

在网页源代码中，寻找这个 upload() 函数，发现它只在按钮处出现了一次。所以，这个函数应该是由 js 文件加载的。
在网页源代码中，寻找 .js（搜索 js 文件），点击每一个 js 文件的链接，看看里面有没有 upload() 函数（这个方法貌似有点蠢，不知有没有更高效的方法）。最后在下图这个文件找到了：

upload() 函数代码如下：

function onlineReading(page_cnt,id,language,source_db,title,isoa,type,resourceType){
    title=window.encodeURI(window.encodeURI(title));
    var type = $("#document_type").val();
    if(type == "standards"){
        type="standard";
    }
    window.open("/search/onlineread.do?page_cnt="+page_cnt+"&language="+language+"&resourceType="+type+"&source="+source_db+"&resourceId="+id+"&resourceTitle="+title+"&isoa="+isoa+"&type="+type);
}

可以看到，这个函数构造了一个 url，并在一个新的标签页打开了这个 url。
把参数填进去，构造出的 url 为

http://www.wanfangdata.com.cn/search/downLoad.do?page_cnt=16&language=eng&resourceType=perio&source=WF&resourceId=zgtx201803009&resourceTitle=Spectral Efficiency and Power Allocation for Mixed-ADC Massive MIMO System&isoa=0&type=perio

在浏览器中访问该 url ，发现我们看到的网址，并不是我们构造出的请求 url，说明应该是发生了重定向。

在一个新标签页中，按 F12 监听请求，并打开我们的请求 url

可以看到，我们构造的 url（也就是 downLoad.do? ），重定向到了 submitWeb.do? 。点击 submitWeb.do ，我们可以看到它重定向到了 transaction?，最后才重定向到 downloadliterature.do?

写爬虫时，我们要确保能够到达 downliterature.do?，后面才能下载文件。所以我们先写程序看看能不能提取出这个 downloadliterature.do? 的详细 url。

首先是用正则表达式提取 upload() 函数的参数，然后构造出请求 url，这里我懒得写了，直接 copy 一下：

url = 'http://www.wanfangdata.com.cn/search/downLoad.do?page_cnt=16&language=eng&resourceType=perio&source=WF&resourceId=zgtx201803009&resourceTitle=Spectral Efficiency and Power Allocation for Mixed-ADC Massive MIMO System&isoa=0&type=perio'

接着发起请求：

import requests
r = requests.get(url)
print(r.status_code)
print(r.url)

运行结果如下：

200
http://www.wanfangdata.com.cn/pay/downloadliterature.do?type=perio&title=Spectral+Efficiency+and+Power+Allocation+for+Mixed-ADC+Massive+MIMO+System&id=zgtx201803009&isresult=false&transaction=%7B%22id%22%3Anull%2C%22transferOutAccountsStatus%22%3Anull%2C%22transaction%22%3A%7B%22id%22%3A%221004368608312180736%22%2C%22status%22%3A1%2C%22createDateTime%22%3Anull%2C%22payDateTime%22%3A1528295111145%2C%22authToken%22%3A%22TGT-4001230-O5ZS0q7FIl2vYtxeLVbVr1LQu2Auh7D4pAjaGsfFg0EAc2oqNa-my.wanfangdata.com.cn%22%2C%22user%22%3A%7B%22accountType%22%3A%22Group%22%2C%22key%22%3A%22hnlgdx%22%7D%2C%22transferIn%22%3A%7B%22accountType%22%3A%22Income%22%2C%22key%22%3A%22PeriodicalFulltext%22%7D%2C%22transferOut%22%3A%7B%22GTimeLimit.hnlgdx%22%3A3.0%7D%2C%22turnover%22%3A3.0%2C%22productDetail%22%3A%22perio_zgtx201803009%22%2C%22productTitle%22%3Anull%2C%22userIP%22%3A%22183.6.159.220%22%2C%22organName%22%3Anull%2C%22memo%22%3Anull%2C%22webTransactionRequest%22%3Anull%2C%22signature%22%3A%22jFHSx941kWx4WEX3sb40p%2B36UW9cduGMuYGPL8yCRS3Gdg0BvqNSKwYJxVTKdMGTRec1pF1an8xM%5CnnIgvniLkT3%2FivH6myLpZ%2BlHCJdj3OxoKIlk3AEQq8%2B4QTDLnfJI5YKW554i2SIyruQpCVCxDBfMS%5CnIh%2Fe8%2BYtbwmuAXcUYwk%3D%22%2C%22delete%22%3Afalse%7D%2C%22isCache%22%3Afalse%7D

还是挺顺利的，一下子就得到了 downloadliterature.do? 的详细 url。这里解释一下：默认情况下，除了 requests.head() 方法，requests 会自动帮我们处理所有重定向。而 response.url 就会返回初始请求重定向后的最终网址。（差点忘了说了，我是用的学校网络，所以能免登陆下载。）

将得到的网址复制到浏览器中打开，会出现一个网页，再弹出下载对话框。这说明，downloadliterature.do? 并不是文件的最终下载链接，如果是文件的最终下载链接的话，就应该会直接弹出对话框。所以，我们的下一步就是找出真正的下载链接。

观察 downloadliterature.do? 网页：

这里有个点击下载的地方，通过 F12 以及查看网页源代码，我们可以看到文件的真正下载链接。接着，我们用正则表达式提取该链接，然后就可以用 requests 下载文件了。

最后，总结一下这一次寻找下载链接的思路：

F12 检查 下载按钮 元素，发现，点击后触发的是一个 js 函数 upload()。

在网页源代码中找不到 upload() 的实现，转而在网页包含的 js 文件中找。

找到 upload() 后，根据其实现，构造请求 url。

在浏览器中打开请求 url，发现网页重定向了。用 requests 和 response 获取重定向后的 url

得到重定向的 url 后，打开，并提取其中包含的文件下载链接

网友评论

热衷组培的二货潜:是该学点爬虫了
知识学者:我已经成功了，https://www.jianshu.com/p/134530b46a65
感谢啊，　网络知识欠缺，本以为会无限制等待下去了．
知识学者:在问一下。

function onlineReading(page_cnt,id,language,source_db,title,isoa,type,resourceType){
title=window.encodeURI(window.encodeURI(title));
var type = $("#document_type").val();
if(type == "standards"){
type="standard";
}
window.open("/search/onlineread.do?page_cnt="+page_cnt+"&language="+language+"&resourceType="+type+"&source="+source_db+"&resourceId="+id+"&resourceTitle="+title+"&isoa="+isoa+"&type="+type);
}

这里面的 title=window.encodeURI(window.encodeURI(title));
var type = $("#document_type").val();
要怎么办？要python写出同样的函数，生成吗？
知识学者:@anye137 嗯，谢了，我自己测试一下
anye137:不过，要实现的话应该不难。document_type 可以在网页源代码中抓取。至于，encodeURI 函数，就用 python 写个类似的函数吧。
anye137:其实我直接忽略了这里，没出现问题
知识学者: 大佬厉害了，看来主要攻克参数提权就行了。网络知识和结束欠缺啊。

本文标题：爬虫获取 js 动态数据（万方数据库文献下载）

本文链接：https://www.haomeiwen.com/subject/szyisftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

爬虫获取 js 动态数据（万方数据库文献下载）

今天讲讲用爬虫下载万方数据库文献。

相关文章

python下载万方数据库文献