Python爬取今日头条JS内容

作者: caiyingyi | 来源:发表于2017-05-26 15:21 被阅读1289次

参考网站：http://blog.csdn.net/u011475134/article/details/70198533

目标：爬取热点新闻的标题，链接（图1）

图1---- 爬取目标

核心技术：所爬内容为JS加载，需要从网页响应中找到JS脚本返回的JSON数据

（1）找到JS请求的数据接口

1.打开网页调试工具

网页调试工具

2.发现所需要的数据在文件名含“?category“字段的文件中，筛选，只显示该种文件

（2）观察数据源文件的url构成规律

滚动滚动条，出现了几个新的目标文件。列表观察

四个目标文件的url

提取各参数，黄色部分是会改变的参数

观察上表得出，url地址中只有黄色部分的参数会改变。

①max_behot_time和max_behot_time_tmp的值相等

②点击首页中左边标题栏“热点”按钮时，max_behot_time和max_behot_time_tmp的值为0

③而每一个max_behot_time和max_behot_time_tmp的值都可以在上一个文件内容中得出

max_behot_time和max_behot_time_tmp的值

④AS和CP的值，每一次都发生改变，并没有规律。因此推测是根据一定加密算法算出的。参考的指出可以在网页HTML源码中找到加密算法。但是我并没有找到.....所以加密算法是直接使用参考网站所提供的函数：

计算AS和CP的算法

（3）编写代码：

由于看不懂参考网站的代码，自己写了个简单版的......

（4）测试

结果：每一次爬取的内容都是一样的

1.猜测A：网站自带反爬机制，需要降低爬取速度

实施：在get_item(url)中添加time.sleep(5)

结果：失败

2.猜测B：网站自带反爬机制，需要加header

实施：在get_item（url）中添加

结果：失败

3.猜测C：网站自带反爬机制，需要加cookies

实施：根据参考网站，只与cookies中的tt_webid参数有关

结果：成功

完整代码："https://github.com/caiyingyi/toutiao.git"

网友评论

本文标题：Python爬取今日头条JS内容

本文链接：https://www.haomeiwen.com/subject/iucxfxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python爬取今日头条JS内容

（1）找到JS请求的数据接口

（2）观察数据源文件的url构成规律

（3）编写代码：

（4）测试

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python3自学爬虫实战

爬虫

Python爬取今日头条JS内容

（1）找到JS请求的数据接口

（2）观察数据源文件的url构成规律

（3）编写代码：

（4）测试

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python3自学 爬虫实战

爬虫

Python3自学爬虫实战