python爬虫小demo，简单明了

作者: 78c40b03ee4e | 来源:发表于2019-03-05 21:09 被阅读4次

python爬虫小demo，简单明了
Python 爬虫小Demo
Python原生爬虫小demo
网易云很多歌曲都要版权？要VIP？在Python面前没有限制这一
网易云很多歌曲都要版权？要VIP？在Python面前没有限制这一
python爬虫之拉钩小demo
python爬虫之多线程爬虫小Demo
Python 爬虫程序 PySpider
适合新手的Python爬虫小程序
适合新手的Python爬虫小程序

题目解析的爬取

思路
1.将所以题目的解析链接爬取出去单独存放到一个文件。

2.为了解决有些链接一次进不去必须中断程序再次开始，和存储图片思路一样，争取实现断点继续，

3.但是写入文件和保存图片还是不一样，针对面临的情况，初步解决想法为每抽取一条链接的解析，就删掉这个链接，用列表存储从链接文件中读取的链接

同时爬取图片和动图问题

因为科目四有的题目包含动图，要爬取的网站是做成mov格式的短视频
例如：

<div class="test-r f-r">
                      <video src="http://www.jiazhao.com/images/tiku/201511231357033827.mov" controls="controls">您的浏览器不支持不放</video><!-- <a href="javascript:;" class="t-big">点击放大观看</a> -->

增加获取视频链接

系列一获取图片的方法是在获取选项、答案的基础上再次传到BeautifulSoup对象，然后再次提取img标签，如果某题没有图片，提取的则是一个空值，此处提取img和video标签。如果某题没有图片或视频，提取的则是一个空值。只需改一句代码

img = soup.find_all(['img','video'])

获取图片或动图后缀

系列一中为了方便直接在文件名后面加的字符串形式.png后缀，但是现在要解决后缀不一致（写代码尽可能还是不要偷懒…）
解决代码：

if img:
    for im in img:
        src = im.get('src')
        suffix = src.split('.')[3] 
        filename = str(i) + '.' + suffix

如果此题有图片或动图，则把这个图的链接通过’.’进行分割。最后的元素则是后缀

小编推荐一个学python的学习qun 740,3222,34
无论你是大牛还是小白，是想转行还是想入行都可以来了解一起进步一起学习！裙内有开发工具，很多干货和技术资料分享！

争取实现断点继续

不知道为什么程序会暂停不动，模仿浏览器，捕获异常都试了，依然不行，所以我尽可能的实现断点继续。
每个图片对应一个链接，难免有一个链接卡住（我猜测的）
解决办法 :
在我们得到链接，并生成文件名后，先不去打开这个这个链接，先根据文件名判断这个图片是否文件夹中已经包含，如果包含扔掉这个链接，去继续下一个链接

if img:
    for im in img:
        src = im.get('src')
        suffix = src.split('.')[3] 
        filename = str(i) + '.' + suffix
        if os.path.exists('picture/'+filename):
            break
        saveImg(im.get('src'),filename)

网友评论

python交流学习

本文标题：python爬虫小demo，简单明了

本文链接：https://www.haomeiwen.com/subject/mnrauqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

python爬虫小demo，简单明了

题目解析的爬取

同时爬取图片和动图问题

获取图片或动图后缀

争取实现断点继续

相关文章