从零开始开发python和qt项目（二）

作者: 技术喵 | 来源:发表于2019-07-07 17:28 被阅读0次

从零开始开发python和qt项目（二）
从零开始开发python和qt项目（一）
从零开始开发python和qt项目（三）
从零开始开发python和qt项目（四）
从空项目开始开发Qt桌面程序
树莓派GUI-摄像头使用-PySide/PyQT/QML/Pyt
Mac 安装PyQt
从零开始的贪吃蛇游戏
Win10下搭建python3.4+PyQt5.4+Eric6开
树莓派GUI-ADC测量-PySide/PyQT/QML/Pyt

项目的重要部分在于爬虫的书写，我找了一天的网站，想确定一个作为爬虫目标，新闻小说糗百，最后定了壁纸网站，反正是学习，这个无所谓啦。

只所以有Spider2.py的存在，是因为Spider.py爬的是国外壁纸网站，慢的要死

声明：本次爬取，只是学习，不要用这个恶意攻击网站，我不负责哦

1.分析网站结构 http://www.netbian.com/index_2.htm

我用的谷歌浏览器，F12，打开调试，
翻几次下一页，比较连接地址，发现规律，
第2页 /index_2.htm
第3页 /index_3.htm

0_1524059692791_TIM截图20180418215336.png

2.爬取网页数据

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36',
    'Cookie': '__cfduid=d252e3981db5eb8f693b010f5dfd5ddd01524029979; _ga=GA1.2.1939131297.1524029968; _gid=GA1.2.1452726850.1524029968; wallhaven_session=eyJpdiI6Ik1NU0F1S1hBZGIzUWxQd083b05lMGdnKzBqbFwvaEZnNWx6aXBWczlydE5nPSIsInZhbHVlIjoiOG4rMGlVcHNsQ3ZIY3FDOXRncjR5VnF1RVwvak9WSmR4SzhKTms0TzdCQTFrXC9TZTFEQXBYbmlybnRHd2dyRDdvVmZUck9MSnFmdkprNmxONmVzUXpjZz09IiwibWFjIjoiMGZhOTYyYmViOGNlOGZiMjkyOTRkMWIxOThjYmE5MTFiMWJmODM4NTdjMjc0MjNiZGMzNWVkYmQ1NzRmNjI0OCJ9'
}

url = 'http://www.netbian.com/index_%s.htm' % str(currentPage)
html = get_one_page(url, headers=headers)

Cookie来自上面截图内容，get_one_page函数里用requests，get到网页数据
访问网页的方式分get和post，put不常用
get就是直接获取，如果传参是明文方式
post传参是密文方式
萌新知道这些就足够了

0_1524059924801_TIM截图20180418215834.png

3.得到网页全部数据后，还要从里面提取图片数据

观察网页发现图片存在【list】，这个下面

0_1524060210665_225.png

0_1524060186008_TIM截图20180418220253.png

我用BeautifulSoup（如果没有lxml需要自己安装哦）解析了网页数据，提取list内容，然后用re正则筛选出这一页所有图片链接，一个链接如下

http://img.netbian.com/file/2018/0413/8e97d70b7991a190f9f1c2be91c38da7.jpg

4.有了图片链接，接下来就是下载图片

0_1524060491629_TIM截图20180418220745.png

所有缓存的缩略图我放在cache文件夹下

0_1524060561738_TIM截图20180418220913.png

未完待续

网友评论

本文标题：从零开始开发python和qt项目（二）

本文链接：https://www.haomeiwen.com/subject/vncihctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

从零开始开发python和qt项目（二）

相关文章