项目的重要部分在于爬虫的书写,我找了一天的网站,想确定一个作为爬虫目标,新闻小说糗百,最后定了壁纸网站,反正是学习,这个无所谓啦。
只所以有Spider2.py的存在,是因为Spider.py爬的是国外壁纸网站,慢的要死
声明:本次爬取,只是学习,不要用这个恶意攻击网站,我不负责哦
1.分析网站结构 http://www.netbian.com/index_2.htm
我用的谷歌浏览器,F12,打开调试,
翻几次下一页,比较连接地址,发现规律,
第2页 /index_2.htm
第3页 /index_3.htm
2.爬取网页数据
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36',
'Cookie': '__cfduid=d252e3981db5eb8f693b010f5dfd5ddd01524029979; _ga=GA1.2.1939131297.1524029968; _gid=GA1.2.1452726850.1524029968; wallhaven_session=eyJpdiI6Ik1NU0F1S1hBZGIzUWxQd083b05lMGdnKzBqbFwvaEZnNWx6aXBWczlydE5nPSIsInZhbHVlIjoiOG4rMGlVcHNsQ3ZIY3FDOXRncjR5VnF1RVwvak9WSmR4SzhKTms0TzdCQTFrXC9TZTFEQXBYbmlybnRHd2dyRDdvVmZUck9MSnFmdkprNmxONmVzUXpjZz09IiwibWFjIjoiMGZhOTYyYmViOGNlOGZiMjkyOTRkMWIxOThjYmE5MTFiMWJmODM4NTdjMjc0MjNiZGMzNWVkYmQ1NzRmNjI0OCJ9'
}
url = 'http://www.netbian.com/index_%s.htm' % str(currentPage)
html = get_one_page(url, headers=headers)
Cookie来自上面截图内容,get_one_page函数里用requests,get到网页数据
访问网页的方式分get和post,put不常用
get就是直接获取,如果传参是明文方式
post传参是密文方式
萌新知道这些就足够了
3.得到网页全部数据后,还要从里面提取图片数据
观察网页发现图片存在 【list】,这个下面
0_1524060210665_225.png 0_1524060186008_TIM截图20180418220253.png我用BeautifulSoup(如果没有lxml需要自己安装哦)解析了网页数据,提取list内容,然后用re正则筛选出这一页所有图片链接,一个链接如下
http://img.netbian.com/file/2018/0413/8e97d70b7991a190f9f1c2be91c38da7.jpg
0_1524060491629_TIM截图20180418220745.png4.有了图片链接,接下来就是下载图片
所有缓存的缩略图我放在cache文件夹下
0_1524060561738_TIM截图20180418220913.png未完待续
网友评论