美文网首页
爬取图片和文字链接并保存

爬取图片和文字链接并保存

作者: up_shang | 来源:发表于2017-01-01 21:13 被阅读0次

1正则表达式

贪婪与非贪婪

例如r'src="(.+?/.jpg)”就是图片

而r'src="(.+/.jpg)”jpg会到最后一个,不会出

urllib.urlretrieve(url,local,callback)存图片

注意有些网站会对cookie进行检测。要弄一下。‘

有些有登录名的可以把string转为url的格式再加载url后,加request就行了

结合网络域名收集并与这个方法用连用就可以了

2实践经验

1.先下载个目标中的任意页面到本地。进行抓取测试

2.过滤的时候要宏观一点。不要太体到一条。否则可能会漏掉

3.好用一点findall(tag类,合适字典对),可以一点点缩小范围。结合正则好用。

4.attr:标签属性 一般有class  name

5.抓取时除了注意头信息和cookie。最好再多使用几个代理

6.最后要想着怎么把数据存进数据库

相关文章

网友评论

      本文标题:爬取图片和文字链接并保存

      本文链接:https://www.haomeiwen.com/subject/qzvuvttx.html