Python爬网页

作者: 宅心PM | 来源:发表于2016-12-09 10:23 被阅读32次

重点回顾

requests库的get方法怎么用

真实网页中定位元素位置的方法？一句话：找唯一特征
使用headers，假装是人类。构造headers字典。
连续爬多页内容。
被反爬了怎么办？使用手机页面

想获取已登录状态下的信息：

构建headers字典（内容包括user-agent和cookie）
步骤如下：

cookie信息：审查>network>doc>name>headers>代表身份的cookies信息填写进去（向服务器证明我们是已经登录的状态）
user-agent：路径同上，最下方

获取多页的内容

url="http://bj.lianjia.com/ershoufang/fengtai/pg2/"

urls=["http://bj.lianjia.com/ershoufang/fengtai/{}/".format(str(i)) for i inrange(1,100,1)]

print(urls)

tips：range的第三个参数是频率。

批量输出图片

wb_data=requests.get(url,headers=headers)
#开始解析网页数据
soup=BeautifulSoup(wb_data.text,'lxml')
imgs=soup.select('div.mod_media > div > img')
for i in imgs:    
        print(i.get('origin-src'))

步骤：

先通过requests.get（参数有网址和headers）获取数据
通过soup将requests到的信息文本化
通过select 将所有图片找出来（使用循环）
通过get函数打印标签内的图片地址

网友评论

本文标题：Python爬网页

本文链接：https://www.haomeiwen.com/subject/fpsemttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python爬网页

重点回顾

想获取已登录状态下的信息：

获取多页的内容

批量输出图片

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读