美文网首页
Python爬网页

Python爬网页

作者: 宅心PM | 来源:发表于2016-12-09 10:23 被阅读32次

    重点回顾

    1. requests库的get方法怎么用
    1. 真实网页中定位元素位置的方法? 一句话:找唯一特征
    2. 使用headers,假装是人类 。构造headers字典。
    3. 连续爬多页内容。
    4. 被反爬了怎么办?使用手机页面

    想获取已登录状态下的信息:

    构建headers字典(内容包括user-agent和cookie)
    步骤如下:

    1. cookie信息:审查>network>doc>name>headers>代表身份的cookies信息填写进去(向服务器证明我们是已经登录的状态)
    2. user-agent:路径同上,最下方

    获取多页的内容

    url="http://bj.lianjia.com/ershoufang/fengtai/pg2/"
    
    urls=["http://bj.lianjia.com/ershoufang/fengtai/{}/".format(str(i)) for i inrange(1,100,1)]
    
    print(urls)
    

    tips:range的第三个参数是频率。


    批量输出图片

    wb_data=requests.get(url,headers=headers)
    #开始解析网页数据
    soup=BeautifulSoup(wb_data.text,'lxml')
    imgs=soup.select('div.mod_media > div > img')
    for i in imgs:    
            print(i.get('origin-src'))
    

    步骤:

    1. 先通过requests.get(参数有网址和headers)获取数据
    2. 通过soup将requests到的信息文本化
    3. 通过select 将所有图片找出来(使用循环
    4. 通过get函数 打印标签内的图片地址

    相关文章

      网友评论

          本文标题:Python爬网页

          本文链接:https://www.haomeiwen.com/subject/fpsemttx.html