美文网首页
python爬虫问题

python爬虫问题

作者: 代瑶 | 来源:发表于2021-03-24 14:40 被阅读0次

    关于爬虫 一定要谨记两点. 1 不能对爬取对象进行攻击类型的抓取数据, 如果抓取数据导致对方服务器卡顿并且死机,这就有法律风险了 2. 不将爬取的数据用于商业用途, 自己玩一玩可以,或者整理抓取数据整理资料. 但是不能用于二次售卖等盈利用途

    1 requests_html

    from requests_html import HTMLSession
    requests_html 模块可以帮助我们抓取js渲染的数据.

    session = HTMLSession()
    r = session.get(url)
    r.html.render()
    

    第一次会start chromium download 如果提示urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host='storage.googleap

    打开命令行pip3 install -U "urllib3<1.25"
    

    参考用法:

     session = HTMLSession()
     r = session.get(url)
     html = r.html
     html.render()
     html.xpath('//a[xx]/@rel')
    

    2 requests

    import requests
    requests 模块帮我们抓取的是静态数据,网页右键查看源码能看到的东西

    3 对于xpath的一些用法

    https://www.w3school.com.cn/xpath/index.asp
    咋得一看感觉很难, 其实我们常用的属性也就那么几个罢了,
    //全局模式匹配
    /下一级
    a[@class="xx"] a标签并且class 是xx的属性
    a[@class="xx"]/text a标签并且class 是xx的属性的内容123 例如<a class="xx">123</a>
    a[@class="xx"]/@herf a标签的href属性 例如 <a class="xx" href="www.baidu.com">123</a>
    a[@class="xx"][not(@id)]/@href class 是xx并且没有id的a标签

    相关文章

      网友评论

          本文标题:python爬虫问题

          本文链接:https://www.haomeiwen.com/subject/geoocltx.html