美文网首页
Python 爬虫技巧

Python 爬虫技巧

作者: 苍简 | 来源:发表于2019-01-27 20:02 被阅读12次

    构造 Request Headers

    https://curl.trillworks.com/

    通过 fake_useragent 生成随机UserAgent

    from fake_useragent import UserAgent
    
    ua = UserAgent(verify_ssl=False)
    headers = {"User-Agent": ua.random}
    
    

    robots.txt

    有些网站的robots.txt文件会保存一些sitemap,可能会有你想要的数据
    例:https://www.douban.com/robots.txt 下的sitemap保存了豆瓣头一天新产生的影评,书评,帖子等等

    编辑cookie

    EditThisCookie

    image

    爬虫和反爬虫就是一场没有硝烟的拉锯战,你永远不知道对方会给你埋哪些坑,比如对Cookies动手脚。这个时候你就需要它来辅助你分析,通过Chrome安装EditThisCookie插件后,我们可以通过点击右上角小图标,再对Cookies里的信息进行增删改查操作,大大提高对Cookies信息的模拟

    自动生成selenium代码

    用Chrome的插件Katalon Recorder

    image.png
    image.png

    相关文章

      网友评论

          本文标题:Python 爬虫技巧

          本文链接:https://www.haomeiwen.com/subject/lesnjqtx.html