美文网首页
爬虫前的思考

爬虫前的思考

作者: Wendy_Leo | 来源:发表于2018-09-03 11:02 被阅读0次
    1. 我为什么要学习爬虫?
    • 为了更好的学习python
    • 可以实践到很多的前端知识
    • 可以熟练使用selenium来定位元素
    • 可以更好的了解网站的架构
    • 可以更好了理解http/https协议
    • 可以锻炼编码能力
    2. 爬虫前的思考
    • 网站对于爬虫着的限制
      1. robots.txt
      • 搜索引擎访问网站时,访问的第一个文件,在站点根目录下搜寻该文件
      • 怎么找到该文件?
        在网站的根目录下
    • 通过站点地图来了解网站的URLs

      Sitemap.xml怎么找到?

    • 估算网站规模
    • 识别网站所使用的技术: python的模块builtwith
    • 识别网站的所有者:python的模块python-whois

    相关文章

      网友评论

          本文标题:爬虫前的思考

          本文链接:https://www.haomeiwen.com/subject/wbnswftx.html