美文网首页
爬虫前的思考

爬虫前的思考

作者: Wendy_Leo | 来源:发表于2018-09-03 11:02 被阅读0次
1. 我为什么要学习爬虫?
  • 为了更好的学习python
  • 可以实践到很多的前端知识
  • 可以熟练使用selenium来定位元素
  • 可以更好的了解网站的架构
  • 可以更好了理解http/https协议
  • 可以锻炼编码能力
2. 爬虫前的思考
  • 网站对于爬虫着的限制
    1. robots.txt
    • 搜索引擎访问网站时,访问的第一个文件,在站点根目录下搜寻该文件
    • 怎么找到该文件?
      在网站的根目录下
  • 通过站点地图来了解网站的URLs

    Sitemap.xml怎么找到?

  • 估算网站规模
  • 识别网站所使用的技术: python的模块builtwith
  • 识别网站的所有者:python的模块python-whois

相关文章

网友评论

      本文标题:爬虫前的思考

      本文链接:https://www.haomeiwen.com/subject/wbnswftx.html