美文网首页
爬虫简单实例

爬虫简单实例

作者: 丘山Ivan | 来源:发表于2017-11-20 01:31 被阅读11次

    开发爬虫的步骤:

    1.确定目标:(以百度百科为例子)
    2.分析目标(抓取数据的策略,网站会不定期升级,所以定向网站抓取也需要修改策略)
    • URL 格式:页面的范围,不指定的话就会抓取不想关的数据,造成资源的浪费。
    • 数据格式:分析词条的标题和简介,这两个数据标签的格式。
    • 网页编码:指定网页的编码,才能正确解析
    3.编写代码
    4.执行爬虫数据的抓取

    确定目标:

    • 目标:百度Python词条相关词条网页 - 标题和简介
    • 入口页:https://baike.baidu.com/item/Python/407313
    • URL格式:
      • 词条页面URL:/item/**(/item/词条名)
    • 数据格式
      • 标题:<dd class="lemmaWgt-lemmaTitle-title"> <h1>**</h1></dd>
      • 简介:<div class="lemma-summary" label-module="lemmaSummary">**</div>
    • 页面编码:UTF-8

    百度百科关于Python的1000个URLDemo

    相关文章

      网友评论

          本文标题:爬虫简单实例

          本文链接:https://www.haomeiwen.com/subject/ygjpvxtx.html