Python抓取百度百科数据

作者: 轻松学Python111 | 来源:发表于2019-03-18 21:04 被阅读26次
    Python抓取百度百科数据

    抓取策略

    Python抓取百度百科数据

    确定目标:确定抓取哪个网站的哪些页面的哪部分数据。本实例抓取百度百科python词条页面以及python相关词条页面的标题和简介。

    分析目标:分析要抓取的url的格式,限定抓取范围。分析要抓取的数据的格式,本实例中就要分析标题和简介这两个数据所在的标签的格式。分析要抓取的页面编码的格式,在网页解析器部分,要指定网页编码,然后才能进行正确的解析。

    编写代码:在网页解析器部分,要使用到分析目标得到的结果。

    执行爬虫:进行数据抓取。

    分析目标

    1、url格式

    进入百度百科python词条页面,页面中相关词条的链接比较统一,大都是/view/xxx.htm。

    Python抓取百度百科数据

    2、数据格式

    标题位于类lemmaWgt-lemmaTitle-title下的h1子标签,简介位于类lemma-summary下。

    Python抓取百度百科数据

    3、编码格式

    查看页面编码格式,为utf-8。

    Python抓取百度百科数据

    经过以上分析,得到结果如下:

    Python抓取百度百科数据

    项目结构

    新建文件夹baike-spider,作为项目根目录。

    新建spider_main.py,作为爬虫总调度程序。

    新建url_manger.py,作为url管理器。

    新建html_downloader.py,作为html下载器。

    新建html_parser.py,作为html解析器。

    新建html_outputer.py,作为写出数据的工具。

    最终项目结构如下图:

    Python抓取百度百科数据

    spider_main.py

    Python抓取百度百科数据

    url_manger.py

    Python抓取百度百科数据

    html_downloader.py

    Python抓取百度百科数据

    html_parser.py

    Python抓取百度百科数据

    html_outputer.py

    Python抓取百度百科数据

    运行

    在命令行下,执行python spider_main.py。

    运行结果

    Python抓取百度百科数据

    相关文章

      网友评论

        本文标题:Python抓取百度百科数据

        本文链接:https://www.haomeiwen.com/subject/atkimqtx.html