抓取策略
Python抓取百度百科数据确定目标:确定抓取哪个网站的哪些页面的哪部分数据。本实例抓取百度百科python词条页面以及python相关词条页面的标题和简介。
分析目标:分析要抓取的url的格式,限定抓取范围。分析要抓取的数据的格式,本实例中就要分析标题和简介这两个数据所在的标签的格式。分析要抓取的页面编码的格式,在网页解析器部分,要指定网页编码,然后才能进行正确的解析。
编写代码:在网页解析器部分,要使用到分析目标得到的结果。
执行爬虫:进行数据抓取。
分析目标
1、url格式
进入百度百科python词条页面,页面中相关词条的链接比较统一,大都是/view/xxx.htm。
Python抓取百度百科数据2、数据格式
标题位于类lemmaWgt-lemmaTitle-title下的h1子标签,简介位于类lemma-summary下。
Python抓取百度百科数据3、编码格式
查看页面编码格式,为utf-8。
Python抓取百度百科数据经过以上分析,得到结果如下:
Python抓取百度百科数据项目结构
新建文件夹baike-spider,作为项目根目录。
新建spider_main.py,作为爬虫总调度程序。
新建url_manger.py,作为url管理器。
新建html_downloader.py,作为html下载器。
新建html_parser.py,作为html解析器。
新建html_outputer.py,作为写出数据的工具。
最终项目结构如下图:
Python抓取百度百科数据spider_main.py
Python抓取百度百科数据url_manger.py
Python抓取百度百科数据html_downloader.py
Python抓取百度百科数据html_parser.py
Python抓取百度百科数据html_outputer.py
Python抓取百度百科数据运行
在命令行下,执行python spider_main.py。
运行结果
Python抓取百度百科数据
网友评论