三步走，教你定制自己的个性python爬虫，代码都省了有木有~

作者: e1d319510233 | 来源:发表于2019-04-30 10:33 被阅读5次

三步走，教你定制自己的个性python爬虫，代码都省了有木有~
python爬虫记录
学习三步走，事半功倍有木有？
python爬虫爬取英雄联盟英雄图片
python爬虫爬取王者荣耀英雄列表图片
程序员和运营
java爬虫与python爬虫谁更强？
Python爬取数据之Requests库
7个Python爬虫实战项目教程
爬虫入门

想抓取各大招聘网站上的职位信息吗，想抓取各大电商网站上的商品信息吗，想抓取1024上各种不可描述吗？看这里，看这里，简单三步走，各种数据，你值得拥有。

一个基于scrapy 的二次开发框架webWalker，只需要配置xpath或正则表达式，就可以在互联网上随心所欲，想抓哪里抓哪里！

框架目标：写最少的代码，实现定制化抓取

需要掌握技能

xpath表达式，正则表达式，以及css表达式，至少会其中一项

python 字典和列表数据结构

以下技能最好掌握

python lambda 表达式的使用

python 简单函数编写

了解scrapy的基本概念，参见scrapy简单介绍

抓取国外81个电商网站70W商品SKU（库存量单位）信息

抓取国内各大招聘网站各行业的职位信息

抓取不可描述的网站上各种不可描述的图片及下载链接

以下是干货：

PS：

学习Python中的小伙伴，需要学习资料及Python爬虫电子书籍的话，可以前往我的微信公众号：速学Python，后台回复：简书，即可拿Python学习资料

这里有我自己整理了一套最新的python系统学习教程，包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。送给正在学习python的小伙伴！这里是python学习者聚集地，欢迎初学和进阶中的小伙伴！

手把手教你实现网站分类下项目信息的抓取

我们以bluefly为例进行讲解（声明声明，本文不是bluefly的软文，bluefly不是指蓝翔，虽然我是山东的，更是济南的，但你们问我挖掘机的事情，宝宝表示一脸萌比）

一、安装web-walker

需要python2.7

git clone https://github.com/ShichaoMa/webWalker.git

cd webWalker/walker && (sudo) python setup.py install

or

(sudo) pip install web-walker

可以直接从git上clone代码，但更推荐使用pip安装，windows 系统和ubuntu系统均支持。

二、配置抓取信息

打开你要抓取网站，找到一个你要抓取项目的分类。比如，我们选择woman shirt

一共找到了910个商品，我们要把每一件shirt的商品信息都抓取下来。

首先我们打开浏览器开发者工具F12，推荐使用chrome浏览器，找到下一页的xpath表达式

不懂xpath的可以看这里，一个非常简单的XML路径语言，用来寻找网页中的元素，很容易学习。XPath 教程

注意：现在的开发者工具都会有copy xpath这个功能，但不推荐使用，因为copy出来的xpath专一性很强。可能你抓取其它商品或者其它页的时候，xpath已经不适用了，使用id ，标签名，加上class去匹配一个xpath路径，会更通用一些。

我们找到的结果是

'//*[@id="page-content"]//a[@rel="next"]/@href'

好的，先记下来，一会儿用来配置。

然后，我们找到商品链接的xpath表达式

我们找到的结果是

'//ul[@class="mz-productlist-list mz-l-tiles"]/li//a[@class="mz-productlisting-title"]/@href'

保存起来。

接下来，我们点开商品链接，在商品页面寻找我们需要的信息。

让我们一个一个找到这些信息所在位置

'//p[@class="mz-productbrand"]/a/text()'# 商标

'//span[@class="mz-breadcrumb-current"]/text()'# 标题

'//*[@id="product-selection"]//div[@itemprop="price"]/text()'# 原价

'//*[@id="product-selection"]//div[@class="mz-price is-saleprice"]/text()'# 现价

'//div[@class="mz-productoptions-valuecontainer"]/span/text()'# 尺寸

'//div[@class="mz-productoptions-optioncontainer colorList"]/div/span/text()'# 颜色

'//li[@itemprop="productID"]/text()'# 商品唯一id

......

当然，你还可以抓取其它信息。

好了，在有这些信息之后，让我们开始配置我们的程序吧。

使用scrapy生成一个项目

ubuntu@dev:~/myprojects$ scrapy startproject demo

New Scrapy project 'demo' created in:

/home/ubuntu/myprojects/demo

You can start your first spider with:

cd demo

scrapy genspider example example.com

# 目录结构如下

.

├── demo

│ ├── __init__.py

│ ├── items.py

│ ├── pipelines.py

│ ├── settings.py

│ └── spiders

│ └── __init__.py

└── scrapy.cfg

或者直接从test中复制myapp，如果要改项目名字，记得修改scarpy.cfg中的名字

删除掉其中的demo/items.py demo/piplines.py，并使用myapp/settings.py，myapp/spipders/__init__.py 替掉原来的文件

在spiders目录下，创建page_xpath.py, item_xpath.py, item_field.py, spiders.py，编写以下内容

# spiders.py

# -*- coding:utf-8 -*

SPIDERS = { # 配置spider, spider名称一个字典，字典中为这个spider的一些自定义属性，可为空

"bluefly": {}

}

# page_xpath.py

# -*- coding:utf-8 -*

PAGE_XPATH = { # 配置网站分类页中获取下一页链接的方式，具体策略参见wiki

"bluefly": [

'//*[@id="page-content"]//a[@rel="next"]/@href',

]

}

# item_xpath.py

# -*- coding:utf-8 -*

ITEM_XPATH = { # 配置网站分类页中获取商品页链接的方式，xpath表达式

"bluefly": [

'//ul[@class="mz-productlist-list mz-l-tiles"]/li//a[@class="mz-productlisting-title"]/@href',

]

}

# item_field

# -*- coding:utf-8 -*

ITEM_FIELD = { # 商品页中，所需信息的获取方式，具体策略参见wiki

"bluefly": [

('product_id', {

"xpath": [

'//li[@itemprop="productID"]/text()',

],

}),

('brand', {

"xpath": [

'//p[@class="mz-productbrand"]/a/text()',

],

}),

('title', {

"xpath": [

'//span[@class="mz-breadcrumb-current"]/text()',

],

}),

('price', {

"xpath": [

'//*[@id="product-selection"]//div[@itemprop="price"]/text()',

],

}),

('new_price', {

"xpath": [

'//*[@id="product-selection"]//div[@class="mz-price is-saleprice"]/text()',

],

}),

('size', {

"xpath": [

'//div[@class="mz-productoptions-valuecontainer"]/span/text()',

],

}),

('color', {

"xpath": [

'//div[@class="mz-productoptions-optioncontainer colorList"]/div/span/text()',

],

}),

]

}