SCRAPY解----草译一篇得雨帝（Gotrained）的讲义

作者: oldfred | 来源:发表于2019-03-04 22:04 被阅读0次

SCRAPY解----草译一篇得雨帝（Gotrained）的讲义
古诗比赛
哈迪斯与奥林匹斯十二神
冥王哈迪斯
外文名著最好中译本
我想读莎士比亚
开始尝试翻译SICP的Python版（2018）
传统经典《大学》学习录：2(根据康熙皇帝听课讲义《日讲四书解义》
任何公正之人必带主观——读孟森《清史讲义》
scrapy分布式爬虫scrapy_redis一篇

文章原文地址：https://python.gotrained.com/scrapy-tutorial-web-scraping-craigslist/

爬的目标网站；Craigslist

爬虫初步

安装：pip install scrapy，用苹果或李牛的高端用户需要在前面加上sudo

创建项目

Scrapy startproject craigslist

craigslist是项目名称。

创建一只小蛛蛛（SPIDER）

在终端进入文件夹craigslist，使用genspider命令，建立一个小蛛蛛。

如在这个项目中，我们用如下命令：

scrapy genspider jobs https://newyork.craigslist.org/search/egr

编辑小蛛蛛

在craiglist文件夹，你可以看出项目的文件情况：

现在你会发现在，在spiders文件夹里，有一个名为job.py的文件，就是我们刚刚创建的小蛛蛛。

打开编辑器，开始编辑这个东东：

# -*- coding: utf-8 -*-

import scrapy

class JobsSpider(scrapy.Spider):

name = "jobs"

allowed_domains = ["craigslist.org"]

start_urls = ['https://newyork.craigslist.org/search/egr']

def parse(self, response):

pass

解释一个这个文件：

name，是我们给这个小蛛蛛起的名字，这个小蛛蛛名为jobs

allowed-domains列出了小蛛蛛可以活动的范围

start_urls列出了一个或多个小蛛蛛开起运动的起点。

Parse是小蛛蛛的主函数，注意，不要，千万不要改这个函数的名字。如有所需，你可以增加其他函数。

提示：如果你用和讲义相同的方法创建了小蛛蛛，它会自己在start_urls中加上http://，一定要注意检查，如果出现了重复的http://，虫子不会正常运动。

最简单的一只，单项爬虫

删除pass，在函数中加入以下行：

titles = response.xpath('//a[@class="result-title hdrlnk"]/text()').extract()

啥意思？

titles是根据一定的规则解析出来的内容组成的列表

response是一个命令，获取整个页面的HTML。如果：

print(response)

你得到什么结果？

<200 http://*****>

星号代表你请求的链接。

如果：

print(response.body)

你则会得到页面主体的代码。

你可以用xpath()来解析。命令为：

response.xpath()

Xpath是个复杂的话题，但有个简单的方法让你得到相应的xpath，打开你的Chrone浏览器，复制刚才的链接，选取相应的页面元素，单击右键，选取“检查”（inspect）

你就会看到这部分元素的HTML代码，如：

<a href="/brk/egr/6085878649.html" data-id="6085878649" class="result-title hdrlnk">Chief Engineer</a>

这是一个链接，链接文字是“Chief Engineer” ，可以用text()查看。

其class被标为：result-title hdrlnk

用extract()可以获取列表中的项。

我们要把title项显示出来：

print(titles)

于是这个小蛛蛛的完整代码是：

# -*- coding: utf-8 -*-

import scrapy

class JobsSpider(scrapy.Spider):

name = "jobs"

allowed_domains = ["craigslist.org"]

start_urls = ['https://newyork.craigslist.org/search/egr']

def parse(self, response):

titles = response.xpath('//a[@class="result-title hdrlnk"]/text()').extract()

print(titles)

动起来，虫子

在终端项目文件夹下，输入以下命令，开动虫子。

scrapy crawl jobs

Jobs是这个虫子的名字。

终端将列表结果打印出来。

接下来，我们可以用yield命令，将列表中的内容取出来，放入一个字典：

for title in titles:

yield {'Title': title}

于是这个虫子的完整美图如下：

# -*- coding: utf-8 -*-

import scrapy

class JobsSpider(scrapy.Spider):

name = "jobs"

allowed_domains = ["craigslist.org"]

start_urls = ['https://newyork.craigslist.org/search/egr']

def parse(self, response):

titles = response.xpath('//a[@class="result-title hdrlnk"]/text()').extract()

for title in titles:

yield {'Title': title}

将爬取的结果存到CSV等类型的文件里

可以在前述爬虫运行命令后加上 -o 指定文件名，将结果存入相应文件，文件类型包括csv，json，xml。

如

scrapy crawl jobs -o result-titles.csv

第二只，单页爬虫

如果你想得到与工作有关的其他项目，你是不是应该多写几个单项爬虫，来让它们完成不同的工作？

答案是否定的，你不必如此。你可以把页面每一个工作相关的元素的容器抓取下来，解出其中的项目。

例如，在这个页上，https://newyork.craigslist.org/search/egr

你查看元素，会看到如相内容：

在页上，有列表项（li）标志，前面有个小三角，点击，可以展开每个列表项，在其中，包含你需要的与该项工作有关的全部信息，你可以把这个列表项视为封套或容器。

Li标签的class被指定为“result-row”，在其中，包括一个链接，还有一个段落标签（p），这个标签的class被指定为”result-info”，我们把这人容器拿出来，就需要在爬虫函数里写下：

jobs = response.xpath('//p[@class="result-info"]')

然后解出其中的title项目：

for job in jobs:

title = job.xpath('a/text()').extract_first()

yield{'Title':title}

这是一个循环，其中，你无需再用response了，你使用了一个名为job的选择项。在解析容器时，我们用的是//，指示xpath是从<html>直到<p>，而现在，我们则不用//，因为现在的选择是以jobs为基础的。你也可以用.//

我们使用extrat_first()，而不是extract()，因为我们只想得一次得到一个值。

现在我们添加其他项目：

for job in jobs:

title = job.xpath('a/text()').extract_first()

address = job.xpath('span[@class="result-meta"]/span[@class="result-hood"]/text()').extract_first("")[2:-1]

relative_url = job.xpath('a/@href').extract_first()

absolute_url = response.urljoin(relative_url)

yield{'URL':absolute_url, 'Title':title, 'Address':address}

我们加入了address等项目。注意，通过xpath我们得到的是一个相对链接，我们需要用response.urljion()转换成完整的链接。

第三只虫子：多页虫子

在内容比较多时，网站采取了分页技术，这样，我们有必要通过获取“下一页”的地址，将所有的项目都拿下来。

在这个页面上，下一页next的HTML代码是这样的：

于是，我们在第二只虫子的基础上，加入以下代码，取得下一页的链接，传到主函数self.parse，让它继续获取其中的项目。

relative_next_url = response.xpath('//a[@class="button next"]/@href').extract_first()

absolute_next_url = response.urljoin(relative_next_url)

yield Request(absolute_next_url, callback=self.parse)

你也可以不写callback=self.parse，因为这是默认的。

另外，由于使用了Request，我们必须将它引入：

From scrapy import Request

注意，R是大写。

运行下，可以得到更多的结果。

第四只虫子获取详细页内容

下面，我们要让小蛛蛛打开其获取的链接，然后从中取出有关工作的描述。在第三只虫子基础上，我们继续以下内容。第三只虫子让我们得到了绝对链接，标题和地址：

yield{'URL':absolute_url, 'Title':title, 'Address':address}

我们要建立一个函数，把已经取得的链接传递给它，让它获得详细页，这个函数我们将它命名为parse_page()。我们还将用meta.get()传递已经取得的项目。

yield Request(absolute_url, callback=self.parse_page, meta={'URL': absolute_url, 'Title': title, 'Address':address})

这个函数总体是这样的：

def parse_page(self, response):

url = response.meta.get('URL')

title = response.meta.get('Title')

address = response.meta.get('Address')

description = "".join(line for line in response.xpath('//*[@id="postingbody"]/text()').extract())

compensation = response.xpath('//p[@class="attrgroup"]/span/b/text()')[0].extract()

employment_type = response.xpath('//p[@class="attrgroup"]/span/b/text()')[1].extract()

yield{'URL': url, 'Title': title, 'Address':address, 'Description':description}

你已经注意到了，我们加入了一个变量，discription，由于工作描述可能多于一个段落，所以要用jion（）把它们合起来。

同样的，我们加入comensation，以及employment_type。

设置settings.py

可以设置CSV的输出：

FEED_EXPORT_FIELDS = ['Title','URL', 'Address', 'Compensation', 'Employment Type','Description']

可以设定代理，让你的虫子运动看起来像个正常的浏览行为。

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.1'

可以设定迟延，如3秒或在一定区间。

完整代码：

import scrapy

from scrapy import Request

class JobsSpider(scrapy.Spider):

name = "jobs"

allowed_domains = ["craigslist.org"]

start_urls = ["https://newyork.craigslist.org/search/egr"]

def parse(self, response):

jobs = response.xpath('//p[@class="result-info"]')

for job in jobs:

relative_url = job.xpath('a/@href').extract_first()

absolute_url = response.urljoin(relative_url)

title = job.xpath('a/text()').extract_first()

address = job.xpath('span[@class="result-meta"]/span[@class="result-hood"]/text()').extract_first("")[2:-1]

yield Request(absolute_url, callback=self.parse_page, meta={'URL': absolute_url, 'Title': title, 'Address':address})

relative_next_url = response.xpath('//a[@class="button next"]/@href').extract_first()

absolute_next_url = "https://newyork.craigslist.org" + relative_next_url

yield Request(absolute_next_url, callback=self.parse)

def parse_page(self, response):

url = response.meta.get('URL')

title = response.meta.get('Title')

address = response.meta.get('Address')

description = "".join(line for line in response.xpath('//*[@id="postingbody"]/text()').extract())

compensation = response.xpath('//p[@class="attrgroup"]/span[1]/b/text()').extract_first()

employment_type = response.xpath('//p[@class="attrgroup"]/span[2]/b/text()').extract_first()

yield{'URL': url, 'Title': title, 'Address':address, 'Description':description, 'Compensation':compensation, 'Employment Type':employment_type}

网友评论

本文标题：SCRAPY解----草译一篇得雨帝（Gotrained）的讲义

本文链接：https://www.haomeiwen.com/subject/ppwwuqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

SCRAPY解----草译一篇得雨帝（Gotrained）的讲义

创建一只小蛛蛛（SPIDER）

编辑小蛛蛛

最简单的一只，单项爬虫

动起来，虫子

第二只，单页爬虫

第三只虫子：多页虫子

设置settings.py

完整代码：

相关文章