Python scrapy框架用21行代码写出一个爬虫

作者: 凌霄_ | 来源:发表于2017-04-08 17:04 被阅读406次

开发环境:Pycharm 2017.1(目前最新)
开发框架:Scrapy 1.3.3(目前最新)

目标

爬取线报网站,并把内容保存到items.json里

页面分析

Paste_Image.png
根据上图我们可以发现内容都在类为post这个div里
下面放出post的代码

<div class="post">
<!-- baidu_tc block_begin: {"action": "DELETE"} -->
<div class="date"><span>04月</span><span class="f">07日</span></div><!-- baidu_tc block_end -->
<h2><a href="http://www.abckg.com/193.html" title="4月7日 淘金币淘里程领取京东签到" rel="bookmark" target="_blank">4月7日 淘金币淘里程领取京东签到</a><span>已结束</span></h2>
<h6>发布日期: 2017-04-07 | 分类: <a href="http://www.abckg.com/xunibi">虚拟币</a>   |  浏览:125177
</h6><div class="intro"><p>淘金币一键领取 http://021.tw/t/ https://www.chaidu.com/App/Web/Taobao-Coin/ 【电脑端30金币】 https://taojinbi.taobao.com/inde ... auto_take=true 【手机端30金币】 http://h5.m.taobao...</p></div></div>

实现方法

1.定义items

class DemoItem(scrapy.Item):
    id = scrapy.Field()
    title = scrapy.Field()
    href = scrapy.Field()
    content = scrapy.Field()

2.新建一个爬虫名为test

# -*- coding: utf-8 -*-
import scrapy
from demo.items import DemoItem
from scrapy.http import Request

class TestSpider(scrapy.Spider):
    #定义爬虫的名字和需要爬取的网址
    name = "test"
    allowed_domains = ["www.abckg.com"]
    start_urls = ['http://www.abckg.com/']

    def parse(self, response):
        for resp in response.css('.post'):
            #实例化item
            item = DemoItem()
            #把获取到的内容保存到item内
            item['href'] = resp.css('h2 a::attr(href)').extract()
            item['title'] = resp.css('h2 a::text').extract()
            item['content'] = resp.css('.intro p::text').extract()
            yield item
            
        #下面是多页面的爬取方法
        urls = response.css('.pageinfo a::attr(href)').extract()
        for url in urls:
            yield Request(url, callback=self.parse)
        categorys = response.css('.menu li a::attr(href)').extract()
        for ct in categorys:
            yield Request(ct, callback=self.parse)

3.修改settings.py,添加以下代码

FEED_EXPORT_ENCODING = 'utf-8'

运行

打开cmd输入

scrapy crawl test -o items.json

运行截图

结果

已知bug

如果多次运行该爬虫,不会覆盖原有的内容,而是追加数据(好像是scrapy的bug)

可拓展内容

1.定时运行爬虫,当检查到网站更新时获取新数据并发邮件通知
2.检测数据是否重复

Python scrapy框架用21行代码写出一个爬虫

目标

页面分析

实现方法

运行

已知bug

可拓展内容

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python 爬虫专栏

Python语言与信息数据获取和机器学习

程序员

大数据爬虫Python AI Sql

生活不易我用python

python加油站

python爬虫

PythonModule_ Scrapy