scrapy 创建及简单的爬虫demo

作者: 北游_ | 来源:发表于2018-05-21 00:13 被阅读15次

scrapy 创建及简单的爬虫demo
scrapy 创建及简单的爬虫demo
Scrapy笔记
Python快速开发分布式搜索引擎Scrapy精讲!
（二）爬虫框架(2)——第一个scrapy爬虫
pycharm创建scrapy项目教程及遇到的坑
scrapy爬虫
python网络爬虫笔记三
2018-05-13
用scrapy框架爬取映客直播用户头像

本文只是记录学习的过程，后期会重新整理：
创建项目下的spiders文件夹下的spider。

以爬取百度信息为例：
- spiders
- init.py (已有文件)
- baidu.py (需要新建，名称自行定义，要有区分性)

下面主要以 baidu.py 文件为讲解

# 导入 scrapy 模块；如果变红，原因可能是项目的编译环境中没有scrapy模块，重新选择正确的编译环境即可
import scrapy

# 新建一个爬虫类
# 格式： class 爬虫名称+Spider(scrapy.Spider)
class BaiduSpider(scrapy.Spider):
    # 1. 指定爬虫名称, 要与项目关联，后期在log中方便审查
    name = "baidu"
    
    # 2. 初始启动链接, start_urls 这个属性名是固定的
    start_urls = ['http://www.baidu.com'] 

    # 3. 重写 Spider 类下的 parse 方法，parse()起解析功能
    # 此步骤已经请求一次结束，进行解析。在框架的 downloader 下载完成后将页面源代码传给 spider 。spider进行解析。
    # 文件写入路径是项目的根目录下
    def parse(self, response):
        with open('baidu.html', 'w', encoding='utf-8') as f:
            f.write(response.body.decode('utf-8'))

以上已经完成一个简单的百度页面的爬取功能。