爬虫scrapy框架（2）

作者: 猛犸象和剑齿虎 | 来源:发表于2019-05-27 06:39 被阅读0次

(六)Scrapy爬虫框架的认识(读书笔记)|Python网络爬
Pycharm+Scrapy框架运行爬虫糗事百科（无items数
scrapy与scrapy-redis的使用（一）-基础
Python爬虫Scrapy框架：Scrapy爬虫框架与常用命令
使用python搭建爬虫项目,基于scrapy+scrapyd+
「爬虫」14爬虫之scrapy爬虫项目和xpath表达式
python爬虫框架scrapy
python爬虫框架Scrapy
python爬虫框架Scrapy
爬虫练习_使用scrapy爬取淘宝

t013b9c86f5a43c0037.jpg

框架内的所有文件都不要删除。

我们把项目文件放入编辑器中，小道用的pycharm.

image.png

框架入门

目标，爬取好听轻音乐网的歌曲名和艺术家。http://www.htqyy.com/top/hot
首先定义目标数据字段到items文件中。

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class MyspiderItem(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field()#歌曲名
    artist= scrapy.Field()#艺术家

定义完成后，开始写我们的爬虫 image.png
在此处打开命令窗口输入：scrapy genspider musicspider htqyy.com image.png
重新在编辑器中打开项目。会多出一个文件musicspider image.png
分析网页：
第一页：http://www.htqyy.com/top/musicList/hot?pageIndex=0&pageSize=20
第二页：http://www.htqyy.com/top/musicList/hot?pageIndex=1&pageSize=20
第三页：http://www.htqyy.com/top/musicList/hot?pageIndex=2&pageSize=20
image.png
代码部分，musicspider.py

# -*- coding: utf-8 -*-
import scrapy


class MusicspiderSpider(scrapy.Spider):
    name = 'musicspider'#爬虫识别名称
    allowed_domains = ['htqyy.com']#爬虫能够爬取的网址范围
    start_urls = ['http://www.htqyy.com/top/musicList/hot?pageIndex=0&pageSize=20']#爬取的起始url

    def parse(self, response):
        filename='music.html'
        data= response.body#获取响应内容
        open(filename,'wb').write(data)#写入本地，请求的动作被框架完成

在这个文件夹中打开命令窗口