![](https://img.haomeiwen.com/i1920664/e6ab07ac726900dc.jpg)
框架内的所有文件都不要删除。
-
我们把项目文件放入编辑器中,小道用的pycharm.
image.png
框架入门
- 目标,爬取好听轻音乐网的歌曲名和艺术家。http://www.htqyy.com/top/hot
- 首先定义目标数据字段到items文件中。
# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html
import scrapy
class MyspiderItem(scrapy.Item):
# define the fields for your item here like:
title = scrapy.Field()#歌曲名
artist= scrapy.Field()#艺术家
-
定义完成后,开始写我们的爬虫
image.png
在此处打开命令窗口输入:scrapy genspider musicspider htqyy.comimage.png
-
重新在编辑器中打开项目。会多出一个文件musicspider
image.png
- 分析网页:
第一页:http://www.htqyy.com/top/musicList/hot?pageIndex=0&pageSize=20
第二页:http://www.htqyy.com/top/musicList/hot?pageIndex=1&pageSize=20
第三页:http://www.htqyy.com/top/musicList/hot?pageIndex=2&pageSize=20
image.png
代码部分,musicspider.py
# -*- coding: utf-8 -*-
import scrapy
class MusicspiderSpider(scrapy.Spider):
name = 'musicspider'#爬虫识别名称
allowed_domains = ['htqyy.com']#爬虫能够爬取的网址范围
start_urls = ['http://www.htqyy.com/top/musicList/hot?pageIndex=0&pageSize=20']#爬取的起始url
def parse(self, response):
filename='music.html'
data= response.body#获取响应内容
open(filename,'wb').write(data)#写入本地,请求的动作被框架完成
在这个文件夹中打开命令窗口
![](https://img.haomeiwen.com/i1920664/8516ba1abbf65f9e.png)
输入:scrapy crawl musicspider
![](https://img.haomeiwen.com/i1920664/53a3bd30e69e9086.png)
-
html信息出现。
image.png
网友评论