Scrapy简单笔记（一）

作者: 布拉豆 | 来源:发表于2017-03-21 13:44 被阅读39次

Scrapy笔记
scrapy笔记
Scrapy简单笔记（一）
Scrapy笔记
scrapy学习笔记(有示例版）
scrapy爬虫折腾系列-02
scrapy-redis的简单理解及主要参数设定
python3 scrapy_redis 分布式爬取房天下存mo
Scrapy简单笔记（二）
Scrapy简单笔记（三）

Python内置函数 zip() 介绍

title_list = ['茶杯','茶几','沙发','筷子']
money_list = [ 34, 1008, 3200, 3]
result_list = zip(title_list, money_list)
for i,j in result_list:
    print(i,j)

茶杯 34
茶几 1008
沙发 3200
筷子 3

num_1 = [1,2,3,4]
num_2 = [5,6,7,8,9]
for i,j in zip(num_1, num_2):
    print(i,j)

对不同长度的列表使用zip函数，以最短的为例，在长列表中截取同短列表长度的数据，再做处理，zip()多个参数如下示例

demo1 = [1,2,3,4,5,6,7,8,9]
demo2 = [22,33,44,55,66]
demo3 = [100,200,300]
for i,j,k in zip(demo1, demo2, demo3):
    print(i,j,k)

1 22 100
2 33 200
3 44 300

Scrapy命令交互模式介绍

Scrapy命令交互模式启动

$ scrapy shell 网址[不需要引号]

命令交互模式中函数介绍

request对网址发起请求的请求信息

response网址服务器响应请求，发回的响应信息

view(response)调用系统自带浏览器，查看response中保存着从网址中获取的网页数据

fetch(url)在交互模式下，重新对一个url网址发送请求，自动更新到request和response中

Scrapy项目爬虫文件说明

init.py -> 保持默认，不需要做任何修改
items.py -> 自定义项目类的地方，也就是爬虫获取到数据之后，传入管道文件(pipelinies.py)的载体
pipelines.py -> 项目管道文件，对传入的项目类中的数据进行一个清理和入库
settings.py -> Scrapy项目的设置文件，例如下载延迟，项目管道文件中类的启用以及自定义中间件的启用和顺序
spiders目录 -> 里面只有一个init.py文件，在该目录下定义爬虫类并继承scrapy.Spider。
middlewares.py -> 中间件配置文件

Scrapy爬虫文件 ganji.py 介绍

name = "zufang"：爬虫名字，如果项目中有多个爬虫，最好别重复了

start_urls = ['http://bj.ganji.com/fang1/chaoyang/']：爬虫启动后自动爬取的链接，列表内可以放多个链接

def parse(self, response):：爬虫启动时，爬取链接成功后自动回调的函数，默认parse，参数self和response也是必须的

response.xpath("xpath字符串").extract()：固定格式，如果xpath("")里面不放任何字符串会报错，如果里面的字符串是/结尾，则代码会报错

Scrapy课程链接：http://study.163.com/course/courseMain.htm?courseId=1003666043

Python教程、教程--传送门

网友评论

本文标题：Scrapy简单笔记（一）

本文链接：https://www.haomeiwen.com/subject/rwfgnttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Scrapy简单笔记（一）

Python内置函数 zip() 介绍

对不同长度的列表使用zip函数，以最短的为例，在长列表中截取同短列表长度的数据，再做处理，zip()多个参数如下示例

Scrapy命令交互模式介绍

Scrapy命令交互模式启动

命令交互模式中函数介绍

Scrapy项目爬虫文件说明

Scrapy爬虫文件 ganji.py 介绍

相关文章

Scrapy笔记

scrapy笔记

Scrapy简单笔记（一）

Scrapy笔记

scrapy学习笔记(有示例版）

scrapy爬虫折腾系列-02

scrapy-redis的简单理解及主要参数设定

python3 scrapy_redis 分布式爬取房天下存mo

Scrapy简单笔记（二）

Scrapy简单笔记（三）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python精选

生活不易我用python

Spbeen——Python技术栈