① Shell方法查找网页数据
shell介绍
可方便的提供我们做一些测试提取数据 如果想要提取网络数据网页可以在任意地方均可执行
如果想要在具体文件或者项目配置信息执行,先进入命令中在执行scrapy shell 命令 scrapy shell url
shell
使用爬虫提取数据的时候用xpath或者bs4和re正则表达式提取数据 在scrapy框架中用shell 来方便测试提取数据 可以像爬虫中的parse方法一样
以下两种方法均可找到网页中的具体内容数据
response.text
response.body
②用bs4来查找网页数据
title_tag=soup.find('h1',attrs={'class':'ph'})from bs4 import BeautifulSoup
soup=BeautifulSoup(response.text,'lxml')
title_tag=soup.find('h1',attrs={'class':'ph'})
③request和response的区别
request对象在我们写爬虫爬取一页数据的时候来请求网址
参数:
url网址
callback 回调函数
method 请求方法
headers 请求头
meta 传递数据
encoding 编码
dot_filter 不由调度器过滤
errback 错误时执行的函数
response 响应对象用来提取数据
属性为:
meta 多个请求之间的数据连接
encoding 编码解码格式
text 字符串
body 字节码格式
xpath 提取数据
css css选择器
发送request请求
scrapy.Request(url) 一般为Get请求
当要请求Post方法的时候用request的子类FormRequest表单请求
一般存储用户名密码用来登录
如果想要在一开始的时候后使用Post请求就必须在爬虫类中重写start_request(self)
并且不再调用start_url中的url
网友评论