美文网首页程序员python 高级码农成才之路
Scrapy-Shell的用法以及request和respons

Scrapy-Shell的用法以及request和respons

作者: 幼姿沫 | 来源:发表于2020-12-19 15:31 被阅读0次

    ①  Shell方法查找网页数据

    shell介绍

    可方便的提供我们做一些测试提取数据  如果想要提取网络数据网页可以在任意地方均可执行

    如果想要在具体文件或者项目配置信息执行,先进入命令中在执行scrapy  shell 命令   scrapy shell  url

    shell

    使用爬虫提取数据的时候用xpath或者bs4和re正则表达式提取数据  在scrapy框架中用shell 来方便测试提取数据 可以像爬虫中的parse方法一样

    以下两种方法均可找到网页中的具体内容数据

    response.text response.body

    ②用bs4来查找网页数据

    from bs4 import  BeautifulSoup

    soup=BeautifulSoup(response.text,'lxml')

    title_tag=soup.find('h1',attrs={'class':'ph'})

    title_tag=soup.find('h1',attrs={'class':'ph'})

    ③request和response的区别

    request对象在我们写爬虫爬取一页数据的时候来请求网址

    参数:

    url网址  

    callback  回调函数

    method  请求方法

    headers 请求头

    meta  传递数据

    encoding 编码

    dot_filter   不由调度器过滤

    errback 错误时执行的函数

    response 响应对象用来提取数据

    属性为:

    meta  多个请求之间的数据连接

    encoding  编码解码格式

    text  字符串

    body  字节码格式

    xpath  提取数据

    css  css选择器

    发送request请求 

    scrapy.Request(url)  一般为Get请求 

    当要请求Post方法的时候用request的子类FormRequest表单请求

    一般存储用户名密码用来登录

    如果想要在一开始的时候后使用Post请求就必须在爬虫类中重写start_request(self)

    并且不再调用start_url中的url


    相关文章

      网友评论

        本文标题:Scrapy-Shell的用法以及request和respons

        本文链接:https://www.haomeiwen.com/subject/tkiqnktx.html