美文网首页
字节写的爬虫框架文档

字节写的爬虫框架文档

作者: 魔童转世 | 来源:发表于2020-11-19 17:12 被阅读0次
{
    "db":{
        "username":"root",
        "password":"123456",
        "localhost":"localhost",
        "database":"testaa"
    },
    "headers":"",
    "plugin":[
    
    ],
    "rules":[
        "书"
    ],
    "书":{
        "type":"html",
        "url":"http://www.fanqiexs.cc/sort1/1.html",
        "tablename":"my_book",
        "where":"",
        "page":{
            "regexp":"",
            "index":1
        },
        "fields_list":[
            {
                "tablename":"classification",
                "where":"name",
                "xpath":"/html/body/nav/ul/li[position()>1 and position()<12]",
                "fields":[
                    {
                        "field":"name",
                        "xpath":"./a/text()",
                        "filter":[
                            {
                                "type":"1",
                                "old":"",
                                "new":"",
                                "regexp":""
                            }
                        ]
                    }
                ],
                "children":[
                    
                ]
            }
            
        ],
        "fields":[
            {
                "field":"name",
                "xpath":"./a/text()",
                "filter":[
                    {
                        "type":"1",
                        "old":"",
                        "new":"",
                        "regexp":""
                    }
                ]
            },
            {
                "field":"url",
                "xpath":"./a/@href",
                "filter":[
                    {
                        "type":"1",
                        "old":"",
                        "new":"",
                        "regexp":""
                    }
                ]
            }
        ],
        "children":[
            
        ]
    }
}

db

通过连接mysql数据库,获取数据库的表名字,以及表字段类型为插入数据做准备

headers

自定义请求头,可以添加cookie等信息

rules

规则

  • type html 或者json

  • url 每次请求的url url配置可以使用上层配置的字段比如上层配置{'name':1},可以在url中用&name& 代替1

  • tablename 要出入的数据表名字

  • where 插入之前的去重字段 多个用“|”隔开

  • xpath 如果想要获取的信心一个xpath不能够完全获取,可以写入多个,

    • xpath 通过xpath 获取要得到的数据,可以通过google快速获取xpath 通过$x('//*')验证
    • page 如果配置regexp将通过正则去替换url,如果不填写regexp index 请默认为1,代码会拼接url+index
  • fields 数据库要存入的字段,或者自己想要记录的变量

    • field 数据库字段名字 或者自己定义名字
    • xpath ./
    • filter 字符串过滤规则
      • type 1 代表替换old为new 2代表正则替换
      • regexp 正则表达式
  • children 子规则

plugin

插件里面是个数组可以配置多个插件,如果多个插件里面方法一样,以第一个插件为准比如:a插件有个方法geturl b插件也有个方法geturl,那么会以第一个插件为准
插件支持的方法如下

1. cheackdbvalue

获取到的数据和数据库比较是否能够入库

参数

  • fileddic 获取到的数据 字典类型
  • tablename 数据库表名字 字符串类型

返回数据

  • 字典类型 数据库要储存的信息{'id':1,'name':"张三"}

2. db_repeat

判断数据库是否有重复数据

参数

  • item 配置文件里面表的配置where同级 字典类型
  • fileddic 数据库表明(cheackdbvalue返回的数据) 字典类型

返回数据

  • true(有重复数据) 或者false

3. geturl

每次请求前调用此方法

参数

  • url 配置文件里的url
  • currut_page 当前请求页数,第一页currut_page=1
  • page 配置文件里的page
  • tablename 数据库表名字 字符串类型
  • oldfiledata 上层获取到的字段数据

返回数据

  • url 字符串

4. myrequest

请求url方法

参数

  • url geturl后的url
  • headers 请求头

返回数据

  • html 字符串

5. filter_field

从xpath 里面提取每个字段的数据

参数

  • item 每个字段的配置信息
  • html 当前xpath
  • encoding 编码
  • tablename 数据库表名字 字符串类型

返回数据

  • html 字符串

相关文章

  • 字节写的爬虫框架文档

    db 通过连接mysql数据库,获取数据库的表名字,以及表字段类型为插入数据做准备 headers 自定义请求头,...

  • 使用scrapy框架实现简书页面数据爬取

    scrapy框架是基于python的一个爬虫框架,官方文档链接:https://doc.scrapy.org/en...

  • 使用feapder开发爬虫是怎样的体验

    之前,我们写爬虫,用的最多的框架莫过于scrapy啦,今天我们用最近新出的爬虫框架feapder来开发爬虫,看下是...

  • python爬虫——scrapy框架总结

    Scrapy是用python写的一个爬虫框架,当然如果只是写一些简单爬虫,python自己就有做爬虫的库,scra...

  • Python爬虫之Pyspider框架环境搭建

    首先放上pyspider爬虫框架的项目地址和文档地址: https://github.com/binux/pysp...

  • QUANTAXIS.SPIDER 爬虫部分

    QUANTAXIS 爬虫部分 目前的QUANTAXIS爬虫是用python的scrapy框架写的,为了运行Java...

  • Scrapy框架学习1

    scrapy爬虫框架结构 爬虫框架 爬虫框架是实现爬虫功能的一个软件结构和功能组件的集合 爬虫框架是一个半成品...

  • Scrapy框架之新建Scrapy项目详解

    前言 从这篇开始,带大家通过 Scrapy 框架来写爬虫,相比之前写的爬虫脚本,用上 Scrapy 才更像一个爬虫...

  • klein基本使用

    klein文档klein是一个小型的web框架,在服务器运行爬虫脚本的时候,可能没办法监测爬虫状态,使用Klein...

  • Scrapy爬虫框架

    Scrapy是一个著名的爬虫框架,以前写爬虫都是用Python写那种特别原生低级的爬虫,一般都是以单线程为主,但是...

网友评论

      本文标题:字节写的爬虫框架文档

      本文链接:https://www.haomeiwen.com/subject/wusliktx.html