美文网首页
通过UIbot抓取京东商品链接

通过UIbot抓取京东商品链接

作者: 墨垣 | 来源:发表于2019-07-30 22:13 被阅读0次

    凡是用过UIBot的用户,应该都会试过运行UIBot自带的《京东商品抓取》脚本。

    但是这个脚本使用自带的数据抓取功能,只能抓取商品、链接、价格等信息, 有些用户想抓取链接就比较犯难了。

    实际上,UIBot的数据抓取功能是能抓取京东商品的链接,只是因为商品信息的div标签把title跟href合在了一起,这个抓取功能解析的时候比较傻,只解析到了title,没有解析到url,所以只需要修改一下抓取后目标栏里的json即可实现抓取标题以及url。

    关键在 "props": ["url"]这段里面。

    这是完整的句子, 可以获取商品标题/商品价格/商品的链接

    
    {
        "Columns": [{
            "props": ["text"],
            "selecors": [{
                "className": "gl-warp clearfix",
                "index": 0,
                "prefix": "",
                "tag": "ul",
                "value": "ul.gl-warp.clearfix"
            }, {
                "index": 0,
                "prefix": ">",
                "tag": "li",
                "value": "li"
            }, {
                "className": "gl-i-wrap",
                "index": 0,
                "prefix": ">",
                "tag": "div",
                "value": "div.gl-i-wrap"
            }, {
                "className": "p-name p-name-type-2",
                "index": 0,
                "prefix": ">",
                "tag": "div",
                "value": "div.p-name.p-name-type-2"
            }, {
                "className": "",
                "index": 0,
                "prefix": ">",
                "tag": "a",
                "value": "a"
            }, {
                "className": "",
                "index": 0,
                "prefix": ">",
                "tag": "em",
                "value": "em"
            }]
        }, {
            "props": ["text"],
            "selecors": [{
                "className": "gl-warp clearfix",
                "index": 0,
                "prefix": "",
                "tag": "ul",
                "value": "ul.gl-warp.clearfix"
            }, {
                "index": 0,
                "prefix": ">",
                "tag": "li",
                "value": "li"
            }, {
                "className": "gl-i-wrap",
                "index": 0,
                "prefix": ">",
                "tag": "div",
                "value": "div.gl-i-wrap"
            }, {
                "className": "p-price",
                "index": 0,
                "prefix": ">",
                "tag": "div",
                "value": "div.p-price"
            }, {
                "index": 0,
                "prefix": ">",
                "tag": "strong",
                "value": "strong"
            }, {
                "className": "",
                "index": 0,
                "prefix": ">",
                "tag": "i",
                "value": "i"
            }]
        }, {
            "props": ["url"],
            "selecors": [{
                "className": "gl-warp clearfix",
                "index": 0,
                "prefix": "",
                "tag": "ul",
                "value": "ul.gl-warp.clearfix"
            }, {
                "index": 0,
                "prefix": ">",
                "tag": "li",
                "value": "li"
            }, {
                "className": "gl-i-wrap",
                "index": 0,
                "prefix": ">",
                "tag": "div",
                "value": "div.gl-i-wrap"
            }, {
                "className": "p-name p-name-type-2",
                "index": 0,
                "prefix": ">",
                "tag": "div",
                "value": "div.p-name p-name-type-2"
            }, {
                "index": 0,
                "prefix": ">",
                "tag": "a",
                "value": "a"
            }]
        }],
        "ExtractTable": 0
    }
    

    下面是获取链接的数据原

     {
            "props": ["url"],
            "selecors": [{
                "className": "gl-warp clearfix",
                "index": 0,
                "prefix": "",
                "tag": "ul",
                "value": "ul.gl-warp.clearfix"
            }, {
                "index": 0,
                "prefix": ">",
                "tag": "li",
                "value": "li"
            }, {
                "className": "gl-i-wrap",
                "index": 0,
                "prefix": ">",
                "tag": "div",
                "value": "div.gl-i-wrap"
            }, {
                "className": "p-name p-name-type-2",
                "index": 0,
                "prefix": ">",
                "tag": "div",
                "value": "div.p-name p-name-type-2"
            }, {
                "index": 0,
                "prefix": ">",
                "tag": "a",
                "value": "a"
            }]
        }
    

    相关文章

      网友评论

          本文标题:通过UIbot抓取京东商品链接

          本文链接:https://www.haomeiwen.com/subject/nknorctx.html