美文网首页
爬虫url 拼接的坑

爬虫url 拼接的坑

作者: chliar | 来源:发表于2018-11-22 17:37 被阅读0次

    前端设置根目录

    <head>
    <base href="http://www.w3school.com.cn/i/" />
    <base target="_blank" />
    </head>
    
    <body>
    <img src="eg_smile.gif" />
    <a href="http://www.w3school.com.cn">W3School</a>
    </body>
    

    scrapy
    可利用urllib 和scrapy中的response.urljoin(url) 去拼接

    from urllib import parse
     url = response.urljoin(u)
     url_path = parse.urlparse(url).path
     url_basename = os.path.basename(url)
    

    相关文章

      网友评论

          本文标题:爬虫url 拼接的坑

          本文链接:https://www.haomeiwen.com/subject/ogxrqqtx.html