美文网首页
Python小脚本-爬取补天厂商列表

Python小脚本-爬取补天厂商列表

作者: 重剑不工 | 来源:发表于2017-08-03 20:42 被阅读104次

    采用Python第三方模块requests与beautifulsoup,可实现简单的爬虫功能;若需要复杂功能,可采用scrapy爬虫框架。

    #-*- coding: utf-8 -*-
    import requests,re
    from bs4 import BeautifulSoup
    import sys
    
    reload(sys) #重载sys模块
    sys.setdefaultencoding('utf-8') #设置默认编码格式为utf-8,这个是为了将结果重定向到文件中,可选择。
    
    for i in range(1,138):
        url = 'https://butian.360.cn/company/lists/page/' + str(i)
        r = requests.get(url)
        r.encoding = 'utf-8' #设置编码格式为utf-8,与网页保持一致,正确显示中文
        soup = BeautifulSoup(r.text, "lxml")
        for tag in soup.find_all(href=re.compile("^/company/info/id/")): #观察网页格式
            print tag.string, #获取厂商名称
            print ",",
            print tag.find_next().string # 获取厂商地址
    

    相关文章

      网友评论

          本文标题:Python小脚本-爬取补天厂商列表

          本文链接:https://www.haomeiwen.com/subject/tqlkittx.html