Python小脚本-爬取补天厂商列表

作者: 重剑不工 | 来源:发表于2017-08-03 20:42 被阅读104次

采用Python第三方模块requests与beautifulsoup，可实现简单的爬虫功能；若需要复杂功能，可采用scrapy爬虫框架。

#-*- coding: utf-8 -*-
import requests,re
from bs4 import BeautifulSoup
import sys

reload(sys) #重载sys模块
sys.setdefaultencoding('utf-8') #设置默认编码格式为utf-8，这个是为了将结果重定向到文件中，可选择。

for i in range(1,138):
    url = 'https://butian.360.cn/company/lists/page/' + str(i)
    r = requests.get(url)
    r.encoding = 'utf-8' #设置编码格式为utf-8，与网页保持一致，正确显示中文
    soup = BeautifulSoup(r.text, "lxml")
    for tag in soup.find_all(href=re.compile("^/company/info/id/")): #观察网页格式
        print tag.string, #获取厂商名称
        print ",",
        print tag.find_next().string # 获取厂商地址