采用Python第三方模块requests与beautifulsoup,可实现简单的爬虫功能;若需要复杂功能,可采用scrapy爬虫框架。
#-*- coding: utf-8 -*-
import requests,re
from bs4 import BeautifulSoup
import sys
reload(sys) #重载sys模块
sys.setdefaultencoding('utf-8') #设置默认编码格式为utf-8,这个是为了将结果重定向到文件中,可选择。
for i in range(1,138):
url = 'https://butian.360.cn/company/lists/page/' + str(i)
r = requests.get(url)
r.encoding = 'utf-8' #设置编码格式为utf-8,与网页保持一致,正确显示中文
soup = BeautifulSoup(r.text, "lxml")
for tag in soup.find_all(href=re.compile("^/company/info/id/")): #观察网页格式
print tag.string, #获取厂商名称
print ",",
print tag.find_next().string # 获取厂商地址
网友评论