断断续续学了一点爬虫,算是入了个门,很多时候对一些基本点还是不够熟悉,特此来总结归纳一下
分析网页数据包
数据来源:构造get请求或post请求,ajax加载
获取原数据方式
urllib库使用较为复杂,而requests相较更为方便,且功能基本包括。
使用requests库根据url等参数请求,判断状态码解决异常处理问题
import requests
from requests.exceptions import RequestException
def get_one_page(url):
try:#异常处理来增强爬虫的健壮性
response=requests.get(url)
if response.status_code==200:#判断请求代码
return response.txt#此时返回的是源代码,可以返回.content二进制文件形式
return None
except RequestException:
return None
多页爬取是观察规律采用组合url
url='http:www.baidu.com&page='+str(offset)#offset作函数参数传进来
url='链接:%s?offset=%s异常'.format(start_url,i)#利用forma函数
原数据清洗获得数据
利用re(正则)库提取,利用xpath或者css提取,或者转化为字典列表等python数据类型提取
requests.json()直接将json数据转为字典型数据
数据保存
保存为txt,csv文件或者保存到数据库中
网友评论