爬虫学习总结

作者: 猛寇龙崽 | 来源:发表于2018-10-24 21:30 被阅读0次

资料
3天玩转爬虫,爬取网页数据
如何在一周内学会爬虫?本文详解,百分之九十的人都能用这个学习计划
Python实战计划学习笔记：week2_1 在MongoDB中
爬虫学习总结
总结：学习爬虫
假期总结及后半段安排
爬虫入门学习总结
Python3爬虫总结
Python开发简单爬虫（慕课网学习资料总结）

断断续续学了一点爬虫，算是入了个门，很多时候对一些基本点还是不够熟悉，特此来总结归纳一下

分析网页数据包

数据来源：构造get请求或post请求，ajax加载

获取原数据方式

urllib库使用较为复杂，而requests相较更为方便，且功能基本包括。
使用requests库根据url等参数请求，判断状态码解决异常处理问题

import requests
from requests.exceptions import RequestException
def get_one_page(url):
    try:#异常处理来增强爬虫的健壮性
        response=requests.get(url)
        if response.status_code==200:#判断请求代码
            return response.txt#此时返回的是源代码，可以返回.content二进制文件形式
        return None
    except RequestException:
        return None

多页爬取是观察规律采用组合url

url='http:www.baidu.com&page='+str(offset)#offset作函数参数传进来
url='链接:%s?offset=%s异常'.format(start_url,i)#利用forma函数

原数据清洗获得数据

利用re(正则)库提取，利用xpath或者css提取，或者转化为字典列表等python数据类型提取
requests.json()直接将json数据转为字典型数据

数据保存

保存为txt，csv文件或者保存到数据库中

网友评论

本文标题：爬虫学习总结

本文链接：https://www.haomeiwen.com/subject/namozxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

爬虫学习总结

分析网页数据包

获取原数据方式

原数据清洗获得数据

数据保存

相关文章

资料

3天玩转爬虫,爬取网页数据

如何在一周内学会爬虫?本文详解,百分之九十的人都能用这个学习计划

Python实战计划学习笔记：week2_1 在MongoDB中

爬虫学习总结

总结：学习爬虫

假期总结及后半段安排

爬虫入门学习总结

Python3爬虫总结

Python开发简单爬虫（慕课网学习资料总结）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读