美文网首页
爬虫学习总结

爬虫学习总结

作者: 猛寇龙崽 | 来源:发表于2018-10-24 21:30 被阅读0次

断断续续学了一点爬虫,算是入了个门,很多时候对一些基本点还是不够熟悉,特此来总结归纳一下

分析网页数据包

数据来源:构造get请求或post请求,ajax加载

获取原数据方式

urllib库使用较为复杂,而requests相较更为方便,且功能基本包括。
使用requests库根据url等参数请求,判断状态码解决异常处理问题

import requests
from requests.exceptions import RequestException
def get_one_page(url):
    try:#异常处理来增强爬虫的健壮性
        response=requests.get(url)
        if response.status_code==200:#判断请求代码
            return response.txt#此时返回的是源代码,可以返回.content二进制文件形式
        return None
    except RequestException:
        return None

多页爬取是观察规律采用组合url

url='http:www.baidu.com&page='+str(offset)#offset作函数参数传进来
url='链接:%s?offset=%s异常'.format(start_url,i)#利用forma函数

原数据清洗获得数据

利用re(正则)库提取,利用xpath或者css提取,或者转化为字典列表等python数据类型提取
requests.json()直接将json数据转为字典型数据

数据保存

保存为txt,csv文件或者保存到数据库中

相关文章

  • 资料

    Python爬虫系列(一)初期学习爬虫的拾遗与总结(11.4更) Python爬虫学习系列教程 Python爬虫学习手册

  • 3天玩转爬虫,爬取网页数据

    通过实战讲解如何编写爬虫,在实战中学习,最快的学习方法。自己总结的爬虫模板,网络数据任意爬,精华! 3天玩转爬虫,...

  • 如何在一周内学会爬虫?本文详解,百分之九十的人都能用这个学习计划

    python爬虫如何学习?汇集众多程序员学习经验总结出的爬虫最适合大多数人的学习路线分享! 爬虫的一周学习计划: ...

  • Python实战计划学习笔记:week2_1 在MongoDB中

    学习爬虫第二周,对Mongodb进行学习。 代码如下: 运行效果: 数据库情况: 总结: 复习了网页爬虫的相关知识...

  • 爬虫学习总结

    断断续续学了一点爬虫,算是入了个门,很多时候对一些基本点还是不够熟悉,特此来总结归纳一下 分析网页数据包 数据来源...

  • 总结:学习爬虫

    花了10天学习了下爬虫,总结下学习过程中和学习后的感受。 先推荐一本书 《Python 3网络爬虫开发实战 》,作...

  • 假期总结及后半段安排

    总结 考试过后在学习上完成了js,jquery的学习,爬虫学习至Scrapy框架,Scrapy还有scrawl...

  • 爬虫入门学习总结

    最近忙着开学,很久没有写博客,今天难得有时间,就总结一下这段时间对爬虫的学习,以及分享一些比较好的免费入门教程。 ...

  • Python3爬虫总结

    最进一直在学习python爬虫,经过一个多星期的学习,对爬虫基本了解了一点,但是还是很基础,做个总结,加深印象。 ...

  • Python开发简单爬虫(慕课网学习资料总结)

    本文是在慕课网学习Python简单爬虫后做以总结。 视频地址 一、简单爬虫架构 运行流程 1、调度器询问URL管...

网友评论

      本文标题:爬虫学习总结

      本文链接:https://www.haomeiwen.com/subject/namozxtx.html