python爬虫系列（1）- 概述

python爬虫系列（1）- 概述

作者: 永恒君的百宝箱 | 来源:发表于2019-07-29 12:25 被阅读0次

python爬虫系列（1）- 概述
Python爬虫学习（十六）初窥Scrapy
Python爬虫学习系列教程
资料
python爬虫系列-3
Python爬虫学习之小结（一）
Python网络爬虫实战之十四：Scrapy结合scrapy-s
Python网络爬虫实战之七：动态网页爬取案例实战 Seleni
Python网络爬虫实战之八：动态网页爬取案例实战 Seleni
Python网络爬虫实战之九：Selenium进阶操作与爬取京东

python爬虫系列（1）- 概述

事由

之前间断地写过一些python爬虫的一些文章，如：

工具分享 | 在线小说一键下载

Python帮你定制批量获取智联招聘的信息

Python帮你定制批量获取你想要的信息

用python定制网页跟踪神器，有信息更新第一时间通知你（附视频演示）

把python网页跟踪神器部署到云上，彻底解放你的电脑

个人认为学习python语言的话，爬虫是一个非常适合入门的方向。

为了把学习到的知识比较系统整理一下，永恒君打算写一个系列的文章，把爬虫涉及到的基础知识整理出来，同时把涉及到的一些实例样板也一并整理一下。这样一方面知识比较系统、方便查找，另外一方面也分享给大家，欢迎一块交流学习。

下面是我整理的一个整体图

python 爬虫常见流程.jpg

简单来说，爬虫的流程就是：

请求网页 - 解析网页 - 提取网页数据 - 保存数据

简单实例

下面就是一个简单的例子，实现的效果是访问http://www.yhjbox.com网站，提取网站的标题，保存在title.txt文件中。

import requests
from lxml import etree

url = 'http://www.yhjbox.com'
data = requests.get(url) #请求网页

html = etree.HTML(data.text)#解析网页
title = html.xpath('/html/head/title/text()') #提取网页数据

print(title)#打印title的内容

with open('title.txt','a') as f: #保存数据到txt文件中
    f.write(title[0])

程序运行结果.png

简单吧，只有区区9行代码。

后续永恒君会按照上面流程图的内容，把我认为爬虫过程中比较常见、重要的环节内容整理分享出来，同时也尽可能的把样板代码也附上。

欢迎各位的交流和宝贵意见！

相关文章

python爬虫系列（1）- 概述
python爬虫系列（1）- 概述事由之前间断地写过一些python爬虫的一些文章，如：工具分享 | 在线小...
Python爬虫学习（十六）初窥Scrapy
Python爬虫学习（一）概述Python爬虫学习（二）urllib基础使用Python爬虫学习（三）urllib...
Python爬虫学习系列教程
转自: 静觅»Python爬虫学习系列教程 Python爬虫学习系列教程 Python版本：2.7 一、爬虫入门 ...
资料
Python爬虫系列（一）初期学习爬虫的拾遗与总结（11.4更） Python爬虫学习系列教程 Python爬虫学习手册
python爬虫系列-3
1.系列文章列表 python爬虫系列-1python爬虫系列-2 源码本篇是第三篇文章解决上篇文章的三个问题....
Python爬虫学习之小结（一）
到目前为止，Python爬虫学习已经写了八篇文章，分别是： Python爬虫学习（一）概述Python爬虫学习（二...
Python网络爬虫实战之十四：Scrapy结合scrapy-s
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之七：动态网页爬取案例实战 Seleni
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之八：动态网页爬取案例实战 Seleni
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之九：Selenium进阶操作与爬取京东
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...

网友评论

本文标题：python爬虫系列（1）- 概述

本文链接：https://www.haomeiwen.com/subject/trtbrctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|python爬虫系列（1）- 概述|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！