Python爬虫之入门篇

作者: ShawnDu | 来源:发表于2017-07-21 21:07 被阅读33次

原文地址
Python爬虫之入门篇
什么是爬虫？

A Web crawler, sometimes called a spider, is an Internet bot which systematically browses the World Wide Web, typically for the purpose of Web indexing (web spidering).
Python学习网络爬虫主要分3个大的版块：抓取，分析，存储，要写爬虫，首先要准备以下知识：

Python基础知识
Python中urllib和urllib2库的用法
Python正则表达式，XPath
Python爬虫框架Scrapy
Python爬虫更高级的功能

Python基础知识

爬虫框架Scrapy

我选择的框架是Scrapy框架。这个框架有什么强大的功能呢？官方介绍：

HTML, XML源数据选择及提取的内置支持
提供了一系列在spider之间共享的可复用的过滤器(即 Item Loaders)，对智能处理爬取数据提供了内置支持。
通过 feed导出提供了多格式(JSON、CSV、XML)，多存储后端(FTP、S3、本地文件系统)的内置支持
提供了media pipeline，可以自动下载爬取到的数据中的图片(或者其他资源)。
高扩展性。您可以通过使用 signals ，设计好的API(中间件, extensions, pipelines)来定制实现您的功能。
内置的中间件及扩展为下列功能提供了支持:
cookies and session 处理
HTTP 压缩
HTTP 认证
HTTP 缓存
user-agent模拟
robots.txt
爬取深度限制
针对非英语语系中不标准或者错误的编码声明, 提供了自动检测以及健壮的编码支持。
支持根据模板生成爬虫。在加速爬虫创建的同时，保持在大型项目中的代码更为一致。详细内容请参阅 genspider 命令。
针对多爬虫下性能评估、失败检测，提供了可扩展的状态收集工具。
提供交互式shell终端 , 为您测试XPath表达式，编写和调试爬虫提供了极大的方便
提供 System service, 简化在生产环境的部署及运行
内置 Web service, 使您可以监视及控制您的机器
内置 Telnet终端，通过在Scrapy进程中钩入Python终端，使您可以查看并且调试爬虫
Logging 为您在爬取过程中捕捉错误提供了方便
支持 Sitemaps 爬取
具有缓存的DNS解析器.
可以看一下Python入门网络爬虫之精华版
 原文地址

网友评论

机器学习

本文标题：Python爬虫之入门篇

本文链接：https://www.haomeiwen.com/subject/isfykxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python爬虫之入门篇

Python基础知识

爬虫框架Scrapy

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

机器学习