Scrapy 爬虫入门第一篇--爬虫基础和scrapy安装

作者: mylocal | 来源:发表于2016-03-17 11:10 被阅读0次

scrapy笔记
scrapy入门使用及pycharm远程调试
（大纲37）Python07爬虫第4节、scrapy框架
Scrapy笔记
scrapy爬虫
scrapy折腾系列01
Scrapy爬虫教程五爬虫部署
Scrapy爬虫教程一 Windows下安装Scrapy的方式和
Scrapy爬虫教程二浅析最烦人的反爬虫手段
Scrapy爬虫教程三详细的Python Scrapy模拟登录

刚刚学习爬虫时，么有python基础，么有爬虫基础。由于实习需要，踏上了学习爬虫的旅程，本人菜鸟一枚，本博客多为记录本人的学习过程，同时与大家共同学习~~~~

一、关于基础

本想把python学习完了，再进行scrapy的学习，然而时间紧迫，书本比较枯燥，便决定边学习爬虫，边学习python。刚刚开始时读取了知乎的一个帖子--如何入门python爬虫，相信刚刚学习爬虫的人很多都看到了这个帖子，写的很不错，对我启蒙作用也很大。还有一篇很经典的scrapy轻松定制网络爬虫，把爬虫大概的机制讲的很通俗，并让人想跃跃欲试~~~（那就试试吧）

二、何为网络爬虫

度娘解释：一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。既然名为spider，那么运行起来就很像蜘蛛喽~~

网页之间都存在很多链接，指向着其他页面。一只在互联网上爬的蜘蛛，就是按照一定的规则（由你来指定~）来爬向下一个页面，并把你想要的内容抓下来。For example，你想要把某博主的博客内容抓下来。首先，我们要将一只可爱的spider放到该博主博客的某个页面上，然后spider将该网页从头到尾爬一遍，将该网页上所有该博主的其他博客网址存到包包里（聪明的spider会记得该网页自己是否已经爬过了，如果爬过了就丢掉喽，也就是所谓的去重），如果该网页也有你要的博客的内容，它就把博客的内容抄下来交给你。爬完一个页面之后，spider就会从自己的包包里拿出一个网址，继续进行爬取。

三、scrapy安装

网络爬虫有很多种语言和框架来实现，本人主要是使用python和开源的scrapy。简而言之，爬虫主要分为爬和抓，如何进行高效定向的爬网页和如何抓到有效的信息并进行存储。

下面，主要来研究一下window下的scrapy安装。window下的安装时最为繁琐复杂的，let's go~（此部分下次完善）

网友评论

本文标题：Scrapy 爬虫入门第一篇--爬虫基础和scrapy安装

本文链接：https://www.haomeiwen.com/subject/mgwqlttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Scrapy 爬虫入门第一篇--爬虫基础和scrapy安装

一、关于基础

二、何为网络爬虫

三、scrapy安装

相关文章

scrapy笔记

scrapy入门使用及pycharm远程调试

（大纲37）Python07爬虫第4节、scrapy框架

Scrapy笔记

scrapy爬虫

scrapy折腾系列01

Scrapy爬虫教程五爬虫部署

Scrapy爬虫教程一 Windows下安装Scrapy的方式和

Scrapy爬虫教程二浅析最烦人的反爬虫手段

Scrapy爬虫教程三详细的Python Scrapy模拟登录

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Scrapy 爬虫 入门第一篇--爬虫基础和scrapy安装

一、关于基础

二、何为网络爬虫

三、scrapy安装

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Scrapy 爬虫入门第一篇--爬虫基础和scrapy安装