Python爬虫学前需知

作者: 山禾家的猫 | 来源:发表于2018-12-22 16:32 被阅读3次

Python爬虫学前需知
学前需知
3分钟带你了解世界第一语言Python 入门上手也这么简单！
Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序
Python网络爬虫（七）- 深度爬虫CrawlSpider
Python网络爬虫（二）- urllib爬虫案例
Python网络爬虫（一）- 入门基础
Python网络爬虫（四）- XPath
Python网络爬虫（三）- 爬虫进阶
Python网络爬虫（六）- Scrapy框架

不知道大家有没有和我一样的想法，最开始学习Python的兴趣就是为了爬虫，爬一些好看的妹子图片…

小编推荐大家可以加我的扣扣群 735934841 。里面有海量视频教程和学习资料免费领取，不失为是一个学习的好地方，欢迎你的到来。一起交流学习！共同进步！！

恩，准备进入正题了！最近主要就是在做爬虫教程的一些准备工作，看看爬虫需要用到那些技术，然后做个计划出来,确定一下学习课程中缝,这不今天就先列出一些玩爬虫需要的准备工作!

Python爬虫这门技术你可以做得很简单，你也可以玩得很深入.打比方用简单的爬虫方式爬取1000万条数据可能需要一周时间，但如果你的爬虫玩得比较厉害，你可以采用分布式爬虫技术1天就能完成了1000万条数据。虽然都是爬虫，但这就是菜鸟与大牛的区别！这就和太极拳似的，易学难精！

这里面的技术点挺多的！现在来简单聊聊爬虫需要涉及的知识点。

网页知识

html，js,css，xpath这些知识，虽然简单，但一定需要了解。你得知道这些网页是如何构成的，然后才能去分解他们.

HTTP知识

一般爬虫你需要模拟浏览器的操作，才能去获取网页的信息

如果有些网站需要登录，才能获取更多的资料，你得去登录，你得把登录的账号密码进行提交

有些网站登录后需要保存cookie信息才能继续获取更多资料

正则表达式

有了正则表达式才能更好的分割网页信息，获取我们想要的数据，所以正则表达式也是需要了解的.

一些重要的爬虫库

url,url2

beautiul Soup

数据库

爬取到的数据我们得有个地方来保存，可以使用文件，也可以使用数据库，这里我会使用mysql，还有更适合爬虫的MongoDB数据库，以及分布式要用到的redis 数据库

爬虫框架

PySpider和Scrapy 这两个爬虫框架是非常NB的,简单的爬虫可以使用urllib与urllib2以及正则表达式就能完成，但高级的爬虫还得用这两个框架。这两个框架需要另行安装。后面一起学习.

反爬虫

有时候你的网站数据想禁止别人爬取，可以做一些反爬虫处理操作。打比方百度上就无法去查找淘宝上的数据，这样就避开了搜索引擎的竞争，淘宝就可以搞自己的一套竞价排名

分布式爬虫

使用多个redis实例来缓存各台主机上爬取的数据。

爬虫要学的东西还是挺多的，想把爬虫玩得666，基本就是这些知识点吧！好了，上面的东西我也只是粗略整理，笔误在所难免，后面我们会一起来学习爬虫知识吧！而我也准备做这样一套完整的爬虫系列教程！

最后我们一起来一场愉快的爬虫之旅吧！

网友评论

本文标题：Python爬虫学前需知

本文链接：https://www.haomeiwen.com/subject/tlaikqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python爬虫学前需知

相关文章