爬虫篇(一)

作者: 红炉点雪hi | 来源:发表于2017-12-01 20:40 被阅读20次

爬虫篇(一)
Python 爬虫第三篇（循环爬取多个网页）
电子书单列表
Python爬虫学习之小结（一）
Golang实现简单爬虫框架（2）——单任务版爬虫
python使用scrapy爬表格，爬虫中级
Python爬虫从0开始学（1）
Java网络爬虫实操（9）
Java 网络爬虫，就是这么的简单
爬虫技术(二)－新的思路

爬虫篇只会对简单的爬虫进行介绍，只是为了学习数据分析时方便采集数据。
所以下面关于爬虫的内容将只会围绕urllib2、re这两个库开展

首先我们要对爬虫有一个大体的概念，爬虫是什么呢？
其实就是一个简单的网页下载(这里的说法存在一定的问题但是利于初学者理解)
我们打开百度的首页。

image.png

这是它首页的样子，我们可以，之后我们可以在当前这个页面右击，选择——查看网页源代码。在打开的新页面中我们可以看到这样的界面。

image.png
它最开始可能会有很多的空行。
在这个页面上显示的内容将会是我们的爬虫爬取下来的内容。

接下来我们开始着手爬虫的编写。

import urllib2
html = urllib2.urlopen('http://www.baidu.com')

这样我们就得到了这个页面，输出html的结果是这样的。

image.png

这输出的是一个对象，我们需要将这个对象转换成我们能够读的懂得内容，我们只需要用html.read()即可。
这是完整的代码截图。

image.png
这就是最基本的一个爬虫是不是很简单？
那么我们现在来具体的解释一下这个代码。

urllib2是python自带的一个访问网页及本地文件的库。
现阶段我们不需要去理会它的访问本地文件的功能，我们着重关心的是它访问网页的功能。
我们在上面的代码中使用的urlopen方法就是直接打开某个网页，这个过程就好像是我们在浏览器的地址栏中直接输入百度的地址，这个时候它会返回一个对象，这个对象我们在上面已经输出过给大家看了，它并不是我们右击选择查看网页源代码看到的代码，这个时候我们只需要在这串代码后面加上.read()，就可以把这个对象转换成字符串，大家可以自己写写代码看看。

网友评论

本文标题：爬虫篇(一)

本文链接：https://www.haomeiwen.com/subject/cgawbxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

爬虫篇(一)

相关文章

爬虫篇(一)

Python 爬虫第三篇（循环爬取多个网页）

电子书单列表

Python爬虫学习之小结（一）

Golang实现简单爬虫框架（2）——单任务版爬虫

python使用scrapy爬表格，爬虫中级

Python爬虫从0开始学（1）

Java网络爬虫实操（9）

Java 网络爬虫，就是这么的简单

爬虫技术(二)－新的思路

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python大数据学习日记

大数据爬虫Python AI Sql

爬虫专题