爬虫篇(一)

作者: 红炉点雪hi | 来源:发表于2017-12-01 20:40 被阅读20次

    爬虫篇只会对简单的爬虫进行介绍,只是为了学习数据分析时方便采集数据。
    所以下面关于爬虫的内容将只会围绕urllib2、re这两个库开展

    首先我们要对爬虫有一个大体的概念,爬虫是什么呢?
    其实就是一个简单的网页下载(这里的说法存在一定的问题但是利于初学者理解)
    我们打开百度的首页。


    image.png

    这是它首页的样子,我们可以,之后我们可以在当前这个页面右击,选择——查看网页源代码。在打开的新页面中我们可以看到这样的界面。


    image.png
    它最开始可能会有很多的空行。
    在这个页面上显示的内容将会是我们的爬虫爬取下来的内容。

    接下来我们开始着手爬虫的编写。

    import urllib2
    html = urllib2.urlopen('http://www.baidu.com')
    

    这样我们就得到了这个页面,输出html的结果是这样的。


    image.png

    这输出的是一个对象,我们需要将这个对象转换成我们能够读的懂得内容,我们只需要用html.read()即可。
    这是完整的代码截图。


    image.png
    这就是最基本的一个爬虫是不是很简单?
    那么我们现在来具体的解释一下这个代码。

    urllib2是python自带的一个访问网页及本地文件的库。
    现阶段我们不需要去理会它的访问本地文件的功能,我们着重关心的是它访问网页的功能。
    我们在上面的代码中使用的urlopen方法就是直接打开某个网页,这个过程就好像是我们在浏览器的地址栏中直接输入百度的地址,这个时候它会返回一个对象,这个对象我们在上面已经输出过给大家看了,它并不是我们右击选择查看网页源代码看到的代码,这个时候我们只需要在这串代码后面加上.read(),就可以把这个对象转换成字符串,大家可以自己写写代码看看。

    相关文章

      网友评论

        本文标题:爬虫篇(一)

        本文链接:https://www.haomeiwen.com/subject/cgawbxtx.html