美文网首页
第一个 Python 程序:爬图片

第一个 Python 程序:爬图片

作者: 小青蛙的花 | 来源:发表于2017-06-08 18:14 被阅读73次

    写在前面

    估计很多人学习 Python 的目的应该和我一样,都是为了学会爬网络资源,感觉会这个吊吊的。看了一些各路大神的博客资料感觉都很厉害,但是无奈我对 Python 一无所知,于是开始在网上搜一些 Python 入门教程。看了知乎大神的回复觉得还是很有道理的,跟我的想法差不多,学习 Python 最好一开始就找一些项目做,需要用到哪些知识再去学习,这样你会知道每一个知识点怎么用。这里就不推荐了,毕竟我也是小白,如果你实在不知道怎么学,就看看下面两个吧:

    菜鸟教程 廖雪峰

    不废话了,下面开始今天的主题:煎蛋网妹子图爬取

    准备工作

    1. 安装Python 我用的 mac book,自带的是2.6的版本,于是安装了2.7了。还有 pip 的安装。
      如果你不知道安装了没有,就在命令行敲下面命令,如果输出版本号就是已经安装了
    Mac-Book-Pro:$ python --version
    Python 2.7.13
    Mac-Book-Pro:$ pip --version
    pip 9.0.1 from /Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages (python 2.7)
    
    1. 安装一款 Python IDE 这里用的是 pyCharm


      屏幕快照 2017-06-08 16.52.53.png
    2. 用 Firefox F12分析 煎蛋网HTML,找到我们需要的信息
      <li id="comment-3471915">
      <div>
      <div class="row">

                       <div class="author"><strong
                               title="防伪码:0fd87a7301bb95109c4bdb042e4912d14371ef75" class="">hehe</strong>                            <br>
                           <small><a href="#footer" title="@回复"
                                     onclick="document.getElementById('comment').value += '@<a href="http://jandan.net/ooxx/page-99#comment-3471915">hehe</a>: '">@14 mins ago</a></span></small>
                       </div>
                       <div class="text"><span class="righttext"><a href="http://jandan.net/ooxx/page-99#comment-3471915">3471915</a></span><p><a href="//wx3.sinaimg.cn/large/a82b014bly1fgdvr9so8jg20dw0691kx.gif" target="_blank" class="view_img_link">[查看原图]</a><br />![](//wx3.sinaimg.cn/thumb180/a82b014bly1fgdvr9so8jg20dw0691kx.gif)</p>
                       </div>
                       <div class="jandan-vote">
                           <a title="圈圈/支持" href="javascript:;" class="comment-like like" data-id="3471915" data-type="pos">OO</a> [<span>7</span>]
                           <a title="叉叉/反对" href="javascript:;" class="comment-unlike unlike" data-id="3471915" data-type="neg">XX</a> [<span>0</span>]
      
                           <a href="javascript:;" class="tucao-btn" data-id="3471915"> 吐槽 [2] </a>
                       </div>
                   </div>
               </div>
           </li>```
      

    敲代码了

    下边代码可以运行,但是需要手动修改图片的保存地址

    # coding=utf-8
    
    import requests
    import urllib2
    import os
    from lxml import etree
    

    这里有些库文件是要自己手动下载的,例如提示找不到 lxml 就需要自己下载
    可以在命令行输入 pip install lxml,也可以在 IDE 里边安装,在 IDE 安装的
    时候回碰到一些问题,比如找不到pip,如果你已经安装了,首先找到安装的地址,可以输入命令 which pip

    Mac-Book-Pro:$ which pip
    /Library/Frameworks/Python.framework/Versions/2.7/bin/pip
    

    找到下图的位置


    屏幕快照 2017-06-08 17.58.49.png

    点击下图中路径后面的小三角找到你安装 Python 的途径,相信你已经看到下面的文件了,对,这就是已经安装的库文件,上面说的添加库文件就在这里。点击最下面的加号按钮


    屏幕快照 2017-06-08 17.59.04.png

    在下图输入你要安装的库名,点击最下面的 install 等待安装即可


    屏幕快照 2017-06-08 17.59.27.png
    #刚学习还不知道怎么拿到最大页数,于是自己手动填写的
    page = str('99')
    
    def getHtml():
        #这个 url 就是分析 HTML 的得到的,改变页数就可以加载不同的图片
        html = requests.get("http://jandan.net/ooxx/page-" + page + "#comments")
        html.encoding = 'utf-8'
    
        #下面两句拿到 HTML 里边所有图片的链接
        selector = etree.HTML(html.text)
        urlarr = selector.xpath('//ol[@class = "commentlist"]//@src')
    
        #for 循环拿到所有图片url,并且保存到本地
        for imgurl in urlarr:
            name = imgurl[-9:]
            os.chdir(r"保存图片的地址,自己修改")
            header = {
                'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                              'Chrome/35.0.1916.114 Safari/537.36',
                # 'Cookie': 'AspxAutoDetectCookieSupport=1'
            }
            request = urllib2.Request('http:' + imgurl, None,
                                      header)  # 刻意增加头部header,否则本行与下一行可以写为:response = urllib2.urlopen(imgurl)
            response = urllib2.urlopen(request)
            f = open(name, 'wb')
            f.write(response.read())
            f.close()
            print(imgurl)
    #程序入口
    if __name__ == '__main__':
        #这里只做两次循环演示
        for num in range(0, 2):
            pagenumber = int(page)
            print (pagenumber)
            if pagenumber > 97:
                getHtml()
                pagenumber -= 1
                page = str(pagenumber)
                print (page)
            else:
                break
    
    
    

    虽然写的很基础,也许很多人不屑。但是作为一个小白,最重要的就是培养信心,而信心是每一次细小的成功慢慢积累起来的。自己能写出来还是很欣慰的,需要学习的东西也很多,继续努力吧!

    只有学习才能让我快乐,学习不易,且学且珍惜!

    zkwgq.jpg

    相关文章

      网友评论

          本文标题:第一个 Python 程序:爬图片

          本文链接:https://www.haomeiwen.com/subject/qfstqxtx.html