美文网首页程序员
Python之dmzj漫画搜索爬虫(三)

Python之dmzj漫画搜索爬虫(三)

作者: 浅浅的笑意 | 来源:发表于2017-07-15 17:01 被阅读0次

    上回我们讲到了dmzj漫画搜索爬虫(二),紧接着上一回的代码,我们继续进行深入的爬取分析,完成对于漫画的图片爬取。



    图片爬取

    首先,我们以第一话作为分析。如下图所示:

    漫画第一话
    然后分析它的dom节点,看看漫画的图片具体链接。但是我们尝试右键会发现并不能定位,动漫之家禁止了右键检查功能。于是,我们只能直接按F12强行打开调试功能。随后通过DOM点击定位页面的功能,一步步查看具体的页面。
    第一页的图片DOM
    虽然我们从图中可以看出第一页的漫画的图片的URL以及它的DOM节点名称(page_1),但是这毕竟是浏览器渲染完成之后的页面。为了验证这个DOM节点是否存在。
    搜索DOM
    我们尝试在HMTL中搜索图片的DOM节点,但是发现并没有存在,证明了漫画的图片是靠JavaScript在渲染阶段进行动态插入进去的。得出这样的结论后,我们就需要细致分析一下页面渲染的过程。
    XHR异步请求
    我们打开Network Tab页,然后重新刷新页面,监控整个请求流程。这时,我们假想图片的具体URL是通过Ajax异步请求的,于是打开XHR 过滤,以验证我们的猜想,然后事实证明并不是如此。
    根据我以往的简单猜测,一般数据的来源方式,主要有:
    • 异步请求数据(常常为Json数据)
    • 加密混淆过藏在HTML文件中
    • 其他暂时没接触过
    可疑的JavaScript代码 可疑的eval函数

    首先,我们在next_pages中看到了下页图片的URL,为了简单起见,就不验证了。有兴趣的小伙伴可以去看看,确实是下一页的图片URL。这里我们主要关注的是var arr_pages = eval(pages);,其中的pages变量让人在意。

    可疑的eval代码片段

    在蓝色部分,我们比较在意的就是这个eval里面的东西,明显可以看出里面的内容是经过混淆过的。我们通过代码整理,并稍作更改,让eval的结果可以呈现出来。

    更改和整理后的代码 放到Console中的运行结果

    然后我们就可以清晰的看到了pages变量的具体数据内容。可能数据还不太清楚,我们将第一条提取出来,和DOM节点中的数据进行对比。

    结果对比
    发现其中的数据一模一样,pages中只是少了标准的HTTP前缀而已。因此,我们的目标很明显了,就是获取其中的pages变量。那么如何获取呢,这就要靠Python中的execjs库了(可能还有其他方式,但是为了简便,就直接采用这个库)。

    execjs采用pip install pyexecjs安装。
    为了减少请求,我们使用上一节json结果文件来进行最后一步的请求。

    代码

    # -*- coding: utf-8 -*-
    
    import requests
    import json
    from lxml import etree
    import execjs
    import os
    import click
    
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36',
        'Referer': 'http://www.dmzj.com/category'
    }
    
    PREIX = 'http://images.dmzj.com/'
    
    
    def get_request(info):
        response = requests.get(info['href'], headers=headers)
        try:
            html = etree.HTML(response.content)
            script_content = html.xpath('//script[1]/text()')[0]
            vars = script_content.strip().split('\n')
            parse_str = vars[2].strip()  # 取到eval()
            parse_str = parse_str.replace('function(p,a,c,k,e,d)', 'function fun(p, a, c, k, e, d)')
            parse_str = parse_str.replace('eval(', '')[:-1]  # 去除eval
            fun = """
                    function run(){
                        var result = %s;
                        return result;
                    }
                """ % parse_str  # 构造函数调用产生pages变量结果
            pages = execjs.compile(fun).call('run')
            url_list = []       
            if 'shtml' in response.request.url:
                datas = pages.split('=')[2][1:-2]  # json数据块 var pages=pages=[]
                url_list = json.JSONDecoder().decode(datas)  # 解码json数据
            elif 'html' in response.request.url:
                datas = pages.split('=')[1][1:-2]  # var pages={}
                url_list = json.JSONDecoder().decode(datas)['page_url'].split('\r\n')
            headers['Referer'] = info['href']
            if not os.path.exists('./downloads'):
                os.mkdir('./downloads')
            for index, url in enumerate(url_list):
                img = requests.get(PREIX + url, headers=headers)
                import time
                time.sleep(1)  # 等待一些时间,防止请求过快
                click.echo(PREIX + url)
                with open('./downloads/%s.jpg' % index, mode='wb') as fp:
                    fp.write(img.content)
                click.echo('save %s.jpg' % index)
            click.echo('complete!')
        except Exception as e:
            raise e
    
    if __name__ == '__main__':
        info = None
        f = open('./details.json', mode='r', encoding='utf-8')
        info = json.load(f)
        info = {
          "title": "第一次的Gal-第01话",
          "href": "http://manhua.dmzj.com/diyicidegal/50354.shtml"
        }
        info = { "title": "妹妹消失的第一百天-46话", "href": "http://www.dmzj.com/view/meimeixiaoshihoudediyibaitian/70394.html"} 
        # 以第一页请求为例子
        get_request(info)
    

    好了!这一期就完了,下一期可能写点其他的东西了!!欢迎大家来阅读,哈哈~~
    最后奉上自己差劲的Github以及个人的hexo网站Kyoto Animation,欢迎大家交流,这一期的所有代码都在文中,就不上传了。

    相关文章

      网友评论

        本文标题:Python之dmzj漫画搜索爬虫(三)

        本文链接:https://www.haomeiwen.com/subject/tzmahxtx.html