美文网首页
js逆向之红薯中文网小说信息的抓取

js逆向之红薯中文网小说信息的抓取

作者: 成长之路丶 | 来源:发表于2019-11-27 16:15 被阅读0次

由于快过年了工作比较忙,所以已经很久没有写文章了,今天我们要练习的网站是红薯中文网网页版手机版网站存在CSS伪类样式反爬,下次有机会再给大家讲解。

目标分析

红薯中文网网页版的反爬主要在于小说的正文内容,因此我们随便找一本小说然后进行分析,值得我们注意的是红薯中文网对小说的正文页禁用了鼠标右键,要检查网页元素(Ctrl+Shift+I)或者查看网页源代码(Ctrl+U)我们可以使用Chrome浏览器的快捷键:

Elements里渲染的页面 通过检查网页元素可以发现浏览器渲染后的数据并没有出现乱码,说明并没有上次我们讲到的字体反爬,我们再看看其网页源代码: 网页源代码 我们可以发现网页源代码里并没有我们想要的数据,而且如果我们学过Django和Flask的话,可以发现网页使用了类似与Django和Flask的模板语言,其实这是前端模板语言,这也说明页面数据可能通过Ajax的方式请求得到然后通过前端模板语言渲染到网页中,因此我们可以通过F12对网页进行抓包分析,然后找到这个获取数据的请求: Ajax请求数据 我们找到了这个获取数据的请求,但是我们发现这个响应的json数据里对小说内容进行了加密,这个加密我们之后再分析处理,我们先分析一下得到这个Ajax请求需要那些参数: Ajax请求详情 我们发现这个请求并没有什么加密参数,至于post提交的参数我们可以在小说目录页获取,这里就不说了,而且通过postman模拟请求我们还可以发现其实headers里的参数并不是全部都需要: PostMan模拟请求 既然获取这个Ajax请求没有问题,那接下来我们就需要逆向破解小说的正文内容了,因为这个请求是Ajax请求因此我们可以通过XHR/fetch Breakpoints来调试,在XHR/fetch Breakpoints添加断点名称填bookajax.do(加密文件的名称),然后重新刷新网页: 调试Ajax请求 然后我们按F10一步一步的进行调试,直到找到解密的小说内容: 解密前代码 解密前data.content
解密后 解密后data.content 可以发现data.content = utf8to16(hs_decrypt(base64decode(data.content), key));这段代码是解密的关键,找到解密方法我们分析解密函数按照之前的分析方法我们找到解密依赖utf8to16函数hs_decrypt函数(注意这个函数里还有str2long函数long2str函数需要我们获取)、base64decode函数以及key base64decode函数.png
hs_decrypt函数.png
接着我们再逆向key,发现重新调试key是在我们生成小说内容时之前生成的: 逆向key 我们也可以在Network看到这个获取key的请求: 抓包请求中的key 和之前获取内容的Ajax api接口是一样的,只是formdata提交的参数不一样,这里就不介绍了,可以自己去研究,找到了所以的解密依赖我们可以分析解密逻辑,也可以用python的js运行库来运行js,由于时间问题我就不去研究解密逻辑了,我直接用js运行库。

解密

至于发送请求获取key和加密content的请求代码我就不写了,我直接把解密代码贴出来,大家如果需要可以自己把剩下的代码补全:

import execjs

utf_to_changes = r"""
function utf8to16(str) {
    var out, i, len, c;
    var char2, char3;
    out = "";
    len = str.length;
    i = 0;
    while (i < len) {
        c = str.charCodeAt(i++);
        switch (c >> 4) {
        case 0:
        case 1:
        case 2:
        case 3:
        case 4:
        case 5:
        case 6:
        case 7:
            out += str.charAt(i - 1);
            break;
        case 12:
        case 13:
            char2 = str.charCodeAt(i++);
            out += String.fromCharCode(((c & 0x1F) << 6) | (char2 & 0x3F));
            break;
        case 14:
            char2 = str.charCodeAt(i++);
            char3 = str.charCodeAt(i++);
            out += String.fromCharCode(((c & 0x0F) << 12) | ((char2 & 0x3F) << 6) | ((char3 & 0x3F) << 0));
            break;
        }
    }
    return out;
}
"""



hs_decrypt = r"""
function hs_decrypt(str, key) {
    if (str == "") {
        return "";
    }
    var v = str2long(str, false);
    var k = str2long(key, false);
    var n = v.length - 1;
    var z = v[n - 1]
      , y = v[0]
      , delta = 0x9E3779B9;
    var mx, e, q = Math.floor(6 + 52 / (n + 1)), sum = q * delta & 0xffffffff;
    while (sum != 0) {
        e = sum >>> 2 & 3;
        for (var p = n; p > 0; p--) {
            z = v[p - 1];
            mx = (z >>> 5 ^ y << 2) + (y >>> 3 ^ z << 4) ^ (sum ^ y) + (k[p & 3 ^ e] ^ z);
            y = v[p] = v[p] - mx & 0xffffffff;
        }
        z = v[n];
        mx = (z >>> 5 ^ y << 2) + (y >>> 3 ^ z << 4) ^ (sum ^ y) + (k[p & 3 ^ e] ^ z);
        y = v[0] = v[0] - mx & 0xffffffff;
        sum = sum - delta & 0xffffffff;
    }
    return long2str(v, true);
};

function long2str(v, w) {
    var vl = v.length;
    var sl = v[vl - 1] & 0xffffffff;
    for (var i = 0; i < vl; i++) {
        v[i] = String.fromCharCode(v[i] & 0xff, v[i] >>> 8 & 0xff, v[i] >>> 16 & 0xff, v[i] >>> 24 & 0xff);
    }
    if (w) {
        return v.join('').substring(0, sl);
    } else {
        return v.join('');
    }
}
function str2long(s, w) {
    var len = s.length;
    var v = [];
    for (var i = 0; i < len; i += 4) {
        v[i >> 2] = s.charCodeAt(i) | s.charCodeAt(i + 1) << 8 | s.charCodeAt(i + 2) << 16 | s.charCodeAt(i + 3) << 24;
    }
    if (w) {
        v[v.length] = len;
    }
    return v;
}
"""

base64decode = r"""
    function base64decode(str) {
    var c1, c2, c3, c4, base64DecodeChars = new Array(-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,62,-1,-1,-1,63,52,53,54,55,56,57,58,59,60,61,-1,-1,-1,-1,-1,-1,-1,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,-1,-1,-1,-1,-1,-1,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,-1,-1,-1,-1,-1);
    var i, len, out;
    len = str.length;
    i = 0;
    out = "";
    while (i < len) {
        do {
            c1 = base64DecodeChars[str.charCodeAt(i++) & 0xff];
        } while (i < len && c1 == -1);if (c1 == -1)
            break;
        do {
            c2 = base64DecodeChars[str.charCodeAt(i++) & 0xff];
        } while (i < len && c2 == -1);if (c2 == -1)
            break;
        out += String.fromCharCode((c1 << 2) | ((c2 & 0x30) >> 4));
        do {
            c3 = str.charCodeAt(i++) & 0xff;
            if (c3 == 61)
                return out;
            c3 = base64DecodeChars[c3];
        } while (i < len && c3 == -1);if (c3 == -1)
            break;
        out += String.fromCharCode(((c2 & 0XF) << 4) | ((c3 & 0x3C) >> 2));
        do {
            c4 = str.charCodeAt(i++) & 0xff;
            if (c4 == 61)
                return out;
            c4 = base64DecodeChars[c4];
        } while (i < len && c4 == -1);if (c4 == -1)
            break;
        out += String.fromCharCode(((c3 & 0x03) << 6) | c4);
    }
    return out;
}
"""

def utf_encode(data):
    js_context = execjs.compile(utf_to_changes)
    ret3 = js_context.call('utf8to16',data)
    return ret3

def content_decrypt(data, key):
    js_context = execjs.compile(hs_decrypt)
    ret2 = js_context.call('hs_decrypt', data, key)
    return ret2

def base64_decode(data):
    js_context = execjs.compile(base64decode)
    ret = js_context.call('base64decode',data)
    return ret


key = "47541161"
content = r""""""

res = utf_encode(content_decrypt(base64_decode(content), key))
print(res)

代码运行结果截图:


运行结果

相关文章

  • js逆向之红薯中文网小说信息的抓取

    由于快过年了工作比较忙,所以已经很久没有写文章了,今天我们要练习的网站是红薯中文网网页版,手机版网站存在CSS伪类...

  • JS逆向之红薯中文网隐式CSS反爬

    已经很久没有写JS逆向相关的文章了,距离上一篇JS逆向文章的发布时间已经过了大半年了,之前把红薯中文网网页版的反爬...

  • js逆向之企名片公司信息的抓取

    最近应公司需求抓取企名片这个网站,抓取创业项目模块的信息,经过抓取分析发现这网站存在js加密,下面就让我们一步步的...

  • js逆向之百度翻译加密参数的破解

    又来到了我们的js逆向时间了,这次我们要抓取的是百度翻译的翻译信息,但是其请求存在加密参数,我们需要调试js来破解...

  • 网站

    纵横中文网,创世中文网,起点中文网,17阅读网,红薯小说,小说阅读网,潇湘书院,红袖添香,塔读小说… 起点、纵横、...

  • JS页面信息的抓取

    由于网页模块化的开发,很多网页的信息加载都是通过js完成的,单纯靠解析静态网页已不能完成需求,本文通过Phanto...

  • 进击node.js(一) node.js的安装 配置

    1.1 node.js的安装 建议去node.js中文网下载安装,下面链接是node.js中文网下载地址, h...

  • 正式开篇未发表小说声明

    本人原是创世中文网作者,笔名“唐尘”,创作小说《穹苍之巅》,但因自身工作和对于小说框架不甚满意之故,小说...

  • Python爬虫|JS逆向调试技巧大全

    当我们抓取网页端数据时,经常被加密参数、加密数据所困扰,如何快速定位这些加解密函数,尤为重要。本片文章是我逆向js...

  • js逆向技巧分享

    当我们抓取网页端数据时,经常被加密参数、加密数据所困扰,如何快速定位这些加解密函数,尤为重要。本片文章是我逆向js...

网友评论

      本文标题:js逆向之红薯中文网小说信息的抓取

      本文链接:https://www.haomeiwen.com/subject/hlbuwctx.html