百度翻译最新接口破解

作者: HONGQUAN | 来源:发表于2018-01-05 13:30 被阅读2248次
    翻译接口

    本文只做技术交流,若有冒犯请告知我撤除

    百度翻译不知道啥时候开始转向收费的形式,开发者可以免费享受200w字符/月的福利
    废话少说,入主题

    先看看以前的接口
    http://fanyi.baidu.com/v2transapi?from=zh&to=en&query=%E4%BB%8A%E5%A4%A9%E5%A4%A9%E6%B0%94%E6%80%8E%E4%B9%88%E6%A0%B7&transtype=realtime&simple_means_flag=3

    参数分析

    参数名 参数解释
    from 要翻译的原文语种
    to 翻译结果的目标语种
    query 要翻译的内容
    transtype 翻译类型(该参数目前发现有 realtime 和 translang 两种,我们使用 realtime 即可)
    simple_means_flag 未知

    接口更新后上述链接会返回如下内容

    旧版返回结果

    出现错误码 998,这里暂时不对错误码进行解释
    我们重新看看新的接口
    通过 Chrome Dev Tools 可以看到,新的请求如下

    http://fanyi.baidu.com/v2transapi?from=zh&to=en&query=%E4%BB%8A%E5%A4%A9%E5%A4%A9%E6%B0%94%E6%80%8E%E4%B9%88%E6%A0%B7&transtype=translang&simple_means_flag=3&sign=719145.924184&token=3a1ae6d96bdd2a8e0f2eb367cb23cb83

    除了原有的5个参数之外,新增了两个参数

    参数名 参数解释
    sign 签名(如:719145.924184)
    token 请求令牌(如:3a1ae6d96bdd2a8e0f2eb367cb23cb83)

    对谷歌翻译接口有研究的大神应该不难发现,sign 的加密后的值与 Google 的翻译加密后的值非常类似,赶紧看看呗

    回到 Chrome Dev Tools,观察新的请求发现翻译页面界面总共加载了 8 个 JavaScript 文件,其中最值得我们注意的就是 index_a6525c5.js 该文件了,不要问我为什么,男人的直觉

    根据翻译接口 v2transapi 可以查到一段迷之代码

    langIsDeteced: function(t, a, n, r) {
        if (null !== t) {
            var s = $(".select-from-language .language-selected").attr("data-lang"),
            o = $(".select-to-language .language-selected").attr("data-lang"),
            l = null;
            r && !c.get("fromLangIsAuto") && s !== t ? l = i.processOcrLang(t, s, o) : (e.show(t, s), l = i.getLang(t, s, o)),
            u.show();
            var g = this,
            a = this.processQuery(a),
            d = {
                from: l.fromLang,
                to: l.toLang,
                query: a,
                transtype: n,
                simple_means_flag: 3,
                sign: h(a),
                token: window.common.token
            };
            this.translateXHR && 4 !== this.translateXHR.readyState && this.translateXHR.abort(),
            this.translateXHR = $.ajax({
                type: "POST",
                url: "/v2transapi",
                cache: !1,
                data: d
            }).done(function(t) {
                c.set("isInRtTransState", !0),
                g.translateSuccess(t, l.fromLang, l.toLang, a)
            })
        }
    }
    

    很明显可以看出就是翻译的核心代码,其中 token 的值直接通过 window.common.token 获取即可,稍微要费点心思的就是 sign 的值,通过 h(a) 获取的
    其中 a 是传入的待翻译的内容,那么很容易猜到 h() 这个函数会返回 719145.924184 类似这样的结果,并且多次尝试发现,a 的值固定的情况下,h() 的返回值也是固定的,这样也方便大家测试

    因为代码加密过,需要男人的直觉给我们更多的指引..
    看这段代码

    define("translation:widget/translate/input/pGrab",
    function(r, o, t) {
        "use strict";
        function a(r, o) {
            for (var t = 0; t < o.length - 2; t += 3) {
                var a = o.charAt(t + 2);
                a = a >= "a" ? a.charCodeAt(0) - 87 : Number(a),
                a = "+" === o.charAt(t + 1) ? r >>> a: r << a,
                r = "+" === o.charAt(t) ? r + a & 4294967295 : r ^ a
            }
            return r
        }
        function n(r) {
            var o = r.length;
            o > 30 && (r = "" + r.substr(0, 10) + r.substr(Math.floor(o / 2) - 5, 10) + r.substr( - 10, 10));
            var t = void 0,
            n = "" + String.fromCharCode(103) + String.fromCharCode(116) + String.fromCharCode(107);
            t = null !== C ? C: (C = window[n] || "") || "";
            for (var e = t.split("."), h = Number(e[0]) || 0, i = Number(e[1]) || 0, d = [], f = 0, g = 0; g < r.length; g++) {
                var m = r.charCodeAt(g);
                128 > m ? d[f++] = m: (2048 > m ? d[f++] = m >> 6 | 192 : (55296 === (64512 & m) && g + 1 < r.length && 56320 === (64512 & r.charCodeAt(g + 1)) ? (m = 65536 + ((1023 & m) << 10) + (1023 & r.charCodeAt(++g)), d[f++] = m >> 18 | 240, d[f++] = m >> 12 & 63 | 128) : d[f++] = m >> 12 | 224, d[f++] = m >> 6 & 63 | 128), d[f++] = 63 & m | 128)
            }
            for (var S = h,
            u = "" + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(97) + ("" + String.fromCharCode(94) + String.fromCharCode(43) + String.fromCharCode(54)), l = "" + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(51) + ("" + String.fromCharCode(94) + String.fromCharCode(43) + String.fromCharCode(98)) + ("" + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(102)), s = 0; s < d.length; s++) S += d[s],
            S = a(S, u);
            return S = a(S, l),
            S ^= i,
            0 > S && (S = (2147483647 & S) + 2147483648),
            S %= 1e6,
            S.toString() + "." + (S ^ h)
        }
        var C = null;
        t.exports = n
    });;
    

    返回的结果中有一段 S.toString() + "." + (S ^ h),与我们期望的加密值结构非常类似

    嗯,其实这段代码就是加密的核心代码,有兴趣的朋友可以详细理解,这里就不多说啦
    我已经将加密的代码单独整理出来,大家直接调用即可

    这里再啰嗦一下,加密过程中需要用到一个名为 gtk 的参数,该值直接通过 window.gtk 即可获取,可以获取网页源码后通过 regex 匹配该值,这个值是可以重复使用的,不需要每次调用,所以再初始化的时候获取到即可

    好啦,不啰嗦了,加密源码奉上
    https://www.devtool.top/upload/2018/01/u5kr8hdmtgikjqpi8ta7q00sqr.zip
    后续会有更多有趣的内容和大家分享讨论,如果觉得对你有帮助的话点下关注~~

    相关文章

      网友评论

      • MR_C_:百度的代码是抄袭谷歌翻译的 我发现js几乎一样 下面是谷歌的
        function b(a, b) {
        for (var d = 0; d < b.length - 2; d += 3) {
        var c = b.charAt(d + 2),
        c = "a" <= c ? c.charCodeAt(0) - 87 : Number(c),
        c = "+" == b.charAt(d + 1) ? a >>> c : a << c;
        a = "+" == b.charAt(d) ? a + c & 4294967295 : a ^ c
        }
        return a
        }

        function tk(a,TKK) {
        for (var e = TKK.split("."), h = Number(e[0]) || 0, g = [], d = 0, f = 0; f < a.length; f++) {
        var c = a.charCodeAt(f);
        128 > c ? g[d++] = c : (2048 > c ? g[d++] = c >> 6 | 192 : (55296 == (c & 64512) && f + 1 < a.length && 56320 == (a.charCodeAt(f + 1) & 64512) ? (c = 65536 + ((c & 1023) << 10) + (a.charCodeAt(++f) & 1023), g[d++] = c >> 18 | 240, g[d++] = c >> 12 & 63 | 128) : g[d++] = c >> 12 | 224, g[d++] = c >> 6 & 63 | 128), g[d++] = c & 63 | 128)
        }
        a = h;
        for (d = 0; d < g.length; d++) a += g[d], a = b(a, "+-a^+6");
        a = b(a, "+-3^+b+-f");
        a ^= Number(e[1]) || 0;
        0 > a && (a = (a & 2147483647) + 2147483648);
        a %= 1E6;
        return a.toString() + "." + (a ^ h)
        }

        我用谷歌的算法 计算出来的数据和抓百度翻译包里面的sign是一样的
        MR_C_:@HONGQUAN 谷歌的是传入要翻译的句子和TKK,百度的gtk,是不是觉得好像,TKK=eval('((function(){var a\x3d1988868173;var b\x3d1092358663;return 424015+\x27.\x27+(a+b)})())');//这是谷歌页面的.
        HONGQUAN:@MR_C_ 厉害了老铁 :+1:
      • 40f178830426:大佬,gtk哪里来的?
        HONGQUAN:@usbjbd 百度翻译接口已经更新了,请看最新文章 https://www.jianshu.com/p/2c333f7ae1c2
        40f178830426:@HONGQUAN 我试试😀
        HONGQUAN:@usbjbd 文章末尾有说过,可以通过执行 window.gtk 获取,如果无法执行JavaScript可以获取网页源码后通过正则匹配获取 gtk 的值
      • 0c36cfa583c3:感谢分享……

        python 里生成 sign 可用 js2py 将 sign.js 转成 sign.py 作为 python 函数调用,比用 execjs 包直接调用 sign.js 快一秒的样子
        HONGQUAN:@popobaobao 百度翻译接口已经更新了,请看最新文章 https://www.jianshu.com/p/2c333f7ae1c2
        HONGQUAN:百度翻译接口已经更新了,请看最新文章 https://www.jianshu.com/p/2c333f7ae1c2
        popobaobao:您好,请教一下 我的总是返回998是为什么呢,按照上面的方法做了
      • 超級QQ:非常感谢数据分享,先取cookie再连就成功了。
        HONGQUAN:@鲨鱼辣椒KL 百度翻译接口已经更新了,请看最新文章 https://www.jianshu.com/p/2c333f7ae1c2
        cf919156a387:@鲨鱼辣椒KL 最后还是找到一个参考项目:https://github.com/hujingshuang/MTrans
        cf919156a387:请问用 JAVA httpclient 如何获取cookie呢?我的总是返回998 cookie失效
      • 大刘的英语世界:博主你好,非常感谢你的百度翻译API接口解析,有个问题一直比较困扰。Request Headers里面的Cookie和其他header头信息如何获取?不然POST 提交到http://fanyi.baidu.com/v2transapi地址上去总会报998错误-cookie失效。

        因为我在写一个hexo的标题自动翻译插件,目前在百度翻译接口上遇到了这个问题,盼望解答,谢谢!
        cf919156a387:@大刘的英语世界 您好,你的问题现在解决了吗?这个cookie是怎么获取的呢,我也遇到相同的问题。。
        大刘的英语世界:@popobaobao 没有解决,抓取的cookie总是失败
        popobaobao:您好 ,请问已经解决了么?我的也是这样
      • sinbad_3815:token怎么获取啊,老是报998
        HONGQUAN:百度翻译接口已经更新了,请看最新文章 https://www.jianshu.com/p/2c333f7ae1c2
        HONGQUAN:@mubot 百度翻译接口已经更新了,请看最新文章 https://www.jianshu.com/p/2c333f7ae1c2
        0c36cfa583c3:token 可访问一次 http://fanyi.baidu.com/ 解析所得到的 html, python 大致为:
        token = re.findall(r"token: '(.*)'", requests.get('http://fanyi.baidu.com/'.text))[0]

        感谢九楼的提示,其实博主也提到过。
      • 十八立子:谢谢大佬,js在py中运行话要什么环境呢
        HONGQUAN:@十八立子 百度翻译接口已经更新了,请看最新文章 https://www.jianshu.com/p/2c333f7ae1c2
        十八立子:@HONGQUAN 老大,大概明白思路,也能调用sign.js,gtk还是有点迷糊,能指点下吗
        HONGQUAN:@十八立子 python 提供了自带的库 https://pypi.python.org/pypi/PyExecJS 可以试一下
      • Jammse:按照你给的JS文件获取sign,请求最后返回 Error:997. 你有碰到过吗?
        HONGQUAN:@小强_36f4 感谢 :grin:
        Jammse:@小强_36f4 百度翻译好像反的比较厉害了,翻译简单的句子没问题,稍微长一点就不过了。不知道是不是哪里有问题。
        小强_36f4:997, 没有cookie;998,cookie过期;999,内部错误
      • 小强_36f4:function __SignHelper__(r, o) {
        for (var t = 0; t < o.length - 2; t += 3) {
        var a = o.charAt(t + 2);
        a = a >= "a" ? a.charCodeAt(0) - 87 : Number(a);
        a = "+" === o.charAt(t + 1) ? r >>> a : r << a;
        r = "+" === o.charAt(t) ? r + a & 4294967295 : r ^ a;
        }
        return r;
        }

        function baiduTranslateSign(r, C) {
        var o = r.length;
        if(o > 30) {
        r = "" + r.substr(0, 10) + r.substr(Math.floor(o / 2) - 5, 10) + r.substr(-10, 10);
        }
        var e = C.split("."), h = Number(e[0]) || 0, i = Number(e[1]) || 0;
        var theEncoder = new TextEncoder()
        var d = theEncoder.encode(r);
        var u = "+-a^+6";
        var l = "+-3^+b+-f";
        for (var S = h, index = 0; index < d.length; ++index) {
        S += d[index];
        S = __SignHelper__(S, u);
        }
        S = __SignHelper__(S, l);
        S ^= i;
        if(0 > S) {
        S = (2147483647 & S) + 2147483648;
        }
        S %= 1000000;
        return S.toString() + "." + (S ^ h);
        };
        雾满天空:@十八立子 c应该就是你要翻译的内容
        十八立子:C看不明白
      • e01d64e48297:我是通过爬虫获取token的,为什么每次获取的token值都是一样的,你知道token的生成规则是什么吗?
        HONGQUAN:@雾满天空 这个问题我正在整理,会继续发一篇文章专门说明一下 token 的问题
        雾满天空:每次都是9b8bb341109338ba7e875bd9a9dd88ba,这个,我将页面保存在本地,发现本地的token和线上的token不一样,你有解决方法么?
        HONGQUAN:这个不清楚哦,都是页面中返回的,应该是服务器端定义的规则
      • 0d670563a892:token 是怎么具体计算出来的..
        HONGQUAN:token 是服务器端返回的,每次刷新页面都可以通过 window.common.token 获取该值

      本文标题:百度翻译最新接口破解

      本文链接:https://www.haomeiwen.com/subject/wtwjnxtx.html