美文网首页【python】初学者
破解js反爬机制的有道翻译——制作个人翻译工具

破解js反爬机制的有道翻译——制作个人翻译工具

作者: 米兰的小铁匠 | 来源:发表于2019-08-25 19:53 被阅读0次
    • 效果图

      (界面有点丑,将就看吧。。。)

    • 这类公用资源网站,在你需要翻译的时候,需要的是进入他们的网站进行操作,大批量的翻译,同样的是需要调用他们的接口,收费。。。
    • 这个时候我们想用他们的数据库来获得自己的需求,在我进行的分析的时候,有道翻译问题还是在他们的有些表单数据是进行js加密操作的,不能直接请求数据!
    • 得,直接进入主题吧。

    • 首先我们正常的爬虫程序,就是在导包后,填入真正的url地址去访问;
    • 进入有道翻译网页按F12进入开发者模式,找到存在真正url地址的包,输入翻译词汇,后如下图:


      流程1
    • 找到真实url,同时data表单数据也在下面:


      流程2
    • 我们会发现,i其实是我们输入的翻译词汇,这里还有三处数据很关键,分别是salt、ts、sign,都是进行加密的数据(难不倒我们,往下看!)
    • 所以我们进行的是post隐式请求!!!
    • 开始逆向js查找数据加密的地方,那我们查找salt,会得到一串js,在进行美化一下:


      流程3
    • 再在这里面搜索salt,会得到很多处都有salt


      流程4
    • 在查找的过程中花费一段时间哈。。。
    • 直接跳了,找到如下图:


      流程5
    • 在第4处这个地方!
    • 就可以清楚的看到加密数据是怎么传递生成的,分别是salt、ts、sign!
    • 到这里,我们获得了url、headers、表单数据及其中的加密数据!
    • 同时,我们对程序进行GUI界面化,更加直观,再打包!

    代码

    import requests,time,random,hashlib,json
    from tkinter import *
    from tkinter import messagebox
    
    # 界面控制
    def fanyi():
        text = entry.get()
        text = text.strip()
        print(text)
        if text == '':
            messagebox.showinfo('提示:','请输入')
        else:
            result,result_detail = parse(text)
            # 进行界面排版
            theLabel = Label(room, text='翻译:'+'\n'+result+'\n'+'\n'+'详细翻译:'+'\n'+result_detail, font= ('黑体',15), fg='red')
            theLabel.grid(row=1, column=1)
    
    # 翻译结果返回
    def parse(text):
    
        # 网址
        url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
    
        # 逆向js解析表单数据
        ts = str(int(time.time()*1000))
        salt = ts + str(random.randint(0, 10))
        # md5加密
        md5 = hashlib.md5()
        encryption = 'fanyideskweb' + text + salt + "n%A-rKaT5fb[Gy?;N5@Tj"
        md5.update(encryption.encode("utf-8"))
        sign = md5.hexdigest()
    
        # 表单
        data = {
            'i': text,
            'from': 'AUTO',
            'to': 'AUTO',
            'smartresult': 'dict',
            'client': 'fanyideskweb',
            'salt': salt,
            'sign': sign,
            'ts': ts,
            'bv': '7e3150ecbdf9de52dc355751b074cf60',
            'doctype': 'json',
            'version': '2.1',
            'keyfrom': 'fanyi.web',
            'action': 'FY_BY_CLICKBUTTION'
        }
    
        # 请求headers
        headers = {
            'Accept': 'application/json, text/javascript, */*; q=0.01',
            'Accept-Encoding': 'gzip, deflate',
            'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,zh-HK;q=0.7,zh-TW;q=0.6',
            'Connection': 'keep-alive',
            'Content-Length': '242',
            'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
            'Cookie': 'OUTFOX_SEARCH_USER_ID_NCOO=101631173.1664094; OUTFOX_SEARCH_USER_ID="1817802748@10.169.0.84"; _ntes_nnid=c5aaa2bceb9489aff9a93944a0e70db5,1564971812601; JSESSIONID=aaaXCWGeXbuZff2fbSgZw; ___rl__test__cookies=1566701790595',
            'Host': 'fanyi.youdao.com',
            'Origin': 'http://fanyi.youdao.com',
            'Referer': 'http://fanyi.youdao.com/',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36',
            'X-Requested-With': 'XMLHttpRequest',
        }
    
        request = requests.post(url=url,data=data,headers=headers)
        details = request.text
        '''
        # json字符串
        <class 'str'>
        {"translateResult":[[{"tgt":"你好","src":"hello"}]],"errorCode":0,"type":"en2zh-CHS",
            "smartResult":{"entries":["","n. 表示问候, 惊奇或唤起注意时的用语\r\n","int. 喂;哈罗\r\n","n. (Hello)人名;(法)埃洛\r\n"],"type":1}}
        '''
        translateResult = json.loads(details)
        result = translateResult["translateResult"][0][0]['tgt']
        # print('翻译:', translateResult["translateResult"][0][0]['tgt'])
        # print('详细翻译:',''.join(translateResult["smartResult"]["entries"]))
        try:
            result_detail = ''.join(translateResult["smartResult"]["entries"])
        except:
            result_detail = '无详细翻译!'
        return result,result_detail
    
    
    room = Tk()
    
    room.title("翻译")
    
    room.geometry('800x300+500+300')
    
    label = Label(room, text = '输入', font= ('黑体',25), fg='black')
    
    label.grid()
    
    entry = Entry(room, font = ('微软雅黑',20))
    entry.grid(row= 0, column=1)
    button = Button(room,text = '进行翻译', font=('微软雅黑',20), command= fanyi)
    button.grid(row= 0, column=2)
    
    room.mainloop()
    #打包命令:pyinstaller -F -i gg.ico youdao.py
    
    • 打包成exe可执行文件命令:pyinstaller -F -i gg.ico youdao.py
    注意
    • 最后返回来的数据是json字符串。。。

    不要温顺的走进那良夜

    相关文章

      网友评论

        本文标题:破解js反爬机制的有道翻译——制作个人翻译工具

        本文链接:https://www.haomeiwen.com/subject/rorkectx.html