美文网首页
手把手找js加密代码(链家地铁找房--authorization

手把手找js加密代码(链家地铁找房--authorization

作者: Fathui | 来源:发表于2018-05-30 19:24 被阅读0次

    通过链家的地铁找房功能爬取地铁线路以及小区数据时,会碰到一个authorization参数,这个参数每次请求都会变化,而且不带也会请求失败,因此可初步判断是一个js加密参数。


    第一次请求.png
    第二次请求.png
    我们通过chrome浏览器的断点功能找authorization的加密js代码

    首先,抓包找到链接地址,点进去


    抓包找到js文件.png

    然后,格式化代码并打上断点


    格式化代码并打上断点.png
    点击地铁路线,进行网页刷新
    点击旁边的地铁线路.png

    Call Stack为函数框,Local为参数框,进入debugger模式后,重点是找到加密函数所在位置,一般逻辑是看在某个函数之前,我们所找的参数不存在,那这个函数就是我们要找的(函数调用是从下到上)


    函数与参数所在位置.png
    最后一个函数为send,参数栏没有发现authorization,但是我们在console中把t打印出来,发现t中是包含了authorization的,因此需往前推继续找加密函数
    console输出参数.png
    通过这样往前递归查找,我们发现第二个ajax函数之后,就不再出现我们的authorization参数了,因此可定位authorization的加密代码在第二个ajax里
    加密代码.png
    同时发现ajax中存在l.authorization = s,var s = this.getMd5(l)两行代码,那么可确定authorization是被这个this.getMd5函数加密的了
    点击函数.png
    点击进入这个函数,加上断点,并重新进入debugger模式
    加上断点继续运行.png

    可以看到输入时一个字典,中间参数i是一个字符串,且i需要继续被n函数处理


    加上断点重新运行.png
    进入n函数,发现是一系列的匿名函数与嵌套调用,继续研究需要耗费大量时间。我们仔细看一下n的名字,发现是md5加密,而python本身自带md5加密库,我们只需记录js代码的输入与输出,并与python的md5加密结果比对是否一致即可
    n函数.png
    js中md5函数的输入与输出
    js输入与输出.png
    python中md5加密结果
    python输入与输出.png
    比较发现结果一致,再继续运行断点到send,输出t,发现参数与我们计算出的一致
    t.png

    理一下最终的代码

    import json
    import time
    import hashlib
    
    import requests
    
    
    # ------------------------------------------采集5号线所有站点的经纬度--------------------------------------------------
    
    def get_md5(txt):
        """md5加密函数"""
        
        m = hashlib.md5()
        m.update(txt.encode('utf-8'))
        return m.hexdigest()
    
    
    def get_line_site(url):
        """请求链接"""
        
        headers = {'Accept': '*/*',
                   'Accept-Encoding': 'gzip, deflate, br',
                   'Accept-Language': 'zh-CN,zh;q=0.9',
                   'Connection': 'keep-alive',
                   'Host': 'ajax.lianjia.com',
                   'Referer': 'https://gz.lianjia.com/ditu/',
                   'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 '
                                 '(KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}
        r = requests.get(url, headers=headers)
        print(r.status_code)
        return r
    
    
    def get_url():
        """拼接链接"""
        
        url = 'https://ajax.lianjia.com/map/subway/station/?city_id=440100&line_id=110460685&request_ts={' \
              'request_ts}&source=ljpc&authorization={authorization}'
        request_ts = int(time.time() * 1000)
        md5_data = "vfkpbin1ix2rb88gfjebs0f60cbvhedlcity_id=440100line_id=110460685request_ts={request_ts}".format(
            request_ts=request_ts)
        authorization = get_md5(md5_data)
        url = url.format(request_ts=request_ts, authorization=authorization)
        return url
    
    
    if __name__ == '__main__':
        line_url = get_url()
        print(line_url)
        res = get_line_site(line_url)
        items = res.json()['data']
        with open('lon_and_lat.txt', 'w') as f:
            json.dump(items, f)
    
        print(items)
    
    

    总结

    1.多用断点调试,调试时重点关注输入、输出以及一些特殊名字(比如rsa、md5、base64等常用加密)
    2.到加密部分,搞清楚使用的是哪种加密方式,优先使用python库代替
    3.了解常用的加密原理很重要

    相关文章

      网友评论

          本文标题:手把手找js加密代码(链家地铁找房--authorization

          本文链接:https://www.haomeiwen.com/subject/pejxsftx.html