淘宝抓取所有历史订单

作者: 小温侯 | 来源:发表于2018-07-21 22:55 被阅读644次

淘宝抓取所有历史订单
查看订单信息
消费思考
使用selenium抓取淘宝“已购买的订单”信息
支付宝客服给我的启示
订单回流工具
乐高项目分析(1)
淘宝卖家订单管理怎么做？好用的订单管理系统看这里
【iOS分享之路-快速搭建电商平台】十一、快速集成空白视图
淘宝订单分析

思路

淘宝是我迄今为止遇到的反爬虫技术最厉害的一个网站，我估计在业界它也是处于顶尖水平的。这里我一共花了整整一天24个小时才有所小得。

这篇文章里，我采用手动登陆淘宝的方式获取登陆用的Cookie，我会在接下来所有请求里直接使用这个cookie，后面应该会再写文章讲如何抓这个Cookie以及机器识别验证码。

言归正传，要完成这个项目，先要弄清整个流程。我要抓的是“我的订单”下的商品信息，在登陆状态下，访问不同页数的订单页面会发送对应的XHR，接着服务器会返回一个包含商品信息的json文件，这个很容易找。但是当我用同样的Header和Query String Parameters构建一条请求时，这条请求会被怀疑为爬虫请求，淘宝会要求进行验证码认证。个人认为有两种思路解决这个验证码的问题：一个是找到是什么原因导致淘宝认为你是爬虫，从而找到绕过验证码的方法；另一个思路就是让爬虫能够通过验证码检测。经过很长时间的分析和尝试，绕过验证码的方法我没找到，验证码的流程却分析了出来。

验证码的流程

首先需要让页面进入验证码流程，这里只需要用一个简陋的爬虫访问一下订单页面就行了。接着在浏览器上刷新或者访问下一页订单，页面会弹出验证码，在输入正确的验证码之后，页面会成功跳转到下一页。使用浏览器工具将整个过程的报文都抓下来，逐条分析，如图，这里我把关键的几条报文按顺序标注了一下：

taobao-流程.jpg

我也把相关报文的Query String Parameters也截了下来，如下：

taobao-参数列表.jpg

分析整个流程是最困难的一步，如果有人也做这个项目，我个人建议还是先自己分析为好。整个流程大概是这样子的（序号也对应了报文的编号，上图中的数字也对应了各自的编号）：

这条POST请求就是正常的订单信息请求，如果没有进入验证码流程，服务器应该直接返回商品信息json文件。如果进入了验证码流程，服务器会返回一个URL，你需要访问这个URL获取包含计算所有参数的js文件和验证码图片。
这条报文就是访问第1条报文里的URL，唯一一点区别是我这里加了style=mini参数，之后我会得到一个很小的验证码图片。这条报文会返回一个包含JavaScript的HTML页面，里面包含了所有之后需要的参数，分别是：identity, sessionid, type和action, event_submit_do_unique, smPolicy, smApp, smReturn, smCharset, smTag, captcha, smSign, ua, code。具体哪个是哪个我就不细说了，其实也不重要，之后只需要参照报文用起来就行了。这里说两个参数：code，这就是正确的验证码；ua，据说是淘宝根据一个很复杂的算法计算出来的，其变量还包含鼠标键盘的操作记录。
ua.js很明显这是计算UA值用的，不过这里的Trick就是光有这个文件还不够，因为里面没有变量UA_opt的申明，你需要结合第2条响应里的一部分js代码在加上ua.js文件才能计算出最后需要的ua值。这里要非常感谢这位老哥的文章：ua.js中UA_Opt设定信息的重要性与来源分析，他分析了所有的js文件，非常厉害。
第4条报文使用了2里面获得的identity，sessionid和type，以及代表当前时间的t来获取验证码图片。我会将这个图片保存到本地，以便之后手动输入验证码。
第5条是用来判断你输入的验证码是否正确的，除了4里面的参数，还增加了code（你输入的验证码），_ksTS和callback在爬虾米音乐时遇到过，这里是一样的，前者是时间+一个数字，后者是上个数字+1，代表返回的json块的名字。如果验证码正确，服务器会返回SUCCESS消息，否则返回ERROR，你需要重新发送第4条报文继续验证。这里注意，如果你能保证你输入的验证码肯定是正确的，这条报文可以省略。
这条是最重要的一条，你需要用到上述所有的参数来向服务器请求smToken，这个Token只能用一次，它是你能继续访问订单页面的凭证（也是最重要的一个参数）。
第6条报文会返回一个URL，它其实就是要访问的订单页面，你可以获取smToken和smSign然后把它们加在第一条请求末尾，也可以直接访问这个URL。两者是一样的。

经过了这些步骤，你就可以继续访问订单页面了。这里再补充两张图作为辅助：

taobao-参数抓取.png

蓝框里就是上述第2条响应页面中我们需要抓取参数的地方，它们script里所以只能用正则抓取。注意第二个蓝框里获取ua的值时调用了getUA()方法，它在这个这个页面稍微上一点的地方：

taobao-参数ua.jpg

可以看到，ua的值其实是由一部分这里的代码+ua.js文件才能计算出来的。这里我是将这部分代码保存到了本地的html里，然后用selenium+PhantomJS模拟访问这个页面来获取ua值的，具体可以看之后的代码。这里不能使用execjs库，因为这里涉及到鼠标操作，这必须要在浏览器里完成，而不是一般的js代码。

这里插一点题外话，在做爬虫时经常会碰到一些token值的计算，我以为直接猜测其算法是下下下策。因为目前的web架构决定了要计算这类值只能在浏览器端（为什么？），而对应的算法也得在本地，这类算法可以是公开的算法，比如之前遇到的AES和RSA，也可以是自建的算法，比如这里的ua和之前遇到的歌曲下载地址的解密算法。通常情况下，这类算法会包含在js文件里。而网站能做的无非就是将算法隐藏的深一点。因此，从一个高层角度来看这个问题的话，理论上只要看懂所有报文，肯定能找到计算这类值得地方。

我觉得爬虫反爬虫和信息安全攻防在某种程度上有些类似，两者最大的漏洞其实还是人类的行为，在尽量不影响用户体验的情况下，增加图片识别，文字识别或者手机邮箱验证，这将大大增加爬虫的难度。

再插一点题外话的题外话，之前我提到的有的js文件采用了很难记的变量名，我之前以为这是反爬虫的手段，现在我才知道这么做其实是为了压缩js文件达到减少带宽的目的。不过这也确实增加了阅读js文件的难度。

当然这些都是我个人的有点想法，不知道对不对，也可能随着我继续学习下会有改变。

代码

代码的流程就是上述的流程，也有相应的注释标注。

taobao.py

import requests
import re
import json
import time
from random import choice
from bs4 import BeautifulSoup
from prettytable import PrettyTable
from selenium import webdriver

import Configure

header = {}
header['user-agent'] =  choice(Configure.FakeUserAgents)
header['referer'] = 'https://buyertrade.taobao.com/trade/itemlist/list_bought_items.htm'

cookies = {}
cookiestr = '''
            (Cookies)
            '''

for cookie in cookiestr.split(';'):
    name,value=cookie.strip().split('=',1)  
    cookies[name]=value

def getOnePageOrderHistory(pageNum, newURL=None):
    url = "https://buyertrade.taobao.com/trade/itemlist/asyncBought.htm"
    payload = {
        'action':'itemlist/BoughtQueryAction',
        'event_submit_do_query':1,
        '_input_charset':'utf8'
    }
    formdata = {
        'pageNum':pageNum,
        'pageSize':15,
        'prePageNo':pageNum-1
    }

    # 验证码通过后，新的URL后面会带Token值
    # 带着这个值才能访问成功，并且访问下个页面不再需要验证码
    # newURL就是通过验证后的新URL
    if newURL:
        url = newURL

    try:
        response = requests.post(url, headers=header, params=payload, data=formdata, cookies=cookies)
        content = None

        if response.status_code == requests.codes.ok:
            content = response.text
            
    except Exception as e:
            print (e)

    # 成功直接获取订单，失败进入验证码流程
    data = json.loads(content)
    if data.get('mainOrders'):
        getOrderDetails(data.get('mainOrders'))
    else:
        passCodeCheck(data.get('url'), pageNum)

# 打印订单信息
def getOrderDetails(data):
    table = PrettyTable()
    table.field_names = ["ID", "卖家", "名称", "订单创建时间", "价格", "状态"]

    for order in data:
        tmp = []
        #id = 
        tmp.append(order.get('id'))
        #shopName
        tmp.append(order.get('seller').get('shopName'))
        #title
        tmp.append(order.get('subOrders')[0].get('itemInfo').get('title'))
        #createTime
        tmp.append(order.get('orderInfo').get('createTime'))
        #actualFee
        tmp.append(order.get('payInfo').get('actualFee'))
        #text
        tmp.append(order.get('statusInfo').get('text'))

        table.add_row(tmp)

    print (table)

def passCodeCheck(referer_url, pageNum):
    # 在url中插入style=mini获取包含后续要用到的所有参数的页面
    url = referer_url.replace("?", "?style=mini&")

    try:
        response = requests.post(url, headers=header, cookies=cookies)
        content = None

        if response.status_code == requests.codes.ok:
            content = response.text
            
    except Exception as e:
        print (e)

    # 获取identity, sessionid和type
    pattern = re.compile(
        'new Checkcode\({.*?identity: \'(.*?)\''
        '.*?sessionid: \'(.*?)\''
        '.*?type: \'(.*?)\'.*?}\)', re.S)
    data = pattern.findall(content)
    
    m_identity = data[0][0]
    m_sessionid = data[0][1]
    m_type = data[0][2]

    # 获取action, m_event_submit_do_unique, m_smPolicy
    # m_smApp, m_smReturn, m_smCharset, smTag
    # captcha和smSign
    pattern = re.compile(
        'data: {'
        '.*?action: \'(.*?)\''
        '.*?event_submit_do_unique: \'(.*?)\''
        '.*?smPolicy: \'(.*?)\''
        '.*?smApp: \'(.*?)\''
        '.*?smReturn: \'(.*?)\''
        '.*?smCharset: \'(.*?)\''
        '.*?smTag: \'(.*?)\''
        '.*?captcha: \'(.*?)\''
        '.*?smSign: \'(.*?)\',', re.S)
    data = pattern.findall(content)
    
    m_action = data[0][0]
    m_event_submit_do_unique = data[0][1]
    m_smPolicy = data[0][2]
    m_smApp = data[0][3]
    m_smReturn = data[0][4]
    m_smCharset = data[0][5]
    m_smTag = data[0][6]
    m_captcha = data[0][7]
    m_smSign = data[0][8]

    # 处理验证码
    res = False
    m_code = ""
    while res == False:
        res, m_code = checkCode(m_identity, m_sessionid, m_type, url)

    # 构建URL，获取最后的Token
    murl = "https://sec.taobao.com/query.htm"

    mheader = {}
    mheader['user-agent'] =  choice(Configure.FakeUserAgents)
    mheader['referer'] = url

    mpayload = {
        'action':m_action,
        'event_submit_do_unique':m_event_submit_do_unique,
        'smPolicy':m_smPolicy,
        'smApp':m_smApp,
        'smReturn':m_smReturn,
        'smCharset':m_smCharset,
        'smTag':m_smTag,
        'captcha':m_captcha,
        'smSign':m_smSign,
        'ua':getUA(), # 获取最新的UA
        'identity':m_identity,
        'code':m_code,
        '_ksTS':'{0:d}_39'.format(int(time.time()*1000)),
        'callback':'jsonp40'
    }

    try:
        response = requests.get(murl, headers=mheader, params=mpayload, cookies=cookies)
        content = None
        
        if response.status_code == requests.codes.ok:
            content = response.text
            
    except Exception as e:
        print (e)

    pattern = re.compile('{(.*?)}', re.S)
    data = pattern.findall(content)
    jsond = json.loads('{'+data[0]+'}')

    # 这个json文件里包含了最后访问用的URL
    murl = jsond.get('url')
    getOnePageOrderHistory(pageNum, murl)


def checkCode(m_identity, m_sessionid, m_type, url):
    # 获取验证码的图片
    murl = "https://pin.aliyun.com/get_img"

    mheader = {}
    mheader['user-agent'] =  choice(Configure.FakeUserAgents)
    mheader['referer'] = url

    mpayload = {
        'identity':m_identity,
        'sessionid':m_sessionid,
        'type':m_type,
        't':int(time.time()*1000)
    }

    try:
        response = requests.get(murl, headers=mheader, params=mpayload, cookies=cookies)
        content = None
        
        if response.status_code == requests.codes.ok:
            content = response.content
            
    except Exception as e:
        print (e)

    # 将验证码图片写入本地
    with open("codeimg.jpg","wb") as file:
        file.write(content)

    # 输入并验证验证码
    code = input("请输入验证码：")

    murl = "https://pin.aliyun.com/check_img"

    mpayload = {
        'identity':m_identity,
        'sessionid':m_sessionid,
        'type':m_type,
        'code':code,
        '_ksTS': '{0:d}_29'.format(int(time.time()*1000)),
        'callback':'jsonp30',
        'delflag':0
    }

    try:
        response = requests.get(murl, headers=mheader, params=mpayload, cookies=cookies)
        content = None
        
        if response.status_code == requests.codes.ok:
            content = response.text
            
    except Exception as e:
        print (e)

    # 检测是否成功
    # 这里要返回这个验证码，后面会用到
    pattern = re.compile("SUCCESS",re.S)
    data = pattern.findall(content)

    if data:
        return True, code
    else:
        return False, code

def getUA():
    # 利用PhantomJS模拟浏览器行为
    # 访问本地的js文件来获取UA
    driver = webdriver.PhantomJS()
    driver.get("file:///D:/OneDrive/Documents/Python%E5%92%8C%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98/code/taobao/ua.html")
    content = driver.find_element_by_tag_name('p').text
    driver.close()

    return content
    

if __name__ == '__main__':
    for i in range(2,25):
        getOnePageOrderHistory(i)
        print ("抓取第{0:d}页。".format(i))
        time.sleep(2)

ua.html

这个代码如果用浏览器访问，会在页面里生成最新的ua，之后再用selenium抓下来就可以了。

<html>
<head>
<script>
var UA_Opt=new Object;
var ua="";
UA_Opt.LogVal="ua";
UA_Opt.MaxMCLog=6;
UA_Opt.MaxMPLog=5;
UA_Opt.MaxKSLog=5;
UA_Opt.Token=new Date().getTime()+":"+Math.random();
UA_Opt.SendMethod=8;
UA_Opt.Flag=12430;
function getUA(){
    var tmp = ua;
    try {
        UA_Opt.Token= new Date().getTime()+":"+Math.random();
        UA_Opt.reload();
    }
    catch(err){}
        return tmp;
}
</script>
<script src="https://uaction.alicdn.com/js/ua.js"></script>
<script>

ua:getUA()
document.write("<p>"+ua+"</p>");
</script>
</head>
<body>

</body>
<html>

最终效果图

这里还有个尴尬的地方，我直接抓20个页面的时候一次都没有进入验证码流程，而一页一页访问的时候就很容易进入。图片是我好不容易进入了一次验证码流程后抓下来的，可以看到第一张表格上方有输入验证码。

因为我这两年在国外，淘宝上买的东西全是dota饰品，见笑了。

taobao-结果.jpg

淘宝抓取所有历史订单
思路淘宝是我迄今为止遇到的反爬虫技术最厉害的一个网站，我估计在业界它也是处于顶尖水平的。这里我一共花了整整一天2...
查看订单信息
由于淘宝调整，app内暂时无法看到订单，订单请到淘宝客户端查看，在app内下的单都会到淘宝内订单。
消费思考
早上居然无聊地看完了淘宝的所有订单，从2010年开始网购已经有7年的历史了，回看以前买过的东西，再对比现在的购物...
使用selenium抓取淘宝“已购买的订单”信息
使用selenium抓取已购买订单的信息本人是公司的数据分析师一枚，昨天公司的秘书妹纸跟我抱怨说，每天都要登录...
支付宝客服给我的启示
昨天爱人查一个淘宝的订单信息，发现不管是淘宝还是支付宝里面，没有这个订单和付款记录，并且淘宝订单里只有话费充值记录...
订单回流工具
订单回流工具是1688为淘宝代发店主开发的订单管理工具，通过订单回流，淘宝店的一件代发订单可以实时回传到1688渠...
乐高项目分析(1)
购买历史根据userId获取所有订单,遍历订单使用键值对筛选必要字段代码片段心愿列表详情分析: 设置分页,...
淘宝卖家订单管理怎么做？好用的订单管理系统看这里
淘宝卖家订单管理怎么做？首先我们先弄明白什么是订单管理，淘宝卖家订单管理的流程是什么？一般而言，订单管理流程就是从...
【iOS分享之路-快速搭建电商平台】十一、快速集成空白视图
引述我们在使用淘宝的时候，在我的订单页面，如果没有相应的订单状态，会有相应的提示，如下图为淘宝无订单时候的页面显...
淘宝订单分析
最近在做订单方面的需求，由于我们平台是综合类平台，电商、OTA、虚拟业务都有，所以对订单设计的通用性要求比较高，因...