美文网首页python
Python利用requests批量进行CPGAVAS2注释

Python利用requests批量进行CPGAVAS2注释

作者: 小潤澤 | 来源:发表于2022-08-04 15:42 被阅读0次

    我们可以打开CPGAVA2的网址:http://47.96.249.172:16019/analyzer/annotate,利用示例数据来查看网络的交互情况

    该网站的工作原理是利用上传数据的网页


    上传数据的网页

    然后返回一个 project 号,过大约20min,利用该 project 号去查询结果,


    查询结果的网页

    最后下载注释的结果

    其中:

    1.Request Headers Request Headers
    当点击submit以后,Request Headers 提供了发送请求网页的header信息
    2.Response Headers Response Headers 而 Response Headers 则提供了提交请求后,由服务器返回数据的header信息,可以看到返回的信息Location里面提供了二次跳转的路由,因此这个问题就变成了如何获取 project号,等待20min后进行结果的查询

    首先利用 fiddler 来抓包network环境:
    点击 http://47.96.249.172:16019/analyzer/annotate 这个路由


    这里的name代表上传文件的所有参数,其他参数以字典的形式储存,而上传的文件单独以files(字典形式)进行储存,并写全所有的参数的内容(Content-Disposition,Content-Type,filename ,name )
    # 这个参数指代上传的文件,txt
    files = {
       # name
        "file1": open("/.../sample.fas.txt",'rb'),
      # Content-Disposition的形式
        "Content-Disposition": "form-data",
     # Content-Type的形式
        "Content-Type": "text/plain",
     # filename 上传文件的名称
        "filename": 'sample.fas.txt'
    }
    

    而下载数据的link为 http://47.96.249.172:16019//tmp/dir_165959047398336/165959047398336.tar.gz 这种形式,即用 project id 作为结果的区别

    完整代码:

    import os
    import time
    import urllib.parse
    import urllib.request
    import requests
    import json
    
    url = "http://47.96.249.172:16019/analyzer/annotate"
    
    # 这里存放其他上传文件的参数,这里的key代表html里面的参数name
    params = {
            "projectName": "Project Name",
            "speciesName": "Species Name",
            "refdataset": "1. 43-plastomes",
            "misa_par1": " 1-10 2-6 3-5 4-5 5-5 6-5 ",
            "trf_par1": " 2 7 7 80 10 50 500 -f -d -m ",
            "vmatch_par1": " -f -p -h 3 -l 30 ",
            "isforupdate": 0,
            "emailAddress": "",
            "refdataset": "refds1",
            ## 这个参数指代是否提交,模拟点击submit
            "form_submit": "yes"
        }
    
    # 这个参数指代上传的文件,txt
    files = {
        "file1": open("/.../sample.fas.txt",'rb'),
        "Content-Disposition": "form-data",
        "Content-Type": "text/plain",
        "filename": 'sample.fas.txt'
    }
    
    res = requests.post(url,params,files=files,allow_redirects=False)
    job_id = str(res.headers.get('location')).split('=')[1]
    print(job_id)
    time.sleep(200)
    
    links = 'http://47.96.249.172:16019//tmp/dir_' + job_id + '/' + job_id + '.tar.gz'
    os.chdir('/data/home/huanfan/')
    os.system('wget' % (links))
    

    相关文章

      网友评论

        本文标题:Python利用requests批量进行CPGAVAS2注释

        本文链接:https://www.haomeiwen.com/subject/tobywrtx.html