美文网首页PYTHON
生信-爬虫 | 异步爬取网页表格数据

生信-爬虫 | 异步爬取网页表格数据

作者: 生信卷王 | 来源:发表于2021-06-11 12:54 被阅读0次

    写在前面

    前段时间,师姐让爬取一些LncRNA的一些信息,具体在下面的网站中:
    LncBook:https://ngdc.cncb.ac.cn/lncbook/lncrnas
    由于这个表格是利用AJAX技术构建的,因此利用传统爬虫获取不到网页的列表信息,且翻页后URL不变,所以异步爬取顺理成章的被利用起来了。我们可以按F12获取一些蛛丝马迹,从而帮助我们直接获取表格信息。

    技术实现

    • 以获取LncBook表格信息为例

    1、查看AJAX的构成规律

    • 打开网页,按【F12】,在【网络】模块下选择【XHR】,刷新网页。


      第一步
      第二步
    • 点击Incall查看详细信息,其中对我们有用的就是【请求URL】与【表单数据】


      详细信息
    • 此时我们翻页,查看二者的变化


      探索规律

    结论

    • 我们采用【URL?page=】的结构就可以访问表格数据了(注意【?】不可省略),举例:
    https://ngdc.cncb.ac.cn/lncbook/lncrnas/lncall?page=1
    https://ngdc.cncb.ac.cn/lncbook/lncrnas/lncall?page=2
    https://ngdc.cncb.ac.cn/lncbook/lncrnas/lncall?page=3
    #为了一次获取更多的数据,避免频繁获取被封IP,我们可以修改size的数值,参数间使用【&】连接
    https://ngdc.cncb.ac.cn/lncbook/lncrnas/lncall?page=3&size=50
    
    • 把连接粘贴到浏览器的地址栏中即可访问,如下: JSON数据

    2、开始爬取

    • 获取到信息之后的事情就简单了,利用传统的静态爬虫技术就可以访问地址并获取数据啦
    • 导入包
    import json
    import urllib.request,urllib.error
    import re
    import openpyxl
    import time
    
    • 定义主函数
    def main():
        baseurl = "https://bigd.big.ac.cn/lncbook/lncrnas/lncall?page="
        datalist = getData(baseurl)
        savepath = "lncrnas.xlsx"
        saveData(datalist,savepath)
    
    • 定义获取网页信息的函数,其中稍微涉及一些正则表达式,需要理解一下
    def getData(baseurl):
        datalist = []
        for i in range(0,27):
            #time.sleep(1)
            url = baseurl + str(i) + str("&size=10000")  #可以看到这里我设置的是10000,也就是一下获取1w条数据
            html = askURL(url)
            data = re.findall("\"total\":268848,\"transInfo\":(.+?),\"page\"", str(html))
            jsonObj = json.loads(data[0])
            for item in jsonObj:
                items = [item['transid'], item['geneid'], item['chrome'],
                         item['startsite'], item['endsite'], item['strand'], item['length'],
                         item['exonNum'], item['orfLength'], item['gcContent'],item['classification']]
                datalist.append(items)
                #print(items)
            print("第%d页已完成"%(i+1))
        return datalist
    
    • 定义保存数据的函数
    def saveData(datalist,savepath):
        book = openpyxl.Workbook()
        sheet = book.create_sheet(title="lncrnas")
        col= ("Transcript ID","Gene ID","Chrome","Startsite","Endsite","Strand","Length (nt)","Exon Number","ORF Length (nt)","GC Content (%)","Classification")
        for i in range(0,11):
            sheet.cell(row = 1, column = i+1).value = col[i]
        for i in range(0,268848):
            print("第%d条已完成"%(i+1))
            data = datalist[i]
            for j in range(0,11):
                sheet.cell(row = i+1, column = j+1).value = data[j]
        print('正在保存')
        book.save(savepath)
    
    • 定义访问URL的函数
    def askURL(url):
        head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.57"}
        request = urllib.request.Request(url,headers=head)
        html=""
        try:
            response = urllib.request.urlopen(request)
            html= response.read().decode("utf-8")
            #print(html)
            pass
        except urllib.error.URLError as e:
            if hasattr(e,"code"):
                print(e.code)
            if hasattr(e,"reason"):
                print(e.reason)
                pass
            pass
        return html
    
    • 调用函数
    if __name__ == "__main__":
        main()
        print('爬取结束')
    
    • 结果展示
    爬取结果

    写在最后

    • 其实要想将上面的代码化为己用还是挺头痛的,因此如果你有这方面的需求又搞不定上面的代码,我可以【有偿】帮助你。(财迷本迷)


    相关文章

      网友评论

        本文标题:生信-爬虫 | 异步爬取网页表格数据

        本文链接:https://www.haomeiwen.com/subject/vximeltx.html