美文网首页
使用Python下载某个Android模块源码

使用Python下载某个Android模块源码

作者: 留给时光吧 | 来源:发表于2018-01-12 15:58 被阅读0次

    个人感觉Android源码是学习Android开发的最好资料,在这里首先推荐两个看Android源码的网站:
    androidos
    androidxref
    两个网站的内容都差不多,其中androidos的排版比较舒服,还进行了热门模块的索引,可以很方便的下载某些文件,但是下载整个模块时候就比较坑了,比如下载Music模块时,如图

    只有8kb,明显这个网站自带的下载只是下载了一级目录下的内容,没有递归下载深层次目录的内容,这不是闹着玩么....

    办法总是有的,我手动一级一级下载不就好了么( ̄▽ ̄)/。开个玩笑,正好最近在学Python,于是就试着写一个程序,来下载整个模块的内容。

    主要思路是,利用栈,使用类似深度遍历的方法开始遍历:
    1.访问模块根目录的地址,进入第2步
    2.解析HTML文档,得到该级目录下的内容,将各个内容的地址进栈,进入第3步
    3.如果栈不为空,从栈顶弹出一个地址,访问该地址,如果是文件,执行第4步,如果是文件夹,执行第5步。如果栈为空,执行第6步
    4.下载该文件,进入第3步
    5.在本地创建该文件夹,保持路径嵌套正确,并且访问该地址,回到第2步
    6.程序结束

    程序并不复杂,关键点在于解析HTML,获取到我们需要的东西,具体做法可以把我的代码和网页的源代码联合起来看,这里解析HTML我使用了BeautifulSoup模块,这里顺便提供一下该模块的官方中文文档
    Beautiful Soup 中文文档

    代码比较短我就直接贴出来,大部分地方会有注释:

    from urllib import request
    from bs4 import BeautifulSoup
    from retrying import retry  #一个比较不错的出错重试库,没用的朋友可以尝试一下
    import os
    import time
    import random
    class Utils(object):
        SUCCESS_CODE = 200
        ERROR = "err"
        BaseUrl = "https://www.androidos.net.cn"
        Size = '-'
        DEBUG = True
        
        #打开地址,失败时最多重试3次,每次重试前等待3s
        @retry(stop_max_attempt_number = 3,wait_fixed = 3000)
        def opneUrl(self,url):
            with request.urlopen(url,None,10) as response:
                if response.getcode() == self.SUCCESS_CODE:
                    return [True, url, response.read().decode('utf-8')]
                else:
                    raise Exception("connect error")
        #主要用于捕获异常
        def getHtml(self,url):
            try:
                return self.opneUrl(url)
            except Exception as e:
                self.err += 1
                self.log("Error! url = " + url + str(e))
                return [False, url, self.ERROR]
        
        #解析HTML文档
        def parase(self,html):
            if html[0]:
                try:
                    soup = BeautifulSoup(html[2],"lxml")  #此处使用lxml作为解析器,有可能需要另行安装,该解析器需要c语言库支持
                    table = soup.find(self.getFileList)#找到文件列表所在的table
                    trs = table.find('tbody').find_all('tr')#每个条目都是一个tr,拿到全部条目
                    for tr in trs:
                        if len(tr.find_all('td')) > 2:#过滤掉那个返回上一级的条目
                            info = [True, tr.find(self.getName).a.string, tr.find(self.getSize).string != self.Size, self.BaseUrl+tr.find(self.getName).a['href']]#存储解析到的信息
                            if info[2]:
                                info[3] = info[3].replace("xref","download")#如果是文件的话替换为下载地址
                            self.stack.append(info)#进栈
                except Exception as e:
                    self.err += 1
                    self.log("Error! Parase fail ,url = " + html[1])
                    self.stack.append([False,html[1]])
            else:
                self.stack.append([False,html[1]])
      
        #下载或者创建目录
        def mkDirOrDownload(self):
            while len(self.stack) != 0:#循环出栈
                s = self.stack.pop()
                if s[0]:
                    if s[2]:#如果是文件,则下载
                        filename = s[3].partition(self.module)[2]#通过地址解析出文件名及相对路径
                        self.log("download file : " + filename)
                        try:
                            self.download(s[3],filename)
                        except Exception as e:
                            self.err += 1
                            self.log("Error! download fail : url = " + s[3] + " " + str(e))
                    else:#如果是目录则创建目录
                        dirname = s[3].partition(self.module)[2]#通过地址解析出目录的相对路径
                        self.log("mkdir : " + dirname)
                        os.mkdir(self.downDir + dirname)
                        self.parase(self.getHtml(s[3]))
            self.log("end!!! error = "+ str(self.err) + " time = " + str(time.time() - self.startTime))
      
        #下载文件的方法,同样失败时重试3次,每次重试前等待3s
        @retry(stop_max_attempt_number = 3,wait_fixed = 3000)
        def download(self,url,filename):
            with request.urlopen(url,None,10) as file:
                data = file.read()
                with open(self.downDir + filename, 'wb') as down:
                    down.write(data)
    
        def getFileList(self,tag):
            return tag.name == 'table' and 'table' in tag['class'] and 'filelist' in tag['class'] and 'table-hover' in tag['class']
    
        def getName(self,tag):
            return tag.name == 'td' and 'content' in tag['class']
    
        def getSize(self,tag):
            return tag.name == 'td' and 'size' in tag['class']
       
        #输出日志的方法
        def log(self,info):
            if self.DEBUG:
                print(info)
                with open(self.downDir + self.logName, 'a') as log:
                    log.write(info)
                    log.write('\n')
    
        #运行入口
        def run(self):
            self.parase(self.getHtml(self.url))
            self.mkDirOrDownload()
      
        #类初始化
        def __init__(self,url,directory):
            self.startTime = time.time()  #记录开始时间
            self.err = 0 #记录错误数
            self.stack = []  #初始化栈
            self.url = url  #存储传入的模块地址
            self.module = url.split('/').pop() + "/"  #解析出模块名
            self.downDir = directory + self.module  #构建下载目录
            self.logName = "log"+ str(random.uniform(10,20))[3:]  #随机生成一个日志文件
            try:
                os.mkdir(self.downDir)  #创建下载目录
            except Exception as e:
                print(e)
                exit(0)
    
    

    以下载Music模块为例

    from Utils import Utils
    desktop = "C:/Users/mpc/Desktop/"
    url = "https://www.androidos.net.cn/android/8.0.0_r4/xref/packages/apps/Music"
    
    utils = Utils(url,desktop)
    utils.run()
    
    

    这基本属于Python比较简单基础的应用,由于初学Python,还写不出比较厉害的程序,还有许多不足点需要补充,另外本程序没有采用多线程方法,会导致下载速度比较慢。如果有什么建议或者补充欢迎提出ヾ(๑╹◡╹)ノ"


    实测下来,下载整个apps下面的48个模块 用时如下

    其中有7个错误,都是网站没有该文件



    相关文章

      网友评论

          本文标题:使用Python下载某个Android模块源码

          本文链接:https://www.haomeiwen.com/subject/byhtoxtx.html