美文网首页
TPU: 设计和拆解ASIC芯片

TPU: 设计和拆解ASIC芯片

作者: 牛牛_735d | 来源:发表于2020-01-11 16:11 被阅读0次

    GPU天生适合海量、并行的矩阵运算、于是大量用在深度学习的模型训练上
    深度学习中计算量最大的是什么呢 ? 深度学习的推断部分

    `推断部分`: 在完成深度学习训练之后、把训练完成的模型存储下来. 这个存储下来的模型、是许多个向量组成的参数、然后根据这些参数、计算输入的数据、得到结果. eg. 推测用户是否点击广告; 扫身份证进行人脸识别
    

    思考: 模型的训练和推断有什么区别 ?

    一、深度学习的推断、灵活性要求更低. 只需要计算一些矩阵的乘法、加法、调用一些sigmoid这样的激活函数、可能计算很多层、但也只是这些计算的简单组合
    
    二、深度学习推断的性能、首先要保证响应时间的指标
    模型训练的时候、只需要考虑吞吐率就可以、但推断不行. eg. 我们不希望人脸识别会超过几秒钟
    
    三、深度学习的推断工作、希望功耗尽可能的小一些
    因为深度学习的推断要7*24小时的跑在数据中心、且对应芯片要大规模的部署在数据中心、一块芯片减少5%的功耗、就可以节省大量的电力
    
    

    于是: 第一代TPU的设计目标:
    在保障响应时间的情况下、尽可能的提高能效比这个指标、也就是进行相同数量的推断工作、花费的整体能源要低于CPU和GPU

    TPU的几点设计

    1. 向前兼容 2. TPU未设计成包含取指电路的GPU、而是通过CPU发送需要执行的指令
    1. 使用SRAM 作为统一缓冲区, SRAM一般用来作为CPU的寄存器或者高速缓存、SRAMDRAM快, 但因为电路密度小、占用空间大、价格也较贵、之所以选择SRAM是因为整个推断过程、它会高频反复地被矩阵乘法单元读写、来完成计算
    2. 细节优化, 使用8Bits数据
    image.png

    相关文章

      网友评论

          本文标题:TPU: 设计和拆解ASIC芯片

          本文链接:https://www.haomeiwen.com/subject/lyalactx.html