TPU: 设计和拆解ASIC芯片

作者: 牛牛_735d | 来源:发表于2020-01-11 16:11 被阅读0次

TPU: 设计和拆解ASIC芯片
Ulord 靠什么防止ASIC矿机
2020年研究生数学建模竞赛优秀论文汇总
一分钟读书俱乐部（八十一）：《区块链技术驱动金融》专用集成电路挖
『学概念找员外』专用集成电路技术挖矿
AI芯片发展分析
AI芯片分析
感兴趣方向的持续调研
详解谷歌人工智能“黑科技”：边缘计算Coral Edge TPU
麒麟芯片发展史

GPU天生适合海量、并行的矩阵运算、于是大量用在深度学习的模型训练上
深度学习中计算量最大的是什么呢 ? 深度学习的推断部分

`推断部分`: 在完成深度学习训练之后、把训练完成的模型存储下来. 这个存储下来的模型、是许多个向量组成的参数、然后根据这些参数、计算输入的数据、得到结果. eg. 推测用户是否点击广告; 扫身份证进行人脸识别

思考: 模型的训练和推断有什么区别 ?

一、深度学习的推断、灵活性要求更低. 只需要计算一些矩阵的乘法、加法、调用一些sigmoid这样的激活函数、可能计算很多层、但也只是这些计算的简单组合

二、深度学习推断的性能、首先要保证响应时间的指标
模型训练的时候、只需要考虑吞吐率就可以、但推断不行. eg. 我们不希望人脸识别会超过几秒钟

三、深度学习的推断工作、希望功耗尽可能的小一些
因为深度学习的推断要7*24小时的跑在数据中心、且对应芯片要大规模的部署在数据中心、一块芯片减少5%的功耗、就可以节省大量的电力

于是: 第一代TPU的设计目标:
在保障响应时间的情况下、尽可能的提高能效比这个指标、也就是进行相同数量的推断工作、花费的整体能源要低于CPU和GPU

TPU的几点设计

向前兼容 2. TPU未设计成包含取指电路的GPU、而是通过CPU发送需要执行的指令

使用SRAM 作为统一缓冲区, SRAM一般用来作为CPU的寄存器或者高速缓存、SRAM比DRAM快, 但因为电路密度小、占用空间大、价格也较贵、之所以选择SRAM是因为整个推断过程、它会高频反复地被矩阵乘法单元读写、来完成计算
细节优化, 使用8Bits数据

image.png

网友评论

本文标题：TPU: 设计和拆解ASIC芯片

本文链接：https://www.haomeiwen.com/subject/lyalactx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

TPU: 设计和拆解ASIC芯片

TPU的几点设计

相关文章

TPU: 设计和拆解ASIC芯片

Ulord 靠什么防止ASIC矿机

2020年研究生数学建模竞赛优秀论文汇总

一分钟读书俱乐部（八十一）：《区块链技术驱动金融》专用集成电路挖

『学概念找员外』专用集成电路技术挖矿

AI芯片发展分析

AI芯片分析

感兴趣方向的持续调研

详解谷歌人工智能“黑科技”：边缘计算Coral Edge TPU

麒麟芯片发展史

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读