arXiv'22-(神经元分区)MoEfication: Tra

arXiv'22-(神经元分区)MoEfication: Tra

作者: Caucher | 来源:发表于2023-05-05 18:06 被阅读0次

2013SEA-(Kahip两级图分区调优算法)Think Lo
GhostNet(More Features from Chea
整理了下现有的预印本服务
如何快速下载arXiv文献
2021.1.19（晴）
FCOS(Fully Convolutional One-Sta
CE-Net: Context Encoder Network
Swin Transformer V2：将SwinTransfo
SimMIM：SwinTransformer的屏蔽图像建模
VAN

标题：MoEfication：Transformer前馈层是多个Expert的组合

编者的总结：

本文提出前馈神经网络有功能分区的概念，即对于某一个输入，只有一部分神经元被激活，大部分神经元静默摸鱼。
因此提出聚类方法，本质上是预测对于某个输入x，那些神经元最可能被激活，然后只用这些神经元做推理，可以起到加速效果。

编者的思考

具体方法层面还过于简单，方法有效性仍需广泛验证

Abstract & Introduction

占Transformer参数量2/3的前馈层的计算模式仍不清楚；
作者发现，给定一个输入，大部分的神经元都没有被激活（这里的激活指的是ReLU激活函数输出大于0）
- e.g.: T5-Large模型中，90%的输入只能激活不到5%的神经元
由此发出疑问，前馈神经网络是否也如人脑一样存在功能分区，每个输入只会用到一部分分区？
因此作者提出idea：首先将神经网络的参数划分成多个分区，然后每次inference只用一部分功能分区。（类似于MoE的思路，Mixture-of-Experts）
接下来就是两个问题，如何划分，如何选取。

3 MoEfication

image.png

3.2 Expert Construction

神经元划分方面：

核心idea就是将经常同时激活的神经元放到同一个分区里面，具体方法有以下两种：

将参数矩阵做平衡K-means进行聚类，因为可以想到距离较近的参数向量产生的输出值也会相近。
将神经元表示在图上面，神经元之间的距离使用co-activation度量，这个距离表示两个神经元同时激发时的值的积，需要从训练集中抽样用以计算这个距离。最后使用图分区算法做划分。

image.png

3.3 Expert Selection

分区选取方面：

核心目标是能选到一组分区，使其输出和全部神经元的输出尽可能接近。
基本思路是给每个分区打分，固定选n个分最高的分区。打分方法有以下三种：

Groundtruth selection：每个分区的都算一遍激活，然后累加正值，作为分数；
Similariyu Selection：每个分区的权重矩阵的所有列直接相加，和输入做cosine相似性作为分数；
MLP Selction：训练一个多层感知机，输入就是x，输出是预测分数，label就是第一种的ground truth，所以本质上是第一种的近似方法。

相关文章

2013SEA-(Kahip两级图分区调优算法)Think Lo
是比较新的一篇图分区算法，针对传统问题。ArxIV也有同名文章，更为详细。标题：局部地思考，全局地执行：高度平衡的...
GhostNet(More Features from Chea
arxiv：https://arxiv.org/pdf/1911.11907arxiv.orggithub：htt...
整理了下现有的预印本服务
Arxiv 康奈尔服务器：http://arxiv.org/ CN镜像：http://cn.arxiv.org/ ...
如何快速下载arXiv文献
简单的说，就是arxiv 在中国有官方镜像 http://cn.arxiv.org。背景 arXiv （http...
2021.1.19（晴）
上午开会到12点多。晚上22-
FCOS(Fully Convolutional One-Sta
arXiv: https://arxiv.org/abs/1904.01355 github: https://g...
CE-Net: Context Encoder Network
2019．6 arXiv：https://arxiv.org/abs/1903.02740 github：http...
Swin Transformer V2：将SwinTransfo
arXiv:2111.09883[https://arxiv.org/abs/2111.09883][pdf[ht...
SimMIM：SwinTransformer的屏蔽图像建模
arXiv:2111.09886[https://arxiv.org/abs/2111.09886][pdf[ht...
VAN
https://arxiv.org/abs/2202.09741 arXiv:2202.09741 [pdf, o...

网友评论

本文标题：arXiv'22-(神经元分区)MoEfication: Tra

本文链接：https://www.haomeiwen.com/subject/cyrqsdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|arXiv'22-(神经元分区)MoEfication: Tra|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！