先看论文链接BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation
参考知乎文章-旷视科技提出双向网络BiSeNet:实现实时语义分割
计算机视觉4大落地场景(人、脸、车、字)。
1 设计思想
实时语义分割模型的加速方法主要有:
- 通过剪裁或 resize 来限定输入大小,以降低计算复杂度。尽管这种方法简单而有效,空间细节的损失还是让预测打了折扣,尤其是边界部分,导致度量和可视化的精度下降;
- 通过减少网络通道数量加快处理速度,尤其是在骨干模型的早期阶段,但是这会弱化空间信息;
- 为追求极其紧凑的框架而丢弃模型的最后阶段(比如ENet)。该方法的缺点也很明显:由于 ENet 抛弃了最后阶段的下采样,模型的感受野不足以涵盖大物体,导致判别能力较差。
上述方法如图1(a)所示,于是进化到U-shape(U-Net)阶段。
图1 不同模型加速方法的示意图U-shape的缺点:
1)由于高分辨率特征图上额外计算量的引入,完整的 U 形结构拖慢了模型的速度。
2)更重要的是,如图 1(b) 所示,绝大多数由于裁剪输入或者减少网络通道而丢失的空间信息无法通过引入浅层而轻易复原。
网友评论