这篇论文是2020年放在Arxiv上的《MicroNet: Towards Image Recognition with Extremely Low FLOPs》,第一作者是UCSD的Yunsheng Li,其它作者是Mentor是微软AI&R Ambience Intelligence Zicheng Liu team,这篇论文和Dynamic ReLU一脉相称。
这篇论文提出了在保持通道数的情况下,如何减少连接数和减少层数来减少网络计算量,同时保持精度。首先提出Micro-Factorized的卷积将Depth-wise和point-wise的卷积拆分成多个卷积;其次提出了Dynamic Shift-Max这种动态的activation。
方法
principle
- 在避免减少卷积通道数的情况下减少node的连接数
- 减少网络的层数,同时提升activation的非线性性能
Micro-Factorized Convolution
- 将Point-wise的卷积分成多个卷积,W=PφQ
- 原本是C->C的卷积通道数
- P压缩通道数到C/R,采用G个group的卷积
- φ是一个Shuffle层
- Q是一个提升通道到C,采用G个group的卷积
- 为了保证所有的output channel和input channel相连接,推算出G=sqrt(C/R)
- 将Depth-wise的卷积搞成kx1和1xk的卷积
Dynamic Shift-Max
- 将J个Group的activation做weighted sum,weight使用SE block得到的attention
- 使用K套不同的SE block的Weight,求最大值
- $y_i=\max_{k\le K}{ \sum_{j} a^k(x) x_j }$
- $x_j$是第j个group里面的activation
网络
- Micro-Block-A
- Micro-Factorized depthwise + pointwise conv(grouped)
- 在前面的层效果好,因为channel数不多,所以depthwise卷积开销不大
- Micro-BLock-B
- Micro-Factorized depthwise(提升channel数量) + Micro-Facgtorized pointwise conv
- C
- Micro-Factorized depthwise + pointwise conv
实验
- M0
- AABCCC
- 6M MAdds
- 53top-1 ImageNet
- Pose Estimation和Segmentation的实验也证明比MobileNet好很多
总结
- 这篇论文对于连接性和通道数的分析很有意义,通过拆分连接达到减少计算量的目的。但实际硬件的效率可能和访问关系较大,再减少连接数可能不是特别有优势了。对于非线性的问题,我认为证据不足,需要继续研究。