这篇文章是2021年挂在arxiv的《OmniNet: Omnidirectional Representations from Transformers》,作者是Google Research的Yi Tay/Mostafa Dehghani。
文章提出使用多层的Tokens作为Attention的输入,类似于DenseNet。
方法
全方向表达
- $xformer(X)=X_1,X_2,\dots X_L$
- $O=Attend(IndexSort(xformer(X)))$
- $OmniNet(X)=xformer(X)_L+MaxPool1D(O)$
解决问题
- 计算complexity, omninet变成flatnet
- Attention被实现为meta-learner,输入所有的,精炼
- 使用efficient transformer
- kernel transformations
- low-rank self-attention
- block-based sparsity
- partition layers
总结
很多细节没理解到。图像里面的很多思想是可以复用的。