论文笔记 《OmniNet: Omnidirectional Representations from Transformers》

这篇文章是2021年挂在arxiv的《OmniNet: Omnidirectional Representations from Transformers》,作者是Google Research的Yi Tay/Mostafa Dehghani。

文章提出使用多层的Tokens作为Attention的输入,类似于DenseNet。

方法

全方向表达

  • $xformer(X)=X_1,X_2,\dots X_L$
  • $O=Attend(IndexSort(xformer(X)))$
  • $OmniNet(X)=xformer(X)_L+MaxPool1D(O)$

解决问题

  • 计算complexity, omninet变成flatnet
    • Attention被实现为meta-learner,输入所有的,精炼
    • 使用efficient transformer
      • kernel transformations
      • low-rank self-attention
      • block-based sparsity
    • partition layers

总结

很多细节没理解到。图像里面的很多思想是可以复用的。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×