Transformer中的Multi-Head Attention

admin • 2018 年 12 月 17 日 11:08 • 学术报告 • 阅读 588

注意力（Attention）机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中。随着注意力机制的深入研究，各式各样的attention被研究者们提出。在2017年6月google机器翻译团队在arXiv上放出的《Attention is all you need》论文，最后发表在2017年nips上，到目前为止google学术显示引用量为886，可见也是受到了大家广泛关注和应用。这篇论文主要亮点在于1）不同于以往主流机器翻译使用基于RNN的seq2seq模型框架，该论文用attention机制代替了RNN搭建了整个模型——Transformer。2）提出了Multi-Head Attention方法，在编码器和解码器中大量的使用了Multi-Head Attention。此次学术报告将对Multi-Head Attention的原理和应用做详细的介绍。

附件-Transformer中的Multi-Head Attention.pdf

原创文章，作者：BFS，如若转载，请注明出处：https://www.isclab.org.cn/2018/12/17/%e5%ad%a6%e6%9c%af%e6%8a%a5%e5%91%8a-transformer%e4%b8%ad%e7%9a%84multi-head-attention/

Transformer中的Multi-Head Attention

相关推荐

请登录