Transformer模型是目前机器翻译等NLP问题最好的解决办法,比RNN有大幅提高。这节课和上节课讲解Transformer模型。这节课的内容是 用Attention层与Self-Attention层搭建深度神经网络——Transformer模型。
我没有像其他视频和博客那样剖析Transformer的每个组件。我的思路是从零开始设计一个Transformer模型。希望大家能跟着我的思路一起解决这个问题:如何搭建一个纯基于Attention的深度神经网络,并且能解决一切RNN擅长的问题?
课件:https://github.com/wangshusen/DeepLea...