资源网站: https://zh.d2l.ai (GitHub: https://github.com/d2l-ai/d2l-zh ),纸质书详情见资源网站(上架4周重印2次,累计3万册)。
English version: https://www.d2l.ai (GitHub: https://github.com/d2l-ai/d2l-en )
最接近课程视频中的课件: https://github.com/d2l-ai/d2l-zh/rele...
===
深度学习中,注意力是实现非参模型的关键机制。可以说,它是近年来深度学习在自然语言处理、计算机视觉、语音识别、图像合成、解NP-hard问题和强化学习等领域进一步取得重大进展的基石。
与正篇课程从“聚焦细节”视角切入不同,该番外篇中,我们将从“观其大略”的视角,简要了解注意力机制的分类、实现和预训练,以及在减参、结构化和稀疏化的最新进展。也就是说,与正篇中的课程不同,番外篇中将同时讨论较多话题,因此无法深入探讨方法细节。大家可以回顾第18课有关注意力机制的详细介绍,或者书中相应内容。
内容提纲及时间分配如下:
10min: 非参数回归
10min: 注意力机制
10min: 层次注意力
10min: 循环注意力
30min: 含输出的循环注意力
40min: 多头注意力、BERT和GPT
10min: 减参、结构化、稀疏化