Loading...

动手学深度学习番外篇：注意力机制概述 - Apache MXNet/Gluon 中文频道 - 深度學習 Deep Learning 公開課 - Cupoy

资源网站: https://zh.d2l.ai （GitHub: https://github.com/d2l-ai/d2l-zh ），纸质书详情见资源网站（上架4周重印2次，累计3万册）。 En...

AI共學社群

资源网站: https://zh.d2l.ai （GitHub: https://github.com/d2l-ai/d2l-zh ），纸质书详情见资源网站（上架4周重印2次，累计3万册）。 English version: https://www.d2l.ai （GitHub: https://github.com/d2l-ai/d2l-en ）最接近课程视频中的课件: https://github.com/d2l-ai/d2l-zh/rele... === 深度学习中，注意力是实现非参模型的关键机制。可以说，它是近年来深度学习在自然语言处理、计算机视觉、语音识别、图像合成、解NP-hard问题和强化学习等领域进一步取得重大进展的基石。与正篇课程从“聚焦细节”视角切入不同，该番外篇中，我们将从“观其大略”的视角，简要了解注意力机制的分类、实现和预训练，以及在减参、结构化和稀疏化的最新进展。也就是说，与正篇中的课程不同，番外篇中将同时讨论较多话题，因此无法深入探讨方法细节。大家可以回顾第18课有关注意力机制的详细介绍，或者书中相应内容。内容提纲及时间分配如下： 10min: 非参数回归 10min: 注意力机制 10min: 层次注意力 10min: 循环注意力 30min: 含输出的循环注意力 40min: 多头注意力、BERT和GPT 10min: 减参、结构化、稀疏化