logo
Loading...

动手学深度学习番外篇:注意力机制概述 - Apache MXNet/Gluon 中文频道 - 深度學習 Deep Learning 公開課 - Cupoy

资源网站: https://zh.d2l.ai (GitHub: https://github.com/d2l-ai/d2l-zh ),纸质书详情见资源网站(上架4周重印2次,累计3万册)。 En...

资源网站: https://zh.d2l.ai (GitHub: https://github.com/d2l-ai/d2l-zh ),纸质书详情见资源网站(上架4周重印2次,累计3万册)。 English version: https://www.d2l.ai (GitHub: https://github.com/d2l-ai/d2l-en ) 最接近课程视频中的课件: https://github.com/d2l-ai/d2l-zh/rele... === 深度学习中,注意力是实现非参模型的关键机制。可以说,它是近年来深度学习在自然语言处理、计算机视觉、语音识别、图像合成、解NP-hard问题和强化学习等领域进一步取得重大进展的基石。 与正篇课程从“聚焦细节”视角切入不同,该番外篇中,我们将从“观其大略”的视角,简要了解注意力机制的分类、实现和预训练,以及在减参、结构化和稀疏化的最新进展。也就是说,与正篇中的课程不同,番外篇中将同时讨论较多话题,因此无法深入探讨方法细节。大家可以回顾第18课有关注意力机制的详细介绍,或者书中相应内容。 内容提纲及时间分配如下: 10min: 非参数回归 10min: 注意力机制 10min: 层次注意力 10min: 循环注意力 30min: 含输出的循环注意力 40min: 多头注意力、BERT和GPT 10min: 减参、结构化、稀疏化