03 Mar 2025
1h 26m

104: 我给线性注意力找“金主”,字节 say No,MiniMax say Yes

Podcast cover

晚点聊 LateTalk

本期访谈的核心是 MiniMax 公司 4560 亿参数开源大模型 MiniMax01 中使用的线性注意力机制 Lightning Attention。访谈首先介绍了该项目负责人钟怡然及其团队从 2021 年开始探索线性注意力机制的历程,以及 MiniMax 公司选择开源 MiniMax01 的原因。随后,深入探讨了线性注意力机制的原理、与 Transformer 架构的差异,以及在 MiniMax01 中如何克服线性注意力在检索能力上的不足(通过混合架构解决)。最后,钟怡然分享了团队进行大规模模型训练的经验(包括 3700 次模型训练的扫描加载实验),以及对未来大模型发展趋势的展望,特别是对线性注意力机制在业界应用的信心和期待。 MiniMax01 在特定条件下比 Full Attention 快 2700 倍,展现了线性注意力机制在长序列处理上的效率优势。

Outlines

Sign in to continue reading, translating and more.

Continue
 
mindmap screenshot
Preview
preview episode cover
How to Get Rich: Every EpisodeNaval