YouTube22 Mar 2025
1h 22m

【生成式AI時代下的機器學習(2025)】第四講:Transformer 的時代要結束了嗎?介紹 Transformer 的競爭者們

Podcast cover

Hung-yi Lee

本集探討了 Transformer 架構的潛在競爭對手,並深入分析了類神經網路架構設計背後的理由。講者首先點出,在作業中將訓練用於產生圖片的 Transformer,並非僅限於大型語言模型。接著,課程聚焦於理解每個網路架構存在的理由,例如 CNN 如何透過減少不必要的參數來避免 overfitting,以及 residual connection 如何解決深層網路訓練的優化問題。進一步,探討了 Self-Attention 如何取代 RNN 和 LSTM,解決輸入向量序列並輸出另一個向量序列的問題。相較於 RNN,Self-Attention 在訓練時更易於平行化,從而更有效地利用 GPU 效能。然而,Self-Attention 在處理長序列時面臨記憶體需求增加的挑戰,因此重新審視了 RNN 的平行化潛力,並介紹了 Linear Attention 作為 RNN 的一種變形,它通過移除 Reflection 機制實現了平行化。最後,討論了 Retention Network 和 Gated Retention 等進階版本,以及 Mamba 和 Delta Net 等架構,這些都反映了業界對更高效、更靈活的序列處理方法的不斷探索。

Outlines

Part 1: Transformer架构与RNN回顾

Part 2: Transformer优势与RNN的局限

Part 3: Linear Attention与记忆机制

Part 4: Retention Network与Mamba

Part 5: 应用与展望

Sign in to continue reading, translating and more.

Continue
 
mindmap screenshot
Preview
preview episode cover
How to Get Rich: Every EpisodeNaval