【生成式AI時代下的機器學習(2025)】第三講：AI 的腦科學 — 語言模型內部運作機制剖析 (解析單一神經元到整群神經元的運作機制、如何讓語言模型說出自己的內心世界) | Hung-yi Lee

本集講述大型語言模型（LLM）的內部運作機制，深入探討 Transformer 架構中單個神經元、神經元層級以及不同層級間互動的機制。講者首先介紹分析神經元功能的方法，並以「川普神經元」為例說明相關性與因果關係的區別。接著，講者闡述如何通過分析神經元層級的表徵向量（representation）來識別特定功能（例如拒絕請求），並說明如何利用 Sparse Autoencoder 技術自動找出功能向量。最後，講者介紹了 Logic Lens 和 Patchscope 等技術，展示如何讓語言模型「說出」其內部運作過程，並以實際案例說明這些技術如何應用於理解和改進 LLM 的推理能力。

Outlines

Part 1: 課程介紹與基礎概念

Part 2: 功能向量與自動識別

Part 3: 模型理解與解析

Sign in to continue reading, translating and more.

Continue

【生成式AI時代下的機器學習(2025)】第三講：AI 的腦科學 — 語言模型內部運作機制剖析 (解析單一神經元到整群神經元的運作機制、如何讓語言模型說出自己的內心世界)

Hung-yi Lee

Part 1: 課程介紹與基礎概念

課程介紹與前置知識

單一神經元的運作機制與分析方法

川普神經元與單一功能神經元的討論

多神經元協同作用與功能向量假設

Part 2: 功能向量與自動識別

功能向量的識別與驗證

不同功能向量的案例與自動識別方法

Sparse Autoencoder 與功能向量的應用案例

Part 3: 模型理解與解析

理解語言模型任務完成的機制：模型的模型

模型簡化與 Circuit 的概念

讓語言模型直接表達其想法：Logic Lens 方法

深入解析語言模型的思考過程與模型編輯

【生成式AI時代下的機器學習(2025)】第三講：AI 的腦科學 — 語言模型內部運作機制剖析 (解析單一神經元到整群神經元的運作機制、如何讓語言模型說出自己的內心世界)

Hung-yi Lee

Part 1: 課程介紹與基礎概念

00:00課程介紹與前置知識

課程介紹與前置知識

05:44單一神經元的運作機制與分析方法

單一神經元的運作機制與分析方法

16:00川普神經元與單一功能神經元的討論

川普神經元與單一功能神經元的討論

21:37多神經元協同作用與功能向量假設

多神經元協同作用與功能向量假設

Part 2: 功能向量與自動識別

29:28功能向量的識別與驗證

功能向量的識別與驗證

40:24不同功能向量的案例與自動識別方法

不同功能向量的案例與自動識別方法

49:04Sparse Autoencoder 與功能向量的應用案例

Sparse Autoencoder 與功能向量的應用案例

Part 3: 模型理解與解析

1:03:22理解語言模型任務完成的機制：模型的模型

理解語言模型任務完成的機制：模型的模型

1:13:14模型簡化與 Circuit 的概念

模型簡化與 Circuit 的概念

1:19:55讓語言模型直接表達其想法：Logic Lens 方法

讓語言模型直接表達其想法：Logic Lens 方法

1:33:11深入解析語言模型的思考過程與模型編輯

深入解析語言模型的思考過程與模型編輯