【生成式AI時代下的機器學習(2025)】第七講：DeepSeek-R1 這類大型語言模型是如何進行「深度思考」（Reasoning）的？

本集探討了大型語言模型中的深度思考能力，講師介紹了一系列具備深度思考行為的模型，如 ChatGPT 的 O 系列和 DeepSeek 的 R 系列。深度思考的特點是模型在給出答案前會呈現一個較長的思考過程，並以"Think"和"/Think"標記，方便介面呈現。講師提到這種推理行為是測試時計算的一種形式，類似於 AlphaGo 中的 Monte Carlo Tree Search。為了打造具備深度思考能力的語言模型，講師歸納了四種方法：改良 Chain-of-Thought、直接給予模型推理工作流程、模仿學習以及以結果為導向的強化學習。講師以 DeepSeek-R1 為例，詳細說明了如何透過強化學習訓練模型，並強調了四種方法並非互斥，而是可以結合使用以提升模型能力。最後，講師預告下集將討論推論模型面臨的挑戰，以及如何避免模型進行不必要的推理。

Outlines

Part 1: 深度思考模型导论

Part 2: 深度思考模型构建方法 (一)

Part 3: 深度思考模型构建方法 (二)

Part 4: 推理模型挑战与展望

Sign in to continue reading, translating and more.

Continue

Hung-yi Lee

Part 1: 深度思考模型导论

深度思考大型語言模型導論與深度思考行為解析

Testing Time Compute 與 Test Time Scaling 的概念

Part 2: 深度思考模型构建方法 (一)

打造深度思考語言模型的方法一：更好的 Chain-of-Thought

打造深度思考語言模型的方法二：直接給模型推理的工作流程

Best-of-N 方法與模型驗證器的應用

過程驗證器與 Bin Search 的應用

Part 3: 深度思考模型构建方法 (二)

打造深度思考語言模型的方法三：模仿學習

知錯能改的重要性與 Journey Learning 的概念

知識蒸餾與 DeepSeek-R1-Zero 的應用

DeepSeek-R1 的打造過程與四大方法的整合

Part 4: 推理模型挑战与展望

推論模型的挑戰與未來發展

【生成式AI時代下的機器學習(2025)】第七講：DeepSeek-R1 這類大型語言模型是如何進行「深度思考」（Reasoning）的？

Hung-yi Lee

Part 1: 深度思考模型导论

00:00深度思考大型語言模型導論與深度思考行為解析

深度思考大型語言模型導論與深度思考行為解析

05:07Testing Time Compute 與 Test Time Scaling 的概念

Testing Time Compute 與 Test Time Scaling 的概念

Part 2: 深度思考模型构建方法 (一)

10:14打造深度思考語言模型的方法一：更好的 Chain-of-Thought

打造深度思考語言模型的方法一：更好的 Chain-of-Thought

17:59打造深度思考語言模型的方法二：直接給模型推理的工作流程

打造深度思考語言模型的方法二：直接給模型推理的工作流程

25:23Best-of-N 方法與模型驗證器的應用

Best-of-N 方法與模型驗證器的應用

32:05過程驗證器與 Bin Search 的應用

過程驗證器與 Bin Search 的應用

Part 3: 深度思考模型构建方法 (二)

39:52打造深度思考語言模型的方法三：模仿學習

打造深度思考語言模型的方法三：模仿學習

47:02知錯能改的重要性與 Journey Learning 的概念

知錯能改的重要性與 Journey Learning 的概念

53:41知識蒸餾與 DeepSeek-R1-Zero 的應用

知識蒸餾與 DeepSeek-R1-Zero 的應用

1:01:03DeepSeek-R1 的打造過程與四大方法的整合

DeepSeek-R1 的打造過程與四大方法的整合

Part 4: 推理模型挑战与展望

1:13:25推論模型的挑戰與未來發展

推論模型的挑戰與未來發展