YouTube25 Apr 2025
1h 18m

【生成式AI時代下的機器學習(2025)】第七講:DeepSeek-R1 這類大型語言模型是如何進行「深度思考」(Reasoning)的?

Podcast cover

Hung-yi Lee

本集探討了大型語言模型中的深度思考能力,講師介紹了一系列具備深度思考行為的模型,如 ChatGPT 的 O 系列和 DeepSeek 的 R 系列。深度思考的特點是模型在給出答案前會呈現一個較長的思考過程,並以"Think"和"/Think"標記,方便介面呈現。講師提到這種推理行為是測試時計算的一種形式,類似於 AlphaGo 中的 Monte Carlo Tree Search。為了打造具備深度思考能力的語言模型,講師歸納了四種方法:改良 Chain-of-Thought、直接給予模型推理工作流程、模仿學習以及以結果為導向的強化學習。講師以 DeepSeek-R1 為例,詳細說明了如何透過強化學習訓練模型,並強調了四種方法並非互斥,而是可以結合使用以提升模型能力。最後,講師預告下集將討論推論模型面臨的挑戰,以及如何避免模型進行不必要的推理。

Outlines

Part 1: 深度思考模型导论

Part 2: 深度思考模型构建方法 (一)

Part 3: 深度思考模型构建方法 (二)

Part 4: 推理模型挑战与展望

Sign in to continue reading, translating and more.

Continue
 
mindmap screenshot
Preview
preview episode cover
How to Get Rich: Every EpisodeNaval