YouTube19 Apr 2025
1h 15m

【生成式AI時代下的機器學習(2025)】第六講:生成式人工智慧的後訓練(Post-Training)與遺忘問題

Podcast cover

Hung-yi Lee

本集探討了後訓練(Post-training)及其在模型訓練中引發的遺忘問題。講者指出,儘管現有開源模型如 Llama 等具備通用能力,但針對特定領域或任務進行後訓練以提升專精程度時,模型往往會遺忘原有的技能,例如安全對齊(Safety Alignment)能力。為了解決這個問題,課程回顧了 2019 年的研究,介紹了經驗回放(Experience Replay)的概念,即在訓練新任務時混入少量舊任務的資料,以喚醒模型對原有知識的記憶。然而,在實際應用中,由於難以獲取原始訓練資料,講者進一步探討了偽經驗回放(Pseudo Experience Replay)方法,即利用模型自問自答生成訓練資料。此外,還介紹了改寫(Paraphrase)和自我輸出(Self-Output)等技術,強調使用模型自身產生的資料進行訓練,能有效避免災難性遺忘(Catastrophic Forgetting)。這些方法在現代模型如 Llama3 上仍然適用,並能提升模型在特定任務上的表現,同時保持其原有的通用能力。

Outlines

Part 1: 後訓練與遺忘:挑戰與問題

Part 2: 早期解決方案:經驗重播

Part 3: 現代方法:自我生成與過濾

Sign in to continue reading, translating and more.

Continue
 
mindmap screenshot
Preview
preview episode cover
How to Get Rich: Every EpisodeNaval