【生成式人工智慧與機器學習導論2025】第 4 講：評估生成式人工智慧能力時可能遇到的各種坑

本播客是洪毅李教授的講座，主題為生成式人工智慧的能力檢定。講座從模型使用者和開發者的角度出發，探討了評估生成式人工智慧能力的重要性，並深入分析了多種評估方法，如 Exact Match、計算相似程度（BLEU, ROUGE, Burr Score）等。同時，講座也提醒聽眾不要過度迷信評估分數，並探討了在沒有標準答案的情況下，如何通過人類評估來衡量模型的好壞。此外，還討論了語言模型的偏見、惡意使用（Jailbreak, Prompt Injection Attack）以及如何防範等問題，強調了在實際應用中需要考慮速度、價格等多個面向，並非僅僅關注模型輸出的內容好壞。

Outlines

Part 1: 評估重要性與基礎方法

Part 2: 過度信任與幻覺問題

Part 3: 人工評估與LLM Judge

Part 4: Prompt影響與模型作弊

Part 5: 惡意使用與總結

Sign in to continue reading, translating and more.

Continue

Hung-yi Lee

Part 1: 評估重要性與基礎方法

生成式人工智慧能力檢定的重要性

評估人工智慧的 Benchmark 方法

對答案函式的定義與 Exact Match 的局限性

相似度計算與 Contextualized Embedding

Part 2: 過度信任與幻覺問題

過度相信 Evaluation 指標的風險：Goodhart's Law 與 Paraphrasing 案例

Hallucination 問題與倒扣機制

Part 3: 人工評估與LLM Judge

無標準答案時的評估方法：人類評估及其局限性

語音合成評估與人類評估的挑戰

LLM as a Judge 的進階應用與 Universal Verifier

評估好壞比生成容易與其他評估面向

平均不一定是最佳的 Evaluation Matrix 計算方式

評估人工智慧能力的多樣面向

Part 4: Prompt影響與模型作弊

GDP-Eval 與語言模型的西洋棋比賽

模型的情境感知能力與 Risk Aware Decision Making

Prompt 對 Evaluation 的影響：大海撈針與中文怪物

模型偷看考題的問題

Part 5: 惡意使用與總結

惡意使用模型：Jailbreak 攻擊

惡意使用模型：Prompt Injection Attack 與 AI 主播

論文投稿中的 Prompt Injection 與 Agent Attack

語言模型的偏見與課程總結

【生成式人工智慧與機器學習導論2025】第 4 講：評估生成式人工智慧能力時可能遇到的各種坑

Hung-yi Lee

Part 1: 評估重要性與基礎方法

00:00生成式人工智慧能力檢定的重要性

生成式人工智慧能力檢定的重要性

02:22評估人工智慧的 Benchmark 方法

評估人工智慧的 Benchmark 方法

06:06對答案函式的定義與 Exact Match 的局限性

對答案函式的定義與 Exact Match 的局限性

11:07相似度計算與 Contextualized Embedding

相似度計算與 Contextualized Embedding

Part 2: 過度信任與幻覺問題

16:27過度相信 Evaluation 指標的風險：Goodhart's Law 與 Paraphrasing 案例

過度相信 Evaluation 指標的風險：Goodhart's Law 與 Paraphrasing 案例

23:35Hallucination 問題與倒扣機制

Hallucination 問題與倒扣機制

Part 3: 人工評估與LLM Judge

27:30無標準答案時的評估方法：人類評估及其局限性

無標準答案時的評估方法：人類評估及其局限性

34:40語音合成評估與人類評估的挑戰

語音合成評估與人類評估的挑戰

42:52LLM as a Judge 的進階應用與 Universal Verifier

LLM as a Judge 的進階應用與 Universal Verifier

53:02評估好壞比生成容易與其他評估面向

評估好壞比生成容易與其他評估面向

1:01:22平均不一定是最佳的 Evaluation Matrix 計算方式

平均不一定是最佳的 Evaluation Matrix 計算方式

1:04:57評估人工智慧能力的多樣面向

評估人工智慧能力的多樣面向

Part 4: Prompt影響與模型作弊

1:11:16GDP-Eval 與語言模型的西洋棋比賽

GDP-Eval 與語言模型的西洋棋比賽

1:17:52模型的情境感知能力與 Risk Aware Decision Making

模型的情境感知能力與 Risk Aware Decision Making

1:21:43Prompt 對 Evaluation 的影響：大海撈針與中文怪物

Prompt 對 Evaluation 的影響：大海撈針與中文怪物

1:29:24模型偷看考題的問題

模型偷看考題的問題

Part 5: 惡意使用與總結

1:36:21惡意使用模型：Jailbreak 攻擊

惡意使用模型：Jailbreak 攻擊

1:45:04惡意使用模型：Prompt Injection Attack 與 AI 主播

惡意使用模型：Prompt Injection Attack 與 AI 主播

1:53:01論文投稿中的 Prompt Injection 與 Agent Attack

論文投稿中的 Prompt Injection 與 Agent Attack

1:59:03語言模型的偏見與課程總結

語言模型的偏見與課程總結