YouTube20 Oct 2025
2h 1m

【生成式人工智慧與機器學習導論2025】第 4 講:評估生成式人工智慧能力時可能遇到的各種坑

Podcast cover

Hung-yi Lee

本播客是洪毅李教授的講座,主題為生成式人工智慧的能力檢定。講座從模型使用者和開發者的角度出發,探討了評估生成式人工智慧能力的重要性,並深入分析了多種評估方法,如 Exact Match、計算相似程度(BLEU, ROUGE, Burr Score)等。同時,講座也提醒聽眾不要過度迷信評估分數,並探討了在沒有標準答案的情況下,如何通過人類評估來衡量模型的好壞。此外,還討論了語言模型的偏見、惡意使用(Jailbreak, Prompt Injection Attack)以及如何防範等問題,強調了在實際應用中需要考慮速度、價格等多個面向,並非僅僅關注模型輸出的內容好壞。

Outlines

Part 1: 評估重要性與基礎方法

Part 2: 過度信任與幻覺問題

Part 3: 人工評估與LLM Judge

Part 4: Prompt影響與模型作弊

Part 5: 惡意使用與總結

Sign in to continue reading, translating and more.

Continue
 
mindmap screenshot
Preview
preview episode cover
How to Get Rich: Every EpisodeNaval