本期硅谷洞察局聚焦于 Coding 大模型的训练范式与未来发展。Warren Chen 作为前 Google DeepMind 研究员,深入解析了大模型训练的三大经典阶段:Pre-training, Supervised Fine-tuning 和 Reinforced Learning,并阐述了从 RLHF(人反馈强化学习)到 RLVF(可验证反馈强化学习)的演进。讨论强调了 Coding 领域中 verifiable reward 的重要性,并提出了 Meet Training 的新概念,即在 SFT 阶段注重 behavior seeding 而非 teach。Warren 认为,未来的创业机会在于抓住 Agentic 能力,构建强大的 Agent Environment,并探索 Agent Identity 的新 IAM 层。
Sign in to continue reading, translating and more.
Continue