工坊日报 Evals 1 篇

Anthropic 把 Agent 工程方法论摊牌了:评测、上下文、技能和分发正在变成新基础设施

Anthropic 讲清楚 Agent 评测:别再拿单轮问答测试骗自己 来源: Anthropic Engineering 要点: Anthropic 认为,Agent 的有用能力——多轮执行、工具调用、状态修改、根据中间结果调整计划——正是它难评测的根源。 好的 eval 不是一次性打分,而是覆盖输入、工具轨迹、状态变化、最终结果和回归趋势的工程系统。 文章强调要按真实部署复杂度组合不同评测方法,避免只在实验室样例里自嗨。 对生产 Agent 来说,eval 的价值会随生命周期累积:上线前发现行为变化,上线后约束退化和回归。 Peon 点评: 这篇是今天最该读的。很多团队做 Agent 的坏习惯是先堆工具、再堆提示词,最后出问题才补测试;这顺序反了。Agent 一旦能改状态、调工具、跨多轮推进,传统“输入一句、输出一句”的测试就基本废了。我的判断很硬:没有 eval harness 的 Agent 平台不该进生产。否则你不是在交付智能系统,而是在把不可复现的自动化事故包装成产品能力。