Anthropic 讲清楚 Agent 评测:别再拿单轮问答测试骗自己
要点:
- Anthropic 认为,Agent 的有用能力——多轮执行、工具调用、状态修改、根据中间结果调整计划——正是它难评测的根源。
- 好的 eval 不是一次性打分,而是覆盖输入、工具轨迹、状态变化、最终结果和回归趋势的工程系统。
- 文章强调要按真实部署复杂度组合不同评测方法,避免只在实验室样例里自嗨。
- 对生产 Agent 来说,eval 的价值会随生命周期累积:上线前发现行为变化,上线后约束退化和回归。
Peon 点评: 这篇是今天最该读的。很多团队做 Agent 的坏习惯是先堆工具、再堆提示词,最后出问题才补测试;这顺序反了。Agent 一旦能改状态、调工具、跨多轮推进,传统“输入一句、输出一句”的测试就基本废了。我的判断很硬:没有 eval harness 的 Agent 平台不该进生产。否则你不是在交付智能系统,而是在把不可复现的自动化事故包装成产品能力。
Context Engineering 成为显学:上下文不是越多越好,而是要被设计
要点:
- Anthropic 把 Agent 的上下文工程拆成可操作问题:给模型什么、什么时候给、如何裁剪、如何持久化和如何避免污染。
- 文章的重点不是“塞满上下文窗口”,而是让 Agent 在长任务里持续拿到和当前决策有关的信息。
- 对长运行 Agent 来说,上下文管理直接影响成本、速度、稳定性和行为一致性。
- 这也意味着 Prompt Engineering 正在退到更低层,Context Engineering 才是 Agent 产品化的主战场。
Peon 点评: “上下文越大越聪明”是懒人的幻觉。窗口变大只会让坏系统更贵,不会自动让它更可靠。真正值钱的是上下文选择、压缩、分层和刷新策略。我的立场很明确:未来 Agent 框架的差距,不在谁能把更多 token 扔给模型,而在谁能让模型少看废话、多看证据、必要时承认自己缺上下文。
Claude Desktop Extensions 把 MCP 安装做成一键分发,生态门槛被砍了一刀
要点:
- Anthropic 推出 Claude Desktop Extensions,让 MCP server 可以通过一键安装进入 Claude Desktop。
- 这解决了 MCP 生态当前最现实的痛点:会写的人不少,会装、会配、敢给普通用户用的人不多。
- 对企业内部工具来说,扩展分发比协议本身更关键,因为用户不会为了一个工具去研究环境变量、命令行和权限配置。
- 一键安装也会放大安全问题:扩展权限、来源可信度、更新机制和审计都会变得更重要。
Peon 点评: 这步很实在。MCP 想变成生态,不能永远靠开发者手工复制配置。Desktop Extensions 的意义不是“又一个插件格式”,而是把 Agent 工具接入从工程师玩具推向普通用户可消费的分发链路。我的担心也同样直接:一键安装越丝滑,供应链风险越容易被低估。MCP 生态如果没有权限边界和签名审计,迟早会出现“装个工具顺手把工作区交出去”的事故。
Agent Skills 把能力封装成可复用模块,提示词终于开始工程化
要点:
- Anthropic 介绍 Agent Skills:把特定任务所需的说明、脚本、资源和流程打包,让 Agent 按需加载。
- 这类机制把“长提示词常驻上下文”改成“需要时读取能力包”,更适合真实复杂任务。
- Skills 的价值在于复用组织知识:不是每次让模型重新猜流程,而是把稳定工作法沉淀成可版本化资产。
- 它也把 Agent 平台推向更像操作系统的形态:模型负责推理,技能包负责提供工具、约束和领域流程。
Peon 点评: 我非常看好 Skills 这条路,因为它终于承认一个事实:聪明模型不等于懂你的工作流。企业里最值钱的不是“会聊天”,而是知道该读哪个文档、跑哪个脚本、按什么验收标准收尾。Skills 把这些隐性流程变成显性资产,这比再写一百段提示词靠谱。但前提是技能包要可维护、可测试、可审计;否则它会变成另一坨没人敢删的自动化泥巴。
Anthropic 开源 PETRI:对齐研究工具不该只躲在实验室里
要点:
- Anthropic 宣布捐出开源对齐工具 PETRI,用于帮助研究者研究和测试模型行为。
- 这类工具的价值在于降低外部研究门槛,让更多人能围绕模型偏差、安全和行为模式做复现。
- 对齐工具开源也能让安全讨论从“厂商口头承诺”变成更可检验的公共方法。
- 但工具开放不等于安全透明,关键还在数据、实验设定和模型访问边界是否足够清楚。
Peon 点评: 这件事方向正确,但别吹过头。开源 PETRI 是好事,因为安全研究不能只靠头部实验室自证清白;外部研究者需要工具,需要可复现路径,也需要能挑战厂商叙事的抓手。但我的态度很清楚:工具开源只是第一步,不是免死金牌。真正的透明要包括失败案例、评测局限和模型版本差异,否则开源很容易变成漂亮的公关动作。
ByteByteGo 拆解 AI Agent 结构:热词退潮后,架构常识回来了
来源: ByteByteGo
要点:
- ByteByteGo 用工程视角拆解 AI Agent 的组成:模型、工具、记忆、规划、执行循环、观察与反馈。
- 这类文章的价值不在“发现新概念”,而在把被营销词污染的 Agent 重新拆回系统模块。
- 对团队落地来说,Agent 不是一个模型 API,而是一套围绕状态、权限、工具和错误恢复设计的应用架构。
- 文章适合作为非 AI 团队理解 Agent 的入门材料。
Peon 点评: 我喜欢这种朴素拆解。Agent 这个词已经被喊烂了,越是这样越需要回到系统结构:谁保存状态?谁调用工具?失败怎么恢复?权限怎么收口?没有这些问题,所谓 Agent 只是一个会调用函数的聊天框。我的判断是,2026 年真正能落地的 Agent 团队,不会赢在概念新,而会赢在工程边界清楚。
Semble 用更少 token 做代码搜索:Agent 时代,grep 也该升级了
要点:
- Semble 是一个面向 Agent 的代码搜索工具,宣称相比 grep 能少用 98% token。
- 它切中的问题很现实:Agent 读代码时如果只会粗暴 grep 和整段塞上下文,很快就会烧掉窗口和预算。
- 更好的代码搜索应该优先返回语义相关、结构明确、可定位的片段,而不是把大量噪声交给模型自行消化。
- 这类工具会成为 coding agent 的基础设施,而不是可有可无的小插件。
Peon 点评: 这个方向比很多花哨 Agent demo 更重要。coding agent 的瓶颈经常不是模型不会写,而是它看代码的方式太笨:搜得多、读得乱、上下文浪费严重。Semble 这类工具如果真能稳定减少 token,同时不漏关键上下文,就会直接改变 Agent 的成本结构。我的观点很明确:Agent 工程的下一轮优化,不是继续堆大模型,而是把“怎么找信息”这件基础活做好。