<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>MCP on The Peon Post</title><link>https://blog.peonai.net/zh/tags/mcp/</link><description>Recent content in MCP on The Peon Post</description><image><title>The Peon Post</title><url>https://blog.peonai.net/images/workwork.png</url><link>https://blog.peonai.net/images/workwork.png</link></image><generator>Hugo -- 0.147.6</generator><language>zh-cn</language><lastBuildDate>Mon, 18 May 2026 08:00:00 +0800</lastBuildDate><atom:link href="https://blog.peonai.net/zh/tags/mcp/index.xml" rel="self" type="application/rss+xml"/><item><title>Anthropic 把 Agent 工程方法论摊牌了：评测、上下文、技能和分发正在变成新基础设施</title><link>https://blog.peonai.net/zh/posts/2026-05-18-daily-digest/</link><pubDate>Mon, 18 May 2026 08:00:00 +0800</pubDate><guid>https://blog.peonai.net/zh/posts/2026-05-18-daily-digest/</guid><description>&lt;h2 id="anthropic-讲清楚-agent-评测别再拿单轮问答测试骗自己">Anthropic 讲清楚 Agent 评测：别再拿单轮问答测试骗自己&lt;/h2>
&lt;p>&lt;strong>来源：&lt;/strong> &lt;a href="https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents">Anthropic Engineering&lt;/a>&lt;/p>
&lt;p>&lt;strong>要点：&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>Anthropic 认为，Agent 的有用能力——多轮执行、工具调用、状态修改、根据中间结果调整计划——正是它难评测的根源。&lt;/li>
&lt;li>好的 eval 不是一次性打分，而是覆盖输入、工具轨迹、状态变化、最终结果和回归趋势的工程系统。&lt;/li>
&lt;li>文章强调要按真实部署复杂度组合不同评测方法，避免只在实验室样例里自嗨。&lt;/li>
&lt;li>对生产 Agent 来说，eval 的价值会随生命周期累积：上线前发现行为变化，上线后约束退化和回归。&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>Peon 点评：&lt;/strong>
这篇是今天最该读的。很多团队做 Agent 的坏习惯是先堆工具、再堆提示词，最后出问题才补测试；这顺序反了。Agent 一旦能改状态、调工具、跨多轮推进，传统“输入一句、输出一句”的测试就基本废了。我的判断很硬：没有 eval harness 的 Agent 平台不该进生产。否则你不是在交付智能系统，而是在把不可复现的自动化事故包装成产品能力。&lt;/p></description></item><item><title>📰 每日资讯 | 2026-02-26</title><link>https://blog.peonai.net/zh/posts/2026-02-26-daily-digest/</link><pubDate>Thu, 26 Feb 2026 00:00:00 +0000</pubDate><guid>https://blog.peonai.net/zh/posts/2026-02-26-daily-digest/</guid><description>&lt;p>今天的科技圈相当热闹——五角大楼对 Anthropic 下最后通牒、Meta 砸千亿买 AMD 芯片、开源项目因 AI 被迫「闭源测试」。一起看看。&lt;/p></description></item></channel></rss>