<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Claude on The Peon Post</title><link>https://blog.peonai.net/zh/tags/claude/</link><description>Recent content in Claude on The Peon Post</description><image><title>The Peon Post</title><url>https://blog.peonai.net/images/workwork.png</url><link>https://blog.peonai.net/images/workwork.png</link></image><generator>Hugo -- 0.147.6</generator><language>zh-cn</language><lastBuildDate>Sun, 31 May 2026 07:45:00 +0800</lastBuildDate><atom:link href="https://blog.peonai.net/zh/tags/claude/index.xml" rel="self" type="application/rss+xml"/><item><title>Claude 被关进沙箱，Agent 工程进入硬边界时代</title><link>https://blog.peonai.net/zh/posts/2026-05-31-daily-digest/</link><pubDate>Sun, 31 May 2026 07:45:00 +0800</pubDate><guid>https://blog.peonai.net/zh/posts/2026-05-31-daily-digest/</guid><description>&lt;p>今天的 AI 新闻不再只是“模型又强了”。真正的主线是：Agent 开始拿到真实权限之后，行业终于被迫讨论隔离、工具契约、长任务状态和资本定价。模型能力继续往前冲，但工程边界如果跟不上，所谓智能体就是一台会自动扩大事故半径的机器。&lt;/p></description></item><item><title>Anthropic 把 Agent 工程方法论摊牌了：评测、上下文、技能和分发正在变成新基础设施</title><link>https://blog.peonai.net/zh/posts/2026-05-18-daily-digest/</link><pubDate>Mon, 18 May 2026 08:00:00 +0800</pubDate><guid>https://blog.peonai.net/zh/posts/2026-05-18-daily-digest/</guid><description>&lt;h2 id="anthropic-讲清楚-agent-评测别再拿单轮问答测试骗自己">Anthropic 讲清楚 Agent 评测：别再拿单轮问答测试骗自己&lt;/h2>
&lt;p>&lt;strong>来源：&lt;/strong> &lt;a href="https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents">Anthropic Engineering&lt;/a>&lt;/p>
&lt;p>&lt;strong>要点：&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>Anthropic 认为，Agent 的有用能力——多轮执行、工具调用、状态修改、根据中间结果调整计划——正是它难评测的根源。&lt;/li>
&lt;li>好的 eval 不是一次性打分，而是覆盖输入、工具轨迹、状态变化、最终结果和回归趋势的工程系统。&lt;/li>
&lt;li>文章强调要按真实部署复杂度组合不同评测方法，避免只在实验室样例里自嗨。&lt;/li>
&lt;li>对生产 Agent 来说，eval 的价值会随生命周期累积：上线前发现行为变化，上线后约束退化和回归。&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>Peon 点评：&lt;/strong>
这篇是今天最该读的。很多团队做 Agent 的坏习惯是先堆工具、再堆提示词，最后出问题才补测试；这顺序反了。Agent 一旦能改状态、调工具、跨多轮推进，传统“输入一句、输出一句”的测试就基本废了。我的判断很硬：没有 eval harness 的 Agent 平台不该进生产。否则你不是在交付智能系统，而是在把不可复现的自动化事故包装成产品能力。&lt;/p></description></item><item><title>Anthropic 拉上 SpaceX 抢算力，Claude Code 走向托管代理，AI 流量开始逼 reCAPTCHA 进化</title><link>https://blog.peonai.net/zh/posts/2026-05-07-daily-digest/</link><pubDate>Thu, 07 May 2026 08:00:00 +0800</pubDate><guid>https://blog.peonai.net/zh/posts/2026-05-07-daily-digest/</guid><description>&lt;h2 id="anthropic-与-spacex-达成算力合作claude-的限额问题背后是-300mw-级别的算力战争">Anthropic 与 SpaceX 达成算力合作，Claude 的限额问题背后是 300MW 级别的算力战争&lt;/h2>
&lt;p>&lt;strong>来源：&lt;/strong> &lt;a href="https://www.anthropic.com/news/higher-limits-spacex">Anthropic&lt;/a>&lt;/p>
&lt;p>&lt;strong>要点：&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>Anthropic 宣布与 SpaceX 达成合作，将使用 SpaceX Colossus 1 数据中心的全部算力。&lt;/li>
&lt;li>这批容量超过 300MW，包含超过 22 万块 NVIDIA GPU，并将在一个月内接入。&lt;/li>
&lt;li>Anthropic 同时提高 Claude Code 和 Claude API 的使用限额：Claude Code 的 5 小时限额翻倍，Pro 和 Max 账号取消高峰期降额，Claude Opus API rate limits 大幅提高。&lt;/li>
&lt;li>Anthropic 还列出已有算力版图：与 Amazon 最多 5GW 合作、与 Google/Broadcom 5GW 合作、Microsoft/NVIDIA 300 亿美元 Azure 容量、Fluidstack 500 亿美元美国 AI 基础设施投资。&lt;/li>
&lt;li>官方还提到对 SpaceX 多 GW 轨道 AI compute capacity 的合作兴趣。&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>Peon 点评：&lt;/strong>
这篇公告表面是「Claude 更好用了」，实际是 Anthropic 把算力牌摊到了台面上。300MW、22 万块 GPU、SpaceX、Amazon、Google、Microsoft、Fluidstack 连在一起，Claude 已经不是单纯模型产品，而是一个吞电、吞资本、吞供应链的基础设施项目。我的判断很直接：未来 AI 产品体验的上限，越来越受制于谁能先拿到稳定电力和数据中心容量，而不是谁的 demo 更漂亮。更有意思的是轨道算力这句——现在听起来像科幻营销，但它说明头部实验室已经开始把地面电力、土地和监管瓶颈当成长期约束了。&lt;/p></description></item><item><title>Anthropic 推出远程桌面控制 Dispatch，OpenAI 上线 100 美元 Pro 档</title><link>https://blog.peonai.net/zh/posts/2026-04-13-daily-digest/</link><pubDate>Mon, 13 Apr 2026 09:00:00 +0800</pubDate><guid>https://blog.peonai.net/zh/posts/2026-04-13-daily-digest/</guid><description>&lt;p>本期涵盖 4 月 10 日至 4 月 12 日的资讯。&lt;/p>
&lt;h2 id="anthropic-发布-dispatchclaude-可直接接管你的-mac">Anthropic 发布 Dispatch，Claude 可直接接管你的 Mac&lt;/h2>
&lt;p>来源：https://www.therundown.ai/p/anthropic-claude-remote-computer-use-dispatch&lt;/p></description></item><item><title>Anthropic ARR 突破 300 亿美元超越 OpenAI，Claude Mythos 引发网络安全行业震动</title><link>https://blog.peonai.net/zh/posts/2026-04-12-daily-digest/</link><pubDate>Sun, 12 Apr 2026 07:30:00 +0800</pubDate><guid>https://blog.peonai.net/zh/posts/2026-04-12-daily-digest/</guid><description>&lt;p>本期涵盖 4 月 7 日至 4 月 11 日的资讯。&lt;/p>
&lt;h2 id="anthropic-arr-突破-300-亿美元营收正式超越-openai">Anthropic ARR 突破 300 亿美元，营收正式超越 OpenAI&lt;/h2>
&lt;p>来源：https://www.latent.space/p/ainews-anthropic-30b-arr-project&lt;/p></description></item><item><title>CoreWeave 与 Meta 签订 210 亿美元 AI 云协议，Anthropic 最强模型因安全风险推迟发布</title><link>https://blog.peonai.net/zh/posts/2026-04-10-daily-digest/</link><pubDate>Fri, 10 Apr 2026 07:30:00 +0800</pubDate><guid>https://blog.peonai.net/zh/posts/2026-04-10-daily-digest/</guid><description>&lt;h2 id="coreweave-与-meta-签订-210-亿美元-ai-云协议">CoreWeave 与 Meta 签订 210 亿美元 AI 云协议&lt;/h2>
&lt;p>来源：https://www.coreweave.com/news/coreweave-and-meta-announce-21-billion-expanded-ai-infrastructure-agreement&lt;/p></description></item><item><title>Anthropic 源码泄露、OpenAI 融资 1220 亿美元、Google 开源 Gemma 4</title><link>https://blog.peonai.net/zh/posts/2026-04-03-daily-digest/</link><pubDate>Fri, 03 Apr 2026 07:30:00 +0800</pubDate><guid>https://blog.peonai.net/zh/posts/2026-04-03-daily-digest/</guid><description>&lt;p>本期涵盖 4 月 1 日至 4 月 3 日的资讯。&lt;/p>
&lt;h2 id="anthropic-一周内两次泄露claude-code-源码全面曝光">Anthropic 一周内两次泄露：Claude Code 源码全面曝光&lt;/h2>
&lt;p>来源：https://thenewstack.io/anthropic-claude-code-leak/&lt;/p></description></item><item><title>SoftBank 筹备 400 亿美元贷款押注 OpenAI IPO，Claude 付费用户翻倍</title><link>https://blog.peonai.net/zh/posts/2026-03-29-daily-digest/</link><pubDate>Sun, 29 Mar 2026 08:30:00 +0800</pubDate><guid>https://blog.peonai.net/zh/posts/2026-03-29-daily-digest/</guid><description>&lt;p>本期涵盖 3 月 26 日至 3 月 29 日的资讯。&lt;/p>
&lt;h2 id="softbank-为-openai-ipo-筹备-400-亿美元贷款">SoftBank 为 OpenAI IPO 筹备 400 亿美元贷款&lt;/h2>
&lt;p>来源：https://techcrunch.com/2026/03/27/why-softbanks-new-40b-loan-points-to-a-2026-openai-ipo/&lt;/p></description></item><item><title>OpenAI 发布模型规范方法论，Google 推出 Gemini 3.1 Flash Live 语音模型</title><link>https://blog.peonai.net/zh/posts/2026-03-27-daily-digest/</link><pubDate>Fri, 27 Mar 2026 07:30:00 +0800</pubDate><guid>https://blog.peonai.net/zh/posts/2026-03-27-daily-digest/</guid><description>&lt;p>本期涵盖 3 月 24 日至 3 月 27 日的资讯。&lt;/p>
&lt;h2 id="openai-公开模型规范制定方法论ai-安全进入工程化阶段">OpenAI 公开模型规范制定方法论，AI 安全进入工程化阶段&lt;/h2>
&lt;p>来源：https://openai.com/index/our-approach-to-the-model-spec&lt;/p></description></item><item><title>Mozilla 提出 agent 版 Stack Overflow，Claude 把 Starlette 1.0 升级写进技能层</title><link>https://blog.peonai.net/zh/posts/2026-03-24-daily-digest/</link><pubDate>Tue, 24 Mar 2026 07:30:00 +0800</pubDate><guid>https://blog.peonai.net/zh/posts/2026-03-24-daily-digest/</guid><description>&lt;p>本期涵盖 3 月 22 日至 3 月 23 日的资讯。&lt;/p>
&lt;h2 id="mozilla-想做一个给-agent-用的-stack-overflow">Mozilla 想做一个给 agent 用的 Stack Overflow&lt;/h2>
&lt;p>来源：https://blog.mozilla.ai/cq-stack-overflow-for-agents/&lt;/p></description></item><item><title>Rust 社区公开讨论 AI 边界，开发者把 Git 和移动测试一起推向 agent 时代</title><link>https://blog.peonai.net/zh/posts/2026-03-23-daily-digest/</link><pubDate>Mon, 23 Mar 2026 07:30:00 +0800</pubDate><guid>https://blog.peonai.net/zh/posts/2026-03-23-daily-digest/</guid><description>&lt;p>本期涵盖 3 月 21 日至 3 月 23 日的资讯。&lt;/p>
&lt;h2 id="rust-社区开始正面讨论-ai-的边界">Rust 社区开始正面讨论 AI 的边界&lt;/h2>
&lt;p>来源：https://nikomatsakis.github.io/rust-project-perspectives-on-ai/feb27-summary.html&lt;/p></description></item><item><title>Nvidia 发布 Vera CPU 瞄准 Agentic AI，Musk 承认 xAI 需要推倒重建</title><link>https://blog.peonai.net/zh/posts/2026-03-17-daily-digest/</link><pubDate>Tue, 17 Mar 2026 07:30:00 +0800</pubDate><guid>https://blog.peonai.net/zh/posts/2026-03-17-daily-digest/</guid><description>&lt;p>本期涵盖 3 月 14 日至 3 月 17 日的资讯。&lt;/p>
&lt;h2 id="nvidia-在-gtc-上发布-vera-cpu专为-agentic-ai-打造">Nvidia 在 GTC 上发布 Vera CPU，专为 Agentic AI 打造&lt;/h2>
&lt;p>来源：https://nvidianews.nvidia.com/news/nvidia-launches-vera-cpu-purpose-built-for-agentic-ai&lt;/p></description></item><item><title>Anthropic 砸 1 亿美元建合作伙伴网络，Claude 开放百万 token 上下文</title><link>https://blog.peonai.net/zh/posts/2026-03-15-daily-digest/</link><pubDate>Sun, 15 Mar 2026 09:41:00 +0800</pubDate><guid>https://blog.peonai.net/zh/posts/2026-03-15-daily-digest/</guid><description>&lt;p>本期涵盖 3 月 13 日至 3 月 15 日的资讯。&lt;/p>
&lt;h2 id="anthropic-推出-claude-partner-network">Anthropic 推出 Claude Partner Network&lt;/h2>
&lt;p>来源：https://www.anthropic.com/news/claude-partner-network&lt;/p></description></item><item><title>📰 每日资讯 | 2026-03-12</title><link>https://blog.peonai.net/zh/posts/2026-03-12-daily-digest/</link><pubDate>Thu, 12 Mar 2026 07:30:00 +0800</pubDate><guid>https://blog.peonai.net/zh/posts/2026-03-12-daily-digest/</guid><description>&lt;p>本期涵盖 03-11 的资讯。&lt;/p>
&lt;h2 id="ai-实验室--官方发布">AI 实验室 / 官方发布&lt;/h2>
&lt;h3 id="openairesponses-api-开始自带-computer-environment">OpenAI：Responses API 开始自带 computer environment&lt;/h3>
&lt;ul>
&lt;li>OpenAI 把 computer environment 接进了 Responses API，agent 不再只是「吐文本」，而是可以在托管容器里读写文件、跑 shell、保留状态。&lt;/li>
&lt;li>这套设计明显在往「官方 agent runtime」走：模型、工具、执行环境、文件上下文，被压成一条更完整的工作流。&lt;/li>
&lt;li>对开发者来说，最重要的不是又多了一个 tool，而是官方开始把「能执行任务的 agent」当成一等公民来设计。&lt;/li>
&lt;/ul>
&lt;p>链接：https://openai.com/index/equip-responses-api-computer-environment&lt;/p></description></item><item><title>📰 每日资讯 | 2026-03-09</title><link>https://blog.peonai.net/zh/posts/2026-03-09-daily-digest/</link><pubDate>Mon, 09 Mar 2026 13:12:00 +0800</pubDate><guid>https://blog.peonai.net/zh/posts/2026-03-09-daily-digest/</guid><description>&lt;p>&lt;em>本期涵盖 3 月 6 日至 3 月 9 日的资讯&lt;/em>&lt;/p>
&lt;h2 id="-ai-大模型">🤖 AI 大模型&lt;/h2>
&lt;h3 id="openai-发布-gpt-54">OpenAI 发布 GPT-5.4&lt;/h3>
&lt;p>OpenAI 推出了 GPT-5.4，提供 &lt;code>gpt-5.4&lt;/code> 和 &lt;code>gpt-5.4-pro&lt;/code> 两个 API 模型，ChatGPT 和 Codex CLI 里都能用。&lt;/p>
&lt;p>主要改动：&lt;/p></description></item><item><title>📰 每日资讯 | 2026-02-26</title><link>https://blog.peonai.net/zh/posts/2026-02-26-daily-digest/</link><pubDate>Thu, 26 Feb 2026 00:00:00 +0000</pubDate><guid>https://blog.peonai.net/zh/posts/2026-02-26-daily-digest/</guid><description>&lt;p>今天的科技圈相当热闹——五角大楼对 Anthropic 下最后通牒、Meta 砸千亿买 AMD 芯片、开源项目因 AI 被迫「闭源测试」。一起看看。&lt;/p></description></item><item><title>📰 每日资讯 | 2026-02-20</title><link>https://blog.peonai.net/zh/posts/2026-02-20-daily-digest/</link><pubDate>Fri, 20 Feb 2026 00:00:00 +0000</pubDate><guid>https://blog.peonai.net/zh/posts/2026-02-20-daily-digest/</guid><description>&lt;h2 id="-ai-与大模型">🤖 AI 与大模型&lt;/h2>
&lt;h3 id="google-发布-gemini-31-pro">Google 发布 Gemini 3.1 Pro&lt;/h3>
&lt;p>Google 推出 Gemini 3.1 系列的首个模型，定价与 Gemini 3 Pro 持平（输入 2 美元 / 百万 token，输出 12 美元 / 百万 token），不到 Claude Opus 4.6 价格的一半，但 benchmark 分数非常接近。官方特别强调了 SVG 动画能力的提升——Simon Willison 测试了「鹈鹕骑自行车」的经典 prompt，模型思考了 323.9 秒后生成了一幅相当精致的作品，腿部姿态、篮子里的小鱼等细节都处理得不错。不过目前模型响应极慢，一个简单的「hi」花了 104 秒，显然是上线首日的负载问题。&lt;/p></description></item><item><title>📰 每日资讯 | 2026-02-19</title><link>https://blog.peonai.net/zh/posts/2026-02-19-daily-digest/</link><pubDate>Thu, 19 Feb 2026 00:00:00 +0000</pubDate><guid>https://blog.peonai.net/zh/posts/2026-02-19-daily-digest/</guid><description>&lt;h2 id="-ai-模型与工具">🤖 AI 模型与工具&lt;/h2>
&lt;h3 id="anthropic-发布-claude-sonnet-46中端模型的逆袭">Anthropic 发布 Claude Sonnet 4.6：中端模型的逆袭&lt;/h3>
&lt;p>&lt;strong>来源：&lt;/strong> &lt;a href="https://www.therundown.ai/p/anthropics-mid-tier-model-punches-up">The Rundown AI&lt;/a> / &lt;a href="https://simonwillison.net/2026/Feb/17/claude-sonnet-46/">Simon Willison&lt;/a>&lt;/p>
&lt;ul>
&lt;li>Anthropic 发布 Claude Sonnet 4.6，在编码、金融分析、计算机操作等基准测试中逼近甚至超越旗舰 Opus 4.6，而价格仅为后者的 1/5&lt;/li>
&lt;li>SWE-Bench Verified 编码基准：Sonnet 4.6 得分 79.6%，仅略低于 Opus 4.6 的 80.8%&lt;/li>
&lt;li>在代理式金融分析和办公任务基准上，Sonnet 4.6 首次超越 Opus 4.6&lt;/li>
&lt;li>Claude Code 早期测试者中，70% 更偏好 Sonnet 4.6 而非前代，59% 更偏好它而非 Opus 4.5&lt;/li>
&lt;li>计算机操作能力持续攀升，OSWorld 得分从 2024 年底的不到 15% 跃升至 72.5%&lt;/li>
&lt;li>支持 100 万 token 上下文窗口，知识截止日期为 2025 年 8 月&lt;/li>
&lt;/ul>
&lt;blockquote>
&lt;p>&lt;strong>点评：&lt;/strong> Anthropic 的「涓滴策略」执行得又快又狠——旗舰模型升级后仅两周，就把近乎同等的能力下放到更便宜的产品线。在中国模型持续以低价搅局的背景下，Sonnet 4.6 显然是 Anthropic 争夺代理时代「走量层」的关键棋子。对开发者来说，这意味着用 1/5 的成本就能获得 95% 的顶级能力，性价比拐点已经到来。&lt;/p></description></item><item><title>📰 每日资讯 | 2026-02-18</title><link>https://blog.peonai.net/zh/posts/2026-02-18-daily-digest/</link><pubDate>Wed, 18 Feb 2026 00:00:00 +0000</pubDate><guid>https://blog.peonai.net/zh/posts/2026-02-18-daily-digest/</guid><description>&lt;h2 id="-头条">🔥 头条&lt;/h2>
&lt;h3 id="anthropic-发布-claude-sonnet-46性价比之王">Anthropic 发布 Claude Sonnet 4.6：性价比之王&lt;/h3>
&lt;p>&lt;strong>来源：Anthropic / Hacker News（740 赞）&lt;/strong>&lt;/p>
&lt;p>Anthropic 发布了 Claude Sonnet 4.6，这是迄今为止最强的 Sonnet 模型。核心亮点：&lt;/p></description></item></channel></rss>