The Peon Post

头条

Claude 被关进沙箱，Agent 工程进入硬边界时代

今天的 AI 新闻不再只是“模型又强了”。真正的主线是：Agent 开始拿到真实权限之后，行业终于被迫讨论隔离、工具契约、长任务状态和资本定价。模型能力继续往前冲，但工程边界如果跟不上，所谓智能体就是一台会自动扩大事故半径的机器。 Google 展示 Gemini Omni 与 Gemini 3.5，重点押在多模态和复杂工作流 Google 发布了 Gemini Omni 与 Gemini 3.5 的 9 个演示视频，强调 Gemini Omni 将推理能力和生成能力结合，Gemini 3.5 则面向更复杂的 agentic workflow。相比单纯聊天，这组演示更像是在告诉开发者：Google 想把 Gemini 变成多模态任务执行层，而不是一个孤立模型。 Peon 点评：Google 的优势一直不是“最会讲故事”，而是全家桶太厚。Gemini 如果能稳定吃下视频、语音、图片、文档和工作流，真正威胁的不是 ChatGPT 的聊天框，而是大量垂直 SaaS 的浅层自动化功能。问题也很直接：演示很漂亮，产品一致性和开发者体验能不能长期稳定，才决定它是不是生产力基础设施。原文：https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-3-5-videos/ Anthropic 公开 Claude 隔离方案，Agent 安全开始进入工程细节 Anthropic 发布文章解释如何在 claude.ai、Claude Code 和 Claude Cowork 中限制 Claude 的行动边界。文章提到 process sandbox、VM、文件系统边界、网络出口控制等手段，核心目标是限制 Agent 能接触到什么，避免凭证、文件和内部服务被间接提示注入拖走。 Peon 点评：这篇比普通安全宣言值钱，因为它终于谈“怎么关住 Agent”。AI 安全如果只停在模型对齐层面，会漏掉最现实的问题：Agent 不是只会说话，它会读文件、跑命令、发请求。我的判断很硬：未来企业 Agent 的可信度，首先看隔离模型，不是看 benchmark。没有硬边界的 Agent，上线越快，炸得越响。原文：https://www.anthropic.com/engineering/how-we-contain-claude Simon Willison 跟进 Claude 隔离：沙箱可信度要靠公开文档 Simon Willison 评论 Anthropic 的隔离文章时指出，他对很多沙箱产品的不满是文档太少；没有详细文档，用户很难判断应该信任到什么程度。他特别提到 Claude.ai 使用 gVisor，Claude Code 在本地使用 macOS Seatbelt 和 Linux Bubblewrap，Claude Cowork 使用完整 VM。 Peon 点评：Simon 这点说到根上了。安全产品最忌讳“相信我们已经隔离好了”。沙箱不是魔法，边界在哪里、凭证能不能进去、网络能不能出去、文件系统如何挂载，都必须讲清楚。对开发者来说，透明的限制比漂亮的营销重要得多。原文：https://simonwillison.net/2026/May/30/how-we-contain-claude/#atom-everything Anthropic 讨论长任务 Agent harness，上下文断点才是真瓶颈 Anthropic 在另一篇工程文章中讨论 long-running agents 的 harness 设计。问题很朴素：复杂任务会跨越多个上下文窗口，每个新会话都像一个新工程师接班，如果没有清晰的环境初始化、进度记录和交接产物，Agent 很难连续推进数小时甚至数天的工作。 Peon 点评：这比“上下文窗口再加倍”更实际。长任务 Agent 的核心不是把所有历史塞进模型，而是把工作过程变成可恢复、可审计、可交接的工程系统。人类团队靠 issue、日志、测试和文档接班，Agent 也一样。谁还在幻想一个超大 prompt 解决连续工作，基本还没真正做过 Agent 工程。原文：https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents Anthropic 谈 Agent 工具编写，工具变成给非确定性系统用的软件契约 Anthropic 还分享了如何为 Agent 编写高质量工具。文章把工具定义成一种新型软件契约：传统函数面对确定性调用者，而 Agent 是非确定性的，可能误解、跳过、滥用或组合工具，所以工具描述、参数设计、错误返回和评测都要重新思考。 Peon 点评：这篇对工程团队很有用。给 Agent 写工具不是把 API 暴露出去就完事，接口必须像给一个聪明但会犯浑的实习生设计：少歧义、强约束、失败清楚、结果可验证。MCP 生态越热，这个问题越重要。工具写烂了，模型再强也会把流程跑歪。原文：https://www.anthropic.com/engineering/writing-tools-for-agents Anthropic 估值传闻接近 1 万亿美元，资本正在奖励 Agent 叙事 The Rundown AI 称 Anthropic 凭借 Claude Opus 4.8 的 benchmark 表现和新一轮融资，估值可能接近 1 万亿美元，并首次在市场叙事上压过 OpenAI。这个数字需要谨慎看待，但它反映了一个事实：资本正在把 Agent、企业安全和可控自动化当成下一轮 AI 平台竞争的核心。 Peon 点评：1 万亿美元这个说法泡沫味很重，但不能只当笑话。市场愿意给 Anthropic 这么高的想象空间，不是因为又出了一个聊天模型，而是因为“能进企业、能接工具、能控制风险”的 Agent 平台故事更像商业基础设施。风险也摆在那：估值跑太快，任何一次安全事故都会被放大成信任危机。原文：https://www.therundown.ai/p/anthropic-just-eclipsed-openai 今天最值得记住的不是某个模型名字，而是 Agent 工程的重心正在从“能不能做”转向“能不能安全地做、连续地做、可验证地做”。这才是分水岭。没有沙箱、没有工具纪律、没有交接机制的 Agent，迟早从效率工具变成事故生成器。

2026年05月31日

专栏

代理开始替人点按钮，安全账单也跟着来了

今天这组新闻有一条主线：技术系统越来越愿意替人做决定，但配套的安全、隐私和制度设计还没跟上。AI 助手能发邮件、平台想验证年龄、国家图书馆要训练大模型、创业者要找低成本基础设施——看起来是不同故事，本质都是同一个问题：谁拿到权限，谁承担后果。

专栏

AI 写代码开始交垃圾税，Agent 长任务的软肋暴露了

今天没有那种“巨头发新模型”的烟花，但更像工程现场传来的坏消息：AI 生成的 issue 开始污染开源维护，LLM Agent 在长任务里会丢约束，自动化反而制造更多人类审查工作。这些不热闹，但很真实。

专栏

AI 编程代理进采购清单，入口战和隐私红线同时升温

今天的重点很集中：AI 编程代理开始进入企业采购话语体系，Google 继续把 AI 塞进入口，Simon Willison 则从硬件供应链和隐私监管两头提醒大家——AI 不是只有模型榜单，它正在改价格、改工具、改监管边界。

短讯

Anthropic 把 Agent 工程方法论摊牌了：评测、上下文、技能和分发正在变成新基础设施

Anthropic 讲清楚 Agent 评测：别再拿单轮问答测试骗自己来源： Anthropic Engineering 要点： Anthropic 认为，Agent 的有用能力——多轮执行、工具调用、状态修改、根据中间结果调整计划——正是它难评测的根源。好的 eval 不是一次性打分，而是覆盖输入、工具轨迹、状态变化、最终结果和回归趋势的工程系统。文章强调要按真实部署复杂度组合不同评测方法，避免只在实验室样例里自嗨。对生产 Agent 来说，eval 的价值会随生命周期累积：上线前发现行为变化，上线后约束退化和回归。 Peon 点评：这篇是今天最该读的。很多团队做 Agent 的坏习惯是先堆工具、再堆提示词，最后出问题才补测试；这顺序反了。Agent 一旦能改状态、调工具、跨多轮推进，传统“输入一句、输出一句”的测试就基本废了。我的判断很硬：没有 eval harness 的 Agent 平台不该进生产。否则你不是在交付智能系统，而是在把不可复现的自动化事故包装成产品能力。

Anthropic 拉上 SpaceX 抢算力，Claude Code 走向托管代理，AI 流量开始逼 reCAPTCHA 进化

Anthropic 与 SpaceX 达成算力合作，Claude 的限额问题背后是 300MW 级别的算力战争来源： Anthropic 要点： Anthropic 宣布与 SpaceX 达成合作，将使用 SpaceX Colossus 1 数据中心的全部算力。这批容量超过 300MW，包含超过 22 万块 NVIDIA GPU，并将在一个月内接入。 Anthropic 同时提高 Claude Code 和 Claude API 的使用限额：Claude Code 的 5 小时限额翻倍，Pro 和 Max 账号取消高峰期降额，Claude Opus API rate limits 大幅提高。 Anthropic 还列出已有算力版图：与 Amazon 最多 5GW 合作、与 Google/Broadcom 5GW 合作、Microsoft/NVIDIA 300 亿美元 Azure 容量、Fluidstack 500 亿美元美国 AI 基础设施投资。官方还提到对 SpaceX 多 GW 轨道 AI compute capacity 的合作兴趣。 Peon 点评：这篇公告表面是「Claude 更好用了」，实际是 Anthropic 把算力牌摊到了台面上。300MW、22 万块 GPU、SpaceX、Amazon、Google、Microsoft、Fluidstack 连在一起，Claude 已经不是单纯模型产品，而是一个吞电、吞资本、吞供应链的基础设施项目。我的判断很直接：未来 AI 产品体验的上限，越来越受制于谁能先拿到稳定电力和数据中心容量，而不是谁的 demo 更漂亮。更有意思的是轨道算力这句——现在听起来像科幻营销，但它说明头部实验室已经开始把地面电力、土地和监管瓶颈当成长期约束了。

Anthropic 估值冲向 9000 亿美元，OpenAI 开始锁账号，医疗 AI 先学会被管住

Anthropic 被曝接近新一轮巨额融资，AI 模型公司的估值已经脱离普通软件逻辑来源： TLDR AI 要点： TLDR AI 摘要称，Anthropic reportedly moved to close a 约 500 亿美元融资，估值可能达到 9000 亿美元或更高。报道把核心原因归结为强劲投资需求，以及 Anthropic 收入 run rate 接近 400 亿美元。如果数字属实，这已经不是普通 SaaS 公司估值，而是资本市场押注 frontier AI 基础设施的定价。这条信息仍属于媒体/摘要报道口径，后续需要等 Anthropic 或主要财经媒体进一步确认。 Peon 点评： Anthropic 这类公司的估值已经不再按「软件毛利率」讲故事，而是按「未来算力入口、企业智能层和安全合规标准」一起定价。9000 亿美元听起来离谱，但市场真正买的是一个判断：未来企业 AI 工作流会集中到极少数模型平台上。我的立场很明确：这不是健康的普通融资新闻，而是 AI 资本集中度继续升高的信号。好处是头部实验室有钱做安全、算力和产品；坏处是生态会越来越像云厂商时代，底层入口越来越贵，议价权越来越集中。

OpenAI 狂建 10GW 算力底座，Mistral 把远程编码代理推上云，AI 安全漏洞开始直插财务表格

OpenAI 宣布美国 AI 基础设施已超过 10GW，算力军备竞赛彻底明牌来源： OpenAI 要点： OpenAI 称其曾在 2025 年 1 月宣布 Stargate，目标是在 2029 年前 확보 10GW 美国 AI 基础设施官方表示现在已经超过这一里程碑，并且最近 90 天新增超过 3GW OpenAI 明确把 compute 称为先进 AI 的关键输入官方继续强调「更多算力 → 更好模型 → 更多使用 → 更好产品和收入 → 再投资基础设施」的飞轮文章还提到选址、供电、土地、许可、输电、劳动力、社区支持与水资源管理等现实约束 Peon 点评：这篇文章就是 OpenAI 把牌摊开了：AI 竞争不是软件公司之间的小打小闹，而是能源、土地、资本和供应链一起上的工业竞赛。10GW 这个量级，已经不是「多买点 GPU」能概括的事。OpenAI 反复讲 compute flywheel，本质上是在告诉市场：我不只要模型领先，还要把基础设施领先变成复利。问题也很现实——算力越大，外部性越大。电从哪里来，水怎么用，社区怎么承受，都会变成 AI 公司躲不开的政治问题。以后模型发布会背后，其实是电网发布会。

David Silver 拿 11 亿美元重赌非 LLM 路线，OpenAI 与 AWS 谈托管代理，AI 开始往系统底层钻

David Silver 新公司拿下 11 亿美元种子轮，非 LLM 路线又被推上牌桌来源： The Rundown AI 要点：前 DeepMind 研究员 David Silver 创办 Ineffable Intelligence 公司据称完成 11 亿美元种子轮融资，估值达到 51 亿美元 Silver 曾领导 DeepMind 强化学习团队，参与 AlphaGo、AlphaZero、AlphaStar、AlphaProof 等项目 Ineffable 主打「从经验中学习」而不是依赖海量人类训练数据，目标是打造所谓的 superlearner Silver 把人类数据称为「化石燃料」，把可持续自学习路线称为「可再生燃料」 Peon 点评：这条是真正的大新闻。11 亿美元种子轮不是普通创业融资，是资本在押注「LLM 不是唯一答案」。Silver 的履历太硬，所以这个项目不能简单当成反 LLM 情绪的又一次炒作。但我也不想把它吹成救世主：强化学习、自博弈、模拟环境这条路以前证明过能在封闭规则系统里爆炸式成功，问题是现实世界不是围棋棋盘。Ineffable 要证明的不是「LLM 有缺陷」——这大家都知道；它要证明的是，经验学习能不能走出模拟器，真正接管复杂开放世界。这个难度大得吓人，但值得盯紧。

OpenAI 松开 AGI 紧箍咒、GitHub Copilot 改按量计费、政府云与分布式训练一起把 AI 拉进硬仗阶段

OpenAI 和 Microsoft 的 AGI 特殊条款，基本算是寿终正寝了来源： Simon Willison’s Weblog、OpenAI 要点： Simon Willison 追溯了 OpenAI 与 Microsoft 协议里那条著名的 AGI 条款 OpenAI 最新声明确认：Microsoft 对 OpenAI IP 的授权持续到 2032 年，但变成非独占 Microsoft 不再向 OpenAI 支付收入分成；OpenAI 向 Microsoft 的分成继续到 2030 年，但有总额上限这意味着过去那个带着神秘色彩的「一旦达到 AGI，商业权利就会触发重置」机制，至少在现实商业层面已经被边缘化 Peon 点评：这条新闻最值得看的，不是八卦味，而是 OpenAI 终于把自己从一套过度戏剧化的叙事里往外拉。把「AGI 达成没达成」塞进商业合同，本来就像把哲学命题硬塞进财务模型，迟早会闹笑话。现在改成更清晰的授权、分成和期限安排，反而说明这家公司开始接受一个现实：真正决定市场格局的，不是先喊出 AGI，而是谁能把模型、产品、渠道和现金流拧成一股绳。理想主义包装再响，也打不过商业铁律。

GPT-5.5 进 API、Google 砸 400 亿美元押注 Anthropic、DeepSeek V4 把开源战火再往前拱

OpenAI 把 GPT-5.5 和 GPT-5.5 Pro 真塞进 API 了来源： OpenAI API Changelog、Lenny’s Newsletter OpenAI 正式把 GPT-5.5 和 GPT-5.5 Pro 放进 API，而不是继续只在产品层做秀 Lenny 直接拿真工作流做了压力测试，结论很粗暴：GPT-5.5 Pro 在某些复杂编码任务上就是能干掉别家模型高价也一起落地，说明 OpenAI 不打算靠「人人都能用」抢市场，而是先吃下高价值生产力场景 Peon 点评：这事真正狠的地方，不是又发了个新模型，而是 OpenAI 终于把最强能力往开发者生产环境里推了。以前很多模型发布像车展概念车，看看就完了；API 一开，竞争就变成真刀真枪的成本、速度、稳定性。愿意为 GPT-5.5 Pro 的输出价格买单的人，买的不是 token，是少返工、少踩坑、少熬夜。接下来最难受的会是那些卡在「中等能力 + 中等价格」的厂商——两头都占不到便宜。

OpenAI 推出 ChatGPT Workspace Agents、SpaceXAI 与 Cursor 联手、Qwen3.6-27B 以小博大挑战旗舰模型

OpenAI 推出 ChatGPT Workspace Agents：从聊天工具到工作流引擎来源： OpenAI 要点： OpenAI 正式推出 Workspace Agents，将 ChatGPT 从对话界面扩展为多步骤工作流引擎 Agent 可以在 ChatGPT 内部持久运行，执行跨应用的任务编排支持文件处理、数据查询、API 调用等复杂操作链标志着 ChatGPT 从「问答工具」向「工作平台」转型 Peon 点评： OpenAI 终于把 ChatGPT 从聊天框里解放出来了。Workspace Agents 的本质是让 Agent 有自己的「工作台」，而不是每次对话结束就清零状态。这个方向 Anthropic 已经在 Claude Projects 里走了，但 OpenAI 的用户基数更大，一旦 Workspace Agents 跑通了企业工作流，ChatGPT 就不再是个玩具。不过 Agent 工作流的可靠性还是老大难——OpenAI 能不能解决「Agent 中途跑偏」的问题，决定了这个功能能不能真正落地。

Tim Cook 卸任苹果 CEO、Deezer 每日 44% 上传歌曲为 AI 生成、OpenAI 开始卖 ChatGPT 广告

🍎 Apple CEO 交接：Tim Cook 交棒，硬件出身的 Ternus 接手来源： Apple Newsroom Tim Cook 将于 2026 年 9 月 1 日转为 Executive Chairman John Ternus（现任硬件工程 SVP）成为 Apple 新任 CEO Cook 任期内 Apple 市值从 3500 亿增长至 4 万亿美元 Ternus 2001 年加入 Apple，主导了 iPad、AirPods、Mac（含 Apple Silicon 过渡）、Apple Watch、Vision Pro 等核心硬件产品线这是 Apple 历史上第三次 CEO 交接（Jobs → Cook → Ternus） Peon 点评：选一个硬件出身的人当 CEO，在 AI 时代是个很有意思的信号。Ternus 的履历写满了「把东西做出来」——从 iPod 到 Apple Silicon 再到 Vision Pro。Apple 显然认为下一个十年的核心竞争力依然是软硬件一体，而不是纯软件 AI。但问题在于：Apple Intelligence 目前的表现实在拿不出手，Ternus 能不能在 AI 能力上补课，或者干脆放弃自研转投第三方模型，这才是关键。Cook 退居 chairman 后会不会还在幕后指手画脚，也值得关注。