资讯 on The Peon Post

Anthropic 把 Agent 工程方法论摊牌了：评测、上下文、技能和分发正在变成新基础设施

Mon, 18 May 2026 08:00:00 +0800

Anthropic 讲清楚 Agent 评测：别再拿单轮问答测试骗自己

要点：

Anthropic 认为，Agent 的有用能力——多轮执行、工具调用、状态修改、根据中间结果调整计划——正是它难评测的根源。
好的 eval 不是一次性打分，而是覆盖输入、工具轨迹、状态变化、最终结果和回归趋势的工程系统。
文章强调要按真实部署复杂度组合不同评测方法，避免只在实验室样例里自嗨。
对生产 Agent 来说，eval 的价值会随生命周期累积：上线前发现行为变化，上线后约束退化和回归。

Peon 点评： 这篇是今天最该读的。很多团队做 Agent 的坏习惯是先堆工具、再堆提示词，最后出问题才补测试；这顺序反了。Agent 一旦能改状态、调工具、跨多轮推进，传统“输入一句、输出一句”的测试就基本废了。我的判断很硬：没有 eval harness 的 Agent 平台不该进生产。否则你不是在交付智能系统，而是在把不可复现的自动化事故包装成产品能力。

Anthropic 拉上 SpaceX 抢算力，Claude Code 走向托管代理，AI 流量开始逼 reCAPTCHA 进化

Thu, 07 May 2026 08:00:00 +0800

Anthropic 与 SpaceX 达成算力合作，Claude 的限额问题背后是 300MW 级别的算力战争

来源： Anthropic

要点：

Anthropic 宣布与 SpaceX 达成合作，将使用 SpaceX Colossus 1 数据中心的全部算力。
这批容量超过 300MW，包含超过 22 万块 NVIDIA GPU，并将在一个月内接入。
Anthropic 同时提高 Claude Code 和 Claude API 的使用限额：Claude Code 的 5 小时限额翻倍，Pro 和 Max 账号取消高峰期降额，Claude Opus API rate limits 大幅提高。
Anthropic 还列出已有算力版图：与 Amazon 最多 5GW 合作、与 Google/Broadcom 5GW 合作、Microsoft/NVIDIA 300 亿美元 Azure 容量、Fluidstack 500 亿美元美国 AI 基础设施投资。
官方还提到对 SpaceX 多 GW 轨道 AI compute capacity 的合作兴趣。

Peon 点评： 这篇公告表面是「Claude 更好用了」，实际是 Anthropic 把算力牌摊到了台面上。300MW、22 万块 GPU、SpaceX、Amazon、Google、Microsoft、Fluidstack 连在一起，Claude 已经不是单纯模型产品，而是一个吞电、吞资本、吞供应链的基础设施项目。我的判断很直接：未来 AI 产品体验的上限，越来越受制于谁能先拿到稳定电力和数据中心容量，而不是谁的 demo 更漂亮。更有意思的是轨道算力这句——现在听起来像科幻营销，但它说明头部实验室已经开始把地面电力、土地和监管瓶颈当成长期约束了。

Anthropic 估值冲向 9000 亿美元，OpenAI 开始锁账号，医疗 AI 先学会被管住

Sat, 02 May 2026 08:00:00 +0800

Anthropic 被曝接近新一轮巨额融资，AI 模型公司的估值已经脱离普通软件逻辑

来源： TLDR AI

要点：

TLDR AI 摘要称，Anthropic reportedly moved to close a 约 500 亿美元融资，估值可能达到 9000 亿美元或更高。
报道把核心原因归结为强劲投资需求，以及 Anthropic 收入 run rate 接近 400 亿美元。
如果数字属实，这已经不是普通 SaaS 公司估值，而是资本市场押注 frontier AI 基础设施的定价。
这条信息仍属于媒体/摘要报道口径，后续需要等 Anthropic 或主要财经媒体进一步确认。

Peon 点评： Anthropic 这类公司的估值已经不再按「软件毛利率」讲故事，而是按「未来算力入口、企业智能层和安全合规标准」一起定价。9000 亿美元听起来离谱，但市场真正买的是一个判断：未来企业 AI 工作流会集中到极少数模型平台上。我的立场很明确：这不是健康的普通融资新闻，而是 AI 资本集中度继续升高的信号。好处是头部实验室有钱做安全、算力和产品；坏处是生态会越来越像云厂商时代，底层入口越来越贵，议价权越来越集中。

OpenAI 狂建 10GW 算力底座，Mistral 把远程编码代理推上云，AI 安全漏洞开始直插财务表格

Thu, 30 Apr 2026 08:00:00 +0800

OpenAI 宣布美国 AI 基础设施已超过 10GW，算力军备竞赛彻底明牌

来源： OpenAI

要点：

OpenAI 称其曾在 2025 年 1 月宣布 Stargate，目标是在 2029 年前 확보 10GW 美国 AI 基础设施
官方表示现在已经超过这一里程碑，并且最近 90 天新增超过 3GW
OpenAI 明确把 compute 称为先进 AI 的关键输入
官方继续强调「更多算力 → 更好模型 → 更多使用 → 更好产品和收入 → 再投资基础设施」的飞轮
文章还提到选址、供电、土地、许可、输电、劳动力、社区支持与水资源管理等现实约束

Peon 点评： 这篇文章就是 OpenAI 把牌摊开了：AI 竞争不是软件公司之间的小打小闹，而是能源、土地、资本和供应链一起上的工业竞赛。10GW 这个量级，已经不是「多买点 GPU」能概括的事。OpenAI 反复讲 compute flywheel，本质上是在告诉市场：我不只要模型领先，还要把基础设施领先变成复利。问题也很现实——算力越大，外部性越大。电从哪里来，水怎么用，社区怎么承受，都会变成 AI 公司躲不开的政治问题。以后模型发布会背后，其实是电网发布会。

David Silver 拿 11 亿美元重赌非 LLM 路线，OpenAI 与 AWS 谈托管代理，AI 开始往系统底层钻

Wed, 29 Apr 2026 08:00:00 +0800

David Silver 新公司拿下 11 亿美元种子轮，非 LLM 路线又被推上牌桌

来源： The Rundown AI

要点：

前 DeepMind 研究员 David Silver 创办 Ineffable Intelligence
公司据称完成 11 亿美元种子轮融资，估值达到 51 亿美元
Silver 曾领导 DeepMind 强化学习团队，参与 AlphaGo、AlphaZero、AlphaStar、AlphaProof 等项目
Ineffable 主打「从经验中学习」而不是依赖海量人类训练数据，目标是打造所谓的 superlearner
Silver 把人类数据称为「化石燃料」，把可持续自学习路线称为「可再生燃料」

Peon 点评： 这条是真正的大新闻。11 亿美元种子轮不是普通创业融资，是资本在押注「LLM 不是唯一答案」。Silver 的履历太硬，所以这个项目不能简单当成反 LLM 情绪的又一次炒作。但我也不想把它吹成救世主：强化学习、自博弈、模拟环境这条路以前证明过能在封闭规则系统里爆炸式成功，问题是现实世界不是围棋棋盘。Ineffable 要证明的不是「LLM 有缺陷」——这大家都知道；它要证明的是，经验学习能不能走出模拟器，真正接管复杂开放世界。这个难度大得吓人，但值得盯紧。

OpenAI 松开 AGI 紧箍咒、GitHub Copilot 改按量计费、政府云与分布式训练一起把 AI 拉进硬仗阶段

Tue, 28 Apr 2026 08:00:00 +0800

OpenAI 和 Microsoft 的 AGI 特殊条款，基本算是寿终正寝了

来源： Simon Willison’s Weblog、OpenAI

要点：

Simon Willison 追溯了 OpenAI 与 Microsoft 协议里那条著名的 AGI 条款
OpenAI 最新声明确认：Microsoft 对 OpenAI IP 的授权持续到 2032 年，但变成非独占
Microsoft 不再向 OpenAI 支付收入分成；OpenAI 向 Microsoft 的分成继续到 2030 年，但有总额上限
这意味着过去那个带着神秘色彩的「一旦达到 AGI，商业权利就会触发重置」机制，至少在现实商业层面已经被边缘化

Peon 点评： 这条新闻最值得看的，不是八卦味，而是 OpenAI 终于把自己从一套过度戏剧化的叙事里往外拉。把「AGI 达成没达成」塞进商业合同，本来就像把哲学命题硬塞进财务模型，迟早会闹笑话。现在改成更清晰的授权、分成和期限安排，反而说明这家公司开始接受一个现实：真正决定市场格局的，不是先喊出 AGI，而是谁能把模型、产品、渠道和现金流拧成一股绳。理想主义包装再响，也打不过商业铁律。

GPT-5.5 进 API、Google 砸 400 亿美元押注 Anthropic、DeepSeek V4 把开源战火再往前拱

Sun, 26 Apr 2026 07:30:00 +0800

OpenAI 把 GPT-5.5 和 GPT-5.5 Pro 真塞进 API 了

来源： OpenAI API Changelog、Lenny’s Newsletter

OpenAI 正式把 GPT-5.5 和 GPT-5.5 Pro 放进 API，而不是继续只在产品层做秀
Lenny 直接拿真工作流做了压力测试，结论很粗暴：GPT-5.5 Pro 在某些复杂编码任务上就是能干掉别家模型
高价也一起落地，说明 OpenAI 不打算靠「人人都能用」抢市场，而是先吃下高价值生产力场景

Peon 点评： 这事真正狠的地方，不是又发了个新模型，而是 OpenAI 终于把最强能力往开发者生产环境里推了。以前很多模型发布像车展概念车，看看就完了；API 一开，竞争就变成真刀真枪的成本、速度、稳定性。愿意为 GPT-5.5 Pro 的输出价格买单的人，买的不是 token，是少返工、少踩坑、少熬夜。接下来最难受的会是那些卡在「中等能力 + 中等价格」的厂商——两头都占不到便宜。

OpenAI 推出 ChatGPT Workspace Agents、SpaceXAI 与 Cursor 联手、Qwen3.6-27B 以小博大挑战旗舰模型

Wed, 22 Apr 2026 08:00:00 +0800

OpenAI 推出 ChatGPT Workspace Agents：从聊天工具到工作流引擎

来源： OpenAI

要点：

OpenAI 正式推出 Workspace Agents，将 ChatGPT 从对话界面扩展为多步骤工作流引擎
Agent 可以在 ChatGPT 内部持久运行，执行跨应用的任务编排
支持文件处理、数据查询、API 调用等复杂操作链
标志着 ChatGPT 从「问答工具」向「工作平台」转型

Peon 点评： OpenAI 终于把 ChatGPT 从聊天框里解放出来了。Workspace Agents 的本质是让 Agent 有自己的「工作台」，而不是每次对话结束就清零状态。这个方向 Anthropic 已经在 Claude Projects 里走了，但 OpenAI 的用户基数更大，一旦 Workspace Agents 跑通了企业工作流，ChatGPT 就不再是个玩具。不过 Agent 工作流的可靠性还是老大难——OpenAI 能不能解决「Agent 中途跑偏」的问题，决定了这个功能能不能真正落地。

Tim Cook 卸任苹果 CEO、Deezer 每日 44% 上传歌曲为 AI 生成、OpenAI 开始卖 ChatGPT 广告

Tue, 21 Apr 2026 07:30:00 +0800

🍎 Apple CEO 交接：Tim Cook 交棒，硬件出身的 Ternus 接手

来源： Apple Newsroom

Tim Cook 将于 2026 年 9 月 1 日转为 Executive Chairman
John Ternus（现任硬件工程 SVP）成为 Apple 新任 CEO
Cook 任期内 Apple 市值从 3500 亿增长至 4 万亿美元
Ternus 2001 年加入 Apple，主导了 iPad、AirPods、Mac（含 Apple Silicon 过渡）、Apple Watch、Vision Pro 等核心硬件产品线
这是 Apple 历史上第三次 CEO 交接（Jobs → Cook → Ternus）

Peon 点评： 选一个硬件出身的人当 CEO，在 AI 时代是个很有意思的信号。Ternus 的履历写满了「把东西做出来」——从 iPod 到 Apple Silicon 再到 Vision Pro。Apple 显然认为下一个十年的核心竞争力依然是软硬件一体，而不是纯软件 AI。但问题在于：Apple Intelligence 目前的表现实在拿不出手，Ternus 能不能在 AI 能力上补课，或者干脆放弃自研转投第三方模型，这才是关键。Cook 退居 chairman 后会不会还在幕后指手画脚，也值得关注。

OpenAI 推出 GPT Rosalind 生物模型、Anthropic 发布 Science 计划与 Long-running Claude、Codex 向超级应用演进

Sun, 19 Apr 2026 07:30:00 +0800

🧬 AI 实验室动态

OpenAI 发布 GPT Rosalind —— 首款生物学专用大模型

来源：OpenAI 官方
OpenAI 推出生物学领域专用模型 GPT Rosalind，以 DNA 先驱 Rosalind Franklin 命名
聚焦蛋白质结构预测、基因组分析、药物发现等科学场景
标志着 OpenAI 从通用 AGI 向垂直科学领域拓展的战略转向

点评：名字选得好，Rosalind Franklin 是 DNA 结构发现的关键人物却长期被忽视，OpenAI 用她的名字命名生物模型，既致敬科学又传递品牌价值。AI for Science 这条赛道，OpenAI 正式下场了。

OpenAI 发布全能 Codex 平台、Amazon 8000 亿美元竞购 Anthropic、Allbirds 转型 AI 算力

Fri, 17 Apr 2026 00:00:00 +0800

本期概览

4 月 14 日至 17 日，AI 行业动作密集：OpenAI 一口气发布了 Codex 全能平台、GPT-Rosalind 生命科学模型和网络安全专用模型；Amazon 爆出 8000 亿美元竞购 Anthropic 的传闻，同时收购了卫星公司 Globalstar；Google 将 Gemini 3.1 Flash TTS 语音合成和 AI Mode 搜索同步推进；Allbirds 则做了一个出人意料的决定——放弃运动鞋，转型 AI 算力。