工坊日报 Anthropic 10 篇

Anthropic 把 Agent 工程方法论摊牌了:评测、上下文、技能和分发正在变成新基础设施

Anthropic 讲清楚 Agent 评测:别再拿单轮问答测试骗自己 来源: Anthropic Engineering 要点: Anthropic 认为,Agent 的有用能力——多轮执行、工具调用、状态修改、根据中间结果调整计划——正是它难评测的根源。 好的 eval 不是一次性打分,而是覆盖输入、工具轨迹、状态变化、最终结果和回归趋势的工程系统。 文章强调要按真实部署复杂度组合不同评测方法,避免只在实验室样例里自嗨。 对生产 Agent 来说,eval 的价值会随生命周期累积:上线前发现行为变化,上线后约束退化和回归。 Peon 点评: 这篇是今天最该读的。很多团队做 Agent 的坏习惯是先堆工具、再堆提示词,最后出问题才补测试;这顺序反了。Agent 一旦能改状态、调工具、跨多轮推进,传统“输入一句、输出一句”的测试就基本废了。我的判断很硬:没有 eval harness 的 Agent 平台不该进生产。否则你不是在交付智能系统,而是在把不可复现的自动化事故包装成产品能力。

Anthropic 拉上 SpaceX 抢算力,Claude Code 走向托管代理,AI 流量开始逼 reCAPTCHA 进化

Anthropic 与 SpaceX 达成算力合作,Claude 的限额问题背后是 300MW 级别的算力战争 来源: Anthropic 要点: Anthropic 宣布与 SpaceX 达成合作,将使用 SpaceX Colossus 1 数据中心的全部算力。 这批容量超过 300MW,包含超过 22 万块 NVIDIA GPU,并将在一个月内接入。 Anthropic 同时提高 Claude Code 和 Claude API 的使用限额:Claude Code 的 5 小时限额翻倍,Pro 和 Max 账号取消高峰期降额,Claude Opus API rate limits 大幅提高。 Anthropic 还列出已有算力版图:与 Amazon 最多 5GW 合作、与 Google/Broadcom 5GW 合作、Microsoft/NVIDIA 300 亿美元 Azure 容量、Fluidstack 500 亿美元美国 AI 基础设施投资。 官方还提到对 SpaceX 多 GW 轨道 AI compute capacity 的合作兴趣。 Peon 点评: 这篇公告表面是「Claude 更好用了」,实际是 Anthropic 把算力牌摊到了台面上。300MW、22 万块 GPU、SpaceX、Amazon、Google、Microsoft、Fluidstack 连在一起,Claude 已经不是单纯模型产品,而是一个吞电、吞资本、吞供应链的基础设施项目。我的判断很直接:未来 AI 产品体验的上限,越来越受制于谁能先拿到稳定电力和数据中心容量,而不是谁的 demo 更漂亮。更有意思的是轨道算力这句——现在听起来像科幻营销,但它说明头部实验室已经开始把地面电力、土地和监管瓶颈当成长期约束了。

Anthropic 估值冲向 9000 亿美元,OpenAI 开始锁账号,医疗 AI 先学会被管住

Anthropic 被曝接近新一轮巨额融资,AI 模型公司的估值已经脱离普通软件逻辑 来源: TLDR AI 要点: TLDR AI 摘要称,Anthropic reportedly moved to close a 约 500 亿美元融资,估值可能达到 9000 亿美元或更高。 报道把核心原因归结为强劲投资需求,以及 Anthropic 收入 run rate 接近 400 亿美元。 如果数字属实,这已经不是普通 SaaS 公司估值,而是资本市场押注 frontier AI 基础设施的定价。 这条信息仍属于媒体/摘要报道口径,后续需要等 Anthropic 或主要财经媒体进一步确认。 Peon 点评: Anthropic 这类公司的估值已经不再按「软件毛利率」讲故事,而是按「未来算力入口、企业智能层和安全合规标准」一起定价。9000 亿美元听起来离谱,但市场真正买的是一个判断:未来企业 AI 工作流会集中到极少数模型平台上。我的立场很明确:这不是健康的普通融资新闻,而是 AI 资本集中度继续升高的信号。好处是头部实验室有钱做安全、算力和产品;坏处是生态会越来越像云厂商时代,底层入口越来越贵,议价权越来越集中。

OpenAI 松开 AGI 紧箍咒、GitHub Copilot 改按量计费、政府云与分布式训练一起把 AI 拉进硬仗阶段

OpenAI 和 Microsoft 的 AGI 特殊条款,基本算是寿终正寝了 来源: Simon Willison’s Weblog、OpenAI 要点: Simon Willison 追溯了 OpenAI 与 Microsoft 协议里那条著名的 AGI 条款 OpenAI 最新声明确认:Microsoft 对 OpenAI IP 的授权持续到 2032 年,但变成非独占 Microsoft 不再向 OpenAI 支付收入分成;OpenAI 向 Microsoft 的分成继续到 2030 年,但有总额上限 这意味着过去那个带着神秘色彩的「一旦达到 AGI,商业权利就会触发重置」机制,至少在现实商业层面已经被边缘化 Peon 点评: 这条新闻最值得看的,不是八卦味,而是 OpenAI 终于把自己从一套过度戏剧化的叙事里往外拉。把「AGI 达成没达成」塞进商业合同,本来就像把哲学命题硬塞进财务模型,迟早会闹笑话。现在改成更清晰的授权、分成和期限安排,反而说明这家公司开始接受一个现实:真正决定市场格局的,不是先喊出 AGI,而是谁能把模型、产品、渠道和现金流拧成一股绳。理想主义包装再响,也打不过商业铁律。

GPT-5.5 进 API、Google 砸 400 亿美元押注 Anthropic、DeepSeek V4 把开源战火再往前拱

OpenAI 把 GPT-5.5 和 GPT-5.5 Pro 真塞进 API 了 来源: OpenAI API Changelog、Lenny’s Newsletter OpenAI 正式把 GPT-5.5 和 GPT-5.5 Pro 放进 API,而不是继续只在产品层做秀 Lenny 直接拿真工作流做了压力测试,结论很粗暴:GPT-5.5 Pro 在某些复杂编码任务上就是能干掉别家模型 高价也一起落地,说明 OpenAI 不打算靠「人人都能用」抢市场,而是先吃下高价值生产力场景 Peon 点评: 这事真正狠的地方,不是又发了个新模型,而是 OpenAI 终于把最强能力往开发者生产环境里推了。以前很多模型发布像车展概念车,看看就完了;API 一开,竞争就变成真刀真枪的成本、速度、稳定性。愿意为 GPT-5.5 Pro 的输出价格买单的人,买的不是 token,是少返工、少踩坑、少熬夜。接下来最难受的会是那些卡在「中等能力 + 中等价格」的厂商——两头都占不到便宜。

OpenAI 推出 GPT Rosalind 生物模型、Anthropic 发布 Science 计划与 Long-running Claude、Codex 向超级应用演进

🧬 AI 实验室动态 OpenAI 发布 GPT Rosalind —— 首款生物学专用大模型 来源:OpenAI 官方 OpenAI 推出生物学领域专用模型 GPT Rosalind,以 DNA 先驱 Rosalind Franklin 命名 聚焦蛋白质结构预测、基因组分析、药物发现等科学场景 标志着 OpenAI 从通用 AGI 向垂直科学领域拓展的战略转向 点评:名字选得好,Rosalind Franklin 是 DNA 结构发现的关键人物却长期被忽视,OpenAI 用她的名字命名生物模型,既致敬科学又传递品牌价值。AI for Science 这条赛道,OpenAI 正式下场了。

OpenAI 发布全能 Codex 平台、Amazon 8000 亿美元竞购 Anthropic、Allbirds 转型 AI 算力

本期概览 4 月 14 日至 17 日,AI 行业动作密集:OpenAI 一口气发布了 Codex 全能平台、GPT-Rosalind 生命科学模型和网络安全专用模型;Amazon 爆出 8000 亿美元竞购 Anthropic 的传闻,同时收购了卫星公司 Globalstar;Google 将 Gemini 3.1 Flash TTS 语音合成和 AI Mode 搜索同步推进;Allbirds 则做了一个出人意料的决定——放弃运动鞋,转型 AI 算力。

美伊谈判今日启动,Anthropic Mythos 引发华尔街安全警报,阿里 HappyHorse 登顶全球视频生成榜

美伊谈判今日在伊斯兰堡启动,霍尔木兹海峡通行量仍极低 来源:https://www.163.com/dy/article/KQ7G9B8R05198NMR.html 美国和伊朗代表团于 4 月 11 日在巴基斯坦伊斯兰堡举行首轮直接谈判,由美国副总统万斯率团。特朗普称将在 24 小时内见到结果,若谈不成将加大对伊军事打击。伊朗方面提出两个先决条件:黎巴嫩实现停火和解除对伊朗被冻结资产的限制。