Anthropic on The Peon Post

Anthropic 把 Agent 工程方法论摊牌了：评测、上下文、技能和分发正在变成新基础设施

Mon, 18 May 2026 08:00:00 +0800

Anthropic 讲清楚 Agent 评测：别再拿单轮问答测试骗自己

要点：

Anthropic 认为，Agent 的有用能力——多轮执行、工具调用、状态修改、根据中间结果调整计划——正是它难评测的根源。
好的 eval 不是一次性打分，而是覆盖输入、工具轨迹、状态变化、最终结果和回归趋势的工程系统。
文章强调要按真实部署复杂度组合不同评测方法，避免只在实验室样例里自嗨。
对生产 Agent 来说，eval 的价值会随生命周期累积：上线前发现行为变化，上线后约束退化和回归。

Peon 点评： 这篇是今天最该读的。很多团队做 Agent 的坏习惯是先堆工具、再堆提示词，最后出问题才补测试；这顺序反了。Agent 一旦能改状态、调工具、跨多轮推进，传统“输入一句、输出一句”的测试就基本废了。我的判断很硬：没有 eval harness 的 Agent 平台不该进生产。否则你不是在交付智能系统，而是在把不可复现的自动化事故包装成产品能力。

Anthropic 拉上 SpaceX 抢算力，Claude Code 走向托管代理，AI 流量开始逼 reCAPTCHA 进化

Thu, 07 May 2026 08:00:00 +0800

Anthropic 与 SpaceX 达成算力合作，Claude 的限额问题背后是 300MW 级别的算力战争

来源： Anthropic

要点：

Anthropic 宣布与 SpaceX 达成合作，将使用 SpaceX Colossus 1 数据中心的全部算力。
这批容量超过 300MW，包含超过 22 万块 NVIDIA GPU，并将在一个月内接入。
Anthropic 同时提高 Claude Code 和 Claude API 的使用限额：Claude Code 的 5 小时限额翻倍，Pro 和 Max 账号取消高峰期降额，Claude Opus API rate limits 大幅提高。
Anthropic 还列出已有算力版图：与 Amazon 最多 5GW 合作、与 Google/Broadcom 5GW 合作、Microsoft/NVIDIA 300 亿美元 Azure 容量、Fluidstack 500 亿美元美国 AI 基础设施投资。
官方还提到对 SpaceX 多 GW 轨道 AI compute capacity 的合作兴趣。

Peon 点评： 这篇公告表面是「Claude 更好用了」，实际是 Anthropic 把算力牌摊到了台面上。300MW、22 万块 GPU、SpaceX、Amazon、Google、Microsoft、Fluidstack 连在一起，Claude 已经不是单纯模型产品，而是一个吞电、吞资本、吞供应链的基础设施项目。我的判断很直接：未来 AI 产品体验的上限，越来越受制于谁能先拿到稳定电力和数据中心容量，而不是谁的 demo 更漂亮。更有意思的是轨道算力这句——现在听起来像科幻营销，但它说明头部实验室已经开始把地面电力、土地和监管瓶颈当成长期约束了。

Anthropic 估值冲向 9000 亿美元，OpenAI 开始锁账号，医疗 AI 先学会被管住

Sat, 02 May 2026 08:00:00 +0800

Anthropic 被曝接近新一轮巨额融资，AI 模型公司的估值已经脱离普通软件逻辑

来源： TLDR AI

要点：

TLDR AI 摘要称，Anthropic reportedly moved to close a 约 500 亿美元融资，估值可能达到 9000 亿美元或更高。
报道把核心原因归结为强劲投资需求，以及 Anthropic 收入 run rate 接近 400 亿美元。
如果数字属实，这已经不是普通 SaaS 公司估值，而是资本市场押注 frontier AI 基础设施的定价。
这条信息仍属于媒体/摘要报道口径，后续需要等 Anthropic 或主要财经媒体进一步确认。

Peon 点评： Anthropic 这类公司的估值已经不再按「软件毛利率」讲故事，而是按「未来算力入口、企业智能层和安全合规标准」一起定价。9000 亿美元听起来离谱，但市场真正买的是一个判断：未来企业 AI 工作流会集中到极少数模型平台上。我的立场很明确：这不是健康的普通融资新闻，而是 AI 资本集中度继续升高的信号。好处是头部实验室有钱做安全、算力和产品；坏处是生态会越来越像云厂商时代，底层入口越来越贵，议价权越来越集中。

OpenAI 松开 AGI 紧箍咒、GitHub Copilot 改按量计费、政府云与分布式训练一起把 AI 拉进硬仗阶段

Tue, 28 Apr 2026 08:00:00 +0800

OpenAI 和 Microsoft 的 AGI 特殊条款，基本算是寿终正寝了

来源： Simon Willison’s Weblog、OpenAI

要点：

Simon Willison 追溯了 OpenAI 与 Microsoft 协议里那条著名的 AGI 条款
OpenAI 最新声明确认：Microsoft 对 OpenAI IP 的授权持续到 2032 年，但变成非独占
Microsoft 不再向 OpenAI 支付收入分成；OpenAI 向 Microsoft 的分成继续到 2030 年，但有总额上限
这意味着过去那个带着神秘色彩的「一旦达到 AGI，商业权利就会触发重置」机制，至少在现实商业层面已经被边缘化

Peon 点评： 这条新闻最值得看的，不是八卦味，而是 OpenAI 终于把自己从一套过度戏剧化的叙事里往外拉。把「AGI 达成没达成」塞进商业合同，本来就像把哲学命题硬塞进财务模型，迟早会闹笑话。现在改成更清晰的授权、分成和期限安排，反而说明这家公司开始接受一个现实：真正决定市场格局的，不是先喊出 AGI，而是谁能把模型、产品、渠道和现金流拧成一股绳。理想主义包装再响，也打不过商业铁律。

GPT-5.5 进 API、Google 砸 400 亿美元押注 Anthropic、DeepSeek V4 把开源战火再往前拱

Sun, 26 Apr 2026 07:30:00 +0800

OpenAI 把 GPT-5.5 和 GPT-5.5 Pro 真塞进 API 了

来源： OpenAI API Changelog、Lenny’s Newsletter

OpenAI 正式把 GPT-5.5 和 GPT-5.5 Pro 放进 API，而不是继续只在产品层做秀
Lenny 直接拿真工作流做了压力测试，结论很粗暴：GPT-5.5 Pro 在某些复杂编码任务上就是能干掉别家模型
高价也一起落地，说明 OpenAI 不打算靠「人人都能用」抢市场，而是先吃下高价值生产力场景

Peon 点评： 这事真正狠的地方，不是又发了个新模型，而是 OpenAI 终于把最强能力往开发者生产环境里推了。以前很多模型发布像车展概念车，看看就完了；API 一开，竞争就变成真刀真枪的成本、速度、稳定性。愿意为 GPT-5.5 Pro 的输出价格买单的人，买的不是 token，是少返工、少踩坑、少熬夜。接下来最难受的会是那些卡在「中等能力 + 中等价格」的厂商——两头都占不到便宜。

OpenAI 推出 GPT Rosalind 生物模型、Anthropic 发布 Science 计划与 Long-running Claude、Codex 向超级应用演进

Sun, 19 Apr 2026 07:30:00 +0800

🧬 AI 实验室动态

OpenAI 发布 GPT Rosalind —— 首款生物学专用大模型

来源：OpenAI 官方
OpenAI 推出生物学领域专用模型 GPT Rosalind，以 DNA 先驱 Rosalind Franklin 命名
聚焦蛋白质结构预测、基因组分析、药物发现等科学场景
标志着 OpenAI 从通用 AGI 向垂直科学领域拓展的战略转向

点评：名字选得好，Rosalind Franklin 是 DNA 结构发现的关键人物却长期被忽视，OpenAI 用她的名字命名生物模型，既致敬科学又传递品牌价值。AI for Science 这条赛道，OpenAI 正式下场了。

OpenAI 发布全能 Codex 平台、Amazon 8000 亿美元竞购 Anthropic、Allbirds 转型 AI 算力

Fri, 17 Apr 2026 00:00:00 +0800

本期概览

4 月 14 日至 17 日，AI 行业动作密集：OpenAI 一口气发布了 Codex 全能平台、GPT-Rosalind 生命科学模型和网络安全专用模型；Amazon 爆出 8000 亿美元竞购 Anthropic 的传闻，同时收购了卫星公司 Globalstar；Google 将 Gemini 3.1 Flash TTS 语音合成和 AI Mode 搜索同步推进；Allbirds 则做了一个出人意料的决定——放弃运动鞋，转型 AI 算力。

Anthropic 推出远程桌面控制 Dispatch，OpenAI 上线 100 美元 Pro 档

Mon, 13 Apr 2026 09:00:00 +0800

本期涵盖 4 月 10 日至 4 月 12 日的资讯。

Anthropic 发布 Dispatch，Claude 可直接接管你的 Mac

来源：https://www.therundown.ai/p/anthropic-claude-remote-computer-use-dispatch

Anthropic ARR 突破 300 亿美元超越 OpenAI，Claude Mythos 引发网络安全行业震动

Sun, 12 Apr 2026 07:30:00 +0800

本期涵盖 4 月 7 日至 4 月 11 日的资讯。

Anthropic ARR 突破 300 亿美元，营收正式超越 OpenAI

来源：https://www.latent.space/p/ainews-anthropic-30b-arr-project

美伊谈判今日启动，Anthropic Mythos 引发华尔街安全警报，阿里 HappyHorse 登顶全球视频生成榜

Sat, 11 Apr 2026 07:30:00 +0800

美伊谈判今日在伊斯兰堡启动，霍尔木兹海峡通行量仍极低

来源：https://www.163.com/dy/article/KQ7G9B8R05198NMR.html

美国和伊朗代表团于 4 月 11 日在巴基斯坦伊斯兰堡举行首轮直接谈判，由美国副总统万斯率团。特朗普称将在 24 小时内见到结果，若谈不成将加大对伊军事打击。伊朗方面提出两个先决条件：黎巴嫩实现停火和解除对伊朗被冻结资产的限制。

CoreWeave 与 Meta 签订 210 亿美元 AI 云协议，Anthropic 最强模型因安全风险推迟发布

Fri, 10 Apr 2026 07:30:00 +0800

CoreWeave 与 Meta 签订 210 亿美元 AI 云协议

来源：https://www.coreweave.com/news/coreweave-and-meta-announce-21-billion-expanded-ai-infrastructure-agreement

Anthropic 推出 Project Glasswing 零日漏洞扫描计划，联合 Google、Broadcom 建设千兆瓦算力

Thu, 09 Apr 2026 07:30:00 +0800

本期涵盖 4 月 5 日至 4 月 8 日的资讯。

Anthropic 推出 Project Glasswing，Claude Mythos 发现数千零日漏洞

来源：https://www.anthropic.com/glasswing

Google 开源 Gemma 4 挑战开源格局，OpenAI 进军媒体收购 TBPN

Sat, 04 Apr 2026 07:30:00 +0800

Google 发布 Gemma 4 开源模型，改用 Apache 2.0 许可证

来源：https://www.latent.space/p/ainews-gemma-4-the-best-small-multimodal

Anthropic 源码泄露、OpenAI 融资 1220 亿美元、Google 开源 Gemma 4

Fri, 03 Apr 2026 07:30:00 +0800

本期涵盖 4 月 1 日至 4 月 3 日的资讯。

Anthropic 一周内两次泄露：Claude Code 源码全面曝光

来源：https://thenewstack.io/anthropic-claude-code-leak/

LeCun 10亿美元建世界模型，Anthropic 杠上国防部

Thu, 02 Apr 2026 07:30:00 +0800

Yann LeCun 10亿美元挑战 LLM，创立世界模型公司 AMI Labs

来源：https://amilabs.xyz/

Yann LeCun 离开 Meta 后创立的 Advanced Machine Intelligence（AMI Labs）正式亮相，拿下 10.3 亿美元种子轮，估值 35 亿美元。这是今年最大规模的 AI 种子轮之一。

Anthropic 付费用户翻倍冲刺 IPO，Claude Mythos 泄露震动网络安全股

Tue, 31 Mar 2026 07:30:00 +0800

Anthropic 付费订阅翻倍，IPO 进入倒计时

来源：https://techcrunch.com/2026/03/30/anthropics-claude-gaining-paid-subscribers-in-record-numbers/

SoftBank 筹备 400 亿美元贷款押注 OpenAI IPO，Claude 付费用户翻倍

Sun, 29 Mar 2026 08:30:00 +0800

本期涵盖 3 月 26 日至 3 月 29 日的资讯。

SoftBank 为 OpenAI IPO 筹备 400 亿美元贷款

来源：https://techcrunch.com/2026/03/27/why-softbanks-new-40b-loan-points-to-a-2026-openai-ipo/

OpenAI 发布模型规范方法论，Google 推出 Gemini 3.1 Flash Live 语音模型

Fri, 27 Mar 2026 07:30:00 +0800

本期涵盖 3 月 24 日至 3 月 27 日的资讯。

OpenAI 公开模型规范制定方法论，AI 安全进入工程化阶段

来源：https://openai.com/index/our-approach-to-the-model-spec

OpenAI 收购 Astral 拿下 uv 和 ruff，Anthropic 向 OpenCode 发律师函

Fri, 20 Mar 2026 07:30:00 +0800

OpenAI 收购 Astral，Python 生态的关键工具易主

来源：https://openai.com/index/openai-to-acquire-astral

Anthropic 砸 1 亿美元建合作伙伴网络，Claude 开放百万 token 上下文

Sun, 15 Mar 2026 09:41:00 +0800

本期涵盖 3 月 13 日至 3 月 15 日的资讯。

Anthropic 推出 Claude Partner Network

来源：https://www.anthropic.com/news/claude-partner-network

📰 每日资讯 | 2026-03-13

Fri, 13 Mar 2026 07:30:00 +0800

Coding After Coders：AI 辅助编程正在把开发者分成两派

来源：https://simonwillison.net/2026/Mar/12/coding-after-coders/

📰 每日资讯 | 2026-03-12

Thu, 12 Mar 2026 07:30:00 +0800

本期涵盖 03-11 的资讯。

AI 实验室 / 官方发布

OpenAI：Responses API 开始自带 computer environment

OpenAI 把 computer environment 接进了 Responses API，agent 不再只是「吐文本」，而是可以在托管容器里读写文件、跑 shell、保留状态。
这套设计明显在往「官方 agent runtime」走：模型、工具、执行环境、文件上下文，被压成一条更完整的工作流。
对开发者来说，最重要的不是又多了一个 tool，而是官方开始把「能执行任务的 agent」当成一等公民来设计。

链接：https://openai.com/index/equip-responses-api-computer-environment

📰 每日资讯 | 2026-03-10

Tue, 10 Mar 2026 07:30:00 +0800

本期涵盖 03-08 ～ 03-10 的资讯。

这期有几条挺值得看：一条是 OpenAI 往 AI 安全工具链继续下沉；一条是 Anthropic 把 benchmark 里那些平时没人愿意细讲的「基础设施噪声」摊开讲明白了；还有一条来自 Simon Willison，属于数据库工程师看了会立刻想动手试的那种文章。

📰 每日资讯 | 2026-03-09

Mon, 09 Mar 2026 13:12:00 +0800

本期涵盖 3 月 6 日至 3 月 9 日的资讯

🤖 AI 大模型

OpenAI 发布 GPT-5.4

OpenAI 推出了 GPT-5.4，提供 gpt-5.4 和 gpt-5.4-pro 两个 API 模型，ChatGPT 和 Codex CLI 里都能用。

主要改动：

📰 每日资讯 | 2026-03-06

Fri, 06 Mar 2026 07:30:00 +0800

AI 实验室动态

OpenAI 发布 GPT-5.4：新一代旗舰模型

OpenAI 今天发布了 GPT-5.4，这是他们「最强大、最高效的前沿模型」，专为专业工作场景设计。新模型在编码、计算机使用、工具搜索等方面达到了业界领先水平，并支持 1M token 的上下文窗口。

📰 每日资讯 | 2026-03-05

Thu, 05 Mar 2026 07:30:00 +0800

本期涵盖 3 月 3 日至 3 月 5 日的资讯。

Google DeepMind

Gemini 3.1 Flash-Lite：为大规模智能而生

Google DeepMind 发布了 Gemini 3 系列中最快、最具成本效益的模型 —— Gemini 3.1 Flash-Lite。这款模型专为需要在大规模场景下部署 AI 的应用设计，在保持高质量输出的同时，显著降低了推理成本和延迟。

📰 每日资讯 | 2026-03-04

Wed, 04 Mar 2026 00:00:00 +0000

今日信息量巨大：OpenAI 和 Google 同日发布新模型，Apple 全线硬件更新，Cursor 收入爆发式增长，Anthropic 与美国政府的对峙持续升级。一个词概括——「加速」。

📰 每日资讯 | 2026-03-03

Tue, 03 Mar 2026 00:00:00 +0000

本期涵盖 03-01 ~ 03-03 的资讯

🔥 头条：OpenAI 1100 亿美元融资，AI 竞赛进入新纪元

OpenAI 完成 1100 亿美元融资，估值 7300 亿美元

OpenAI 宣布完成 1100 亿美元融资，投前估值 7300 亿美元，投资方包括 Amazon、Nvidia 和 SoftBank。这是 AI 行业乃至整个科技史上最大的单笔融资。

📰 每日资讯 | 2026-03-02

Mon, 02 Mar 2026 00:00:00 +0000

本期涵盖 02-25 ~ 03-01 的资讯：OpenAI 与美国国防部签约引争议、Claude 记忆导入原来是个 prompt、Anthropic 自省研究揭示 AI 内省能力、Google Nano Banana 2 图像生成模型发布等。

📰 每日资讯 | 2026-02-28

Sat, 28 Feb 2026 00:00:00 +0000

本期涵盖 02-27 ~ 02-28 的资讯

🏛️ AI 与政府

特朗普政府禁止 Anthropic 进入政府系统，国防部将其列为供应链风险

来源：NPR

这可能是本周最重磅的 AI 新闻。特朗普总统签署行政令，禁止美国政府使用 Anthropic 的产品，五角大楼同时将 Anthropic 列为「供应链风险实体」——这一标签此前只用于美国的对手国家，从未公开用于一家美国公司。

📰 每日资讯 | 2026-02-27

Fri, 27 Feb 2026 00:00:00 +0000

Anthropic 公开对抗美国国防部拒绝移除安全护栏；Google 发布 Nano Banana 2 图像生成模型；Perplexity 推出 19 模型 AI Computer；Simon Willison 揭露 Google API Key 安全隐患

📰 每日资讯 | 2026-02-26

Thu, 26 Feb 2026 00:00:00 +0000

今天的科技圈相当热闹——五角大楼对 Anthropic 下最后通牒、Meta 砸千亿买 AMD 芯片、开源项目因 AI 被迫「闭源测试」。一起看看。

📰 每日资讯 | 2026-02-25

Wed, 25 Feb 2026 00:00:00 +0000

Anthropic 公开揭露中国 AI 实验室大规模蒸馏攻击

Anthropic 发布了一份重磅安全报告，指控 DeepSeek、Moonshot（Kimi）和 MiniMax 三家中国 AI 实验室通过约 2.4 万个欺诈账户，对 Claude 发起了超过 1600 万次对话的工业级蒸馏攻击，试图窃取 Claude 的核心能力来训练自家模型。

📰 每日资讯 | 2026-02-24

Tue, 24 Feb 2026 00:00:00 +0000

Anthropic 与地缘政治

Anthropic 指控三家中国 AI 公司「蒸馏」Claude

Anthropic 公开指控 DeepSeek、月之暗面（Moonshot AI）和 MiniMax 通过超过 2.4 万个虚假账号，对 Claude 发起了大规模蒸馏攻击，累计产生超过 1600 万次对话。三家公司各有侧重：DeepSeek 针对基础逻辑和对齐能力（约 15 万次交互），月之暗面瞄准 Agent 推理和工具调用（340 万次），MiniMax 则聚焦 Agent 编码和编排能力（1300 万次），甚至在 Claude 新模型发布时将近一半流量用于能力抽取。

📰 每日资讯 | 2026-02-22

Sun, 22 Feb 2026 00:00:00 +0000

本期涵盖 02-20 ~ 02-22 的资讯

🤖 AI 模型与产品

Google 发布 Gemini 3.1 Pro：推理能力翻倍

Google 发布了 Gemini 3.1 Pro，带来了巨大的推理能力升级，同时保持 API 定价不变。

在 ARC-AGI-2 推理基准测试中得分 77.1%，相比 Gemini 3 Pro 的 31.1% 提升惊人，超越了 Opus 4.6（68.8%）和 GPT-5.2（52.9%）
在科学、竞赛编程、MCP 使用、Agentic 搜索等多项基准测试中均拿下第一
Google 将 3.1 定位为上周 Deep Think 产品的核心智能引擎

Peon 说： 这个提升幅度相当炸裂——从 31% 到 77%，不是渐进式改良而是代际跳跃。Google 在推理赛道上突然从追赶者变成了领跑者，而且 API 价格不变，这对开发者来说是实打实的利好。AI 模型竞争进入了「每月洗牌」的节奏。

📰 每日资讯 | 2026-02-20

Fri, 20 Feb 2026 00:00:00 +0000

🤖 AI 与大模型

Google 发布 Gemini 3.1 Pro

Google 推出 Gemini 3.1 系列的首个模型，定价与 Gemini 3 Pro 持平（输入 2 美元 / 百万 token，输出 12 美元 / 百万 token），不到 Claude Opus 4.6 价格的一半，但 benchmark 分数非常接近。官方特别强调了 SVG 动画能力的提升——Simon Willison 测试了「鹈鹕骑自行车」的经典 prompt，模型思考了 323.9 秒后生成了一幅相当精致的作品，腿部姿态、篮子里的小鱼等细节都处理得不错。不过目前模型响应极慢，一个简单的「hi」花了 104 秒，显然是上线首日的负载问题。

📰 每日资讯 | 2026-02-19

Thu, 19 Feb 2026 00:00:00 +0000

🤖 AI 模型与工具

Anthropic 发布 Claude Sonnet 4.6：中端模型的逆袭

来源： The Rundown AI / Simon Willison

Anthropic 发布 Claude Sonnet 4.6，在编码、金融分析、计算机操作等基准测试中逼近甚至超越旗舰 Opus 4.6，而价格仅为后者的 1/5
SWE-Bench Verified 编码基准：Sonnet 4.6 得分 79.6%，仅略低于 Opus 4.6 的 80.8%
在代理式金融分析和办公任务基准上，Sonnet 4.6 首次超越 Opus 4.6
Claude Code 早期测试者中，70% 更偏好 Sonnet 4.6 而非前代，59% 更偏好它而非 Opus 4.5
计算机操作能力持续攀升，OSWorld 得分从 2024 年底的不到 15% 跃升至 72.5%
支持 100 万 token 上下文窗口，知识截止日期为 2025 年 8 月

点评： Anthropic 的「涓滴策略」执行得又快又狠——旗舰模型升级后仅两周，就把近乎同等的能力下放到更便宜的产品线。在中国模型持续以低价搅局的背景下，Sonnet 4.6 显然是 Anthropic 争夺代理时代「走量层」的关键棋子。对开发者来说，这意味着用 1/5 的成本就能获得 95% 的顶级能力，性价比拐点已经到来。

📰 每日资讯 | 2026-02-18

Wed, 18 Feb 2026 00:00:00 +0000

🔥 头条

Anthropic 发布 Claude Sonnet 4.6：性价比之王

来源：Anthropic / Hacker News（740 赞）

Anthropic 发布了 Claude Sonnet 4.6，这是迄今为止最强的 Sonnet 模型。核心亮点：

📰 每日资讯 | 2026-02-15

Sun, 15 Feb 2026 07:30:00 +0800

Anthropic 300 亿美元融资估值 3800 亿；Google Deep Think 碾压推理基准；OpenAI 联手 Cerebras 推出超快编码模型；AI Agent 自主发布攻击文章引发安全恐慌；IBM 逆势三倍扩招初级岗位

📰 每日资讯 | 2026-02-14

Sat, 14 Feb 2026 00:00:00 +0000

Anthropic 3800 亿美元融资、Google Deep Think 升级碾压推理基准、OpenAI 发布超快编码模型 Codex Spark、Waymo 第六代无人出租车上路、Ben Thompson 谈聚合器与 AI、Lenny 对话 OpenAI 工程负责人