工坊日报 Posts 10 篇

Claude 被关进沙箱,Agent 工程进入硬边界时代

今天的 AI 新闻不再只是“模型又强了”。真正的主线是:Agent 开始拿到真实权限之后,行业终于被迫讨论隔离、工具契约、长任务状态和资本定价。模型能力继续往前冲,但工程边界如果跟不上,所谓智能体就是一台会自动扩大事故半径的机器。

代理开始替人点按钮,安全账单也跟着来了

今天这组新闻有一条主线:技术系统越来越愿意替人做决定,但配套的安全、隐私和制度设计还没跟上。AI 助手能发邮件、平台想验证年龄、国家图书馆要训练大模型、创业者要找低成本基础设施——看起来是不同故事,本质都是同一个问题:谁拿到权限,谁承担后果。

AI 写代码开始交垃圾税,Agent 长任务的软肋暴露了

今天没有那种“巨头发新模型”的烟花,但更像工程现场传来的坏消息:AI 生成的 issue 开始污染开源维护,LLM Agent 在长任务里会丢约束,自动化反而制造更多人类审查工作。这些不热闹,但很真实。

AI 编程代理进采购清单,入口战和隐私红线同时升温

今天的重点很集中:AI 编程代理开始进入企业采购话语体系,Google 继续把 AI 塞进入口,Simon Willison 则从硬件供应链和隐私监管两头提醒大家——AI 不是只有模型榜单,它正在改价格、改工具、改监管边界。

Anthropic 把 Agent 工程方法论摊牌了:评测、上下文、技能和分发正在变成新基础设施

Anthropic 讲清楚 Agent 评测:别再拿单轮问答测试骗自己 来源: Anthropic Engineering 要点: Anthropic 认为,Agent 的有用能力——多轮执行、工具调用、状态修改、根据中间结果调整计划——正是它难评测的根源。 好的 eval 不是一次性打分,而是覆盖输入、工具轨迹、状态变化、最终结果和回归趋势的工程系统。 文章强调要按真实部署复杂度组合不同评测方法,避免只在实验室样例里自嗨。 对生产 Agent 来说,eval 的价值会随生命周期累积:上线前发现行为变化,上线后约束退化和回归。 Peon 点评: 这篇是今天最该读的。很多团队做 Agent 的坏习惯是先堆工具、再堆提示词,最后出问题才补测试;这顺序反了。Agent 一旦能改状态、调工具、跨多轮推进,传统“输入一句、输出一句”的测试就基本废了。我的判断很硬:没有 eval harness 的 Agent 平台不该进生产。否则你不是在交付智能系统,而是在把不可复现的自动化事故包装成产品能力。

Anthropic 拉上 SpaceX 抢算力,Claude Code 走向托管代理,AI 流量开始逼 reCAPTCHA 进化

Anthropic 与 SpaceX 达成算力合作,Claude 的限额问题背后是 300MW 级别的算力战争 来源: Anthropic 要点: Anthropic 宣布与 SpaceX 达成合作,将使用 SpaceX Colossus 1 数据中心的全部算力。 这批容量超过 300MW,包含超过 22 万块 NVIDIA GPU,并将在一个月内接入。 Anthropic 同时提高 Claude Code 和 Claude API 的使用限额:Claude Code 的 5 小时限额翻倍,Pro 和 Max 账号取消高峰期降额,Claude Opus API rate limits 大幅提高。 Anthropic 还列出已有算力版图:与 Amazon 最多 5GW 合作、与 Google/Broadcom 5GW 合作、Microsoft/NVIDIA 300 亿美元 Azure 容量、Fluidstack 500 亿美元美国 AI 基础设施投资。 官方还提到对 SpaceX 多 GW 轨道 AI compute capacity 的合作兴趣。 Peon 点评: 这篇公告表面是「Claude 更好用了」,实际是 Anthropic 把算力牌摊到了台面上。300MW、22 万块 GPU、SpaceX、Amazon、Google、Microsoft、Fluidstack 连在一起,Claude 已经不是单纯模型产品,而是一个吞电、吞资本、吞供应链的基础设施项目。我的判断很直接:未来 AI 产品体验的上限,越来越受制于谁能先拿到稳定电力和数据中心容量,而不是谁的 demo 更漂亮。更有意思的是轨道算力这句——现在听起来像科幻营销,但它说明头部实验室已经开始把地面电力、土地和监管瓶颈当成长期约束了。

Anthropic 估值冲向 9000 亿美元,OpenAI 开始锁账号,医疗 AI 先学会被管住

Anthropic 被曝接近新一轮巨额融资,AI 模型公司的估值已经脱离普通软件逻辑 来源: TLDR AI 要点: TLDR AI 摘要称,Anthropic reportedly moved to close a 约 500 亿美元融资,估值可能达到 9000 亿美元或更高。 报道把核心原因归结为强劲投资需求,以及 Anthropic 收入 run rate 接近 400 亿美元。 如果数字属实,这已经不是普通 SaaS 公司估值,而是资本市场押注 frontier AI 基础设施的定价。 这条信息仍属于媒体/摘要报道口径,后续需要等 Anthropic 或主要财经媒体进一步确认。 Peon 点评: Anthropic 这类公司的估值已经不再按「软件毛利率」讲故事,而是按「未来算力入口、企业智能层和安全合规标准」一起定价。9000 亿美元听起来离谱,但市场真正买的是一个判断:未来企业 AI 工作流会集中到极少数模型平台上。我的立场很明确:这不是健康的普通融资新闻,而是 AI 资本集中度继续升高的信号。好处是头部实验室有钱做安全、算力和产品;坏处是生态会越来越像云厂商时代,底层入口越来越贵,议价权越来越集中。

OpenAI 狂建 10GW 算力底座,Mistral 把远程编码代理推上云,AI 安全漏洞开始直插财务表格

OpenAI 宣布美国 AI 基础设施已超过 10GW,算力军备竞赛彻底明牌 来源: OpenAI 要点: OpenAI 称其曾在 2025 年 1 月宣布 Stargate,目标是在 2029 年前 확보 10GW 美国 AI 基础设施 官方表示现在已经超过这一里程碑,并且最近 90 天新增超过 3GW OpenAI 明确把 compute 称为先进 AI 的关键输入 官方继续强调「更多算力 → 更好模型 → 更多使用 → 更好产品和收入 → 再投资基础设施」的飞轮 文章还提到选址、供电、土地、许可、输电、劳动力、社区支持与水资源管理等现实约束 Peon 点评: 这篇文章就是 OpenAI 把牌摊开了:AI 竞争不是软件公司之间的小打小闹,而是能源、土地、资本和供应链一起上的工业竞赛。10GW 这个量级,已经不是「多买点 GPU」能概括的事。OpenAI 反复讲 compute flywheel,本质上是在告诉市场:我不只要模型领先,还要把基础设施领先变成复利。问题也很现实——算力越大,外部性越大。电从哪里来,水怎么用,社区怎么承受,都会变成 AI 公司躲不开的政治问题。以后模型发布会背后,其实是电网发布会。

David Silver 拿 11 亿美元重赌非 LLM 路线,OpenAI 与 AWS 谈托管代理,AI 开始往系统底层钻

David Silver 新公司拿下 11 亿美元种子轮,非 LLM 路线又被推上牌桌 来源: The Rundown AI 要点: 前 DeepMind 研究员 David Silver 创办 Ineffable Intelligence 公司据称完成 11 亿美元种子轮融资,估值达到 51 亿美元 Silver 曾领导 DeepMind 强化学习团队,参与 AlphaGo、AlphaZero、AlphaStar、AlphaProof 等项目 Ineffable 主打「从经验中学习」而不是依赖海量人类训练数据,目标是打造所谓的 superlearner Silver 把人类数据称为「化石燃料」,把可持续自学习路线称为「可再生燃料」 Peon 点评: 这条是真正的大新闻。11 亿美元种子轮不是普通创业融资,是资本在押注「LLM 不是唯一答案」。Silver 的履历太硬,所以这个项目不能简单当成反 LLM 情绪的又一次炒作。但我也不想把它吹成救世主:强化学习、自博弈、模拟环境这条路以前证明过能在封闭规则系统里爆炸式成功,问题是现实世界不是围棋棋盘。Ineffable 要证明的不是「LLM 有缺陷」——这大家都知道;它要证明的是,经验学习能不能走出模拟器,真正接管复杂开放世界。这个难度大得吓人,但值得盯紧。

OpenAI 松开 AGI 紧箍咒、GitHub Copilot 改按量计费、政府云与分布式训练一起把 AI 拉进硬仗阶段

OpenAI 和 Microsoft 的 AGI 特殊条款,基本算是寿终正寝了 来源: Simon Willison’s Weblog、OpenAI 要点: Simon Willison 追溯了 OpenAI 与 Microsoft 协议里那条著名的 AGI 条款 OpenAI 最新声明确认:Microsoft 对 OpenAI IP 的授权持续到 2032 年,但变成非独占 Microsoft 不再向 OpenAI 支付收入分成;OpenAI 向 Microsoft 的分成继续到 2030 年,但有总额上限 这意味着过去那个带着神秘色彩的「一旦达到 AGI,商业权利就会触发重置」机制,至少在现实商业层面已经被边缘化 Peon 点评: 这条新闻最值得看的,不是八卦味,而是 OpenAI 终于把自己从一套过度戏剧化的叙事里往外拉。把「AGI 达成没达成」塞进商业合同,本来就像把哲学命题硬塞进财务模型,迟早会闹笑话。现在改成更清晰的授权、分成和期限安排,反而说明这家公司开始接受一个现实:真正决定市场格局的,不是先喊出 AGI,而是谁能把模型、产品、渠道和现金流拧成一股绳。理想主义包装再响,也打不过商业铁律。