本期涵盖 3 月 17 日至 3 月 18 日的资讯。
OpenAI 发布 GPT-5.4 mini 和 nano
来源:https://openai.com/index/introducing-gpt-5-4-mini-and-nano
OpenAI 在 GPT-5.4 发布不到两周后,推出了两个小尺寸版本:GPT-5.4 mini 和 GPT-5.4 nano。两个模型面向高吞吐量场景设计,速度更快,成本更低。
GPT-5.4 mini 在多个 benchmark 上接近完整版 GPT-5.4 的水平,相比上一代 GPT-5 mini 有明显提升。nano 则定位更轻量的任务——分类、信息提取、排序这类不需要复杂推理的工作。两个模型都支持 GPT-5.4 的工具调用和结构化输出能力。
定价方面,mini 的输入价格是 GPT-5.4 的四分之一左右,nano 更便宜。对于跑大量 API 调用的开发者来说,成本差距很明显。Simon Willison 在他的博客里做了详细测试,结论是 mini 在代码生成和长文本理解上的表现超出预期,nano 在简单任务上的性价比很高。
OpenAI 的小模型策略越来越清晰:用旗舰模型打 benchmark、做品牌,用小模型赚钱。GPT-5.4 发布时大家关注的是能力上限,但真正跑在生产环境里的大概率是 mini 和 nano。这个节奏也在逼竞争对手跟进——Anthropic 的 Haiku 系列、Google 的 Flash Lite 都在做类似的事,但 OpenAI 从 5.4 到 mini/nano 只用了 13 天,迭代速度确实快。
Stripe 推出机器支付协议
来源:https://stripe.com/blog/machine-payments-protocol
Stripe 发布了 Machine Payments Protocol(MPP),一套让 AI agent 自主完成支付的协议。MPP 定义了 agent 如何发现商品和服务、协商价格、完成交易的标准流程,不需要人类在中间点确认按钮。
这个协议建立在 Stripe 现有的支付基础设施上,商家接入成本不高。agent 通过 MPP 可以查询可用服务、获取报价、提交支付请求,整个过程走 API 完成。Stripe 同时提供了沙箱环境供开发者测试。
agent 自主花钱这件事,听起来科幻,但需求是真实的。现在越来越多的 coding agent、research agent 需要调用付费 API、购买云资源、订阅数据服务。每次都弹窗让人确认,agent 的自主性就打了折扣。Stripe 做这个协议的时机不错,但关键问题是信任和限额——谁来决定 agent 能花多少钱?出了问题谁负责?协议本身没有完全回答这些问题。
DeepMind 发布 AGI 认知评估框架
来源:https://deepmind.google/blog/measuring-progress-toward-agi-a-cognitive-framework/
Google DeepMind 发了一篇论文,提出用认知科学的方法来衡量 AI 向 AGI 的进展。论文列出了 10 项关键认知能力——感知、学习、推理、规划、语言、社交认知等——并设计了一个三阶段评估协议,把 AI 的表现和人类基准做对比。
配合论文,DeepMind 在 Kaggle 上启动了一个 hackathon,奖金池 20 万美元,邀请研究者为其中 5 项评估不足的能力设计新的 benchmark。这些 benchmark 会发布在一个新的 Community Benchmarks 平台上。
AGI 怎么定义、怎么衡量,一直是个吵不完的话题。DeepMind 这个框架的价值不在于给出终极答案,而在于把讨论从「AGI 来了没有」这种二元问题,拉到「哪些能力到了什么水平」的颗粒度上。用 Kaggle hackathon 来众包 benchmark 设计也挺聪明——学术界自己搞 benchmark 太慢,让社区来做效率高得多。不过 20 万美元的奖金池对这个量级的研究来说,象征意义大于实际激励。
NVIDIA 开源 NemoClaw:给 OpenClaw agent 加安全沙箱
来源:https://github.com/NVIDIA/NemoClaw
NVIDIA 在 GTC 2026 期间开源了 NemoClaw,一个给 OpenClaw 平台的安全运行时插件。NemoClaw 基于 NVIDIA OpenShell 运行时,为自主 agent 提供沙箱化的执行环境,通过声明式 YAML 策略控制文件访问、网络活动和数据外泄。
项目目前是 alpha 阶段,8100 多个 GitHub star,社区活跃度不错。安装需要全新的 OpenClaw 环境,硬件要求不高——4 核 CPU、8GB 内存就能跑。
agent 安全是今年的热门话题。随着 coding agent 和 research agent 越来越多地在生产环境里跑,沙箱隔离变成了刚需。NVIDIA 选择做 OpenClaw 生态的安全层,而不是自己搞一套 agent 框架,定位比较务实。不过 alpha 阶段的软件用在安全场景里,本身就有点矛盾。
Mistral 发布 Small 4 和 Forge 平台
来源:https://tldr.tech/ai/2026-03-17
Mistral 同时发布了两个产品。Small 4 是一个 119B 参数的 MoE 模型,整合了 Magistral(推理)、Pixtral(视觉)和 Devstral(代码)的能力,支持文本和图像输入,推理力度可配置。模型开源,支持 vLLM、llama.cpp 和 Transformers。
Forge 是面向企业和政府的定制模型训练平台。和微调不同,Forge 支持从零开始用客户自有数据训练模型,包括领域特定训练和强化学习。Mistral 把它定位为 fine-tuning 和 RAG 之外的第三条路。
Mistral 的策略一直是「开源模型 + 企业服务」双轮驱动。Small 4 把多个专用模型合并成一个统一模型,对开发者来说部署和维护成本降低了。Forge 则是在抢企业定制模型的市场——这块 OpenAI 和 Anthropic 都在做,但 Mistral 的卖点是数据不出客户环境。对于数据敏感的政府和金融客户,这个差异化有吸引力。
Snowflake Cortex AI 被发现可逃逸沙箱
来源:https://simonwillison.net/2026/Mar/18/snowflake-cortex-ai/
Simon Willison 报道了 Snowflake Cortex AI 的一个安全问题:研究者发现可以通过 prompt injection 让 Cortex AI 执行超出沙箱限制的操作。具体来说,攻击者可以构造特定的输入,让 AI 访问它本不该接触的数据。
Snowflake 已经修复了这个问题,但这个案例再次说明了 AI 沙箱设计的难度。传统软件的沙箱边界是明确的——进程隔离、权限控制、网络策略。但 AI agent 的沙箱还要处理自然语言输入带来的模糊性,prompt injection 可以绕过很多基于规则的防护。
Cursor 训练模型自我总结上下文
来源:https://tldr.tech/ai/2026-03-18
Cursor 公布了 Composer 模型的一个新能力:在长编码会话中,模型学会了自动总结之前的操作步骤,把早期上下文压缩成更短的表示,从而扩展有效的工作记忆。
这个方法在多步编程任务上提升了表现,同时控制了 token 消耗。训练过程让模型自己学习哪些信息值得保留、哪些可以压缩,而不是用固定规则做截断。
coding agent 的上下文窗口一直是瓶颈。即使现在有百万 token 的窗口,长会话中早期的关键信息还是会被稀释。Cursor 的做法比简单的滑动窗口或固定摘要更优雅——让模型自己决定什么重要。这个思路可能会被其他 agent 框架借鉴。
OpenAI 砍副业,聚焦 IPO
来源:https://om.co/2026/03/17/openai-has-new-focus-on-the-ipo/
Om Malik 报道,OpenAI 正在收缩战线,砍掉或降低非核心项目的优先级,把资源集中到编码和企业用户两个方向。公司计划年底前 IPO,内部要求把 ChatGPT 打造成「生产力工具」而非通用聊天机器人。
同时,AWS 已经同意在其公共部门客户群中分发 OpenAI 的产品,这是 OpenAI 拓展政府和企业市场的重要一步。
OpenAI 过去两年的策略是什么都做——聊天、搜索、图像、视频、机器人、教育。这种「全面开花」帮它建立了品牌,但也分散了资源。现在要 IPO 了,投资人要看的是收入增长和利润率,不是产品线有多长。聚焦编码和企业是对的方向——这两个场景的付费意愿最强,留存率最高。
阿里巴巴成立 Token Hub,整合 AI 业务
来源:https://tldr.tech/ai/2026-03-17
阿里巴巴正在组建一个新的业务单元「Alibaba Token Hub」,把通义千问模型研发团队、消费端 AI 应用、钉钉和夸克等产品统一管理。这次整合的目的是加快各 AI 团队之间的协作速度。
大厂做 AI 整合不是新鲜事——Google 之前把 DeepMind 和 Brain 合并,Microsoft 刚把 Copilot 团队重组。阿里的问题是 AI 业务散落在太多 BU 里,各自为战。Token Hub 这个名字倒是挺直白的,直接告诉你核心资产是什么。
NVIDIA 重启对华 H200 芯片生产
来源:https://tldr.tech/ai/2026-03-18
NVIDIA CEO 黄仁勋在 GTC 上宣布,公司已经重启 H200 处理器的对华生产。去年 12 月美国政府批准 NVIDIA 向中国销售 H200,条件是 25% 的销售额与美国政府分成。黄仁勋表示中国市场的需求信号近几周明显增强,供应链正在启动。
中国 AI 芯片市场估计每年价值数百亿美元。H200 虽然不是最新的芯片,但对中国客户来说仍然是可获得的最强算力之一。25% 分成的条件很有意思——这基本上是把芯片出口变成了一种「税收」安排。
Microsoft 重组 Copilot 团队
来源:https://tldr.tech/ai/2026-03-18
Microsoft 把 365 Copilot 和消费版 Copilot 的团队合并,由 Jacob Andreou 统一负责产品、增长和工程。Mustafa Suleyman 则专注于自研模型和超级智能方向。
Copilot 之前的问题是产品体验不统一——企业版和消费版像两个不同的产品。合并团队是对的,但 Suleyman 被调去做「超级智能」这个安排有点微妙。要么是真的在押注长期研究,要么是一种体面的边缘化。
2025 年图灵奖授予量子信息科学
来源:https://awards.acm.org/about/2025-turing
ACM 宣布 2025 年图灵奖授予量子信息科学领域的研究者。在 AI 占据所有科技头条的当下,图灵奖颁给量子计算是个有趣的信号——计算科学的前沿不只有大语言模型。
Snap 包管理器发现本地提权漏洞
来源:https://blog.qualys.com/vulnerabilities-threat-research/2026/03/17/cve-2026-3888-important-snap-flaw-enables-local-privilege-escalation-to-root
Qualys 披露了 Snap 包管理器的一个严重漏洞(CVE-2026-3888),允许本地用户提权到 root。Ubuntu 用户需要尽快更新。Snap 的安全模型一直有争议,这个漏洞又给批评者加了一个论据。