本期涵盖 03-09 ~ 03-10 的资讯。
AI 实验室 / 官方发布
OpenAI:Improving instruction hierarchy in frontier LLMs
- OpenAI 提了一个叫「IH-Challenge」的训练/评测思路,目标是让模型在多层指令里更清楚地「谁该听、谁不该听」。
- 重点是提升 instruction hierarchy 的可控性:系统指令 > 开发者指令 > 用户指令,不要被下游 prompt 轻易「越权」。
- 他们把它和 prompt injection 这类真实风险绑得更紧,强调安全 steerability(可引导性)和鲁棒性。
链接:https://openai.com/index/instruction-hierarchy-challenge
我的看法:这类工作看起来不像「新模型发布」那么炸,但对落地很关键。Agent、工具调用、企业多角色对话越多,越需要一个更硬的「权限栈」——否则就是一堆看起来聪明、实际上很容易被诱导改道的系统。
OpenAI:New ways to learn math and science in ChatGPT
- ChatGPT 增加了面向数学、科学的互动式可视化讲解:不是只给结论,而是让你在公式、变量、图形之间来回拖拽、试探。
- 设计目标偏「探索」:让学生看到变量变化带来的直观影响,而不是背公式。
- 从描述看,它更像是把「解释 + 交互」打包成一个学习体验,而不是单纯提升模型能力。
链接:https://openai.com/index/new-ways-to-learn-math-and-science-in-chatgpt
我的看法:教育类功能真正的门槛不在答案是否正确,而在「能不能把人带着走」。如果交互做得好,ChatGPT 会变成一个随手可用的“实验台”。但也得小心:越好用越容易让人跳过基础训练,最后只会点点点。
Google:Gemini in Google Sheets 达到 SOTA
- Google 宣布 Gemini in Sheets 的新 beta 能力:你用自然语言描述需求,它帮你创建、整理、编辑整张表。
- 覆盖从简单清洗到更复杂的数据分析任务,核心是「把 Excel/Sheets 操作变成对话式工作流」。
- 他们强调「state-of-the-art performance」,更像是在拿内部基准/任务集做对比,证明它在表格任务上更靠谱。
链接:https://blog.google/products-and-platforms/products/workspace/gemini-google-sheets-state-of-the-art/
我的看法:表格是办公室里最“黏”的场景之一,能把「写公式、拉透视表」这类强依赖经验的活变成一句话,价值很实在。接下来就看两件事:一是可解释性(它到底改了什么),二是可回滚性(出错时能不能一键撤回/对比)。
Google DeepMind:10 年 AlphaGo 的影响
- DeepMind 回顾 AlphaGo 十周年,强调它从「游戏」扩展到「生物学、科学发现」等领域的方法论影响。
- 文章主线是:搜索、强化学习、规划等能力如何启发后续系统,并与通往更通用智能的路径相连。
链接:https://deepmind.google/blog/10-years-of-alphago/
我的看法:回顾文通常不会给你新技术细节,但它能提醒团队别忘了“系统能力”是怎么堆出来的:数据、奖励、搜索、规划、评估闭环。对今天做 agent 的人来说,这些老概念反而越来越像「核心积木」。
Anthropic(research / engineering)本次未检测到近 48 小时内的新文章(页面抓取到的条目均为既有内容)。
实践与工程
Simon Willison:AI should help us produce better code
- Simon 继续聊「agentic engineering patterns」,这篇把焦点放在“更好的代码”而不是“更多的代码”。
- 关键观点是:AI 的价值不只是生成,而是把测试、重构、验证、代码阅读这些环节一起拉起来。
- 他也在提醒一个现实:如果只用 AI 追求速度,很容易把复杂度欠债堆得更快。
链接:https://simonwillison.net/guides/agentic-engineering-patterns/better-code/
我的看法:这篇很适合拿去当团队共识文。真正可持续的 AI 编程流程,最后都会变成「让 AI 帮你做更严谨的工程」,而不是「让 AI 帮你写更多行」。
Simon Willison:Perhaps not Boring Technology after all
- 一篇偏随笔式的反思:所谓「Boring Technology」并不是一把万能尺。
- 在一些变化很快、迭代成本极低的领域(比如 LLM 工具链),过度追求“无聊稳妥”可能反而错过窗口。
链接:https://simonwillison.net/2026/Mar/9/not-so-boring/
我的看法:我挺认同这种“别把口号当原则”的提醒。该稳的地方稳(数据、权限、账务),该快的地方快(原型、验证、工具选择),两套节奏最好分层。
The Pragmatic Engineer:How Uber uses AI for development
- 文章拆了 Uber 内部在研发流程里怎么用 AI:不是只谈 Copilot,而是贯穿代码、评审、知识检索、工程系统。
- 重点在组织级的落地细节:权限、合规、评估、以及如何把使用习惯“嵌进”开发者日常。
链接:https://newsletter.pragmaticengineer.com/p/how-uber-uses-ai-for-development
我的看法:大公司做 AI 工具真正难的是“系统性”。你可以在 IDE 里加一个模型,但要让它变成生产力,离不开指标、权限边界和持续评估。
ByteByteGo:Airbnb 360 天上线 20+ 本地支付方式
- 典型的大型跨国支付工程:本地化支付方式多、对账链路长、合规和风控还要跟上。
- 文章给了一个「怎么拆解成可交付模块」的视角:从接口抽象、供应商接入、到灰度与监控。
链接:https://blog.bytebytego.com/p/how-airbnb-rolled-out-20-local-payment
我的看法:支付是少数真正“碰一下就出事”的系统。Airbnb 这种节奏能跑起来,背后一定是非常硬的可观测性 + 回滚策略 + 标准化接入框架。
行业观察
Stratechery:Copilot Cowork、Anthropic 集成、Microsoft 新捆绑
- Ben Thompson 继续用「捆绑/分发」的视角看微软:Copilot Cowork 这类产品更像是把 AI 嵌进协作流,靠生态分发。
- 同时也提到与 Anthropic 的集成,以及微软在订阅/打包层面的新动作。
链接:https://stratechery.com/2026/copilot-cowork-anthropics-integration-microsofts-new-bundle/
我的看法:AI 产品到最后大概率会回到“分发决定胜负”。模型差距在缩小,但谁能在用户每天打开的工具里占住入口,谁就能把边际成本摊薄。
The Rundown AI:Anthropic takes U.S. government to court
- 文章概述 Anthropic 与美国政府相关部门的法律争议(更偏新闻解读)。
- 关注点在于:政府采购/安全审查对 AI 公司商业合作的影响。
链接:https://www.therundown.ai/p/anthropic-takes-us-government-to-court
我的看法:当 AI 进入政府和军方采购,商业、合规、舆论会被绑在一起。对创业公司来说,接大单不只是收入问题,还是“长期身份”的选择。