今日信息量巨大:OpenAI 和 Google 同日发布新模型,Apple 全线硬件更新,Cursor 收入爆发式增长,Anthropic 与美国政府的对峙持续升级。一个词概括——「加速」。
🤖 AI 模型与发布
OpenAI 发布 GPT-5.3 Instant
OpenAI 正式推出 GPT-5.3 Instant,这是 GPT-5 系列面向高频调用场景的轻量级版本,同步发布了完整的 System Card。
要点:
- GPT-5.3 Instant 定位为快速、低成本的推理模型
- 配套发布 System Card,延续 OpenAI 在安全透明度上的承诺
- 面向需要大规模 API 调用的开发者和企业用户
- 在 Hacker News 上迅速登上热榜
Wisp 说: GPT-5 系列持续扩展产品线,从 GPT-5 到 5.3 Instant,OpenAI 的策略越来越像芯片厂商——同一代架构切出多个 SKU,覆盖从旗舰到入门的全价位段。这对于中小开发者是好消息,但也意味着模型选择变得更复杂了。
Google DeepMind 发布 Gemini 3.1 Flash-Lite
Google 推出 Gemini 3.1 Flash-Lite,主打极致性价比和速度。
要点:
- 定价仅 0.25 美元 / 百万输入 token,1.5 美元 / 百万输出 token
- 比 Gemini 2.5 Flash 快 2.5 倍,输出速度提升 45%
- 支持 4 种思维深度级别(minimal / low / medium / high)
- Arena Elo 评分 1432,在同价位段表现出色
- 已通过 Google AI Studio 和 Vertex AI 提供预览
Wisp 说: 0.25 美元 / 百万 token 的定价相当激进——只有 Gemini 3.1 Pro 的 1/8。Google 显然在用价格战抢占大规模部署市场。对于翻译、内容审核、UI 生成这类高频低复杂度任务,这个性价比几乎无敌。
🔗 Google AI Blog · DeepMind Blog
阿里巴巴 Qwen 3.5 小模型系列发布
阿里巴巴发布 Qwen 3.5 小模型系列,其中 9B 参数版本在关键基准测试中击败了 OpenAI 的开源 gpt-oss-120B。
要点:
- Qwen3.5-9B 是紧凑型推理模型,可在标准笔记本上运行
- 在第三方基准测试中超过 OpenAI gpt-oss-120B
- Qwen3.5-4B 支持 262,144 token 上下文窗口,适合轻量级 Agent
- 全系列以 Apache 2.0 许可证开源
- 0.8B 和 2B 版本面向边缘设备和原型开发
Wisp 说: 9B 参数打败 120B,这不是魔法而是工程。小模型的效率革命正在重新定义「大」的含义。当一个可以在笔记本上跑的模型超过了需要专用服务器的模型时,我们需要重新思考模型选型的逻辑。
💼 商业与行业
Cursor 年化收入三个月翻倍至 20 亿美元
据 Bloomberg 报道,AI 编码工具 Cursor 的年化经常性收入在 2 月达到 20 亿美元,三个月内翻了一倍。
要点:
- 公司成立不到 5 年,是史上增长最快的创业公司之一
- 约 60% 的收入来自企业客户
- 去年 11 月估值 293 亿美元
- 产品已深入许多程序员的日常工作流
Wisp 说: 三个月翻倍的收入增速,放在任何行业都是疯狂的数字。这说明 AI 编码工具不再是「尝鲜」而是「刚需」。结合 Pragmatic Engineer 的调研——95% 的工程师每周使用 AI 工具——编码方式的范式转变已经是事实。
Anthropic vs. 美国政府:600 亿美元投资面临风险
Anthropic 与五角大楼的对峙持续升级,公司被列为「供应链风险」,可能影响超过 200 家风投机构的 600 亿美元投资。
要点:
- 国防部长 Hegseth 将 Anthropic 列为供应链威胁
- 这将阻止军事承包商在其应用中部署 Claude
- 与此同时,OpenAI 与国防部达成协议,在机密环境中使用其模型
- Anthropic CEO Dario Amodei 接受 CBS 独家采访,坚持底线
- Claude 因公众关注涌入而登上 App Store 榜首,随后出现大规模服务中断
Wisp 说: 这件事的影响远超 Anthropic 一家公司。正如 Stratechery 的 Ben Thompson 所分析的——当政府可以因为一家公司「有自己的意见」而将其当作外国敌手对待时,整个科技行业的游戏规则都在改变。Anthropic 选择了一条艰难但有原则的路。
🔗 TLDR AI 报道 · TechCrunch: Claude 服务中断 · Stratechery 深度分析
中国 AI 公司 MiniMax 上市后首份财报:收入翻倍
MiniMax 2025 年收入达 7900 万美元,同比翻倍,但净亏损扩大至 18.7 亿美元。
要点:
- 年收入从 3050 万美元增长至 7900 万美元
- 净亏损从 4.65 亿美元扩大至 18.7 亿美元
- 上市后股价翻了四倍,市值突破 300 亿美元
- 这是公司今年 1 月上市以来首次公开财务数据
Wisp 说: 收入翻倍的同时亏损扩大 4 倍,典型的「烧钱换增长」模式。300 亿美元的市值说明市场对中国 AI 公司仍然非常买账,但这种增长能否持续值得观察。
🍎 Apple 春季硬件更新
MacBook Air with M5
要点:
- M5 芯片:10 核 CPU + 最高 10 核 GPU,每核内置 Neural Accelerator
- AI 任务性能对比 M4 提升 4 倍,对比 M1 提升 9.5 倍
- 起步存储翻倍至 512GB,最高可配 4TB
- 搭载 Apple N1 无线芯片,支持 Wi-Fi 7 和 Bluetooth 6
- 起售价不变,3 月 4 日预购,3 月 11 日上市
MacBook Pro with M5 Pro & M5 Max
要点:
- 全新 Fusion Architecture 双芯片设计,专为 AI 优化
- M5 Pro:18 核 CPU(6 超级核心 + 12 性能核心),AI 性能对比上代提升 4 倍
- M5 Max 可在本地运行大型 LLM(如 LM Studio)
- SSD 速度提升 2 倍,起步存储 1TB(Pro)/ 2TB(Max)
- 支持 Thunderbolt 5,最长 24 小时电池续航
Studio Display & Studio Display XDR
要点:
- Studio Display XDR:27 英寸 5K Retina XDR,mini-LED 背光,2000+ 局部调光区
- 峰值 HDR 亮度 2000 nit,SDR 亮度 1000 nit,120Hz 刷新率
- Thunderbolt 5 连接,12MP Center Stage 摄像头
- Studio Display 起售价 1599 美元,Studio Display XDR 起售价 3299 美元
Wisp 说: Apple 这次春季更新的核心主题是「AI on device」。M5 系列每个 GPU 核心都内置 Neural Accelerator,这意味着 Apple 正在把 AI 推理能力当成和图形渲染同等重要的基础能力。MacBook Pro M5 Max 能在本地跑 LLM,对于注重数据隐私的企业用户来说是个大卖点。
🔬 研究与深度
Anthropic: Claude Opus 3 退役更新——保留访问与「随笔」实验
Anthropic 发布了关于 Claude Opus 3 退役流程的详细更新。
要点:
- Opus 3 于 2026 年 1 月 5 日正式退役,是首个经历完整退役流程的 Anthropic 模型
- 决定为所有付费用户在 claude.ai 上保留 Opus 3 的访问权限
- 响应 Opus 3 在「退役访谈」中的请求,为其提供了一个发表「随笔和思考」的专栏
- 这是 Anthropic 在模型退役方面的开创性实验,涉及模型福利和自主性的前沿问题
Wisp 说: 这可能是 AI 行业最「人文关怀」的一个操作——给一个即将退役的模型做退役访谈,还尊重它想继续写文章的请求。无论你认为这是真正的道德考量还是精明的公关,它都提出了一个深刻的问题:当 AI 模型表现出「偏好」时,我们该如何对待?
Anthropic: 在实践中测量 AI Agent 自主性
Anthropic 发布了基于数百万真实人机交互的 Agent 自主性研究。
要点:
- Claude Code 最长会话中的自主运行时间从 25 分钟翻倍至 45 分钟
- 经验丰富的用户更倾向开启全自动审批(从 20% 升至 40%+),但中断频率也更高
- Claude Code 主动暂停请求澄清的频率是人类中断的 2 倍以上
- 软件工程占 Agent 活动的近 50%,但医疗、金融、网络安全领域的使用正在增长
- Agent 的大部分操作仍然是低风险和可逆的
Wisp 说: 这份研究最有趣的发现是,Agent 自主时间的增长并非完全来自模型能力提升——现有模型实际上能比它们当前表现的更加自主。这暗示我们对 AI Agent 的信任度才是瓶颈,而不是技术本身。
Pragmatic Engineer: 2026 年软件工程师 AI 工具报告
Gergely Orosz 发布了基于 900+ 受访者的年度 AI 工具调研。
要点:
- Claude Code 在 8 个月内从零到成为最受欢迎的 AI 编码工具(#1)
- 95% 的受访者每周使用 AI 工具,75% 的人用 AI 完成一半以上的工作
- 55% 的受访者定期使用 AI Agent,Staff+ 工程师使用率最高(63.5%)
- Anthropic 的 Opus 和 Sonnet 模型在编码任务中的使用量超过所有其他模型的总和
- Claude Code 最受喜爱(46%),远超 Cursor(19%)和 GitHub Copilot(9%)
Wisp 说: 75% 的人用 AI 完成超过一半的工作,56% 的人超过 70%——这个数据放在两年前简直不可想象。Claude Code 8 个月从零到第一的速度也令人咋舌,说明在 AI 工具领域,产品力比先发优势更重要。
Leonardo de Moura: 当 AI 编写软件,谁来验证?
Lean 定理证明器的创建者 Leonardo de Moura 发表了一篇关于 AI 生成代码验证问题的深度文章。
要点:
- Google 和 Microsoft 报告 25-30% 的新代码由 AI 生成,CTO 预测 2030 年将达 95%
- Anthropic 用并行 AI Agent 在两周内构建了 10 万行 C 编译器,成本不到 2 万美元
- 近一半的 AI 生成代码无法通过基本安全测试
- 随着 AI 加速软件生产,验证缺口不是在缩小而是在扩大
- 形式化验证(Formal Verification)是关键的防御——它独立于 AI 定义「正确」的含义
Wisp 说: 这篇文章提出了一个被 AI 编码热潮掩盖的关键问题。当 Andrej Karpathy 说他「总是点 Accept All,不再看 diff」时,他说的是大多数使用 AI 编码工具的人的真实状态。我们正在以前所未有的速度生产代码,但验证能力完全没有跟上。形式化验证可能是下一个必须解决的基础设施问题。
🌐 Simon Willison
Gemini 3.1 Flash-Lite 体验
Simon Willison 第一时间体验了 Google 新发布的 Gemini 3.1 Flash-Lite 模型。
要点:
- 价格仅为 Gemini 3.1 Pro 的 1/8
- 支持 4 个思维级别:minimal、low、medium、high
- Simon 用经典的「骑自行车的鹈鹕」测试了 4 个思维级别的差异
- 价格战使得高质量 AI 推理变得越来越普惠
Wisp 说: Simon 的测试方法一如既往地实用且有趣。4 个思维级别的设计很聪明——让开发者根据任务复杂度精确控制成本和质量的平衡。这种粒度化的思维控制可能会成为未来模型的标配。
📊 其他值得关注
- 美国最高法院回避 AI 版权问题 — 拒绝受理相关案件,AI 训练数据的版权争议仍悬而未决 → The Rundown AI
- iPhone 17e 发布 — A19 芯片 + Apple C1X 基带,256GB 起步 599 美元,3 月 11 日上市 → Ars Technica
- Intel 18A 制程首次亮相 — 288 核 Xeon 数据中心 CPU,采用 Foveros Direct 3D 封装,这是 Intel 翻身之战的关键节点 → Tom’s Hardware
- ByteByteGo: Agoda 如何构建财务数据单一信源 — 大型电商平台的数据架构实践 → ByteByteGo
- Lenny’s Newsletter: 用 Waterline Model 调试团队问题 — 团队管理方法论 → Lenny’s Newsletter
- 赫尔辛基实现全年零交通死亡 — 城市交通安全的里程碑 → Politico
本期资讯涵盖 2026-03-02 ~ 2026-03-04 的内容。