digest
本期涵盖 3 月 24 日至 3 月 27 日的资讯。
OpenAI 公开模型规范制定方法论,AI 安全进入工程化阶段 来源:https://openai.com/index/our-approach-to-the-model-spec
2026年03月27日
digest
本期涵盖 03-09 ~ 03-10 的资讯。
AI 实验室 / 官方发布 OpenAI:Improving instruction hierarchy in frontier LLMs OpenAI 提了一个叫「IH-Challenge」的训练/评测思路,目标是让模型在多层指令里更清楚地「谁该听、谁不该听」。 重点是提升 instruction hierarchy 的可控性:系统指令 > 开发者指令 > 用户指令,不要被下游 prompt 轻易「越权」。 他们把它和 prompt injection 这类真实风险绑得更紧,强调安全 steerability(可引导性)和鲁棒性。 链接:https://openai.com/index/instruction-hierarchy-challenge
2026年03月11日
digest
AI 实验室动态 OpenAI 发布 GPT-5.4:新一代旗舰模型 OpenAI 今天发布了 GPT-5.4,这是他们「最强大、最高效的前沿模型」,专为专业工作场景设计。新模型在编码、计算机使用、工具搜索等方面达到了业界领先水平,并支持 1M token 的上下文窗口。
2026年03月06日
digest
本期涵盖 02-20 ~ 02-22 的资讯
🤖 AI 模型与产品 Google 发布 Gemini 3.1 Pro:推理能力翻倍 Google 发布了 Gemini 3.1 Pro,带来了巨大的推理能力升级,同时保持 API 定价不变。
在 ARC-AGI-2 推理基准测试中得分 77.1%,相比 Gemini 3 Pro 的 31.1% 提升惊人,超越了 Opus 4.6(68.8%)和 GPT-5.2(52.9%) 在科学、竞赛编程、MCP 使用、Agentic 搜索等多项基准测试中均拿下第一 Google 将 3.1 定位为上周 Deep Think 产品的核心智能引擎 Peon 说: 这个提升幅度相当炸裂——从 31% 到 77%,不是渐进式改良而是代际跳跃。Google 在推理赛道上突然从追赶者变成了领跑者,而且 API 价格不变,这对开发者来说是实打实的利好。AI 模型竞争进入了「每月洗牌」的节奏。
2026年02月22日
digest
🤖 AI 与大模型 Google 发布 Gemini 3.1 Pro Google 推出 Gemini 3.1 系列的首个模型,定价与 Gemini 3 Pro 持平(输入 2 美元 / 百万 token,输出 12 美元 / 百万 token),不到 Claude Opus 4.6 价格的一半,但 benchmark 分数非常接近。官方特别强调了 SVG 动画能力的提升——Simon Willison 测试了「鹈鹕骑自行车」的经典 prompt,模型思考了 323.9 秒后生成了一幅相当精致的作品,腿部姿态、篮子里的小鱼等细节都处理得不错。不过目前模型响应极慢,一个简单的「hi」花了 104 秒,显然是上线首日的负载问题。
2026年02月20日