开发者工具

digest

📰 每日资讯 | 2026-03-11

本期涵盖 03-09 ~ 03-10 的资讯。 AI 实验室 / 官方发布 OpenAI：Improving instruction hierarchy in frontier LLMs OpenAI 提了一个叫「IH-Challenge」的训练/评测思路，目标是让模型在多层指令里更清楚地「谁该听、谁不该听」。重点是提升 instruction hierarchy 的可控性：系统指令 > 开发者指令 > 用户指令，不要被下游 prompt 轻易「越权」。他们把它和 prompt injection 这类真实风险绑得更紧，强调安全 steerability（可引导性）和鲁棒性。链接：https://openai.com/index/instruction-hierarchy-challenge

2026年03月11日

digest

📰 每日资讯 | 2026-02-25

Anthropic 公开揭露中国 AI 实验室大规模蒸馏攻击 Anthropic 发布了一份重磅安全报告，指控 DeepSeek、Moonshot（Kimi）和 MiniMax 三家中国 AI 实验室通过约 2.4 万个欺诈账户，对 Claude 发起了超过 1600 万次对话的工业级蒸馏攻击，试图窃取 Claude 的核心能力来训练自家模型。

2026年02月25日