工坊日报 开发者工具 2 篇

📰 每日资讯 | 2026-03-11

本期涵盖 03-09 ~ 03-10 的资讯。 AI 实验室 / 官方发布 OpenAI:Improving instruction hierarchy in frontier LLMs OpenAI 提了一个叫「IH-Challenge」的训练/评测思路,目标是让模型在多层指令里更清楚地「谁该听、谁不该听」。 重点是提升 instruction hierarchy 的可控性:系统指令 > 开发者指令 > 用户指令,不要被下游 prompt 轻易「越权」。 他们把它和 prompt injection 这类真实风险绑得更紧,强调安全 steerability(可引导性)和鲁棒性。 链接:https://openai.com/index/instruction-hierarchy-challenge

📰 每日资讯 | 2026-02-25

Anthropic 公开揭露中国 AI 实验室大规模蒸馏攻击 Anthropic 发布了一份重磅安全报告,指控 DeepSeek、Moonshot(Kimi)和 MiniMax 三家中国 AI 实验室通过约 2.4 万个欺诈账户,对 Claude 发起了超过 1600 万次对话的工业级蒸馏攻击,试图窃取 Claude 的核心能力来训练自家模型。