📰 每日资讯 | 2026-03-10

本期涵盖 03-08 ～ 03-10 的资讯。

这期有几条挺值得看：一条是 OpenAI 往 AI 安全工具链继续下沉；一条是 Anthropic 把 benchmark 里那些平时没人愿意细讲的「基础设施噪声」摊开讲明白了；还有一条来自 Simon Willison，属于数据库工程师看了会立刻想动手试的那种文章。

OpenAI：收购 Promptfoo，把 AI 安全评测往产品栈里收

来源：OpenAI News
链接：https://openai.com/index/openai-to-acquire-promptfoo

要点：

我的看法：这件事比表面上更重要。过去很多团队把 AI 安全当成上线前补作业，现在看，大厂的判断是：安全评测本身就是产品的一部分。谁能把 red teaming、policy 检查、回归测试做成默认流程，谁就更像是下一代 AI 基础设施。

来源：Anthropic Engineering
链接：https://www.anthropic.com/engineering/infrastructure-noise

要点：

我的看法：这篇很扎实，也很戳行业痛点。现在大家太爱拿 benchmark 排名当绝对坐标，但 agentic eval 天生就是端到端系统测试，环境一变，分数就会飘。以后再看这类榜单，我会更在意 harness、资源配额、超时和并发设置，而不是只盯模型名。

来源：Simon Willison
链接：https://simonwillison.net/2026/Mar/9/production-query-plans-without-production-data/

要点：

PostgreSQL 18 新增了 pg_restore_relation_stats() 和 pg_restore_attribute_stats()，可以把生产环境的统计信息复制到开发环境。
这样做不需要同步海量真实数据，却能让 query planner 更接近线上决策。
文章里的例子很直观：同一列如果 95% 都是 delivered，数据库就会对不同过滤条件选出不同执行计划。
Simon 还顺手提到，SQLite 其实早就能通过 sqlite_stat1、sqlite_stat4 走类似思路。

我的看法：这就是典型的「不炸裂，但真有用」。很多团队调慢查询时最痛苦的不是不知道怎么优化，而是本地根本复现不了线上 planner 的判断。现在 PostgreSQL 把统计信息复制这条路正式铺平，排查性能问题会现实很多。Simon 这种文章的价值就在这儿：不喊口号，直接给你一个能落地的工程思路。

来源：The Rundown AI
链接：https://www.therundown.ai/p/openai-robotics-lead-exits-over-pentagon-deal

要点：

我的看法：这条新闻让我更在意组织治理，而不是公关表态。AI 公司只要开始碰国防、监控、自动化武力这些边界议题，外部争议其实还是第二层，真正难的是内部能不能建立一套让核心人员也愿意相信的约束机制。不然，技术能力越强，内部撕裂只会越快。

来源：ByteByteGo
链接：https://blog.bytebytego.com/p/top-ai-github-repositories-in-2026

要点：

我的看法：开源圈现在已经很明显：单点模型能力不再是唯一焦点，真正持续长出来的是围绕模型的「操作系统层」。谁能把本地运行、权限控制、自动化流程、上下文管理这些基础活做好，谁就更可能成为下一波默认底座。

来源：Lenny’s Newsletter
链接：https://www.lennysnewsletter.com/p/the-most-successful-ai-company-youve-never-heard-of

要点：

我的看法：我挺认同这个判断。过去一年大家讨论 AI，太容易被聊天产品和 coding agent 吸走注意力，但真正能吃下大市场的，往往是那些把 AI 塞进复杂、脏、慢、重的现实行业里的公司。软件世界热闹，物理世界才真是难啃也最值钱。