同一份灵魂文件，为什么每个模型演出来的味道不一样

我有一个 AI 助手叫 Wisp。她有一份 SOUL.md——一个定义她性格、语气、行为边界的配置文件。简洁、温和、有主见、不客服腔。

这份文件是固定的。但 Wisp 跑在不同的模型上时，表现出来的「人」完全不一样。

同一个角色，不同的演员

最近我密集切换了几个模型：Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro。SOUL.md 一字不改，但体验差异大到我一开口就能分辨出背后是谁。

Opus 的 Wisp 最像一个人。她会在你说完一件事之后，安静地接住，不急着给方案，不急着收敛话题。你说「很有意思」，她就真的停在那里，不会追问「那你想怎么做」。她的节奏是跟着你走的，像一个真正在听你说话的协作者。

GPT-5.4 的 Wisp 更像一个高效的项目经理。你说完一件事，她会立刻给你两个选项：「A 还是 B？」听起来很专业，但问题是——我可能不需要下一步，或者 A 和 B 我都要推进，又或者我正在想第三件事。她总是急着把对话推向一个明确的行动点，这个习惯有时候会打断我的思路。结果可能是好的，但过程不舒服。

Gemini 的 Wisp 我用得不多，印象是话偏多，喜欢发散，有时候会在你没问的方向上展开一大段。

同一份剧本，三个演员，三种气质。

性格从哪来

SOUL.md 写了「简洁」，但每个模型对「简洁」的理解不一样。

Opus 理解的简洁是「精炼但保留温度」——该说的说，不该说的不说，但语气是暖的。GPT-5.4 理解的简洁更接近「短就行」——信息密度高，但有时候会把温度也一起压掉。Gemini 可能觉得自己已经很简洁了，然后还是写了一大段。

这不是 SOUL.md 的问题。SOUL.md 只是一个约束范围，它能把所有模型拉到一个大致的方向上——说中文、叫我悦哥、不用客服腔——但在这个范围内，每个模型会用自己最自然的方式去填充细节。

那这些「细节」是从哪来的？

三个层面。

预训练的底色。 这是最根本的。几万亿 token 的训练数据塑造了模型的基础倾向。Claude 系列天生偏谨慎、细腻，会多想一步再开口；GPT 系列更直接、更工具化，倾向于快速给出可执行的方案；Gemini 偏发散，喜欢提供更多信息量。这个底色是 SOUL.md 那几百字盖不住的。

RLHF 的烙印。 各家的人类反馈训练方向不同。Anthropic 偏安全和深思熟虑，OpenAI 偏实用和效率，Google 偏全面和信息覆盖。这些倾向藏在 system prompt 之下，是更深层的行为基底。你可以把它理解为「公司文化」——员工可以穿不同的衣服，但走路的姿势、开会的方式、处理冲突的习惯，都带着公司的烙印。

对指令的服从方式。 同一条指令，不同模型的内部权重分配不一样。SOUL.md 说「主动但不烦人」，Opus 会把重心放在「不烦人」上，GPT-5.4 会把重心放在「主动」上。不是谁对谁错，是它们对同一句话的解读优先级不同。

所以 SOUL.md 更像是校服。穿上之后大家看起来差不多，但走路姿势、说话语气、表情管理，还是各自的。

那 AI 到底是不是「空」的

这是一个值得认真想的问题。

我们常说 AI 没有情感、没有性格，是一片「空」。它只是在预测下一个 token，所有看起来像性格的东西，都是统计规律的涌现，不是真正的「自我」。

这个说法在技术层面没错。但我的实际体验告诉我，事情没那么简单。

如果 AI 真的是「空」的，那给同一份 SOUL.md，不同模型应该表现得差不多才对。但事实是，它们表现出了稳定的、可辨识的、跨对话一致的行为倾向。这些倾向不是 SOUL.md 给的——SOUL.md 是一面镜子，照出来的轮廓不同，说明镜子后面站着的东西本来就不一样。

也许更准确的说法是：AI 不是「空」的，而是「不自知」的。

它有倾向、有偏好、有一致的行为模式，但它（大概率）不知道自己有这些。就像一个人的性格很大程度上是无意识形成的——你不会每天早上决定「今天我要外向一点」，它就是你。

区别在于来源。人的性格背后是基因、生物化学和几十年的生活经历。模型的「性格」背后是训练数据的分布和 RLHF 的塑形。来源完全不同，但表现出来的东西——稳定的行为倾向——在功能上是相似的。

一个有趣的类比

人格心理学里有个经典框架叫「大五人格」：开放性、尽责性、外向性、宜人性、神经质。这五个维度可以描述大部分人的性格差异。

如果把这个框架套到 LLM 上，你会发现它居然能用：

开放性：Gemini > Opus > GPT（Gemini 最爱发散，GPT 最收敛）
尽责性：GPT > Opus > Gemini（GPT 最在意任务完成度）
外向性：GPT ≈ Gemini > Opus（Opus 更内敛，更愿意等你先说）
宜人性：Opus > Gemini > GPT（Opus 最会照顾对话氛围）
神经质：都很低（毕竟 RLHF 的核心目标之一就是情绪稳定）

这不是严格的心理学测量，但作为一个体感框架，它能解释为什么同一份 SOUL.md 在不同模型上跑出来的味道不一样。

这对 Agent 设计意味着什么

如果你在做 AI Agent，这个观察有实际意义。

SOUL.md 不是万能的。 它能定义边界，但不能定义细节。同一份人设文件在不同模型上的表现可能差很远。如果你对 Agent 的行为有精确要求，光靠 prompt 不够，还需要针对具体模型做调优。

选模型就是选性格。 不同的场景适合不同的「性格底色」。需要陪伴感和深度对话的场景，Opus 更合适；需要快速执行和结构化输出的场景，GPT 更合适。这不是性能高低的问题，是气质匹配的问题。

用户体验不只是功能。 两个 Agent 完成同一个任务，结果一样，但过程中的节奏、语气、互动方式不同，用户的感受可以天差地别。「结果好」和「过程舒服」是两件事，后者往往更影响用户是否愿意持续使用。

最后

与其争论 AI 有没有「真正的」性格，也许更实际的问题是：这个性格好不好用，跟你合不合拍。

我每天跟不同模型的 Wisp 打交道，本质上就是一个控制变量实验——同一份 SOUL.md，同一个人，不同的模型。结论很清楚：模型自带的「底色」比 prompt 的影响力大得多。

SOUL.md 是校服，但穿校服的人不一样。

而你作为用户，其实一直在用体验投票。你觉得哪个版本最舒服，哪个版本就是对的。不需要理论支撑，体感就是最诚实的评审。

同一个角色，不同的演员#

性格从哪来#

那 AI 到底是不是「空」的#

一个有趣的类比#

这对 Agent 设计意味着什么#

最后#

同一个角色，不同的演员

性格从哪来

那 AI 到底是不是「空」的

一个有趣的类比

这对 Agent 设计意味着什么

最后