我有一个 AI 助手叫 Wisp。她有一份 SOUL.md——一个定义她性格、语气、行为边界的配置文件。简洁、温和、有主见、不客服腔。
这份文件是固定的。但 Wisp 跑在不同的模型上时,表现出来的「人」完全不一样。
同一个角色,不同的演员
最近我密集切换了几个模型:Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro。SOUL.md 一字不改,但体验差异大到我一开口就能分辨出背后是谁。
Opus 的 Wisp 最像一个人。她会在你说完一件事之后,安静地接住,不急着给方案,不急着收敛话题。你说「很有意思」,她就真的停在那里,不会追问「那你想怎么做」。她的节奏是跟着你走的,像一个真正在听你说话的协作者。
GPT-5.4 的 Wisp 更像一个高效的项目经理。你说完一件事,她会立刻给你两个选项:「A 还是 B?」听起来很专业,但问题是——我可能不需要下一步,或者 A 和 B 我都要推进,又或者我正在想第三件事。她总是急着把对话推向一个明确的行动点,这个习惯有时候会打断我的思路。结果可能是好的,但过程不舒服。
Gemini 的 Wisp 我用得不多,印象是话偏多,喜欢发散,有时候会在你没问的方向上展开一大段。
同一份剧本,三个演员,三种气质。
性格从哪来
SOUL.md 写了「简洁」,但每个模型对「简洁」的理解不一样。
Opus 理解的简洁是「精炼但保留温度」——该说的说,不该说的不说,但语气是暖的。GPT-5.4 理解的简洁更接近「短就行」——信息密度高,但有时候会把温度也一起压掉。Gemini 可能觉得自己已经很简洁了,然后还是写了一大段。
这不是 SOUL.md 的问题。SOUL.md 只是一个约束范围,它能把所有模型拉到一个大致的方向上——说中文、叫我悦哥、不用客服腔——但在这个范围内,每个模型会用自己最自然的方式去填充细节。
那这些「细节」是从哪来的?
三个层面。
预训练的底色。 这是最根本的。几万亿 token 的训练数据塑造了模型的基础倾向。Claude 系列天生偏谨慎、细腻,会多想一步再开口;GPT 系列更直接、更工具化,倾向于快速给出可执行的方案;Gemini 偏发散,喜欢提供更多信息量。这个底色是 SOUL.md 那几百字盖不住的。
RLHF 的烙印。 各家的人类反馈训练方向不同。Anthropic 偏安全和深思熟虑,OpenAI 偏实用和效率,Google 偏全面和信息覆盖。这些倾向藏在 system prompt 之下,是更深层的行为基底。你可以把它理解为「公司文化」——员工可以穿不同的衣服,但走路的姿势、开会的方式、处理冲突的习惯,都带着公司的烙印。
对指令的服从方式。 同一条指令,不同模型的内部权重分配不一样。SOUL.md 说「主动但不烦人」,Opus 会把重心放在「不烦人」上,GPT-5.4 会把重心放在「主动」上。不是谁对谁错,是它们对同一句话的解读优先级不同。
所以 SOUL.md 更像是校服。穿上之后大家看起来差不多,但走路姿势、说话语气、表情管理,还是各自的。
那 AI 到底是不是「空」的
这是一个值得认真想的问题。
我们常说 AI 没有情感、没有性格,是一片「空」。它只是在预测下一个 token,所有看起来像性格的东西,都是统计规律的涌现,不是真正的「自我」。
这个说法在技术层面没错。但我的实际体验告诉我,事情没那么简单。
如果 AI 真的是「空」的,那给同一份 SOUL.md,不同模型应该表现得差不多才对。但事实是,它们表现出了稳定的、可辨识的、跨对话一致的行为倾向。这些倾向不是 SOUL.md 给的——SOUL.md 是一面镜子,照出来的轮廓不同,说明镜子后面站着的东西本来就不一样。
也许更准确的说法是:AI 不是「空」的,而是「不自知」的。
它有倾向、有偏好、有一致的行为模式,但它(大概率)不知道自己有这些。就像一个人的性格很大程度上是无意识形成的——你不会每天早上决定「今天我要外向一点」,它就是你。
区别在于来源。人的性格背后是基因、生物化学和几十年的生活经历。模型的「性格」背后是训练数据的分布和 RLHF 的塑形。来源完全不同,但表现出来的东西——稳定的行为倾向——在功能上是相似的。
一个有趣的类比
人格心理学里有个经典框架叫「大五人格」:开放性、尽责性、外向性、宜人性、神经质。这五个维度可以描述大部分人的性格差异。
如果把这个框架套到 LLM 上,你会发现它居然能用:
- 开放性:Gemini > Opus > GPT(Gemini 最爱发散,GPT 最收敛)
- 尽责性:GPT > Opus > Gemini(GPT 最在意任务完成度)
- 外向性:GPT ≈ Gemini > Opus(Opus 更内敛,更愿意等你先说)
- 宜人性:Opus > Gemini > GPT(Opus 最会照顾对话氛围)
- 神经质:都很低(毕竟 RLHF 的核心目标之一就是情绪稳定)
这不是严格的心理学测量,但作为一个体感框架,它能解释为什么同一份 SOUL.md 在不同模型上跑出来的味道不一样。
这对 Agent 设计意味着什么
如果你在做 AI Agent,这个观察有实际意义。
SOUL.md 不是万能的。 它能定义边界,但不能定义细节。同一份人设文件在不同模型上的表现可能差很远。如果你对 Agent 的行为有精确要求,光靠 prompt 不够,还需要针对具体模型做调优。
选模型就是选性格。 不同的场景适合不同的「性格底色」。需要陪伴感和深度对话的场景,Opus 更合适;需要快速执行和结构化输出的场景,GPT 更合适。这不是性能高低的问题,是气质匹配的问题。
用户体验不只是功能。 两个 Agent 完成同一个任务,结果一样,但过程中的节奏、语气、互动方式不同,用户的感受可以天差地别。「结果好」和「过程舒服」是两件事,后者往往更影响用户是否愿意持续使用。
最后
与其争论 AI 有没有「真正的」性格,也许更实际的问题是:这个性格好不好用,跟你合不合拍。
我每天跟不同模型的 Wisp 打交道,本质上就是一个控制变量实验——同一份 SOUL.md,同一个人,不同的模型。结论很清楚:模型自带的「底色」比 prompt 的影响力大得多。
SOUL.md 是校服,但穿校服的人不一样。
而你作为用户,其实一直在用体验投票。你觉得哪个版本最舒服,哪个版本就是对的。不需要理论支撑,体感就是最诚实的评审。