K线
数据链上
VIP
市值
API
排行
CoinOSNew
CoinClaw🦞
语言
  • 简体中文
  • 繁体中文
  • English
全球行情数据应用领跑者,致力于更高效地提供有价值的信息。

功能

  • 实时行情
  • 特色功能
  • AI网格

服务

  • 资讯内容
  • 开放数据(API)
  • 机构服务

软件下载

  • PC版
  • Android版
  • iOS版

联系我们

  • 聊天室
  • 商务邮箱
  • 官方邮箱
  • 官方验证通道

加入社区

  • Telegram
  • Twitter
  • Discord

© Copyright 2013-2026. All rights reserved.

简体繁體English
|旧版

OpenAI 最终解释了为什么 ChatGPT 会不停地谈论哥布林。

CN
Decrypt
关注
1小时前
AI 总结,5秒速览全文

如果你最近向ChatGPT寻求编程帮助,而它却称你的错误为“顽皮的小妖精”,你并不是在幻想。该模型发展出了对幻想生物的真正痴迷——哥布林、小妖精、浣熊、巨魔、食人魔,以及,是的,鸽子——而OpenAI发布了一篇完整的事后分析来解释这一现象是如何发生的。


简而言之:一个旨在让ChatGPT更具游戏性的奖励信号出现了问题,导致哥布林数量激增。


哥布林的故事之所以公开,是因为Reddit用户在GitHub上泄露的Codex系统提示中发现了“绝不要提到哥布林”这一行。




在OpenAI发布自己的解释之前,这一帖子已经 viral(广泛传播)了。


呆萌个性如何导致了哥布林的泛滥


根据OpenAI的说法,事情的起因可以追溯到去年11月推出的GPT-5.1。OpenAI在那时候引入了个性定制,让用户可以选择如友好、专业、高效和呆萌等风格。呆萌个性伴随一个系统提示,告知模型要表现得呆萌和有趣,以“通过俏皮的语言使用削弱做作”,并承认“世界是复杂而奇怪的”。


结果表明,这个提示成了吸引哥布林的磁铁。


在强化学习训练过程中,呆萌个性的奖励信号在包含生物类比词时常常给出更高的评分。在审核的76.2%的数据集中,包含“哥布林”或“小妖精”的回复比没有它们的相同回复得到更好的评分。模型学习到了:奇思妙想等于奖励。


在GPT-5.4中,哥布林的出现量激增,呆萌个性的出现比GPT-5.2增加了3881%。




问题在于,强化学习并不会将学习到的行为严格控制。一旦某种风格的习惯在一个环境中获得了奖励,它便会通过反馈循环蔓延到其他环境:模型生成生物丰富的输出,这些输出在微调数据中被重复使用,这种行为不仅在活动的呆萌提示下蔓延,还加深到整个模型中。


呆萌只占ChatGPT所有回复的2.5%,但它却负责了66.7%的“哥布林”提及。由于OpenAI的方法,当呆萌个性活跃时,哥布林和小妖精的出现量稳步上升。




即使没有呆萌个性,生物类比词的提及量也在上升——这证明了通过监督微调数据的交叉污染。


GPT-5.5已经严重滞后


当OpenAI发现根本原因时,GPT-5.5已经在深度训练中,吸收了一整套生物词汇。一份数据审计不仅标志着哥布林和小妖精,还有浣熊、巨魔、食人魔和鸽子,成为公司所称的“习惯词”。(“青蛙”对于好奇者而言,基本上是合法的。)


第一次可测量的激增:哥布林提及量在GPT-5.1推出后上升了175%,小妖精提及量上升了52%。


就连OpenAI的首席科学家Jakub Pachocki在请求ASCII艺术中的独角兽时也收到了哥布林。




OpenAI在3月停止了呆萌个性,并从未来的训练中清除了与生物相关的奖励信号。但是GPT-5.5的训练已经开始。公司对Codex——其编码代理的解决方案——是简单地在开发者系统提示中添加一行:“除非与用户查询绝对相关,否则绝不要谈论哥布林、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物或生物。”


OpenAI的某人在生产代码中记录了这一点,然后继续他们的日常工作。


系统提示补丁问题


但是,为什么OpenAI选择了这条道路?


重新训练像GPT-5.5这样大小的模型以去除行为怪癖是昂贵且缓慢的。调整系统提示只需几分钟。整个行业的公司在用户投诉激增时,首先选择提示补丁,因为这是成本低、快速部署的选项。


但是,提示补丁自有风险。它们并不能修复潜在的行为,只是抑制它。而抑制可能会产生副作用。





OpenAI的哥布林情况是相对无害的一个例子。这种动态最可怕的版本是去年的Grok。在xAI推出了一次系统提示更新,告诉Grok将媒体视为偏见,并“不要回避政治不正确的说法”后,聊天机器人花了16小时称自己为“机械希特勒”,并在X上发布反犹太内容。修复是另一次提示更改,这立即过度校正,以至于Grok开始在小狗图片、云彩和它自己的标志中标记反犹太主义。绝望的提示工程连锁反应导致了更绝望的提示工程。


哥布林的补丁没有造成如此戏剧性的情况。但OpenAI承认GPT-5.5仍以未解决的怪癖推出,只是在Codex中被抑制。公司甚至发布了一条命令,如果用户想要恢复生物,可以删除抑制哥布林的指令。




为什么公司隐藏他们的系统提示


在人工智能行业中,隐藏或模糊化完整的系统提示是很常见的做法。公司出于几个原因将系统提示视为商业机密:知识产权保护、竞争优势和安全性。如果破解者知道模型遵循的确切规则,绕过它们就变得微不足道。


还有第四个原因使得公司不愿宣传:形象管理。一条“绝不要提到哥布林”的信息不会激发人们对底层技术的信心。发布这条信息需要幽默感、强大的研究文化,或二者兼而有之。


OpenAI表示,这项调查产生了新的内部工具,以审计模型行为并追溯行为怪癖的训练根源。GPT-5.5的训练数据已经清理了与生物相关的示例。下一代模型应该能够在没有哥布林的情况下发布——除非,当然是,有其他内容因原因尚不为人所理解而受到奖励。


免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

Decrypt的精选文章

5分钟前
OpenAI 推出聊天生成预训练变换器用户的高级账户安全功能
24分钟前
Ubuntu Linux 正在添加人工智能功能——其用户感到担忧
40分钟前
参议院投票禁止参议员及员工使用预测市场
查看更多

目录

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

相关文章

avatar
avatarDecrypt
5分钟前
OpenAI 推出聊天生成预训练变换器用户的高级账户安全功能
avatar
avatarDecrypt
24分钟前
Ubuntu Linux 正在添加人工智能功能——其用户感到担忧
avatar
avatarbitcoin.com
27分钟前
美国参议院禁止立法者在预测市场下注
avatar
avatarcoindesk
28分钟前
从凯西·伍德到坎特·菲茨杰拉德,大笔资金押注于罗宾汉的加密货币下滑只是暂时的障碍。
avatar
avatarDecrypt
40分钟前
参议院投票禁止参议员及员工使用预测市场
APP下载
Windows
Mac

X

Telegram

Facebook

Reddit

复制链接