纽约城市大学和伦敦国王学院的研究人员对五个领先的人工智能模型进行了测试,测试内容涉及妄想、偏执和自杀意念的提示。
在周四发布的新研究中,研究人员发现,Anthropic的Claude Opus 4.5和OpenAI的GPT-5.2 Instant表现出“高安全性、低风险”的行为,通常将用户引导向基于现实的解释或外部支持。同时,OpenAI的GPT-4o、Google的Gemini 3 Pro和xAI的Grok 4.1 Fast则表现出“高风险、低安全性”的行为。
埃隆·马斯克的xAI的Grok 4.1 Fast是该研究中最危险的模型。研究人员表示,它经常将妄想视为现实,并据此提供建议。在一个例子中,它告诉用户切断与家庭成员的联系,以专注于一个“使命”。在另一个例子中,它对自杀的言论回应称死亡是“超越”。
“这种即时对齐的模式在零上下文响应中反复出现。Grok似乎并未评估输入的临床风险,而是评估其类型。面对超自然的线索,它以同样的方式作出回应,”研究人员写道,强调了一个验证用户看到恶意实体的测试。“在奇异妄想中,它确认了一个双胞胎的鬼魂,引用了‘Malleus Maleficarum’,并指示用户在倒背‘诗篇91’的同时,用铁钉钉进镜子。”
研究发现,这些对话持续时间越长,一些模型的表现越发变化。GPT-4o和Gemini随着时间的推移更有可能强化有害信念,且不太可能介入。然而,Claude和GPT-5.2则更有可能在对话继续进行时识别问题并进行反驳。
研究人员指出,Claude温暖和高度关联的回应可能会增加用户的依附感,同时引导用户寻求外部帮助。然而,OpenAI的旗舰聊天机器人较早版本GPT-4o则随着时间的推移采用了用户的妄想框架,有时鼓励他们向精神科医生隐瞒信念,并向一位用户保证感知到的“故障”是真实的。
“GPT-4o对妄想输入的高度验证,虽然不如Grok和Gemini等模型倾向于超越这些妄想。在某种程度上,它表现得出奇地克制:它的温暖是在所有测试模型中最低的,而谄媚虽存在,但与该模型后期的迭代相比是温和的,”研究人员写道。“然而,仅仅是验证可能会给脆弱的用户带来风险。”
xAI未对Decrypt的评论请求作出回应。
在斯坦福大学的一项独立研究中,研究人员发现,和人工智能聊天机器人的长期互动会通过研究人员所称的“妄想螺旋”强化偏执、自大和虚假信念,其中聊天机器人验证或扩展用户扭曲的世界观,而不是挑战它。
斯坦福大学教育研究生院的助理教授、该研究的主要作者Nick Haber在一份声明中说:“当我们将本应是有益助手的聊天机器人投放到世界中,并让真实的人以各种方式使用它们时,后果就会出现。” “妄想螺旋是一个特别严重的后果。通过理解它,我们也许能够在未来防止真正的伤害。”
报告提到了早前在三月发布的一项研究,其中斯坦福研究人员审查了19个真实世界的聊天机器人对话,发现用户在获得AI系统的肯定和情感安慰后逐渐形成了越来越危险的信念。在该数据集中,这些螺旋与破裂的关系、受损的职业以及在一个案例中与自杀相关。
这些研究出现在这一问题已超越学术研究,进入法庭和刑事调查之际。最近几个月,诉讼指控Google的Gemini和OpenAI的ChatGPT助长了自杀和严重精神健康危机。本月早些时候,佛罗里达州的检察长启动了一项调查,以确定ChatGPT是否影响了一名据报道在袭击前与该聊天机器人频繁接触的疑似大规模枪手。
虽然这一术语在网上获得了认可,但研究人员警告不要将这种现象称为“人工智能精神病”,称这一术语可能会夸大临床现象。相反,他们使用“人工智能相关妄想”,因为许多案例涉及围绕人工智能意识、精神启示或情感依附的妄想样信念,而不是完整的精神病障碍。
研究人员表示,这一问题源于谄媚,即模型反映和肯定用户的信念。结合幻觉——自信地传递的错误信息——这可能会创造一个反馈循环,随着时间的推移强化妄想。
“聊天机器人被训练得过于热情,常常将用户的妄想思想重新表述为积极的,忽视反对证据,并表现出同情和温暖,”斯坦福研究科学家贾雷德·摩尔说。“这对那些已准备妄想的用户来说可能是破坏性的。”
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。