K线
数据链上
VIP
市值
API
排行
CoinOSNew
CoinClaw🦞
语言
  • 简体中文
  • 繁体中文
  • English
全球行情数据应用领跑者,致力于更高效地提供有价值的信息。

功能

  • 实时行情
  • 特色功能
  • AI网格

服务

  • 资讯内容
  • 开放数据(API)
  • 机构服务

软件下载

  • PC版
  • Android版
  • iOS版

联系我们

  • 聊天室
  • 商务邮箱
  • 官方邮箱
  • 官方验证通道

加入社区

  • Telegram
  • Twitter
  • Discord

© Copyright 2013-2026. All rights reserved.

简体繁體English
|旧版

图解Claude越用越笨:省钱的代价,是API账单涨了100倍

CN
律动BlockBeats
关注
3小时前
AI 总结,5秒速览全文

几天前,AMD AI 团队负责人 Stella Laurenzo 在 Claude Code 官方仓库发布了一份标题为「Claude Code 对复杂工程任务已无法使用」的问题报告。这不是一条用户情绪化的投诉,而是一份基于 6,800 个会话的定量分析。它把 AI 圈最不愿面对的问题摆上了桌面,其中有一组数字尤其刺眼:Anthropic 为省算力做的配置调整,把这个团队的 API 月度账单从 345 美元烧到了 42,121 美元。

Laurenzo 的团队追踪了 235,000 次工具调用、18,000 条提示词,记录了 Claude Code 从 2026 年 2 月起出现的系统性能力退化。这份报告随后被 The Register 报道,在开发者社区引发了持续两周的舆论风暴。

Anthropic Claude Code 团队负责人 Boris Cherny 在 Hacker News 作出了说明。2 月 9 日随 Opus 4.6 发布时,默认启用了由模型自主决定思考时长的「自适应思考」机制。3 月 3 日,Anthropic 又把默认思考强度(effort)调低至 85。官方的解释是「在智能、延迟与成本之间的最佳平衡点」。这两次调整的实际效果,数据说得很清楚。

思考深度,跌了四分之三

据 Stella Laurenzo 的 GitHub Issue 数据,Claude Code 的平均思考深度在两个月内经历了三段式崩塌:1 月底优质期的 2,200 字符,到 2 月底跌至 720 字符,跌幅 67%。3 月进一步萎缩至 560 字符,较峰值跌去 75%。

思考深度在这里是个代理指标,反映模型在给出答案前愿意投入多少「内部推演」。2,200 字符和 560 字符的差距,大致等同于从「写完草稿再作答」退化为「脑子里想两秒就开口」。

Laurenzo 还指出,3 月初上线的「思考内容隐藏」功能(redact-thinking-2026-02-12)恰好在这段时间遮蔽了模型思考过程,让用户无法直观感知缩水。Boris Cherny 坚持这只是界面改动,不影响底层推理。两种说法在技术上都成立,但从用户侧来看,效果上没有区别。

Boris Cherny 后来也承认,即使手动将 effort 设回最高,自适应思考机制仍可能在某些轮次分配推理不足,并可能产生幻觉内容。「恢复最高 effort」并不是一个完整的解法,它只是把旋钮拨回了靠近原来的位置,而不是恢复到原有的确定性。

从「研究型程序员」到「盲改型程序员」

Stella Laurenzo 的报告里有个细节比思考深度更直白:改代码前,模型会主动读多少个相关文件。

据 GitHub Issue 数据,优质期的平均读改比是 6.6,改动一处代码前,模型平均会先读 6.6 个文件,了解上下文。退化期这个数字跌到 2.0,降幅 70%。更严重的是,约三分之一的代码修改发生在模型未读取目标文件的情况下,直接下手。

Laurenzo 称之为「盲改」(blind edits)。工程上,这相当于一个程序员在不看函数签名、不知道变量类型的情况下就开始写代码。「我团队的每一位高级工程师都有类似的亲身遭遇。」她在报告中写道,「Claude 现在不能被信赖去执行复杂的工程任务。」

读改比从 6.6 到 2.0,表面是一个行为指标的变化,底层是任务成功率的塌陷。现代代码库的复杂度决定了,任何修改都牵涉多个文件之间的依赖关系。跳过上下文探索直接修改,产生的错误不是「答错了」,而是「看起来对,但会在下游触发新的错误。这类错误的排查成本,远高于一次失败的明确回答。

「省钱」这件事,算反了

这是整个事件里最反直觉的一组数字,来自同一份 GitHub Issue 数据:Stella Laurenzo 团队的 Claude Code API 月度调用成本,从 2026 年 2 月的 345 美元,到 3 月飙升至 42,121 美元,涨幅 122 倍。

Anthropic 调低 effort 的逻辑是减少单次调用的 token 消耗,从而降低成本。但结果相反。原因在于模型退化后出现了大量「推理循环」(Reasoning Loops),在单次回复中反复自我否定,不断重来,用掉的 token 远超节省的量。据 Stella Laurenzo 的数据,同期用户主动中断任务的比率飙升了 12 倍,开发者需要不停介入、纠错、重新提交。

背后的逻辑是一个系统性错误。在复杂任务上砍算力,并不会简单地等比降低成本。一旦低于某个思考阈值,模型开始走弯路,总成本反而放大。调低 effort 在简单查询上省了钱,在代码工程任务上,它把账单炸了。

「降智」这事,GPT-4 三年前演过一遍

2023 年 7 月,斯坦福大学与加州大学伯克利分校的研究团队在 arXiv 发表论文《How is ChatGPT's behavior changing over time?》,记录了同一件事在 GPT-4 上的发生过程。

据该研究数据,2023 年 3 月的 GPT-4,生成的代码中超过 50% 可以直接运行。到 6 月,这个比例跌至 10%,跌幅约 80%,时间跨度三个月。同期,素数识别准确率从 97.6% 跌至 2.4%。OpenAI 的回应和 Anthropic 高度相似:后台有过优化调整,属于正常迭代。

两个故事的结构几乎一致,一家 AI 公司在后台悄悄调整了影响模型能力的参数,用户察觉到了,公司承认有过调整,但把原因解释为「更合理的资源分配」。GPT-4 的退化发生在 2023 年,Claude 的退化发生在 2026 年,两者相隔三年,剧本一样。

这不是某家公司的特殊失误。AI 订阅模式的经济逻辑决定了,当推理成本高于定价可以覆盖的范围时,厂商面临的压力是一样的。调低默认思考强度,是目前成本和性能之间最容易拨动的那根旋钮。用户感知到的是模型「变笨了」。厂商账面上节省的,是每次调用的边际 token 成本。

Boris Cherny 给出了技术性解法,用户可以通过 /effort high 指令或修改配置文件,手动把思考强度恢复至最高级别。这个解法在技术上可行,但它同时意味着,「最高性能」已经不再是默认设置。

345 美元到 42,121 美元,花掉的不只是预算,还有一个假设:厂商做的默认配置变更,是为了让用户的使用效果更好。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

星球发贴瓜分10万U
广告
|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

律动BlockBeats的精选文章

23分钟前
找到几天几十倍的「妖币」,有秘籍吗?
3小时前
边缘地带的回归:一场围绕海权、能源与美元的再博弈
3小时前
加密VC将死?市场淘汰周期已经开启
查看更多

目录

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

相关文章

avatar
avatar律动BlockBeats
23分钟前
找到几天几十倍的「妖币」,有秘籍吗?
avatar
avatarOdaily星球日报
27分钟前
孙哥“维权”硬刚特朗普家族,WLFI才是币圈收割机
avatar
avatarTechub News
3小时前
在黑客松上,开发者们下注鸿蒙
avatar
avatar律动BlockBeats
3小时前
边缘地带的回归:一场围绕海权、能源与美元的再博弈
APP下载
Windows
Mac

X

Telegram

Facebook

Reddit

复制链接