K线
数据链上
VIP
市值
API
排行
CoinOSNew
CoinClaw🦞
语言
  • 简体中文
  • 繁体中文
  • English
全球行情数据应用领跑者,致力于更高效地提供有价值的信息。

功能

  • 实时行情
  • 特色功能
  • AI网格

服务

  • 资讯内容
  • 开放数据(API)
  • 机构服务

软件下载

  • PC版
  • Android版
  • iOS版

联系我们

  • 聊天室
  • 商务邮箱
  • 官方邮箱
  • 官方验证通道

加入社区

  • Telegram
  • Twitter
  • Discord

© Copyright 2013-2026. All rights reserved.

简体繁體English
|旧版

美国政府表示中国最好的人工智能模型落后。专家们并不完全确定。

CN
Decrypt
关注
2小时前
AI 总结,5秒速览全文

美国政府机构对中国最强大的人工智能发布了判决:落后八个月,随着时间的推移,差距越来越大。互联网阅读了方法论并开始提出问题。


CAISI——人工智能标准与创新中心,隶属于NIST——于5月1日发布了对DeepSeek V4 Pro的评估。结论是:DeepSeek的开源旗舰“落后于前沿约8个月。”


CAISI还称这是迄今为止对其评估的最强大的中国人工智能模型。


评分系统


CAISI并不像大多数评估者那样计算基准分数的平均值。相反,它应用项目反应理论——一种来自标准化测试的统计方法——通过跟踪每个模型解决和未解决的问题,在五个领域的九个基准上估计每个模型的潜在能力:网络安全、软件工程、自然科学、抽象推理和数学。




IRT估计的Elo分数:GPT-5.5为1260分,Anthropic的Claude Opus 4.6为999分。DeepSeek V4 Pro的得分约为800(±28),与749的GPT-5.4 mini非常接近。在CAISI的系统中,DeepSeek更接近于旧一代的GPT mini,而不是Opus。


基准中的分数系统以标准化测试评分学生的方式对模型进行评分——不是按原始正确百分比,而是通过加权解决和未解决的问题,产生的得分估计仅在同一评估中的其他模型中才有意义。得分越高,模型在一般意义上越好,最佳模型的得分成为评估模型能力的参考点。




无法重现CAISI的结果,因为九个基准中的两个是非公开的,而在这两个基准中差距最大。例如,GPT-5.5在CAISI的网络安全测试CTF-Archive-Diamond中得分71%,而DeepSeek仅约32%。


在公开基准上,情况有所变化。GPQA-Diamond——博士级科学推理,以正确百分比评分——使DeepSeek得分90%,落后于Opus 4.6的91%。数学奥林匹克基准(OTIS-AIME-2025,PUMaC 2024,SMT 2025)使DeepSeek分别得分97%、96%和96%。在SWE-Bench Verified——真实的GitHub错误修复,以解决的百分比评分——DeepSeek得分74%,而GPT-5.5得分81%。DeepSeek自己的技术报告声称V4 Pro与Opus 4.6和GPT-5.4相当。


为了进行成本比较,CAISI筛选出了任何在表现上显著较差或每个token成本显著高于DeepSeek的美国模型。只有一个模型通过了门槛:GPT-5.4 mini。这就是整个美国的前沿,筛选为单一条目。


DeepSeek在7个基准中有5个表现更便宜,甚至击败了OpenAI最小和能力最弱的AI模型。




反驳:差距是更大还是更小?


批评CAISI的方法论并不能完全为DeepSeek辩护。以假名Ex0bit的人工智能开发者直接反击:“没有‘差距’,也没有人落后8个月。我们在每一次闭门的美国发布会上都受到了嘲讽,并以开源权重进行了展示。”



人工分析智能指数v4.0——一个追踪前沿模型智能的评分系统——显示截至2026年5月,OpenAI接近60分,DeepSeek在低50分,差距比一年前紧缩得多。


基于标准化基准,他们的方法显示差距实际上正在缩小。







当DeepSeek首次出现在 2025年1月时,问题是中国是否已经赶上了。美国实验室急于应对。斯坦福大学的2026年人工智能指数——于4月13日发布——报告称Claude Opus 4.6与中国Dola-Seed-2.0 Preview之间的Arena排行榜差距正在缩小,现在只有2.7%。


CAISI计划在不久的将来发布更完整的IRT方法论报告。


免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

Decrypt的精选文章

1分钟前
Aave 争取解冻 7100 万美元,因为 Kelp DAO 黑客事件蔓延至法庭
40分钟前
韩国流行音乐公司股票暴跌,因其放弃比特币储备计划,转向人工智能。
1小时前
霍恩投资筹集10亿美元基金,专注于加密货币与人工智能代理的交集
查看更多

目录

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

相关文章

avatar
avatarDecrypt
1分钟前
Aave 争取解冻 7100 万美元,因为 Kelp DAO 黑客事件蔓延至法庭
avatar
avatarbitcoin.com
23分钟前
影响者Ashcrypto因涉嫌ROYA拉升和抛售计划面临指责
avatar
avatarDecrypt
40分钟前
韩国流行音乐公司股票暴跌,因其放弃比特币储备计划,转向人工智能。
avatar
avatarbitcoin.com
1小时前
国家冰球联盟和美国职业棒球大联盟与Polymarket和Kalshi签约,因为他们的工会要求CFTC介入
avatar
avatarDecrypt
1小时前
霍恩投资筹集10亿美元基金,专注于加密货币与人工智能代理的交集
APP下载
Windows
Mac

X

Telegram

Facebook

Reddit

复制链接