OpenAI CEO Sam Altman(萨姆·奥尔特曼):AI 应用、智能体与软件开发的新纪元

CN
9小时前

撰文:Techub News 整理

北京时间 2025 年 4 月 10 日,OpenAI 在旧金山举办了第二届开发者大会 DevDay。CEO 萨姆·奥尔特曼(Sam Altman)发表了开幕主题演讲,公布了多项旨在赋能全球开发者的重磅更新。从将 ChatGPT 转变为应用平台,到大幅简化智能体(Agent)开发流程,再到让 AI 成为软件工程的核心协作者,本次发布标志着 AI 从“可对话的工具”正式迈向“可构建、可集成、可行动”的生态系统。以下是本次演讲的核心内容梳理。

ChatGPT 进化:从聊天机器人到应用平台

萨姆·奥尔特曼(Sam Altman)首先回顾了 OpenAI 生态的惊人增长:开发者数量从 2023 年的 200 万增至 400 万,每周使用 ChatGPT 的用户超过 8 亿,API 每分钟处理的令牌数从 3 亿飙升至 60 亿。这背后是 AI 从“新奇玩具”到“日常生产力工具”的深刻转变。

为了进一步释放创造力,OpenAI 宣布推出 Apps SDK,允许开发者在 ChatGPT 内部构建和分发功能完整的交互式应用。这不再是简单的插件或工具调用,而是拥有独立前端界面、后端逻辑和数据连接的“原生应用”。

Apps SDK 基于开放的 MCP(Model Context Protocol)标准构建,开发者拥有对前后端的完全控制权。其最大吸引力在于,应用一旦上架,即可触达 ChatGPT 的数亿用户,获得前所未有的分发渠道。未来,OpenAI 还将支持应用内直接购买等货币化方式。

现场演示生动地展示了这一愿景:

  • Coursera:用户可在 ChatGPT 对话中直接搜索并播放课程视频。视频会以小窗形式置顶,用户可边看边问,ChatGPT 能根据当前播放内容(通过 API 获取的上下文)进行即时答疑。
  • Canva:在 ChatGPT 中为一个虚构的遛狗业务“Walk This Wag”构思名称后,用户可直接指令 Canva 应用生成海报和宣传用的 Pitch Deck,所有创作过程都在对话流中完成。
  • Zillow:当 ChatGPT 建议将业务扩展到匹兹堡后,用户可调用 Zillow 应用,在对话中嵌入交互式地图查看房源,并进一步要求 ChatGPT 筛选“带后院的三居室”。应用与模型深度协作,提供无缝体验。

OpenAI 工程师 Alexi 在演示中强调,这种“与应用对话”的能力是核心魔法。应用不再是孤立的工具,而是与 ChatGPT 的智能深度整合,能理解用户意图并主动推荐。Apps SDK 即日起开放预览,开发者可开始构建,后续将开放应用提交审核和官方目录。

Agent Kit:将智能体从原型带向生产

智能体(Agent)是能理解目标、使用工具并自主完成任务的 AI 系统。尽管潜力巨大,但将其投入实际生产仍面临巨大挑战:从选择框架、流程编排、工具连接到构建 UI 和评估循环,每一步都充满复杂性。

为解决这一痛点,OpenAI 推出了 Agent Kit。这是一个旨在帮助开发者将智能体想法快速落地生产的完整工具集,包含三大核心组件:

  • Agent Builder:一个可视化的工作流构建画布。开发者可以通过拖拽节点(如分类器、工具调用、条件分支)的方式,直观地设计智能体逻辑并测试流程,无需从零开始编写复杂代码。
  • Chat Kit:一个可嵌入的聊天界面组件。开发者可以将其轻松集成到自己的应用中,并完全自定义品牌和交互风格,为用户提供与智能体自然对话的体验。
  • 评估工具:专为智能体设计的新评估功能。包括追踪评分(逐步理解智能体决策)、数据集测试、自动提示词优化,甚至支持在 OpenAI 平台上对外部模型进行评估。

此外,通过 OpenAI 的连接器注册表,企业可以安全地将智能体连接到内部工具和第三方系统。

现场演示极具冲击力。工程师 Christina 在8分钟内,使用 Agent Kit 为 DevDay 官网构建并部署了一个名为“Ask Froge”的智能体助手。该助手能理解用户关于会议日程的查询,从文件中检索信息,并以品牌化的青蛙风格(Froge)回答,同时还能通过预置的“护栏”防止泄露个人敏感信息(PII)。整个过程完全可视化,无需编写代码,构建完成后即可通过 Chat Kit 组件嵌入网站实时使用。

萨姆·奥尔特曼(Sam Altman)还分享了企业案例:美国大型连锁超市 Albertsons 利用 Agent Kit 构建了店内管理智能体。当冰淇淋销量意外下滑 32% 时,店员只需询问智能体,它便能分析季节性、历史趋势等上下文,直接给出调整陈列或投放本地广告的建议,将原本冗长的报表和会议流程极大简化。

Codex:软件工程进入“无代码”协作时代

“我们正在进入一个软件编写方式被彻底改变的新时代。”萨姆·奥尔特曼(Sam Altman)如此定义 Codex 带来的变革。Codex 是 OpenAI 的软件工程智能体,旨在与开发者并肩工作,加速软件创建。

此前处于研究预览版的 Codex,如今正式推出通用版本(GA)。它已深度集成到开发者的工作流中,支持 IDE、终端、GitHub 和云端环境,并通过 ChatGPT 账户同步所有工作。其底层模型已升级为专门为编码和智能体任务训练的 GPT-5 Codex,在代码重构、审查等任务上表现更佳,并能根据任务复杂度动态调整“思考时间”。

数据证明了它的成功:自 8 月初以来,Codex 的日处理消息量增长了 10 倍,GPT-5 Codex 也成为 OpenAI 有史以来增长最快的模型之一,已处理超过 40 万亿令牌。在 OpenAI 内部,几乎所有新代码都由 Codex 用户编写,使用 Codex 的工程师每周完成的拉取请求(PR)数量增加了 70%。

为服务工程团队,Codex 新增三大功能:Slack 集成(可直接在团队对话中让 Codex 写代码或回答问题)、Codex SDK(用于在团队工作流中扩展和自动化 Codex)以及新的管理员工具和报告面板。

现场演示将 Codex 的能力推向了新高度。工程师 Raman 在未手写一行代码的情况下,完成了一系列令人惊叹的操作:

  1. 通过自然语言指令,让 Codex 创建了一个控制舞台上方索尼摄像头的网页控制面板。
  2. 让 Codex 研究并编写了通过 Visca 协议控制该摄像头的 Node.js 服务器代码。
  3. 指令 Codex 将 Xbox 无线手柄连接到该控制界面,实现了用手柄操控摄像机摇移。
  4. 通过集成实时语音 API 和 Agent SDK,实现了用语音控制摄像机(如“对准观众”)和会场灯光系统(通过构建 MCP 服务器)。
  5. 最后,通过语音指令,让 Codex 现场修改 React 应用代码,为所有现场参会者生成了一个电影片尾式的“演职员表”叠加层。

整个过程展现了 Codex 作为“AI 队友”的强大能力:理解复杂意图、自主研究协议、调用工具、编写并集成代码。正如 Raman 所言:“唯一的限制现在是你的想象力。”

模型更新:GPT-5 Pro、Sora 2 与 Realtime Mini 开放 API

所有强大的应用和智能体都离不开底层模型的支撑。萨姆·奥尔特曼(Sam Altman)宣布了多项模型更新:

  • GPT-5 Pro API 全面开放:这是 OpenAI 迄今为止最智能的模型,专为需要高精度和深度推理的复杂任务设计,如金融、法律、医疗等领域。它现已面向所有开发者开放。
  • Realtime Mini:这是一个小型、快速、低成本的实时语音模型,语音质量和表现力与两个月前发布的 Advanced Voice 模型相同。OpenAI 认为,语音将成为人机交互的主要方式之一。
  • Sora 2 API 预览:备受瞩目的文生视频模型 Sora 2 现已开放 API 预览。其最大进步在于可控性增强,开发者可以给出详细指令,模型能保持状态并生成风格化、准确、构图精良的视频。更令人兴奋的是,Sora 2 能生成与画面同步的丰富音效和背景音乐,而不仅仅是语音。现场展示了其如何将一张小狗照片扩展为一群小狗玩耍的动态视频,并配以同步音效。玩具公司美泰(Mattel)已利用其 API 快速将设计师草图转化为可分享的动态概念视频。

在演讲的最后,萨姆·奥尔特曼(Sam Altman)总结道,软件构建曾需要数月或数年,而现在借助 AI,只需几分钟和一个好想法即可实现。OpenAI 的目标是通过 Apps SDK、Agent Kit、Codex 和新模型等一系列工具,成为这个新时代的最佳构建平台。这场发布会不仅是对现有能力的展示,更是对“AI 全民化”和“创意即时实现”未来的一次强力召唤。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接