ChatGPT Agent正式发布了, 看看实力如何

2025-07-21 13:05:52
904

[TechWeb]7月18日消息，OpenAICEO奥特曼（SamAltman）带队直播25分钟发布“ChatGPTAgent”，首个统一智能体，大大提升了ChatGPT处理现实世界任务需求的能力。

例如，通过ChatGPTAgent，可以让ChatGPT处理以下请求：“查看我的日历，并根据最新消息简要介绍即将召开的客户会议”、“计划和购买食材，为四人做日式早餐”以及“分析三个竞争对手并创建幻灯片”。ChatGPT将智能地浏览网站、过滤结果、在需要时提示你安全登录、运行代码、进行分析，甚至提供可编辑的PPT、Excel，总结其分析结果。

奥特曼称：“ChatGPTAgent使用计算机执行复杂任务，对自己来说是一个真正感受AGI的时刻。”

即日起，专业版（Pro）、增强版（Plus）和团队版（Team）ChatGPT用户都可使用ChatGPTAgent。

ChatGPTAgent的使用入口没变，还是在ChatGPT原页面，“工具”下拉选择“Agentmode”即可。

融合三大能力，PPT比人做得好

今年1月，OpenAI发布了首个智能体Operator，让AI像人类一样直接与GUI交互，可以自主上网、点击和输入。

Operator推出2周后，OpenAI又推出了首个DeepResearch，推理模型直接可以使用工具，开展研究，擅长分析和总结信息。

现在，ChatGPTAgent融合了此前三大技术突破的优势：Operator与网站交互的能力，DeepResearch整合信息的技巧，以及ChatGPT智能对话优势。

“Agentmode”下的ChatGPT可以直接使用用户的计算机资源，包括智能浏览网页、筛选结果，在需要时提醒安全登录、运行代码、进行分析，还能直出PPT和Excel汇总发现结果。

为了展示ChatGPTAgent能力，团队演示了一个真实场景：上传一张团队吉祥物图片，ChatGPT可以制作公司吉祥物漫画风贴纸，然后再订购500张并送到某个地址。

在理解提示词后，ChatGPT先整合搜索-再推理创作-再执行任务，调用用工具Imagen生成动漫版图片，设计贴纸，最后从StickerMule订购500份寄到的用户指定的地址。

另外，团队还演示了ChatGPTAgent做PPT的能力。

要求ChatGPT从Google云中提取分析评估数据并制作成PPT，直接用图表展示结果。

ChatGPTAgent链接Google云API进行搜索，并读取相关内容信息，并编写一些代码。

模型使用图像生成功能，为PPT图表做一些装饰和优化。

制作出第一张PPT（如上图），还不够精致。

强化学习的一个关键特性是模型会审视自己的结果，并加以完善，以交付出色的最终结果。

最终，ChatGPTAgent调用模型生成了如下PPT图表。

ChatGPTAgent“跑分”情况

在网页浏览、现实任务完成能力的评估中，ChatGPTAgent全部刷新了SOTA。

在人类最后考试（HLE）中，ChatGPTAgent以41.6%的得分，刷新了最高纪录。当研究团队采用并行策略后，即同时运行最多8次并选取自信度最高结果，HLE得分直接刷到了44.4%。

在最难的数学基准测试FrontierMath中，通过使用工具，如访问终端执行代码，ChatGPTAgent的准确率达到27.4%，远远优于之前的o3和o4-mini两种模型。

在旨在评估模型在复杂、经济上有价值的知识工作任务上的性能的内部基准上，ChatGPTAgent的输出大约有一半的情况下与人类相当或更好，同时明显优于o3和o4mini。

在评估数据科学生产力任务的DSBench中，ChatGPTAgent显著超越了人类表现。

在Excel编辑能力的SpreadsheetBench测试中，当能够直接编辑电子表格时，ChatGPTAgent的得分甚至更高，为45.5%，而Excel中的Copilot为20.0%。

在投行分析师1-3年级建模任务的内部评估中，ChatGPTAgent表现优于DeepResearch和o3模型。

在OpenAI发布的BrowseComp基准测试（衡量浏览代理在网络上定位难以找到的信息的能力），ChatGPTAgent以68.9%的准确率成为新SOTA，比DeepResearch高出17.4%。

最后，关于WebArena⁠（在新窗口中打开），这是一个旨在评估网络浏览代理在完成现实世界网络任务方面的性能的基准测试，ChatGPTAgent比基于o3的CUA（为Operator提供动力的模型）有所改进。

AIAgent三维竞争格局形成

2025年是全球AIAgent技术爆发元年，行业从基础大模型竞争全面转向智能体落地，竞争格局呈现多层级分化。

在通用领域，今年年初，中国团队开发的全球首个通用Agent“Manus”发布即引发震撼，6月访问量达1616万次。

在垂直领域，就在OpenAIChatGPTAgent发布前一天，亚马逊云科技发布了企业级Agent部署平台AmazonBedrockAgentCore，提供七大核心服务（如运行时隔离、代码沙盒、浏览器工具），支持8小时异步任务，帮助开发者打通AIagent从概念验证到生产部署之间的关键环节。

随着OpenAIChatGPTAgent的强势加入，当前AIAgent已形成“通用vs垂直”、“端到端vs多模型”、“C端工具vsB端平台”的三维竞争格局。

无我剑气满级发布网,提供无我剑气满级发布信息,第一时间发布列表及资讯,无我剑气等级是无我剑气等级首选资讯平台。