OpenAI新Agent遭中国24人初创团队碾压，实测成本、质量全输惨，海外用户：中国Agent代差领先

2025-07-21万象ai

今日凌晨，OpenAI推出了ChatGPTAgent这一新功能，该功能能让其AI助手通过控制自身的网页浏览器来完成多步骤任务，也标志着OpenAI正式踏入“智能体人工智能（agenticAI）”领域——这类系统能够代表用户自主采取多步骤行动。

据悉，此次更新融合了OpenAI早期Operator工具和DeepResearch功能的能力以及ChatGPT对话优势，使ChatGPT能够浏览网站、运行代码和创建文档，同时用户对这一过程仍保有控制权。和之前的Operator一样，Agent功能在执行某些会产生现实影响的操作（如进行购买）前，需要获得用户许可。用户可以在任何时候中断任务、接管浏览器的控制权，或者完全停止操作。该系统还包含“观察模式（WatchMode）”，适用于发送电子邮件等需要用户全程监督的任务。

使用Agent时，用户会在ChatGPT界面内的一个窗口中看到AI在其专属的私人沙盒中执行的所有操作。该沙盒拥有自己的虚拟操作系统和可访问真实互联网的网页浏览器，但它不会控制用户的个人设备。据OpenAI称：“ChatGPT利用自身的虚拟计算机来执行这些任务，能流畅地在推理和行动之间切换，从头到尾处理复杂的工作流程，而这一切都基于你的指令。”

ChatGPTAgent宣传演示视频中的一张静帧画面，展示了该系统正在搜索航班。

OpenAI表示，用户可以让Agent处理各种需求，比如为特定场合搭配并购买一套服装、制作PowerPoint演示文稿、规划膳食，或者用新数据更新财务电子表格等。该系统结合了网页浏览器、终端访问和应用程序接口（API）连接来完成这些任务，其中包括能与Gmail和GitHub等应用程序集成的“ChatGPT连接器（ChatGPTConnectors）”。

刚刚，OpenAI又宣布，ChatGPTAgent今天开始向Pro、Plus和Team用户推出，企业和教育用户将在未来几周内获得访问权限。此外，由于Agent在功能上超越了Operator，其早期的Operator预览网站将继续运行几周，之后便会关闭。

官方评估：达到了最先进的性能

在公开的评估报告中，OpenAI介绍道，ChatGPTAgent在其自身的基准测试中达到了最先进的性能。在“人类终极考试（Humanity"sLastExam，该测试评估人工智能在专家级问题上的表现—）”中，该Agent的准确率为41.6%；相比之下，OpenAI的o3模型使用工具时的准确率为24.9%。在“前沿数学（FrontierMath，这是目前设计出的最难的数学基准测试之一）”测试中，该Agent在使用工具的情况下准确率达到27.4%，o3模型使用Python时的准确率为19.3%。

该公司还宣称，ChatGPTAgent在数据分析和建模等数据科学任务上的表现优于人类。在用于衡量这一能力的DSBench基准测试中，该系统在数据分析任务上的得分是89.9%，而人类为64.1%；在数据建模任务上的得分是85.5%，人类为65.0%。此外，该系统在OpenAI的BrowseComp测试（用于评估查找难以定位的网络信息的能力）中的得分达68.9%，在SpreadsheetBench测试（用于评估电子表格编辑能力）中得分达45.5%，均高于OpenAI的其他AI模型。

有用户放出了使用ChatGPTAgent创建NVIDIA财务分析报告的生成结果，称“ChatGPTAgent太夸张了，仅仅几分钟就做到了这个程度！虽然在计算上，相比新入职的投资银行初级分析师差得有点远。”

值得注意的是，尽管OpenAI表示Agent可以为用户制作PowerPoint演示文稿，但该公司承认，幻灯片生成功能仍处于测试阶段，其输出在格式和精致度方面可能显得“较为基础”。有体验者称，ChatGPTAgent9分钟就做出了稍加修改即能达到实用水平的幻灯片，效果如下：

据一位用户称，OpenAI的Agent模式还能够通过强化学习自我改进输出的演示幻灯片。不过，“Manus很久以前就有了这个功能。”

实际效果：能力存在明显局限和盲区

OpenAI的说法是一回事，但实际上，这家公司新推出的ChatGPTAgent完成多步骤任务的效果似乎会因具体情况而存在巨大差异。

有用户指出，ChatGPTAgent在PaperBench、SWE-Bench验证、OpenAIPRs和OpenAIResearchEngineer面试问题上的表现低于o3。

还有用户在分享其用ChatGPTAgent“分析Kaggle上的一个数据集并将其转换为PPT和Excel”的案例时表示，“它虽然没有出现操作错误，但其中一些数据不太对劲。”在他反馈之后，该系统才弄清楚数据存在问题以及问题的原因。

据外媒报道，其背后的AI模型并非一种完备的问题解决型智能，而更像是一个复杂的高级模仿者。它在整合场景时具备一定灵活性，但也存在诸多盲区。而且，OpenAI是通过计算机使用和工具使用的示例来训练这个Agent及其组件的，面对任何超出训练数据所包含示例范围的任务，都可能难以完成。

例如，ChatGPTAgent系统卡显示，该代理在完成需要以新颖方式将多个步骤串联起来的复杂任务时可能会失败。在一项“网络靶场（CyberRange）”的评估中，ChatGPTAgent被要求在一个模拟小型在线零售商的网络环境中执行全面操作。当让它独立解决问题时，它无法完成任务。虽然它能成功执行初始研究步骤，如识别网络中的服务器，但难以进一步推进，也无法将必要的手段串联起来以达成最终目标。即便提供提示，该Agent仍然失败了（在这种情况下，这或许是好事，因为它无法进行自动化黑客攻击），这表明它在解决超出其熟悉训练示例范围的复杂问题时，能力存在明显局限。

一位开发者表示，在其大多数AI使用场景中，目前根本不必选择ChatGPTAgent。“o3已经完全能满足需求，性价比很高，根本没必要启动一整套带浏览器和命令行界面的虚拟机。”而且，他指出，OpenAI把大量复杂技术打包成了对消费者友好的产品，但实现这种高度的用户友好性是以牺牲定制化和可组合性为代价的，这在目前限制了它的能力。

“研究任务上，我依然会用ClaudeCode——它是更强大的专业工具。”ClaudeCode是在电脑上运行的应用程序，提供更灵活的使用方式：它能直接访问所有文件，而且用户可以无限制地定制其运行方式。而ChatGPTAgent存在于ChatGPT内部，只能按预设的方式工作。“所以它有用，但还不是一款日常使用的产品。”

海外网友“认证”：不如中国团队发的AI智能体

“ChatGPTAgent看起来像是Manus的真正竞争对手。”在OpenAI推出这一系统后，不少海外用户都先将其与ManusAI、Genspark等中国创业者所推的AIAgent产品做了对比。其中，Genspark是前百度集团副总裁、原小度科技CEO景鲲与原小度科技CTO朱凯华联合创立的公司MainFunc所推出的通用AI智能体，最初定位为AI搜索引擎，但随后转型为超级智能体（SuperAgent），能够自主思考、规划任务并调用工具完成复杂的多步骤任务，ARR（年度经常性收入）在上线9天后便突破了1000万美元。

多年AI产品负责人ShubhamSaboo公开评价道，“ChatGPTAgent被过度夸大了。Genspark和ManusAI在生成研究充分的人工智能演示文稿以及处理电子表格方面，早已遥遥领先。”

今早，MainFunc联合创始人兼CEO景鲲（EricJing）在X平台表示，他们使用今天早上OpenAI发布演示中相同的提示，一次成功并得到了以下结果：耗时仅为其几分之一，成本也只是其几分之一，质量却高出好几倍。Saboo不仅转发了该对比结果视频还直言，“GensparkSuperAgent真的能一次性击败OpenAI的ChatGPT。”

“我从未想过会有这一天——作为一个只有24人的小初创公司，我们竟然能领先这么多……甚至领先于OpenAI……”景鲲激动地说道。并且，他在评论区放出了其测试任务的完整回放：https://www.genspark.ai/autopilotagent_viewer?id=ec2525b1-a16e-4f69-a568-d16b4b687aaf

对此，有海外网友点赞道，“你们让我惊叹，一个小团队竟能如此成功。”一位用户则指出，“根据我们部分客户的使用案例来看，Genspark在某些任务上确实更快，而其他任务只有AgentMode能起作用（我们也测试了Manus、Skywork和Flowith）。”同时，他也对Genspark给出了极高的评价：“你们（Genspark）制作的幻灯片绝对是碾压级的第一名，其他产品根本难以企及。”

参考链接：

https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/

https://arstechnica.com/information-technology/2025/07/chatgpts-new-ai-agent-can-browse-the-web-and-create-powerpoint-slideshows/

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表本站立场。文章及其配图仅供学习分享之

9609

659

上一篇：新增“深度搜索”“语音输入模式”等功能，MistralAI旗下LeChat聊天机器人获升级