2025-07-21万象ai
我们终于等到了OpenAI的智能体(Agent)了。
今天凌晨,SamAltman亲自带队发布了ChatGPT的通用型Agent模式。
比起当年ChatGPT带给所有人的震撼,姗姗来迟的OpenAIAgent少了很多惊喜,因为早在年初我们就见到了类似的产品形态——当时“一号难求”的Manus,以及Minimax、Kimi等陆续发布的相似产品。
“起大早,赶晚集”,技术强大如OpenAI,也难免有卷不过的时候。
这年头发布AI产品,“惊喜”和强大往往是两回事——毕竟是OpenAI。
在产品的直播演示里,这款Agent展示出的能力还是令人期待的——Agent模式可以自己访问网页、调用终端、自动下单,执行从旅行规划、PPT制作到图像生成与在线购物的整套流程。
据介绍,ChatGPTAgent即日起向Pro、Plus和Team版用户开放,Enterprise和Education版用户将于7月获得使用权限。Pro版用户每月400次,Plus和Team用户每月40次。
为了实现从“Chat”到“Agent”的表现,OpenAI结合了Operator(视觉层交互代理)和DeepResearch(多步骤网页推理)两项核心研究成果,一个是“手脚”一个是“大脑”来共同完成任务的拆解、思考、行动的闭环。
这需要三大模块工具的支持:1。文本浏览器(Text-basedBrowser)来处理密集型网页阅读任务,提取信息;2.可视化浏览器(Text-basedBrowser),实现在图形界面中操作鼠标点击、输入、截图等;3.终端工具(Terminal),来运行代码、生成文件、调用API、与其他系统集成。
据OpenAI介绍,这款Agent不仅能执行,还能评估执行效果,并在每一步中动态选择最优路径。而用户可以随时插话调整指令,或临时接管任务进程。
其实拆解任务和优化任务一直是Agent的一个难点。我们可以把Agent想象成一个小团队,有产品、品牌、数据,现在用户作为老板下达了一个指令:给我设计一款年轻人喜欢的手机壳。然后大家开始分头行头,市场做调研、品牌做推广,数据盯反馈。
不过这个过程中,大家不免会有冲突,有逾矩,比如市场调研市场可以去发调查问卷,数据部也可以看大数据报告,到底谁来做最高效?所以好的Agent总是能自我优化,追求最快、最好。
ChatGPTAgent和ChatGPT到底有什么区别?
基本的解释是:Agent可以完成任务,Chatbot可以完成对话。这个“任务”和“对话”到底有什么分别?
举个很简单的例子,我现在要决定今天中午吃什么,我可能会考虑类型、距离、口味,并在最后定一家外卖下单,这就是一个Agent式的任务;而一个Chat式的任务是,当我已经决定吃日料,我来问:最短距离哪家日料评分最高。
说白了Agent能完成的任务,更复杂、更高维、需要更多的工具。
比如,在OpenAI的演示里,操作员让OpenAIAgent挑一套适合参加婚礼的礼服和礼物。Agent先用文本浏览器打开用户给的网页信息确认婚礼的日期、天气、位置,然后用可视化浏览器展示可选的礼服效果,之后再继续搜索礼物……
另一个操作员交代的任务是给团队一只叫Bernie的狗狗,也是团队吉祥物做一批笔记本贴纸,并且订购500份邮寄到相应的地址。
Agent先是用终端工具Imagen生成动漫版图片,设计贴纸然后再访问StickerMule网站,把设计好的图上传到网站,填写了贴纸数量、尺寸等等,选择订购500分,任务最终停留在请求信用卡信息上。
做PPT,也是一个很典型的Agent式任务。
OpenAI团队演示了让Agent从Google云中提取分析评估数据并制作成PPT,直接用图表展示结果。Agent链接Google云API进行搜索,并读取相关内容信息,然后使用图像生成功能,在生成一次PPT后,Agent进行了一次优化,生成了一张视觉上更流畅的PPT。
奥特曼想做Agent不是一天两天了。
其实OpenAI早就公布过自己的“五级路线图”,一级Chatbots(聊天机器人)、二级Reasoners(推理者)、三级Agents(代理)、四级Innovators(创新者)、五级Orgnazations(组织者)。
Agents作为第三级是整个AI进化路径中,让AI从工具属性跃升到创新属性中必经的一环。
只不过奥特曼不是第一个发出Agent产品的。
今年3月,Manus推出通用Agent产品,当时一夜之间大家全都在“万能的朋友圈”求测试账号,一个账号甚至最高炒到了一百万。
Manus借势Agent东风更快速推出产品的很大一部分原因是他们没有自研大模型,而是用Claude等底层基础大模型来实现产品功能,并将各类功能组合封装,当时业内也称Manus是一款“套壳”产品。
Manus之外,MiniMax、Kimi、PerplexityAI都更先发布了通用Agent形态的产品。
所以说,OpenAI这把推出Agent其实是缺乏了先发优势的,从ChatGPT到Agent,OpenAI在行业中的位置也从“抢先跑”到了“赶班车”。
除了时间压力,OpenAI还不能忽视两方面的竞争压力——生态竞争、成本竞争。
一直以来重闭源的OpenAI在今年接连受到来自各类竞品的打击。比如Deepseek,训练成本是自己的二十分之一,性能表现却跟自己产品差不多,本来靠闭源API商业化做到全球第一的OpenAI眼看着英伟达、英特尔、亚马逊、微软、AMD等等科技大厂全部接入DeepSeek,这让奥特曼都直接公开反思“闭源策略可能是个失误”。
成本优势势必会带来生态优势,这样的商业规律并不会在AI市场上失效。
而即使OpenAI在产品上保持优势,那些“差不多,但便宜很多”的竞争对手的集体围剿也会让他体会“被瓜分”的痛——这一点,奥特曼可以和一直阴阳他的马斯克谈谈心。
要我说,人类对Agent的开发不足1%。
Agent的出现和成熟可以完全颠覆一代人。就像互联网的出现对90后的影响,AI的出现将会影响整个阿尔法世代。
从商业化的角度来看,目前大家对Agent最多的讨论就是场景化的难度。因为达到了可以“行动”的Agent势必涉及到跨应用的调用,比如在上述贴纸订购的演示里,网购平台的调用权限就必不可少。
但在我看来,这就像当时我们无法想象淘宝怎么说服店家上线一样,AI时代应用的互通只是时间问题。
作为在这种大势之下的用户,我们其实更应该思考的是Agent对我们,以及后代在生活方式的转变——
设想一下,七八岁的孩子们从校门涌出,下午四点父母们还在工作,门口接孩子们的不是**奶奶,也是接入了Agent的机器人,Agent是妈妈们训练出来的,到了家,Agent早就打开了空调,房间的温度正好。等到快要七点的时候,Agent开始指挥炒菜机器人做饭,等着下班的爸爸妈妈。
再设想一下,一个对星座塔罗感兴趣的上班族想要搞个占星副业,Agent直接搜集各种语言的占星资料翻译成中文,提取摘要做成报告,顺便指定一份学习计划。然后开始搜集文案引流灵感、做成海报发布在社交账号帮忙揽客。
再看OpenAI的“五级路线图”,Agent不仅是AI从思考到行动的拐点,更是AI从被动到主动的拐点,当AI从工具化逐渐拟人化,人类的命运也将彻底改写。
内文插图均来自OpenAI
封面图来源:Unsplash
本文来自微信公众号“果壳”(ID:Guokr42),作者:沙拉酱,经授权发布。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之
新品榜/热门榜