首页 > AI教程资讯 >全网苦等GPT-5,超级对齐团队遗作成重要线索,奥特曼发话「惊喜很多」

全网苦等GPT-5,超级对齐团队遗作成重要线索,奥特曼发话「惊喜很多」

2025-08-0402ai门户网

最近整个AI圈的目光似乎都集中在GPT-5上,相关爆料满天飞,但模型迟迟不见踪影。

我们报道了TheInformation扒出的GPT-5长文内幕,奥特曼似乎也坐不住,发了推文表示「惊喜很多,值得等待」。

那么,在等待的过程中,我们来看看这次GPT-5的「疑似王牌」之一:通用验证器(universalverifier)。

据知情人士透露,OpenAI一直在开发一种研究人员称之为「通用验证器」的东西,这个东西可能是GPT-5中用到的重要技术。

这个概念源于OpenAI去年发表的一篇论文。它解决的问题是:当LLM仅优化答案正确性时,其推理过程(如Chain-of-Thought)变得难以被人类或小型模型理解和验证,导致「可解释性」下降。但在高风险应用中,用户需要能快速、准确判断模型输出是否正确,而不仅是输出答案本身。

为此,该论文提出了一套已准备好投入生产的技术管线,其核心在于:让一个「验证者」小模型来为「证明者」大模型的推理链打分,并将其作为奖励信号反馈给大模型进行策略更新。

论文标题:Prover-VerifierGamesimprovelegibilityofLLMoutputs

论文地址:https://arxiv.org/pdf/2407.13692

论文明确指出,这个验证者模型足够小,可以进行大规模部署,并且是「为未来的GPT部署而设计」的。

你可以把它想象成一个模型里住着两个「人格」,它们在进行一场持续的「左右脑互搏」游戏:

「证明者」人格(Prover):它扮演着一个积极解决问题的角色。在完成一道题后,它会尽力生成详细的推理过程,以说服那个轻量级的「验证者」网络,证明自己的答案是正确且可靠的。

「欺骗者」人格(SneakyPersona):它会故意在推理中植入错误的结论,但表面上依然会伪装得逻辑严密,目标是试图骗过同一个「验证者」。

听起来是不是很像GAN(生成对抗网络)?

通过让大模型在这两个角色之间不断交替,它既能学会写出逻辑更严谨、更难被伪造的解决方案,同时,那个小规模的「验证者」模型在反复的「欺骗」与「验证」中,其识别错误、标记漏洞的能力也变得越来越敏锐。这样做的好处在于,即使未来模型远超人类能力,只要其输出能被「较弱但可信」的模型验证,就能保持人类对其的控制与信任。

论文提出的训练方法能让模型逐渐学会产生清晰且结构良好的答案。

去年8月《连线》杂志的一篇文章披露,OpenAI在微调GPT-4的代码助手时,就已经用基于模型的「批评家」在部分场景替代了人类反馈。

文章特别指出,该系统「将被整合到未来主流模型的RLHF(基于人类反馈的强化学习)流程中」。

有人评论说,「证明者-验证者」训练方法不仅仅是一个小优化,它可能代表了AI发展的下一个时代。我们正在从一个依赖海量数据、靠「堆料」来提升性能的「scaling时代」,转向一个通过设计更智能的内部学习机制、让AI自我完善和进化的「架构突破」时代。这或许是我们突破当前数据瓶颈、实现更高级别通用人工智能的关键路径。

值得一提的是,这篇论文来自OpenAI的超级对齐团队。在论文发布时,团队就已经分崩离析。去年,机器之心详细报道过这篇论文,感兴趣的读者可以重温一下。

论文之外,GPT-5模型也有了一些新消息。

今天一大早,某博主发现Perplexity有漏洞访问GPT-5,并且有GPT-5和5Pro两个版本,限时4小时。

他展示了自己用GPT-5生成的小黄人,动态效果看起来很丝滑。

他还做了一个类似Doom(FPS游戏)的游戏片段,看起来也非常还原。

网友纷纷表示「震惊」,认为这可能是AI生成的「新时代」。

无论如何,大家对GPT-5的期待已经拉满了!

你觉得GPT-5会是个什么样子?

参考链接:

https://x.com/rohanpaul_ai/status/1951400750187209181

https://x.com/chetaslua/status/1951758235272401030

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:机器之心,经授权发布。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之

9027
785

同类推荐更多

12 款免费AI内容文本检测工具推荐

12 款免费AI内容文本检测工具推荐

最火的AI教程资讯

2024-12-11

随着AI写作工具的快速普及,人工智能生成文本内容已经十分常见。AI内容检测工具可以快速识别文本内容是否由AI生成,检测识别抄袭内容,确保内容原创性。对此,神器集精选了 12 个免费准确的AI内容检测工