2025-08-1002ai门户网
编辑:桃子英智
【本站导读】刚刚,Gemini2.5Pro编程登顶,6美元性价比碾压Claude3.7Sonnet。不仅如此,谷歌还暗藏着更强的编程模型Dragontail,这次是要彻底翻盘了。
谷歌,彻底打了一场漂亮的翻身仗。
aider多语言编程基准测试显示,Gemini2.5Pro近出世半个多月,编程能力已经是全球第一,口碑一众超越Claude3.7Sonnet。
不仅如此,除了DeepSeek,它的性价比也是最优的,成本低至6美金。
为了强调Gemini2.5Pro成本优势,JeffDean还附上了超详细TOP10模型的成本图。
他骄傲地表示,「有些性能不怎么样的模型,还要比Gemini2.5贵上2倍、3倍,甚至是30倍」。
原本,以强大编程能力著称的Claude,成为广大开发者的主战场。如今有了Gemini2.5,AI编程将会上演一场史上最大的「迁徙」。
更令人欣喜的是,Gemini2.5Pro还不是编程最强的那个。
这几天,竞技场上,突然现身多款据称是谷歌开发的模型,包括Nightwhisper、Dragontail等,编程能力让人惊艳。
网友实测发现,毫不夸张地说,Dragontail编程能力足以摧毁Gemini2.5Pro。
虽不知这款模型具体何时面世,但显然谷歌还有很多惊喜在等着我们。另一边,奥特曼也在今日凌晨,下达战书——
传说中的GPT-4.1、满血版o3、o4-mini大概率会发布
预计本周,AI圈又将是一场恶战。
Gemini2.5Pro编程霸榜,性价比最优
3月25日官宣,Gemini2.5Pro半个多月里,各种精彩实测让其在全网的热度一直居高不下。
最新aider基准测试,又为这款模型添上了一把火。官方接续JeffDean的图,做了一张更加直观可视化的表。
AiderPolyglot基准测试是评估AI模型在多语言编程能力上的重要指标,涉及C++、Go、Java、JavaScript、Python和Rust等多种编程语言。
看得出,o1是十款模型中,最贵的那个(186.5美元),其次是Claude3.7Sonnet(32kthinkingtoken)成本为36.83美元。
再之后,就是o3-mini、Claude3.7Sonnet(nothinking)、DeepSeekR1+Claude3.5Sonnet。
这些模型成本高不说,多语言编程能力还不如Gemini2.5Pro。
而且,谷歌第七代TPU也在发挥最大的效用了,能够加速Gemini2.5Protoken的处理速度。
在网友实测的demo中,Gemini2.5Pro在单次编程提示中,表现非常出色——创建一个随着音律跃动的3D星球。
谷歌产品负责人LoganKilpatrick忍不住美言了几句,「想要找到这样既前沿,又具性价比的模型,真的太难了。Gemini2.5Pro真的是特别的那一款」。
一直以来,Anthropic没有解决Claude速率限制问题,还推出了每月200美金付费计划,在开发者心中大打折扣。
谷歌Gemini2.5Pro凭借卓越的多语言编程能力,和超高的性价比,再次证明了谷歌在AI领域的深厚实力。
谷歌在AI领域全面获胜
如今看来,在这场AI激烈竞赛中,能全面Scaling的科技大厂,唯有谷歌了。
Gemini2.5ProExperimental是全球最优秀的AI模型,OpenAI和Anthropic目前都毫无胜算。
它在LMArena、GPQADiamond、人类终极测试以及AIME等多项权威测评中,均排名第一。
在AiderPolyglot、LiveBench等非公开基准测试里也名列前茅。
在《宝可梦》游戏测试中,它的表现优于ClaudeSonnet。此外,它在创意写作方面也有不错的表现,尤其是长文本理解能力。
更重要的是,Gemini2.5ProExperimental的基准测试成绩,与实际使用体验、专业测评反馈高度吻合。
大量用户反馈,Gemini2.5ProExperimental确实是当下最强的AI模型。
这种情况在竞争激烈的AI行业实属罕见。
此外,它速度快、成本低,谷歌甚至为用户提供免费使用权限。
它的上下文窗口多达100万个token,并与谷歌庞大的产品生态紧密相连。
即将发布的Gemini2.5Flash是Gemini2.5Pro的「姊妹版本」,同样表现出色。
它运行速度极快且成本极低,比竞争对手的同类模型便宜得多。
Gemini2.5Flash非常适合应用于边缘计算场景,也便于集成到手机设备中。
Gemma3是谷歌推出的开源模型,在性能上能与Llama4、DeepSeek-V3等顶尖开源模型相媲美。
在性能和成本这两个关键指标上,谷歌的Gemini2.0/2.5系列(包括Pro和Flash版本)占据着Pareto最优前沿。
这意味着谷歌性能最强的模型,成本控制得也很好;性价比最高的模型,性能同样出色。
这使其成为预算有限的开发者、企业和初创公司的理想选择。
在其他生成式AI领域,谷歌同样占据着主导地位。
谷歌宣布,将把旗下的Lyria、Imagen3、Veo2和Chirp3等AI工具整合到VertexAI平台。它们在各自领域都是世界一流水平。
在智能体领域,开启深度研究模式的Gemini2.5Pro,表现比OpenAI的深度研究功能强一倍。
Gemini与OpenAI深度研究功能的对比
彩蛋:Dragontail
近期,网上流传着一款谷歌尚未正式发布的模型,代号「Dragontail」。
据称其在Web开发领域表现惊艳,甚至超越了旗舰模型Gemini2.5Pro。
Dragontail最早出现在WebDevArena(https://web.lmarena.ai/)的测试环境中。
经开发者测试发现,在生成复杂用户界面、多页面网站和交互式应用方面,其展现出的能力远超其他模型。
尽管谷歌尚未官方确认Dragontail,它在某些测试中自称是「由谷歌训练的LLM」,这与Gemini2.5Pro的回应一致。
人们猜测它可能是谷歌内部开发的下一代模型,或者Gemini系列的升级版本。
Dragontail的实力究竟如何?根据测试者的反馈,这款模型在WebDev任务中的表现堪称碾压。
Dragontail在以下几个方面展现了绝对优势:
卓越的UI设计
Dragontail生成的UI元素,不仅功能完善,在布局、配色和交互性上也极具美感。
比如,当要求生成一个带有复杂导航功能的零售网站时,Dragontail能输出整洁的代码,里面包含动态加载的商品列表、响应式设计,页面切换效果也很流畅。
相比之下,即使是当前WebDev排行榜上表现出色的Gemini2.5ProExperimental,在细节处理上还是差了一点,偶尔会出现布局不够直观,或交互不够顺畅的问题。
功能实现的完整性
Dragontail生成的Web应用,功能实现上几乎没有瑕疵。
从前端的JavaScript逻辑,到后端的API集成,它都能给出生产级别的代码。
比如,开发者要求生成一个带有实时数据更新的仪表盘,Dragontail不仅完成了前端可视化,还自动生成了后端模拟数据接口。
Gemini2.5Pro在做类似任务时,往往需要额外的提示才能把逻辑补全。
代码质量与优化
Dragontail的代码风格规范,遵循现代Web开发的最佳实践。
它生成的React或Vue组件结构清晰,状态管理井井有条,还包含了错误处理和性能优化。
相比之下,Gemini2.5Pro虽然也能生成高质量代码,但在复杂项目中,偶尔会出现冗余代码,或者不必要的复杂逻辑。
测试者一致认为,Dragontail在视觉效果、功能完整性和用户体验方面全面领先。
让人怀疑,Dragontail是否代表了谷歌在Web开发AI领域的全新突破。
(注:基于WebDevArena测试数据、开发者反馈及社交平台X上的讨论,部分信息尚未得到谷歌官方证实,具体细节以未来发布为准。)
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之
新品榜/热门榜