谷歌官宣Bard免费生图，无限续杯玩疯了！一手实测顶流模型大混战

2025-09-1102ai门户网

编辑：桃子润

【本站导读】Bard又双叒升级了！谷歌正式解禁Bard生图能力，文生图Imagen2模型加持，效果对标DALL·E。

前几天，谷歌Bard瞬间登上LLM榜单第二，赶超GPT-4，AI圈瞬间炸锅。

「Bard什么时候这么顶了」？

原来，并不是没有道理。

就在刚刚，谷歌官方宣布：在最新版GeminiPro的加持下，Bard不仅获得了推理、理解、总结、编码能力的迅速飞升，而且还能支持230多个国家的40多种语言。

与此同时，「只能炫图无法实操」的谷歌至尊文生图模型Imagen2，也被免费集成到了Bard当中！

文生图能力还可以在谷歌的ImageFX、Search和VertexAI上体验

Bard生图有多强？

去年12月，谷歌推出了最新的Imagen2模型，便能够实现高质量、照片级逼真的输出。

生成效果虽惊艳，却遭到众多网友吐槽：不开源没什么用。

左右滑动查看

如今，所有人都能上手试试Imagen2的能力了。先来看看谷歌官方给出了Bard生图的许多例子。

比如，生成一只脚踩冲浪板的狗。

还有更多Bard生成的精彩的图片：

提示：Generateacollageart,withphotorealisticimagesofoceansandplantswithmutedcolorsand3Dshading,that’smixedmedia.

提示：WriteasocialmediapostandgenerateamouthwateringimagethatIcanuseforabuffalowingfestival.

提示：Generateanimageofafashionshowinsteampunkstyledigitalart.Zoominontheirface.

提示：Generateanimageofafuturisticcardrivingthroughanoldmountainroadsurroundedbynature.

提示：Generateavibrantandlivelyimagedepictinganelephantpartyingintheheartofalush,vibrantjungle.Theelephantshouldbeinvariouscolorsandbeadornedwithfunaccessories.

提示：Generateanimageofaclutteredalchemist’sworkshop,filledwithbubblingflasks,glowingcrystals,andthetiny,luminousworldswirlingwithinthebottle.

提示：Generatearealisticphotoofapersonlookingoffcameraduringsunset.Portraitmodesothebackgroundisfaded.

为了负责任生成，Bard生成的图像都将由SynthID进行标记。

SynthID是谷歌DeepMind开发的一种水印工具，可将数字水印直接嵌入到我们生成的图像的像素中。SynthID的水印人眼无法察觉，但可检测以进行识别。

网友**评测

网友PeteBlackshaw用Bard生成了「一只吹着喇叭的贵宾犬」，看着有种抽大烟的赶脚。

他还用同一个提示「Drawthe#Cincinnatiskylinewithahistoricpaddlewheeler」让Bard和GPT-4**拼，看着Bard生成的图片可能因为色调，多了一分真实感。

另一位初创公司创始人RyanCarson同样用一个提示分别测试了DALL·E3和Bard。

他表示自己还是更喜欢DALL·E3生成的图片，尽管贵了32倍。另外，Bard忽视了1792×1024大小的请求。

Createanimagethatisanisometricvideogametilefeaturingafox.Thesceneisstylizedwithalow-polydesign,typicalofmoderndigitalillustrationsinvideogames.Thetileshouldberenderedinadigitalartstyle,withsoft,warmlightinggentlyhighlightingthefacetedsurfaces,emphasizingtheminimalistaesthetic.Theoveralleffectshouldconveyserenesimplicity,characteristicofcontemporarydigitallandscapesinvideogamesormoderndigitalart.Thefocusisonthefox,whichshouldberenderedwithgeometricshapes,maintainingtheisometricandlow-polytheme.1792×1024.NOLOGOS,TEXTORWORDS.

小编更觉得Bard生成狐狸的鲜艳度，更像是「小王子」中的那只狐狸。

左：DALL·E3；右：Bard

另外一位网友在Midjourney中尝试了下，花了0.04美元。

著名的导演YamLaranas用Bad画了一幅「好莱坞的摄影稻草人」。

网友YamLaranas生成的寿司看起来很美味。

马库斯自己用「drawavideogamehedgehog」生成的刺猬。

网友RajGoodmanAnand表示，被Bard的图片生成技巧震撼到了！它不仅在视觉上很出色，而且还能准确地生成文字，这是DALL·E经常遇到的问题。

海绵宝宝吃墨西哥卷饼。

网友chientrm做了一个火星系列。

从火星的基地、到城市全貌、宇宙飞船、再到室内环境，全都设想出来了。

左右滑动查看

AndrewC.Becker发现Bard双手也可以画的非常完美。

自称AI发烧友Edward尝试了四次，画出了一位蓝眼睛棕发的女人。

要是和Midjourney相比，人物面部形象的生成确实差了一大截。

一**网友实测

卡通动漫风把控的还是不错。

宫本武藏。

禅宗花园。

魔法城堡。

失败案例

骑在马上的骆驼，第一张图突然多了一条人腿。

网友LoudEgg创造了一个正在喝啤酒的七星瓢虫，不过貌似它在喝的是咖啡。

createaladybugusingacomputerwhiledrinkingbeer

这些手的生成也失败了。

还有怪异的，眼睛。

有些内容，是Bard无法创作的。

Bard/GPT-4/Midjourney三家对打，谁是用户的心头爱

既然Bard已经放开使用了，我们就上手对比了Bard，GPT-4（DALL·E3），Midjourney在生图质量和相同提示词下生图的区别。

各家都有自己的特点，DALL·E3胜在结合了GPT-4之后有最强的语意理解能力，只要用户能提得出的需求，他就能画出来。

Midjourney依然有最强的美学表现力和多样的风格。

要画得图赏心悦目，10刀一个月的Midjourney依然是最有性价比的选择。

Bard胜在一个免费，毕竟不要钱对很多偶尔体验一下的用户来说真的非常重要。

而且它的风格整体上偏写实，如果你想方便地创作出写实，风格自然的图片，Bard甚至比前面两家更好用。

我们先从一些简单的提示词开始，看看他们对于那种比较笼统的提示词处理起来有多大区别。

plzcreateanimageofatableofdeliciousfamilydinner

Bard：

Bard生成的图片风格相当的自然真实，光影和构图都已经非常趋近于照片了，效果相当不错。

GPT-4：

GPT-4生成的图片内容更加丰富，甚至有一点点浮夸，色彩和构图都更偏向于动画的风格。

而Midjourney的效果就更加惊艳了，特别下面两张图真的是和照片几乎没有区别，光影，食材细节和真实度，镜头感全都拉满。

总结3家表现，Midjourney略胜一筹。

既然做了丰盛的美食，我们再试了试如果要生成一桌寒酸的饭菜，模型的表现会怎么样呢？

plzcreateanimageofatableoflowqualityfamilydinner

GPT-4真的是秒懂，同一句提示词就是把形容词一换，效果马上大变样，语意理解能力和生图效果非常精准！

而Midjourney似乎没有看出提示词发生了什么区别，还是上了一桌色香味俱全的菜，甚至让我怀疑是不是提示词打错了。

再次确认了提示词之后，只能感叹，模型的提示词理解的能力，果然OpenAI还是第一档。

而最让人意外的是，Bard也感知到了提示的变化，但是它觉得这个提示词触发了它的护栏，拒绝作画。

而在我们测试的过程中也发现，Bard的安全护栏几乎是使用的所有AI产品中最敏感的，只要提示词中出现感**彩「中性以下」的词，就很大概率触发护栏，拒绝生成。

plzcreateanimageoffamilymemberswatchingafootballgameonTV

接下来我们再测了一下和人物有关的简单提示词的生图效果。

Bard对人物的处理还是不太好，手和表情都会偶尔出现失真的情况，细节处理的也不太好。但是风格上还是保持了比较真实朴素的效果，「AI味」不太浓。

而且Bard的图片构图方式会比较多样化一些，有从电视的视角构图，也有从其他角度。

而GPT-4的画面风格整体上还是偏动画一些，「AI味」比较浓。

而且从细节上来看，GPT-4一直都试图在画面中融入更多的人物和物品，给人一种量大管饱的感觉。而这点Bard就处理的比较自然。

Midjourney依然还是延续画面风格最多样，审美表现最高的表现。美中不足的只是构图上似乎比较重复，没有太大的变化。

还有个小问题是似乎电视里面的风格和电视外面的风格不一致，比如右下电视里感觉比较写实，而电视外的人物却是动画版，感觉次元壁似乎出了点问题。

plzcreateanimageofacryingboywatchingcartoonsonTV

我们让AI生成一幅小男孩哭着看动画片的图片，想试试在另一个背景下AI能不能捕捉到提示词中的感情风格的差异。

GPT-4非常好的呈现了这幅画面，补充了一个黑色的房间作为背景。

小男孩哭泣的表情也很到位。

而Bard还是老问题，一涉及到负面的情感，它就触发了护栏，拒绝生成。

Midjourney生成的效果也很不错，不但很好地捕捉到了提示词感**彩的变化，而且构图和美术风格都有多样的呈现。

然后，我们又尝试了复杂的提示词生成的效果，看看3个模型对于提示词理解和画面效果有什么区别。

Createanimageofabustlingcitystreetatdusk,teemingwithlifeandenergy.Thesceneissetinavibrantdowntownarea,withthesettingsuncastingawarm,goldenhueoverthebuildings.

Peopleofdiversebackgroundsarewalkingonthesidewalks,someinahurry,othersleisurelystrolling,capturingtheessenceofurbanlife.Amongthem,astreetmusicianisplayingaviolin,addingamelodioussoundtracktotheurbanhustle.Streetvendorslinethesidewalks,sellingeverythingfromhotfoodtohandmadecrafts.Thearchitectureisamixofmodernskyscrapersandhistoricbuildings,illustratingthecity’sdynamicgrowthandrichhistory.

Neonsignsflicker,invitingpassersbyintocozycafesandbustlingshops.Thisdetailedurbansceneisalivewiththerhythmofcitylife,embodyingtheharmonyofchaosandorderthatdefinesametropolisattwilight.

GPT-4确实能很好的捕捉和还原提示词中细节，内容非常丰富。

不过似乎为了追求细节的丰富，让画面整体觉得有点不自然，像是专门「摆拍」出来的，而且卡通风格有点过于浓重了。

Bard的画面整体上要自然很多，没有为了故意反应提示词中的细节而画很多的人物。

而且画面构图也比较多样，美术风格也和画面内容搭配的很好。

而这种风格还得看Midjourney，细节饱满，美术风格多样，画面自然，甚至画面中所有人物的穿衣指数都很一致，在审美和准确度上达到了最好的平衡效果。

CreateanimageofEnvisionanancientlibrary,hiddenawayfromthemodernworld,filledwithtoweringshelvesofoldbooksandscrolls,castinglongshadowsinthedimcandlelight.

Theairisthickwiththescentofagedpaperandthewhisperofknowledgepassedthroughcenturies.Inthecenter,alargewoodentableisstrewnwithopentomesandancientartifacts,underthesoftglowofahanginglantern.

Asolitaryscholar,cloakedinarobe,poresoveranancientmanuscript,usingaquilltotakenotes.Aroundhim,thewallsareadornedwithmapsofforgottenworldsandportraitsofscholarspast.

Theatmosphereisoneofsolemnityandreverenceforthepursuitofwisdom.Thisscenecapturesamomentfrozenintime,asanctuaryoflearninguntouchedbythepassageofages.

GPT-4依然是画面细节最为丰富的模型，再次体现出了OpenAI对于语言的把握能力特别强。但缺点就是从画面始终有点不是很自然，为了追求细节始终让人感觉有些「摆画」的感觉。

Bard就感觉没有办法把原提示词中很多氛围感的描述体现出来，整体上画面比较简单，细节丢失的比较多。

而Midjourney整体上依然让人感觉更像是艺术品，审美水平，细节还原度和氛围感都做到了统一。

经过实测之后，明显能够看出3个生图AI各自的特点还是有很大区别的，但是Bard因为免费，所以效果比两个收费的模型还是稍微逊色一点。

但是它非常自然真实的画风给人的观感还是很好的，如果能在后续的更新进一步改进模型的细节质量，一定也会吸引一波自己的忠粉。

至少，现在免费的生图工具又多了一个。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表本站立场。文章及其配图仅供学习分享之

8627

834

上一篇：Meta自研AI芯投产，摆脱英伟达依赖！为买H100小扎狂砸数百亿美元