首页 > AI教程资讯 >谷歌官宣Bard免费生图,无限续杯玩疯了!一手实测顶流模型大混战

谷歌官宣Bard免费生图,无限续杯玩疯了!一手实测顶流模型大混战

2025-09-1102ai门户网

编辑:桃子润

【本站导读】Bard又双叒升级了!谷歌正式解禁Bard生图能力,文生图Imagen2模型加持,效果对标DALL·E。

前几天,谷歌Bard瞬间登上LLM榜单第二,赶超GPT-4,AI圈瞬间炸锅。

「Bard什么时候这么顶了」?

原来,并不是没有道理。

就在刚刚,谷歌官方宣布:在最新版GeminiPro的加持下,Bard不仅获得了推理、理解、总结、编码能力的迅速飞升,而且还能支持230多个国家的40多种语言。

与此同时,「只能炫图无法实操」的谷歌至尊文生图模型Imagen2,也被免费集成到了Bard当中!

文生图能力还可以在谷歌的ImageFX、Search和VertexAI上体验

Bard生图有多强?

去年12月,谷歌推出了最新的Imagen2模型,便能够实现高质量、照片级逼真的输出。

生成效果虽惊艳,却遭到众多网友吐槽:不开源没什么用。

左右滑动查看

如今,所有人都能上手试试Imagen2的能力了。先来看看谷歌官方给出了Bard生图的许多例子。

比如,生成一只脚踩冲浪板的狗。

还有更多Bard生成的精彩的图片:

提示:Generateacollageart,withphotorealisticimagesofoceansandplantswithmutedcolorsand3Dshading,that’smixedmedia.

提示:WriteasocialmediapostandgenerateamouthwateringimagethatIcanuseforabuffalowingfestival.

提示:Generateanimageofafashionshowinsteampunkstyledigitalart.Zoominontheirface.

提示:Generateanimageofafuturisticcardrivingthroughanoldmountainroadsurroundedbynature.

提示:Generateavibrantandlivelyimagedepictinganelephantpartyingintheheartofalush,vibrantjungle.Theelephantshouldbeinvariouscolorsandbeadornedwithfunaccessories.

提示:Generateanimageofaclutteredalchemist’sworkshop,filledwithbubblingflasks,glowingcrystals,andthetiny,luminousworldswirlingwithinthebottle.

提示:Generatearealisticphotoofapersonlookingoffcameraduringsunset.Portraitmodesothebackgroundisfaded.

为了负责任生成,Bard生成的图像都将由SynthID进行标记。

SynthID是谷歌DeepMind开发的一种水印工具,可将数字水印直接嵌入到我们生成的图像的像素中。SynthID的水印人眼无法察觉,但可检测以进行识别。

网友**评测

网友PeteBlackshaw用Bard生成了「一只吹着喇叭的贵宾犬」,看着有种抽大烟的赶脚。

他还用同一个提示「Drawthe#Cincinnatiskylinewithahistoricpaddlewheeler」让Bard和GPT-4**拼,看着Bard生成的图片可能因为色调,多了一分真实感。

另一位初创公司创始人RyanCarson同样用一个提示分别测试了DALL·E3和Bard。

他表示自己还是更喜欢DALL·E3生成的图片,尽管贵了32倍。另外,Bard忽视了1792×1024大小的请求。

Createanimagethatisanisometricvideogametilefeaturingafox.Thesceneisstylizedwithalow-polydesign,typicalofmoderndigitalillustrationsinvideogames.Thetileshouldberenderedinadigitalartstyle,withsoft,warmlightinggentlyhighlightingthefacetedsurfaces,emphasizingtheminimalistaesthetic.Theoveralleffectshouldconveyserenesimplicity,characteristicofcontemporarydigitallandscapesinvideogamesormoderndigitalart.Thefocusisonthefox,whichshouldberenderedwithgeometricshapes,maintainingtheisometricandlow-polytheme.1792×1024.NOLOGOS,TEXTORWORDS.

小编更觉得Bard生成狐狸的鲜艳度,更像是「小王子」中的那只狐狸。

左:DALL·E3;右:Bard

另外一位网友在Midjourney中尝试了下,花了0.04美元。

著名的导演YamLaranas用Bad画了一幅「好莱坞的摄影稻草人」。

网友YamLaranas生成的寿司看起来很美味。

马库斯自己用「drawavideogamehedgehog」生成的刺猬。

网友RajGoodmanAnand表示,被Bard的图片生成技巧震撼到了!它不仅在视觉上很出色,而且还能准确地生成文字,这是DALL·E经常遇到的问题。

海绵宝宝吃墨西哥卷饼。

网友chientrm做了一个火星系列。

从火星的基地、到城市全貌、宇宙飞船、再到室内环境,全都设想出来了。

左右滑动查看

AndrewC.Becker发现Bard双手也可以画的非常完美。

自称AI发烧友Edward尝试了四次,画出了一位蓝眼睛棕发的女人。

要是和Midjourney相比,人物面部形象的生成确实差了一大截。

一**网友实测

卡通动漫风把控的还是不错。

宫本武藏。

禅宗花园。

魔法城堡。

失败案例

骑在马上的骆驼,第一张图突然多了一条人腿。

网友LoudEgg创造了一个正在喝啤酒的七星瓢虫,不过貌似它在喝的是咖啡。

createaladybugusingacomputerwhiledrinkingbeer

这些手的生成也失败了。

还有怪异的,眼睛。

有些内容,是Bard无法创作的。

Bard/GPT-4/Midjourney三家对打,谁是用户的心头爱

既然Bard已经放开使用了,我们就上手对比了Bard,GPT-4(DALL·E3),Midjourney在生图质量和相同提示词下生图的区别。

各家都有自己的特点,DALL·E3胜在结合了GPT-4之后有最强的语意理解能力,只要用户能提得出的需求,他就能画出来。

Midjourney依然有最强的美学表现力和多样的风格。

要画得图赏心悦目,10刀一个月的Midjourney依然是最有性价比的选择。

Bard胜在一个免费,毕竟不要钱对很多偶尔体验一下的用户来说真的非常重要。

而且它的风格整体上偏写实,如果你想方便地创作出写实,风格自然的图片,Bard甚至比前面两家更好用。

我们先从一些简单的提示词开始,看看他们对于那种比较笼统的提示词处理起来有多大区别。

plzcreateanimageofatableofdeliciousfamilydinner

Bard:

Bard生成的图片风格相当的自然真实,光影和构图都已经非常趋近于照片了,效果相当不错。

GPT-4:

GPT-4生成的图片内容更加丰富,甚至有一点点浮夸,色彩和构图都更偏向于动画的风格。

而Midjourney的效果就更加惊艳了,特别下面两张图真的是和照片几乎没有区别,光影,食材细节和真实度,镜头感全都拉满。

总结3家表现,Midjourney略胜一筹。

既然做了丰盛的美食,我们再试了试如果要生成一桌寒酸的饭菜,模型的表现会怎么样呢?

plzcreateanimageofatableoflowqualityfamilydinner

GPT-4真的是秒懂,同一句提示词就是把形容词一换,效果马上大变样,语意理解能力和生图效果非常精准!

而Midjourney似乎没有看出提示词发生了什么区别,还是上了一桌色香味俱全的菜,甚至让我怀疑是不是提示词打错了。

再次确认了提示词之后,只能感叹,模型的提示词理解的能力,果然OpenAI还是第一档。

而最让人意外的是,Bard也感知到了提示的变化,但是它觉得这个提示词触发了它的护栏,拒绝作画。

而在我们测试的过程中也发现,Bard的安全护栏几乎是使用的所有AI产品中最敏感的,只要提示词中出现感**彩「中性以下」的词,就很大概率触发护栏,拒绝生成。

plzcreateanimageoffamilymemberswatchingafootballgameonTV

接下来我们再测了一下和人物有关的简单提示词的生图效果。

Bard对人物的处理还是不太好,手和表情都会偶尔出现失真的情况,细节处理的也不太好。但是风格上还是保持了比较真实朴素的效果,「AI味」不太浓。

而且Bard的图片构图方式会比较多样化一些,有从电视的视角构图,也有从其他角度。

而GPT-4的画面风格整体上还是偏动画一些,「AI味」比较浓。

而且从细节上来看,GPT-4一直都试图在画面中融入更多的人物和物品,给人一种量大管饱的感觉。而这点Bard就处理的比较自然。

Midjourney依然还是延续画面风格最多样,审美表现最高的表现。美中不足的只是构图上似乎比较重复,没有太大的变化。

还有个小问题是似乎电视里面的风格和电视外面的风格不一致,比如右下电视里感觉比较写实,而电视外的人物却是动画版,感觉次元壁似乎出了点问题。

plzcreateanimageofacryingboywatchingcartoonsonTV

我们让AI生成一幅小男孩哭着看动画片的图片,想试试在另一个背景下AI能不能捕捉到提示词中的感情风格的差异。

GPT-4非常好的呈现了这幅画面,补充了一个黑色的房间作为背景。

小男孩哭泣的表情也很到位。

而Bard还是老问题,一涉及到负面的情感,它就触发了护栏,拒绝生成。

Midjourney生成的效果也很不错,不但很好地捕捉到了提示词感**彩的变化,而且构图和美术风格都有多样的呈现。

然后,我们又尝试了复杂的提示词生成的效果,看看3个模型对于提示词理解和画面效果有什么区别。

Createanimageofabustlingcitystreetatdusk,teemingwithlifeandenergy.Thesceneissetinavibrantdowntownarea,withthesettingsuncastingawarm,goldenhueoverthebuildings.

Peopleofdiversebackgroundsarewalkingonthesidewalks,someinahurry,othersleisurelystrolling,capturingtheessenceofurbanlife.Amongthem,astreetmusicianisplayingaviolin,addingamelodioussoundtracktotheurbanhustle.Streetvendorslinethesidewalks,sellingeverythingfromhotfoodtohandmadecrafts.Thearchitectureisamixofmodernskyscrapersandhistoricbuildings,illustratingthecity’sdynamicgrowthandrichhistory.

Neonsignsflicker,invitingpassersbyintocozycafesandbustlingshops.Thisdetailedurbansceneisalivewiththerhythmofcitylife,embodyingtheharmonyofchaosandorderthatdefinesametropolisattwilight.

GPT-4确实能很好的捕捉和还原提示词中细节,内容非常丰富。

不过似乎为了追求细节的丰富,让画面整体觉得有点不自然,像是专门「摆拍」出来的,而且卡通风格有点过于浓重了。

Bard的画面整体上要自然很多,没有为了故意反应提示词中的细节而画很多的人物。

而且画面构图也比较多样,美术风格也和画面内容搭配的很好。

而这种风格还得看Midjourney,细节饱满,美术风格多样,画面自然,甚至画面中所有人物的穿衣指数都很一致,在审美和准确度上达到了最好的平衡效果。

CreateanimageofEnvisionanancientlibrary,hiddenawayfromthemodernworld,filledwithtoweringshelvesofoldbooksandscrolls,castinglongshadowsinthedimcandlelight.

Theairisthickwiththescentofagedpaperandthewhisperofknowledgepassedthroughcenturies.Inthecenter,alargewoodentableisstrewnwithopentomesandancientartifacts,underthesoftglowofahanginglantern.

Asolitaryscholar,cloakedinarobe,poresoveranancientmanuscript,usingaquilltotakenotes.Aroundhim,thewallsareadornedwithmapsofforgottenworldsandportraitsofscholarspast.

Theatmosphereisoneofsolemnityandreverenceforthepursuitofwisdom.Thisscenecapturesamomentfrozenintime,asanctuaryoflearninguntouchedbythepassageofages.

GPT-4依然是画面细节最为丰富的模型,再次体现出了OpenAI对于语言的把握能力特别强。但缺点就是从画面始终有点不是很自然,为了追求细节始终让人感觉有些「摆画」的感觉。

Bard就感觉没有办法把原提示词中很多氛围感的描述体现出来,整体上画面比较简单,细节丢失的比较多。

而Midjourney整体上依然让人感觉更像是艺术品,审美水平,细节还原度和氛围感都做到了统一。

经过实测之后,明显能够看出3个生图AI各自的特点还是有很大区别的,但是Bard因为免费,所以效果比两个收费的模型还是稍微逊色一点。

但是它非常自然真实的画风给人的观感还是很好的,如果能在后续的更新进一步改进模型的细节质量,一定也会吸引一波自己的忠粉。

至少,现在免费的生图工具又多了一个。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之

8627
834