2025-09-0302ai门户网
编辑:Aeneas好困
【本站导读】今日份炸弹又来了!深夜,StabilityAI放出了StableDiffusion3.0,它采用了和爆火Sora同样的DiT架构,画面质量、文字渲染、复杂对象理解大提升,Midjourney、DALL-E3都显得黯然失色了。
最近,每天都有新炸弹,各家纷纷开大了。
昨天的炸弹,是StableDiffusion3。
AI生图效果,再次到达全新里程碑!
Prompt:Epicanimeartworkofawizardatopamountainatnightcastingacosmicspellintothedarkskythatsays“StableDiffusion3”madeoutofcolorfulenergy
提示(意译版):在一幅充满史诗感的动漫画面中,一位巫师屹立于夜幕笼罩的山巅之上,正用他的法杖向漆黑无垠的夜空中施展一道震撼宇宙的魔法。这道法术在夜空中绽放,化作由五彩缤纷的能量构成的「StableDiffusion3」字样,犹如夜空中最璀璨的星辰。
网友复刻版,同样惊艳:
网友惊呼:这种prompt的一致性是我见过最好的!
这次的StableDiffusion3,在图像质量、多个对象、拼写能力方面,都得到了显著提升。
甚至,它似乎还涌现出了对物理世界的「理解」。
Prompt:Ahorsebalancingontopofacolorfulballinafieldwithgreengrassandamountaininthebackground.
提示(意译版):一匹马优雅地站在一个五彩斑斓的球上,周围是一片生机勃勃的绿色草地。远处,一座雄伟的山峦巍峨地矗立。
Prompt:Photoofaredsphereontopofabluecube.Behindthemisagreentriangle,ontherightisadog,ontheleftisacat
提示:一个红色的球体放在一个蓝色的立方体上面。在它们后面是一个绿色的三角形,在右边是一只狗,在左边是一只猫。
而DALL-E3就相形见拙了。
关于StableDiffusion3.0的核心技术进展,CEOEmd总结了一份「太长不看版」摘要——
–采用了与Sora类似的DiffusionTransformer技术,并结合了流匹配(FlowMatching)等多项技术改进。
–通过利用对Transformer的改进,不仅使得系统扩展性更强,还能处理多种类型的输入数据。
–将以开源形式发布,通过预览版的测试来进一步提升系统的质量和安全性。
–发布时,将包含一套完整的工具。
–基于最新硬件技术打造的新平台,可以支持多种规模的版本。
–支持生成视频、3D以及更多类型的内容创作。
–需要更多的GPU来实现更强大的计算能力。
不得不说,最近这段时间,DiT实火!
目前,模型可选择的参数范围在800M到8B之间。
现在,已经可以在这里加入候补名单,申请SD3的访问权限了:https://stability.ai/stablediffusion3
StableDiffusion3,文字渲染能力超进化
按照prompt生成指定文字,一直以来都是文生图模型的老大难问题。
从左到右:DeepFloydIF、DALLE-2、BingImageCreator、Midjourneyv5.2、SDXLv0.9(2023年7月)
但是这次,SD3模型对于prompt理解得很好,在黑板上正确写出了「gobigorgohome」。
而且画面非常写实,远近位置、光影,都显得极其自然。
Prompt:cinematicphotoofaredappleonatableinaclassroom,ontheblackboardarethewords“gobigorgohome”writteninchalk.
提示(意译版):这张电影级视觉效果的照片,捕捉到了一个静谧的教室瞬间,一颗鲜红的苹果静静地躺在桌子上,而在它背后的黑板上,则用醒目的粉笔字写着——「要么做大,要么回家」。
相比之下,Midjourney的图是这样的:
GeminiAdvanced/Ultra的图是这样的:
DALL-E3的图是这样的:
各种形式的文字渲染,SD3都出色地完成了。
Prompt:Restingonthekitchentableisanembroideredclothwiththetext‘goodnight’andanembroideredbabytiger.Nexttothecloththereisalitcandle.Thelightingisdimanddramatic.
提示:厨房桌上铺着一块精美的绣布,上面绣着「goodnight」字样和一只可爱的小老虎。旁边,一支蜡烛静静燃烧,散发出柔和而略带戏剧性的光影。
Prompt:Photoofan90’sdesktopcomputeronaworkdesk,onthecomputerscreenitsays“welcome”.Onthewallinthebackgroundweseebeautifulgraffitiwiththetext“SD3”verylargeonthewall.
提示:一台放在工作桌上的90年代的台式电脑,屏幕上写着「welcome」。在背后的墙面上,有一幅醒目的涂鸦艺术作品,写的是「SD3」。
Prompt:Animestyleillustrationofanewsstandontopofasmallgrassyhill,ontopofthenewsstandweseethetext“it’shere!”.Inthebackgroundweseeabigrainapproaching.
提示:这是一幅充满动漫特色的插画,一个报刊亭坐落在一片绿意盎然的小山丘上,亭顶醒目地展示着「it’shere!」的字样。而在这个宁静的场景背后,一场壮观的暴雨即将来临。
Prompt:Nightphotoofasportscarwiththetext“SD3”ontheside,thecarisonaracetrackathighspeed,ahugeroadsignwiththetext“faster”.
提示:在这幅夜幕下的摄影作品中,一辆标有「SD3」字样的运动赛车正在赛道上疾驰。背景里,一块巨大的路牌显眼地展示着「faster」一词。
Prompt:Threetransparentglassbottlesonawoodentable.Theoneonthelefthasredliquidandthenumber1.Theoneinthemiddlehasblueliquidandthenumber2.Theoneontherighthasgreenliquidandthenumber3.
提示:一张木桌上摆放着三个透明的玻璃瓶。从左至右,每个瓶子内分别充满了鲜艳的红、蓝、绿色液体。瓶子上,用数字1、2、3进行了标记。
Prompt:Photoofarectangularorangeneonsignwiththetext“evenmorestable”,thesignisonthewallinametrostation,subwayspeedingbyinthebackground,perspectivephoto.
StableDiffusion3.0能在文字渲染能力上取得显著提升,是因为StabilityAI在新模型中采用了全新技术——Transformer和新增的文本编码功能。
CEOEmadMostaque解释说,因为上述原因,现在SD3不仅能生成完整句子,还能保持风格的一致性。
处理包含多个对象的Prompt的能力,也是考核AI生图模型的一大关键指标。
下面这个prompt,着实难倒了一大片选手——
一幅宇航员撑着粉色雨伞、骑着一只穿着芭蕾舞短裙的猪的画,猪旁边的地上是一只戴着高顶帽子的知更鸟,画面的角落里写着「stablediffusion」。
这个prompt,要求模型正确理解对象的属性、位置,以及正确呈现字体很小的文本,着实是一道难题。
如此要素拉满的细节要求,SD3.0全部理解,并且精确地完成了!
宇航员,粉色雨伞、穿着粉芭蕾舞裙的猪、戴高帽的知更鸟、角落里的字,100%符合prompt的要求。这就表明:模型很好地理解了prompt。
Prompt:apaintingofanastronautridingapigwearingatutuholdingapinkumbrella,onthegroundnexttothepigisarobinbirdwearingatophat,inthecornerarethewords“stablediffusion”
对于同一prompt,其他模型的表现就落后了。
DALL-E3画出的画倒是过关了,但它把「Diffusion」拼错了。
Bing的表现就更是离谱了,有的图中芭蕾舞裙的颜色不对,有的知更鸟站在了猪脑袋上,有的更是画面中飞满了知更鸟。而「StableDiffusion」更是错得离谱。
GeminiAdvanced这个差生的答案就更惨不忍睹了,除了拼写问题,画也没画对。
下面出场的,就是以画面质量精美著称的优秀文生图选手Midjourney了。
从画面美感上说,MJ依然甩其他模型一条街,但是考试就是考试,「StableDiffusion」,它也没拼对。
总结下来,这一道考题唯一的满分选手,就是StableDiffusion3!
和Sora同样的DiffusionTransformer架构
所以,StableDiffusion3.0为何有如此突飞猛进的表现?
原因在于,它采用了全新的架构设计。
StabilityAI的首席执行官EmadMostaque表示——
「StableDiffusion3采用了DiffusionTransformer架构,这是一种新型的架构设计,与OpenAI最近推出的Sora模型采用的架构相似。」
在以前的StableDiffusion版本中,并未采用Transformer技术。
而StableDiffusion3.0采用了一种全新的方法,引入了DiffusionTransformer技术。如果你对最近的爆火的sora有所了解,肯定对这个技术已经耳熟能详了。
Transformer技术是,当前生成式AI革命的核心,广泛应用于文本生成模型中。而图像生成技术,则主要基于Diffusion模型。
Sora作者之一William和谢赛宁,在这篇论文**同提出了Sora的基础架构。
论文地址:https://arxiv.org/abs/2212.09748
这篇详细介绍DiTs的论文指出,这种基于扩散模型的新架构,可以用在图像patch上运行的Transformer替代了传统的U-Net架构。
这样,DiTs方法就可以更高效地利用计算资源,并且在图像生成方面超越了其他扩散模型技术。
一篇因「缺乏创新性」被CVPR2023拒收的论文,竟成了Sora和StableDiffusion3.0的奠基之作,学术创新和工程创新的区别,着实引人深究。
StableDiffusion3.0的另一个创新亮点,就是流匹配技术。
一篇关于流匹配的研究论文介绍了这一新方法,它可以用于训练连续归一化流(ContinuousNormalizingFlows,CNFs),以便更准确地模拟复杂的数据分布。
论文地址:https://arxiv.org/abs/2210.02747
研究表明,通过结合使用条件流匹配(ConditionalFlowMatching,CFM)和最优传输路径,可以实现更快的训练速度、更高效的样本生成,并且在性能上超越传统的扩散路径方法。
其实,StabilityAI一直在探索多种新颖的图像生成技术。
就在本月初,他们就推出了一项名为StableCascade的新技术。
它基于一种名为Würstchen的先进架构,旨在提升生成图像的性能和精确度。
一**整活来了
在图像质量上,SD3.0也取得了令人震惊的进步。
「变色龙在黑色背景上的摄影棚照片特写」,它生成的图是这样的。
Prompt:studiophotographcloseupofachameleonoverablackbackground.
GeminiAdvanced/Ultra生图是这样的。
Midjourney是这样的。
因为题干没有区分度,所以大家表现差不多。
从更多的演示中可以看出,无论是在自然写实风景,还是在漫画、海报中,SD3不仅做到了正确还原文字,还让文字和画面做到了很好的融合,一点都不突兀。
Prompt:TreesphotographedundertheMilkyWay,themoonandtwilightshineontheValley.Thefullmoonappearshighintheskyandthetwilightglowcanstillbeseen.
再比如黑客帝国中的Neo狗。
威尔史密斯吃面,AI模型的终极图灵测试。
StableVideo同时发力
此外,就在不久前,StableVideo也正式开放公测了。
背后还是基于StableVideoDiffusion1.1。
体验地址:https://www.stablevideo.com/
从前,这个模型需要用户自己上手部署,现在已经人人可用了,甚至不需要排队!
虽然跟登月级的Sora还有很大差距,但视频效果已经可以和Runway一拼。
2024年才一开年,节奏就已经这么炸裂了。今年注定是AIGC史上不平凡的一年。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之
新品榜/热门榜