首页 > AI教程资讯 >Stable Diffusion 3横空出世!模型与Sora同架构,也能理解物理世界

Stable Diffusion 3横空出世!模型与Sora同架构,也能理解物理世界

2025-09-0302ai门户网

编辑:Aeneas好困

【本站导读】今日份炸弹又来了!深夜,StabilityAI放出了StableDiffusion3.0,它采用了和爆火Sora同样的DiT架构,画面质量、文字渲染、复杂对象理解大提升,Midjourney、DALL-E3都显得黯然失色了。

最近,每天都有新炸弹,各家纷纷开大了。

昨天的炸弹,是StableDiffusion3。

AI生图效果,再次到达全新里程碑!

Prompt:Epicanimeartworkofawizardatopamountainatnightcastingacosmicspellintothedarkskythatsays“StableDiffusion3”madeoutofcolorfulenergy

提示(意译版):在一幅充满史诗感的动漫画面中,一位巫师屹立于夜幕笼罩的山巅之上,正用他的法杖向漆黑无垠的夜空中施展一道震撼宇宙的魔法。这道法术在夜空中绽放,化作由五彩缤纷的能量构成的「StableDiffusion3」字样,犹如夜空中最璀璨的星辰。

网友复刻版,同样惊艳:

网友惊呼:这种prompt的一致性是我见过最好的!

这次的StableDiffusion3,在图像质量、多个对象、拼写能力方面,都得到了显著提升。

甚至,它似乎还涌现出了对物理世界的「理解」。

Prompt:Ahorsebalancingontopofacolorfulballinafieldwithgreengrassandamountaininthebackground.

提示(意译版):一匹马优雅地站在一个五彩斑斓的球上,周围是一片生机勃勃的绿色草地。远处,一座雄伟的山峦巍峨地矗立。

Prompt:Photoofaredsphereontopofabluecube.Behindthemisagreentriangle,ontherightisadog,ontheleftisacat

提示:一个红色的球体放在一个蓝色的立方体上面。在它们后面是一个绿色的三角形,在右边是一只狗,在左边是一只猫。

而DALL-E3就相形见拙了。

关于StableDiffusion3.0的核心技术进展,CEOEmd总结了一份「太长不看版」摘要——

–采用了与Sora类似的DiffusionTransformer技术,并结合了流匹配(FlowMatching)等多项技术改进。

–通过利用对Transformer的改进,不仅使得系统扩展性更强,还能处理多种类型的输入数据。

–将以开源形式发布,通过预览版的测试来进一步提升系统的质量和安全性。

–发布时,将包含一套完整的工具。

–基于最新硬件技术打造的新平台,可以支持多种规模的版本。

–支持生成视频、3D以及更多类型的内容创作。

–需要更多的GPU来实现更强大的计算能力。

不得不说,最近这段时间,DiT实火!

目前,模型可选择的参数范围在800M到8B之间。

现在,已经可以在这里加入候补名单,申请SD3的访问权限了:https://stability.ai/stablediffusion3

StableDiffusion3,文字渲染能力超进化

按照prompt生成指定文字,一直以来都是文生图模型的老大难问题。

从左到右:DeepFloydIF、DALLE-2、BingImageCreator、Midjourneyv5.2、SDXLv0.9(2023年7月)

但是这次,SD3模型对于prompt理解得很好,在黑板上正确写出了「gobigorgohome」。

而且画面非常写实,远近位置、光影,都显得极其自然。

Prompt:cinematicphotoofaredappleonatableinaclassroom,ontheblackboardarethewords“gobigorgohome”writteninchalk.

提示(意译版):这张电影级视觉效果的照片,捕捉到了一个静谧的教室瞬间,一颗鲜红的苹果静静地躺在桌子上,而在它背后的黑板上,则用醒目的粉笔字写着——「要么做大,要么回家」。

相比之下,Midjourney的图是这样的:

GeminiAdvanced/Ultra的图是这样的:

DALL-E3的图是这样的:

各种形式的文字渲染,SD3都出色地完成了。

Prompt:Restingonthekitchentableisanembroideredclothwiththetext‘goodnight’andanembroideredbabytiger.Nexttothecloththereisalitcandle.Thelightingisdimanddramatic.

提示:厨房桌上铺着一块精美的绣布,上面绣着「goodnight」字样和一只可爱的小老虎。旁边,一支蜡烛静静燃烧,散发出柔和而略带戏剧性的光影。

Prompt:Photoofan90’sdesktopcomputeronaworkdesk,onthecomputerscreenitsays“welcome”.Onthewallinthebackgroundweseebeautifulgraffitiwiththetext“SD3”verylargeonthewall.

提示:一台放在工作桌上的90年代的台式电脑,屏幕上写着「welcome」。在背后的墙面上,有一幅醒目的涂鸦艺术作品,写的是「SD3」。

Prompt:Animestyleillustrationofanewsstandontopofasmallgrassyhill,ontopofthenewsstandweseethetext“it’shere!”.Inthebackgroundweseeabigrainapproaching.

提示:这是一幅充满动漫特色的插画,一个报刊亭坐落在一片绿意盎然的小山丘上,亭顶醒目地展示着「it’shere!」的字样。而在这个宁静的场景背后,一场壮观的暴雨即将来临。

Prompt:Nightphotoofasportscarwiththetext“SD3”ontheside,thecarisonaracetrackathighspeed,ahugeroadsignwiththetext“faster”.

提示:在这幅夜幕下的摄影作品中,一辆标有「SD3」字样的运动赛车正在赛道上疾驰。背景里,一块巨大的路牌显眼地展示着「faster」一词。

Prompt:Threetransparentglassbottlesonawoodentable.Theoneonthelefthasredliquidandthenumber1.Theoneinthemiddlehasblueliquidandthenumber2.Theoneontherighthasgreenliquidandthenumber3.

提示:一张木桌上摆放着三个透明的玻璃瓶。从左至右,每个瓶子内分别充满了鲜艳的红、蓝、绿色液体。瓶子上,用数字1、2、3进行了标记。

Prompt:Photoofarectangularorangeneonsignwiththetext“evenmorestable”,thesignisonthewallinametrostation,subwayspeedingbyinthebackground,perspectivephoto.

StableDiffusion3.0能在文字渲染能力上取得显著提升,是因为StabilityAI在新模型中采用了全新技术——Transformer和新增的文本编码功能。

CEOEmadMostaque解释说,因为上述原因,现在SD3不仅能生成完整句子,还能保持风格的一致性。

宇航员骑着粉色芭蕾舞裙猪,除SD3竟然全军覆没?

处理包含多个对象的Prompt的能力,也是考核AI生图模型的一大关键指标。

下面这个prompt,着实难倒了一大片选手——

一幅宇航员撑着粉色雨伞、骑着一只穿着芭蕾舞短裙的猪的画,猪旁边的地上是一只戴着高顶帽子的知更鸟,画面的角落里写着「stablediffusion」。

这个prompt,要求模型正确理解对象的属性、位置,以及正确呈现字体很小的文本,着实是一道难题。

如此要素拉满的细节要求,SD3.0全部理解,并且精确地完成了!

宇航员,粉色雨伞、穿着粉芭蕾舞裙的猪、戴高帽的知更鸟、角落里的字,100%符合prompt的要求。这就表明:模型很好地理解了prompt。

Prompt:apaintingofanastronautridingapigwearingatutuholdingapinkumbrella,onthegroundnexttothepigisarobinbirdwearingatophat,inthecornerarethewords“stablediffusion”

对于同一prompt,其他模型的表现就落后了。

DALL-E3画出的画倒是过关了,但它把「Diffusion」拼错了。

Bing的表现就更是离谱了,有的图中芭蕾舞裙的颜色不对,有的知更鸟站在了猪脑袋上,有的更是画面中飞满了知更鸟。而「StableDiffusion」更是错得离谱。

GeminiAdvanced这个差生的答案就更惨不忍睹了,除了拼写问题,画也没画对。

下面出场的,就是以画面质量精美著称的优秀文生图选手Midjourney了。

从画面美感上说,MJ依然甩其他模型一条街,但是考试就是考试,「StableDiffusion」,它也没拼对。

总结下来,这一道考题唯一的满分选手,就是StableDiffusion3!

和Sora同样的DiffusionTransformer架构

所以,StableDiffusion3.0为何有如此突飞猛进的表现?

原因在于,它采用了全新的架构设计。

StabilityAI的首席执行官EmadMostaque表示——

「StableDiffusion3采用了DiffusionTransformer架构,这是一种新型的架构设计,与OpenAI最近推出的Sora模型采用的架构相似。」

在以前的StableDiffusion版本中,并未采用Transformer技术。

而StableDiffusion3.0采用了一种全新的方法,引入了DiffusionTransformer技术。如果你对最近的爆火的sora有所了解,肯定对这个技术已经耳熟能详了。

Transformer技术是,当前生成式AI革命的核心,广泛应用于文本生成模型中。而图像生成技术,则主要基于Diffusion模型。

Sora作者之一William和谢赛宁,在这篇论文**同提出了Sora的基础架构。

论文地址:https://arxiv.org/abs/2212.09748

这篇详细介绍DiTs的论文指出,这种基于扩散模型的新架构,可以用在图像patch上运行的Transformer替代了传统的U-Net架构。

这样,DiTs方法就可以更高效地利用计算资源,并且在图像生成方面超越了其他扩散模型技术。

一篇因「缺乏创新性」被CVPR2023拒收的论文,竟成了Sora和StableDiffusion3.0的奠基之作,学术创新和工程创新的区别,着实引人深究。

StableDiffusion3.0的另一个创新亮点,就是流匹配技术。

一篇关于流匹配的研究论文介绍了这一新方法,它可以用于训练连续归一化流(ContinuousNormalizingFlows,CNFs),以便更准确地模拟复杂的数据分布。

论文地址:https://arxiv.org/abs/2210.02747

研究表明,通过结合使用条件流匹配(ConditionalFlowMatching,CFM)和最优传输路径,可以实现更快的训练速度、更高效的样本生成,并且在性能上超越传统的扩散路径方法。

其实,StabilityAI一直在探索多种新颖的图像生成技术。

就在本月初,他们就推出了一项名为StableCascade的新技术。

它基于一种名为Würstchen的先进架构,旨在提升生成图像的性能和精确度。

一**整活来了

在图像质量上,SD3.0也取得了令人震惊的进步。

「变色龙在黑色背景上的摄影棚照片特写」,它生成的图是这样的。

Prompt:studiophotographcloseupofachameleonoverablackbackground.

GeminiAdvanced/Ultra生图是这样的。

Midjourney是这样的。

因为题干没有区分度,所以大家表现差不多。

从更多的演示中可以看出,无论是在自然写实风景,还是在漫画、海报中,SD3不仅做到了正确还原文字,还让文字和画面做到了很好的融合,一点都不突兀。

Prompt:TreesphotographedundertheMilkyWay,themoonandtwilightshineontheValley.Thefullmoonappearshighintheskyandthetwilightglowcanstillbeseen.

再比如黑客帝国中的Neo狗。

威尔史密斯吃面,AI模型的终极图灵测试。

StableVideo同时发力

此外,就在不久前,StableVideo也正式开放公测了。

背后还是基于StableVideoDiffusion1.1。

体验地址:https://www.stablevideo.com/

从前,这个模型需要用户自己上手部署,现在已经人人可用了,甚至不需要排队!

虽然跟登月级的Sora还有很大差距,但视频效果已经可以和Runway一拼。

2024年才一开年,节奏就已经这么炸裂了。今年注定是AIGC史上不平凡的一年。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之

7217
381