Stable Diffusion 3横空出世！模型与Sora同架构，也能理解物理世界

2025-09-0302ai门户网

编辑：Aeneas好困

【本站导读】今日份炸弹又来了！深夜，StabilityAI放出了StableDiffusion3.0，它采用了和爆火Sora同样的DiT架构，画面质量、文字渲染、复杂对象理解大提升，Midjourney、DALL-E3都显得黯然失色了。

最近，每天都有新炸弹，各家纷纷开大了。

昨天的炸弹，是StableDiffusion3。

AI生图效果，再次到达全新里程碑！

Prompt：Epicanimeartworkofawizardatopamountainatnightcastingacosmicspellintothedarkskythatsays“StableDiffusion3”madeoutofcolorfulenergy

提示（意译版）：在一幅充满史诗感的动漫画面中，一位巫师屹立于夜幕笼罩的山巅之上，正用他的法杖向漆黑无垠的夜空中施展一道震撼宇宙的魔法。这道法术在夜空中绽放，化作由五彩缤纷的能量构成的「StableDiffusion3」字样，犹如夜空中最璀璨的星辰。

网友复刻版，同样惊艳：

网友惊呼：这种prompt的一致性是我见过最好的！

这次的StableDiffusion3，在图像质量、多个对象、拼写能力方面，都得到了显著提升。

甚至，它似乎还涌现出了对物理世界的「理解」。

Prompt:Ahorsebalancingontopofacolorfulballinafieldwithgreengrassandamountaininthebackground.

提示（意译版）：一匹马优雅地站在一个五彩斑斓的球上，周围是一片生机勃勃的绿色草地。远处，一座雄伟的山峦巍峨地矗立。

Prompt：Photoofaredsphereontopofabluecube.Behindthemisagreentriangle,ontherightisadog,ontheleftisacat

提示：一个红色的球体放在一个蓝色的立方体上面。在它们后面是一个绿色的三角形，在右边是一只狗，在左边是一只猫。

而DALL-E3就相形见拙了。

关于StableDiffusion3.0的核心技术进展，CEOEmd总结了一份「太长不看版」摘要——

–采用了与Sora类似的DiffusionTransformer技术，并结合了流匹配（FlowMatching）等多项技术改进。

–通过利用对Transformer的改进，不仅使得系统扩展性更强，还能处理多种类型的输入数据。

–将以开源形式发布，通过预览版的测试来进一步提升系统的质量和安全性。

–发布时，将包含一套完整的工具。

–基于最新硬件技术打造的新平台，可以支持多种规模的版本。

–支持生成视频、3D以及更多类型的内容创作。

–需要更多的GPU来实现更强大的计算能力。

不得不说，最近这段时间，DiT实火！

目前，模型可选择的参数范围在800M到8B之间。

现在，已经可以在这里加入候补名单，申请SD3的访问权限了：https://stability.ai/stablediffusion3

StableDiffusion3，文字渲染能力超进化

按照prompt生成指定文字，一直以来都是文生图模型的老大难问题。

从左到右：DeepFloydIF、DALLE-2、BingImageCreator、Midjourneyv5.2、SDXLv0.9（2023年7月）

但是这次，SD3模型对于prompt理解得很好，在黑板上正确写出了「gobigorgohome」。

而且画面非常写实，远近位置、光影，都显得极其自然。

Prompt:cinematicphotoofaredappleonatableinaclassroom,ontheblackboardarethewords“gobigorgohome”writteninchalk.

提示（意译版）：这张电影级视觉效果的照片，捕捉到了一个静谧的教室瞬间，一颗鲜红的苹果静静地躺在桌子上，而在它背后的黑板上，则用醒目的粉笔字写着——「要么做大，要么回家」。

相比之下，Midjourney的图是这样的：

GeminiAdvanced/Ultra的图是这样的：

DALL-E3的图是这样的：

各种形式的文字渲染，SD3都出色地完成了。

Prompt：Restingonthekitchentableisanembroideredclothwiththetext‘goodnight’andanembroideredbabytiger.Nexttothecloththereisalitcandle.Thelightingisdimanddramatic.

提示：厨房桌上铺着一块精美的绣布，上面绣着「goodnight」字样和一只可爱的小老虎。旁边，一支蜡烛静静燃烧，散发出柔和而略带戏剧性的光影。

Prompt：Photoofan90’sdesktopcomputeronaworkdesk,onthecomputerscreenitsays“welcome”.Onthewallinthebackgroundweseebeautifulgraffitiwiththetext“SD3”verylargeonthewall.

提示：一台放在工作桌上的90年代的台式电脑，屏幕上写着「welcome」。在背后的墙面上，有一幅醒目的涂鸦艺术作品，写的是「SD3」。

Prompt:Animestyleillustrationofanewsstandontopofasmallgrassyhill,ontopofthenewsstandweseethetext“it’shere!”.Inthebackgroundweseeabigrainapproaching.

提示：这是一幅充满动漫特色的插画，一个报刊亭坐落在一片绿意盎然的小山丘上，亭顶醒目地展示着「it’shere!」的字样。而在这个宁静的场景背后，一场壮观的暴雨即将来临。

Prompt:Nightphotoofasportscarwiththetext“SD3”ontheside,thecarisonaracetrackathighspeed,ahugeroadsignwiththetext“faster”.

提示：在这幅夜幕下的摄影作品中，一辆标有「SD3」字样的运动赛车正在赛道上疾驰。背景里，一块巨大的路牌显眼地展示着「faster」一词。

Prompt:Threetransparentglassbottlesonawoodentable.Theoneonthelefthasredliquidandthenumber1.Theoneinthemiddlehasblueliquidandthenumber2.Theoneontherighthasgreenliquidandthenumber3.

提示：一张木桌上摆放着三个透明的玻璃瓶。从左至右，每个瓶子内分别充满了鲜艳的红、蓝、绿色液体。瓶子上，用数字1、2、3进行了标记。

Prompt:Photoofarectangularorangeneonsignwiththetext“evenmorestable”,thesignisonthewallinametrostation,subwayspeedingbyinthebackground,perspectivephoto.

StableDiffusion3.0能在文字渲染能力上取得显著提升，是因为StabilityAI在新模型中采用了全新技术——Transformer和新增的文本编码功能。

CEOEmadMostaque解释说，因为上述原因，现在SD3不仅能生成完整句子，还能保持风格的一致性。

宇航员骑着粉色芭蕾舞裙猪，除SD3竟然全军覆没？

处理包含多个对象的Prompt的能力，也是考核AI生图模型的一大关键指标。

下面这个prompt，着实难倒了一大片选手——

一幅宇航员撑着粉色雨伞、骑着一只穿着芭蕾舞短裙的猪的画，猪旁边的地上是一只戴着高顶帽子的知更鸟，画面的角落里写着「stablediffusion」。

这个prompt，要求模型正确理解对象的属性、位置，以及正确呈现字体很小的文本，着实是一道难题。

如此要素拉满的细节要求，SD3.0全部理解，并且精确地完成了！

宇航员，粉色雨伞、穿着粉芭蕾舞裙的猪、戴高帽的知更鸟、角落里的字，100%符合prompt的要求。这就表明：模型很好地理解了prompt。

Prompt:apaintingofanastronautridingapigwearingatutuholdingapinkumbrella,onthegroundnexttothepigisarobinbirdwearingatophat,inthecornerarethewords“stablediffusion”

对于同一prompt，其他模型的表现就落后了。

DALL-E3画出的画倒是过关了，但它把「Diffusion」拼错了。

Bing的表现就更是离谱了，有的图中芭蕾舞裙的颜色不对，有的知更鸟站在了猪脑袋上，有的更是画面中飞满了知更鸟。而「StableDiffusion」更是错得离谱。

GeminiAdvanced这个差生的答案就更惨不忍睹了，除了拼写问题，画也没画对。

下面出场的，就是以画面质量精美著称的优秀文生图选手Midjourney了。

从画面美感上说，MJ依然甩其他模型一条街，但是考试就是考试，「StableDiffusion」，它也没拼对。

总结下来，这一道考题唯一的满分选手，就是StableDiffusion3！

和Sora同样的DiffusionTransformer架构

所以，StableDiffusion3.0为何有如此突飞猛进的表现？

原因在于，它采用了全新的架构设计。

StabilityAI的首席执行官EmadMostaque表示——

「StableDiffusion3采用了DiffusionTransformer架构，这是一种新型的架构设计，与OpenAI最近推出的Sora模型采用的架构相似。」

在以前的StableDiffusion版本中，并未采用Transformer技术。

而StableDiffusion3.0采用了一种全新的方法，引入了DiffusionTransformer技术。如果你对最近的爆火的sora有所了解，肯定对这个技术已经耳熟能详了。

Transformer技术是，当前生成式AI革命的核心，广泛应用于文本生成模型中。而图像生成技术，则主要基于Diffusion模型。

Sora作者之一William和谢赛宁，在这篇论文**同提出了Sora的基础架构。

论文地址：https://arxiv.org/abs/2212.09748

这篇详细介绍DiTs的论文指出，这种基于扩散模型的新架构，可以用在图像patch上运行的Transformer替代了传统的U-Net架构。

这样，DiTs方法就可以更高效地利用计算资源，并且在图像生成方面超越了其他扩散模型技术。

一篇因「缺乏创新性」被CVPR2023拒收的论文，竟成了Sora和StableDiffusion3.0的奠基之作，学术创新和工程创新的区别，着实引人深究。

StableDiffusion3.0的另一个创新亮点，就是流匹配技术。

一篇关于流匹配的研究论文介绍了这一新方法，它可以用于训练连续归一化流（ContinuousNormalizingFlows,CNFs），以便更准确地模拟复杂的数据分布。

论文地址：https://arxiv.org/abs/2210.02747

研究表明，通过结合使用条件流匹配（ConditionalFlowMatching,CFM）和最优传输路径，可以实现更快的训练速度、更高效的样本生成，并且在性能上超越传统的扩散路径方法。

其实，StabilityAI一直在探索多种新颖的图像生成技术。

就在本月初，他们就推出了一项名为StableCascade的新技术。

它基于一种名为Würstchen的先进架构，旨在提升生成图像的性能和精确度。

一**整活来了

在图像质量上，SD3.0也取得了令人震惊的进步。

「变色龙在黑色背景上的摄影棚照片特写」，它生成的图是这样的。

Prompt：studiophotographcloseupofachameleonoverablackbackground.

GeminiAdvanced/Ultra生图是这样的。

Midjourney是这样的。

因为题干没有区分度，所以大家表现差不多。

从更多的演示中可以看出，无论是在自然写实风景，还是在漫画、海报中，SD3不仅做到了正确还原文字，还让文字和画面做到了很好的融合，一点都不突兀。

Prompt:TreesphotographedundertheMilkyWay,themoonandtwilightshineontheValley.Thefullmoonappearshighintheskyandthetwilightglowcanstillbeseen.

再比如黑客帝国中的Neo狗。

威尔史密斯吃面，AI模型的终极图灵测试。

StableVideo同时发力

此外，就在不久前，StableVideo也正式开放公测了。

背后还是基于StableVideoDiffusion1.1。

体验地址：https://www.stablevideo.com/

从前，这个模型需要用户自己上手部署，现在已经人人可用了，甚至不需要排队！

虽然跟登月级的Sora还有很大差距，但视频效果已经可以和Runway一拼。

2024年才一开年，节奏就已经这么炸裂了。今年注定是AIGC史上不平凡的一年。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表本站立场。文章及其配图仅供学习分享之

7217

381

上一篇：一夜暴涨2770亿，英伟达市值逼近2万亿，跻身全球第四！