Pusa模型：基于Mochi微调的开源视频扩散模型，支持文本、图像、视频到视频

2025-04-21ai02门户网

Pusa是什么？

Pusa是由Raphael Liu于2025年4月发布的新型ai视频生成模型，其核心创新在于通过帧级噪声控制的新型扩散范式重新定义视频扩散中的时间建模。Pusa模型支持文本、图像、视频到视频的多种生成任务，并保持运动保真度和遵循提示，具有低成本、高性能的特点。

Pusa模型特点

帧级噪声控制与矢量化时间步：Pusa 引入了帧级噪声控制和矢量化的时间步，这一创新最初在 FVDM 论文中提出。与传统方法相比，Pusa 的时间步数从传统的 1000 个增加到数千个，极大地提升了模型的灵活性和可扩展性。这种帧级噪声控制使得 Pusa 在视频生成过程中能够更精细地处理每一帧的内容，从而实现更高质量的视频生成效果。

非破坏性修改：Pusa 对基础模型的适配保留了其原有的文本到视频生成能力。通过轻微微调，Pusa 便能够适应多种视频生成任务，而无需对基础模型进行大规模的修改。这种非破坏性修改不仅节省了开发时间和成本，还确保了模型的稳定性和可靠性。

通用适用性：Pusa 的方法不仅适用于 Mochi 模型，还可以轻松应用于其他领先的视频扩散模型，如 Hunyuan Video、Wan2.1 等。

Pusa模型架构

帧级噪声控制：Pusa 实现了帧级噪声控制和矢量化时间步，提供了前所未有的灵活性和可扩展性。

非破坏性修改：对基础模型的修改保留了其原有的文本到视频生成能力，仅需轻微微调。

通用适用性：该方法可以轻松应用于其他领先的视频扩散模型，如 Hunyuan Video、Wan2.1 等。

Pusa应用场景

适用于影视特效制作、广告创意生成及个性化视频内容生产。

结合多模态输入（如文本+图像）实现复杂场景模拟，提升视频生成的灵活性。

Pusa安装与使用

安装：

gitclonehttps://github.com/genmoai/modelscdmodelspipinstalluvuvvenv.venvsource.venv/bin/activateuvpipinstallsetuptoolsuvpipinstall-e.--no-build-isolation

如果需要安装 Flash Attention，可以使用：

uvpipinstall-e.[flash]--no-build-isolation

下载权重：

使用 Hugging Face CLI：

pipinstallhuggingface_hubhuggingface-clidownloadRaphaelLiu/Pusa-V0.5--local-dir

或者直接从 Hugging Face 下载到本地。

基本使用：

文本到视频生成：

python./demos/cli_test_ti2v_release.py--model_dir"/path/to/Pusa-V0.5"--dit_path"/path/to/Pusa-V0.5/pusa_v0_dit.safetensors"--prompt"Amanisplayingbasketball"--num_steps30

图像到视频生成：

python./demos/cli_test_ti2v_release.py--model_dir"/path/to/Pusa-V0.5"--dit_path"/path/to/Pusa-V0.5/pusa_v0_dit.safetensors"--prompt"Your_prompt_here"--image_dir"/path/to/input/image.jpg"--cond_position1--num_steps30

训练：

提供了完整的 Pusa 训练代码和详细信息，支持对原始模型的训练。

代码仓库：https://github.com/Yaofang-Liu/Pusa-VidGen

HuggingFace：https://huggingface.co/RaphaelLiu/Pusa-V0.5

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表本站立场。文章及其配图仅供学习分享之

3934

237

上一篇：ChatGPT Box：将ChatGPT深度集成到浏览器中的开源浏览器扩展工具