首页 > AI教程资讯 >Qwen2.5-Omni:阿里巴巴发布的端到端全能多模态旗舰模型

Qwen2.5-Omni:阿里巴巴发布的端到端全能多模态旗舰模型

2025-04-16ai02门户网

Qwen2.5-Omni是什么?

Qwen2.5-Omni 是阿里巴巴发布的Qwen 系列中的新一代端到端多模态旗舰模型。它专为全方位多模态感知设计,也就是可以理解文本、音频、图像、视频,可以同时进行思考和说话,并通过实时流式响应同时生成文本与自然语音合成输出的一个ai模型。

screenshot (23).webp

Qwen2.5-Omni核心特点

创新架构:

Thinker-Talker 架构:Thinker 负责处理和理解来自文本、音频和视频模态的输入,生成高级语义表征和对应的文本内容;Talker 则将这些内容转化为自然语音输出。

TMRoPE 技术:提出了一种名为 TMRoPE(Time-aligned Multimodal RoPE)的新型位置编码技术,用于同步视频输入与音频的时间戳。

实时交互:

支持完全实时交互,能够处理分块输入并即时输出。

自然流畅的语音生成:

在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势:

在多模态任务(如 OmniBench)中表现出色,同时在单模态任务(如语音识别、翻译、音频理解、图像推理、视频理解等)中也表现出色。

端到端语音指令跟随能力:

在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在 MMLU 和 GSM8K 等基准测试中表现优异。

Qwen2.5-Omni架构设计

Thinker:类似于大脑,负责处理和理解来自文本、音频和视频模态的输入,生成高级语义表征和对应的文本内容。

Talker:类似于人类的嘴巴,接收 Thinker 生成的高级语义表征和文本内容,并以流式方式输出自然语音。

整体架构:Thinker 是一个 Transformer 解码器,配备用于音频和图像的编码器以提取信息。Talker 是一个双轨自回归 Transformer 解码器架构。在训练和推理过程中,Talker 直接接收来自 Thinker 的高维表征,并共享 Thinker 的所有历史上下文信息,整个架构作为一个统一的模型进行端到端训练和推理。

 Qwen2.5-Omni架构设计.jpg

Qwen2.5-Omni性能表现

在多模态任务(如 OmniBench)中,Qwen2.5-Omni 实现了最先进的性能。

在单模态任务中,它在语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)和语音生成(Seed-tts-eval 和主观自然性)等方面表现出色。

Qwen2.5-Omni性能表现.jpg

相关链接

Qwen Chat:https://chat.qwenlm.ai

Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub:https://github.com/QwenLM/Qwen2.5-Omni

Demo体验:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之

7843
432

同类推荐更多

八大影视台词搜索神器,剪辑师必备!

八大影视台词搜索神器,剪辑师必备!

最火的AI教程资讯

2024-12-26

八大影视台词搜索神器,剪辑师必备!_映技派,专注ai人工智能!,各位朋友们,大家晚上好,给各位老铁推荐几个不错的影视台词搜索网站,剪辑师一定不要错过哦!有些朋友在看某条或某音短视频的时候,是不是很好奇或者又非常喜欢这段视频的某些台词呢?想必大家深有体会,一些经典有意义的台词真的能带给人一些感动和感悟。现在就给大家推荐这7个非常有用的运用台词就能搜索到影视剧名称的网站,肯定会对你有所帮助的,感谢大家!1、33台词-电影台词搜索引擎(http: 33 agile