首页 > AI教程资讯 >Dolphin:海天瑞声与清华大学联合发布的一款面向东方语种的自动语音识别模型

Dolphin:海天瑞声与清华大学联合发布的一款面向东方语种的自动语音识别模型

2025-04-13ai02门户网

Dolphin 是什么?

Dolphin是一款由海天瑞声与清华大学电子工程系语音与音频技术实验室联合开发的专为东方语言设计的自动语音识别模型。Dolphin支持40种东方语言和22种中国方言。具有高准确率和强鲁棒性,能够适应多种复杂语音环境。Dolphin广泛应用于语音转文字、语音交互和语音内容分析等场景,支持一键安装和多种调用方式。

Dolphin 模型特点

多语种支持:Dolphin 支持 40 种东方语言,包括东亚、南亚、东南亚和中东地区的语言,还支持 22 种中国方言(含普通话)。

语言自适应:自动识别输入语音的语言种类,无需手动指定。

高准确率:在多个测试集上,词错误率(WER)显著低于同类模型。

强鲁棒性:适应不同口音、语速、背景噪声等复杂语音环境。

高性能表现:在海天瑞声、Fleurs、CommonVoice 三个测试集下,与 Whisper 同等尺寸模型相比,Dolphin 的词错误率(WER)显著降低。例如,base 版本平均 WER 降低 63.1%,small 版本平均 WER 降低 68.2%。

开源性:Dolphin 的 base 和 small 版本模型与推理代码已全面开源。

Dolphin 技术架构

网络结构:基于 CTC-Attention 架构,采用 E-Branchformer 编码器和 Transformer 解码器,并引入了 4 倍下采样层。这种结构结合了 CTC 的序列建模能力和注意力机制的上下文捕捉能力,能够有效提升模型的识别准确性和效率。

多任务格式:Dolphin 借鉴了 Whisper 和 OWSM 的设计方法,专注于 ASR 进行了若干关键修改,如去掉 previous text 及其相关标记的使用,简化了输入格式。此外,Dolphin 引入了两级语种标签系统,以更好地处理语言和地区的多样性。

Dolphin 技术架构.webp

数据基础

Dolphin 的训练数据集整合了海天瑞声的专有数据和多个开源数据集,总时长超过 21.2 万小时。其中,海天瑞声数据集包含 137,712 小时的音频,覆盖 38 个东方语种。

应用场景

语音转文字:适用于会议记录、语音输入法等场景。

语音交互:用于ai智能语音助手、智能家居等,提升交互体验。

语音内容分析:快速转写和分析语音媒体内容。

Dolphin 使用教程

安装:用户可以通过命令 pip install -U dataoceanai-dolphin 一键安装。

命令行调用:例如,使用 dolphin audio.wav 进行语音识别,还可以指定模型版本、语言和地区的标签。

Python 调用:通过导入 dolphin 模块,加载音频和模型,即可进行语音识别。

相关链接

Github地址:https://github.com/DataoceanAI/Dolphin

项目主页:https://huggingface.co/DataoceanAI

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之

4109
756

同类推荐更多

八大影视台词搜索神器,剪辑师必备!

八大影视台词搜索神器,剪辑师必备!

最火的AI教程资讯

2024-12-26

八大影视台词搜索神器,剪辑师必备!_映技派,专注ai人工智能!,各位朋友们,大家晚上好,给各位老铁推荐几个不错的影视台词搜索网站,剪辑师一定不要错过哦!有些朋友在看某条或某音短视频的时候,是不是很好奇或者又非常喜欢这段视频的某些台词呢?想必大家深有体会,一些经典有意义的台词真的能带给人一些感动和感悟。现在就给大家推荐这7个非常有用的运用台词就能搜索到影视剧名称的网站,肯定会对你有所帮助的,感谢大家!1、33台词-电影台词搜索引擎(http: 33 agile