首页 > AI教程资讯 >DeepSeek开源周第二天开源项目:Deepep

DeepSeek开源周第二天开源项目:Deepep

2025-03-18ai02门户网

昨天是DeepSeek ai开源周第一天,开源的项目是FlashMLA,不到半小时,Github已经已经300多Star了,短短1小时就超过10W阅读,非常的火爆,今天是DeepSeek开源周的第二天,DeepSeek开源了第2个项目:Deepep。

DeepSeek开源了第2个项目:Deepep.webp

什么是Deepep?

Deepep是一个用于MOE模型培训和推理的开源EP通信库。它基于先进的混合专家架构,充分利用了大规模数据集以提高其预训练和微调的有效性。DeepEP的设计导向是减少计算负担与内存使用,使得用户能够在常规硬件上有效运行大规模模型。

Deepep的功能特点

MoE架构优化:

DeepEP专为Mixture-of-Experts (MoE) 和专家并行 (EP) 设计,提供高效的all-to-all GPU内核,适用于训练和推理任务。

支持低精度运算,包括FP8和BF16,提升计算效率,节省显存。

高性能通信:

提供高吞吐量和低延迟的通信内核,支持NVLink和RDMA网络。在H800 GPU上测试,最大带宽可达153 GB/s (NVLink) 和46 GB/s (RDMA)。

针对NVLink到RDMA的非对称带宽转发场景进行了优化,确保高吞吐量表现。

低延迟通信:

提供纯RDMA的低延迟内核,特别适合推理解码阶段,延迟低至163微秒。

引入基于hook的通信-计算重叠方法,不占用GPU SM资源,最大化计算效率。

硬件优化:

利用未公开的PTX指令提升Hopper架构的性能。

支持InfiniBand网络,并理论上兼容RoCE,提供灵活的网络配置选项。

Deepep的应用场景

大规模模型训练:

适用于Mixture-of-Experts (MoE) 模型的训练,提供高效的并行通信支持,显著提升训练效率。

推理任务:

特别适合延迟敏感的推理解码场景,显著提升效率,降低延迟,提高推理吞吐量。

高性能计算需求:

完美适配现代高性能计算需求,支持多种硬件平台,包括Hopper GPU架构,未来可能扩展更多设备。

Deepep的使用与集成

易用性:

支持Hopper GPU架构,需要Python 3.8+、CUDA 12.3+和PyTorch 2.1+环境。

安装时需搭配团队修改版的NVSHMEM,安装指南详细。

集成方式:

开源且易于集成,只需几行命令即可构建并运行测试。

安装后导入deep_ep模块即可直接使用,提供示例代码和测试脚本。

DeepEP已在GitHub上开源,地址:https://github.com/deepseek-ai/DeepEP

1. DeepSeek开源周第一天开源项目:DeepSeekFlashMLA

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之

3788
730

同类推荐更多

八大影视台词搜索神器,剪辑师必备!

八大影视台词搜索神器,剪辑师必备!

最火的AI教程资讯

2024-12-26

八大影视台词搜索神器,剪辑师必备!_映技派,专注ai人工智能!,各位朋友们,大家晚上好,给各位老铁推荐几个不错的影视台词搜索网站,剪辑师一定不要错过哦!有些朋友在看某条或某音短视频的时候,是不是很好奇或者又非常喜欢这段视频的某些台词呢?想必大家深有体会,一些经典有意义的台词真的能带给人一些感动和感悟。现在就给大家推荐这7个非常有用的运用台词就能搜索到影视剧名称的网站,肯定会对你有所帮助的,感谢大家!1、33台词-电影台词搜索引擎(http: 33 agile