首页 > AI教程资讯 >赤兔Chitu:清华大学团队开源的高性能大语言模型推理框架

赤兔Chitu:清华大学团队开源的高性能大语言模型推理框架

2025-04-12ai02门户网

赤兔(Chitu)是什么?

赤兔(Chitu)是由清华大学团队开源的一个高性能大语言模型推理框架,专注于提升推理效率、降低成本,并支持多种硬件平台和部署场景。它可以让DeepSeek推理成本降一半,性能翻番。赤兔(Chitu)的目标是为企业和开发者提供一个高效、灵活且易于部署的推理引擎,加速大语言模型(LLM)在实际应用中的落地。

赤兔Chitu:清华大学团队开源的高性能大语言模型推理框架.webp

赤兔(Chitu)功能特点

多元算力适配:支持 NVIDIA 最新旗舰到旧款的多系列产品,并为国产芯片提供优化支持。

全场景可伸缩:从纯 CPU 部署、单 GPU 部署到大规模集群部署,提供灵活的可扩展解决方案。

长期稳定运行:适用于实际生产环境,能够稳定承载并发业务流量。

高效推理性能:在 A800 集群测试中,相比部分国外开源框架,GPU 使用量减少 50% 的情况下推理速度提升 3.15 倍。

降低成本:通过优化硬件资源使用,降低了企业部署 ai 模型的门槛和成本。

赤兔(Chitu)应用场景

企业级 AI 应用:需要高性能、低延迟和高吞吐量的推理服务。

大规模集群部署:需要在多 GPU 或多节点环境中高效运行的场景。

资源受限的环境:需要在有限的硬件资源下实现高效推理的场景。

国产芯片适配:需要在国产硬件平台上运行大语言模型的场景。

赤兔(Chitu)使用方法

1. 源码安装

gitclone--recursivehttps://github.com/thu-pacman/chitu&&cdchitupipinstall-rrequirements-build.txtpipinstall-Utorch--index-urlhttps://download.pytorch.org/whl/cu124#根据CUDA版本调整TORCH_CUDA_ARCH_LIST=8.6CHITU_SETUP_JOBS=4MAX_JOBS=4pipinstall--no-build-isolation

2.单 GPU 推理

torchrun--nproc_per_node8test/single_req_test.pyrequest.max_new_tokens=64models=DeepSeek-R1models.ckpt_dir=/data/DeepSeek-R1infer.pp_size=1infer.tp_size=8

3.混合并行 (TP+PP)

torchrun--nnodes2--nproc_per_node8test/single_req_test.pyrequest.max_new_tokens=64infer.pp_size=2infer.tp_size=8models=DeepSeek-R1models.ckpt_dir=/data/DeepSeek-R1

4.启动服务

exportWORLD_SIZE=8torchrun--nnodes1--nproc_per_node8--master_port=22525example/serve.pyserve.port=21002infer.stop_with_eos=Falseinfer.cache_type=pagedinfer.pp_size=1infer.tp_size=8models=DeepSeek-R1models.ckpt_dir=/data/DeepSeek-R1keep_dtype_in_checkpoint=Trueinfer.mla_absorb=absorb-without-precompinfer.soft_fp8=Trueinfer.do_load=Trueinfer.max_reqs=1scheduler.prefill_first.num_tasks=100infer.max_seq_len=4096 equest.max_new_tokens=100infer.use_cuda_graph=True

5.性能测试

pythonbenchmarks/benchmark_serving.py--model"deepseek-r1"--iterations10--seq-len10--warmup3--base-urlhttp://localhost:21002

GitHub仓库:https://github.com/thu-pacman/chitu

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之

5612
958

同类推荐更多

八大影视台词搜索神器,剪辑师必备!

八大影视台词搜索神器,剪辑师必备!

最火的AI教程资讯

2024-12-26

八大影视台词搜索神器,剪辑师必备!_映技派,专注ai人工智能!,各位朋友们,大家晚上好,给各位老铁推荐几个不错的影视台词搜索网站,剪辑师一定不要错过哦!有些朋友在看某条或某音短视频的时候,是不是很好奇或者又非常喜欢这段视频的某些台词呢?想必大家深有体会,一些经典有意义的台词真的能带给人一些感动和感悟。现在就给大家推荐这7个非常有用的运用台词就能搜索到影视剧名称的网站,肯定会对你有所帮助的,感谢大家!1、33台词-电影台词搜索引擎(http: 33 agile

游戏预约提醒

游戏正式上线前,我们将通过免费预约短信通知您

预约成功

我们将通过免费预约短信通知您

知道了

当前人数众多,预约失败!

知道了

您已预约,请等待通知!

知道了

隐私声明

严格遵守法律法规,遵循以下隐私保护原则,为您提供更加安全、可靠的服务:

1、安全可靠:

我们竭尽全力通过合理有效的信息安全技术及管理流程,防止您的信息泄露、损毁、丢失。

2、自主选择:

我们为您提供便利的信息管理选项,以便您做出合适的选择,管理您的个人信息

3、保护通信秘密:

我们严格遵照法律法规,保护您的通信秘密,为您提供安全的通信服务。

4、合理必要:

为了向您和其他用户提供更好的服务,我们仅收集必要的信息。

5、清晰透明:

我们努力使用简明易懂的表述,向您介绍隐私政策,以便您清晰地了解我们的信息处理方式。

6、将隐私保护融入产品设计:

我们在产品和服务研发、运营的各个环节,融入隐私保护的理念。

本《隐私政策》主要向您说明:

我们收集哪些信息 我们收集信息的用途 您所享有的权利

希望您仔细阅读《隐私政策》

为了让您有更好的体验、改善我们的服务或经您同意的其他用途,在符合相关法律法规的前提下,我们可能将通过某些服务所收集的信息用于我们的其他服务。例如,将您在使用我们某项服务时的信息,用于另一项服务中向您展示个性化的内容或广告、用于用户研究分析与统计等服务。

若您使用服务,即表示您认同我们在本政策中所述内容。除另有约定外,本政策所用术语与《服务协议》中的术语具有相同的涵义。

如您有问题,请联系我们。

应用权限

此应用程序需要访问以下内容

写入外部存储

允许程序写入外部存储,如SD卡上写文件

完全的网络访问权限

允许该应用创建网络套接字和使用自定义网络协议。浏览器和其他某些应用提供了向互联网发送数据的途径,因此应用无需该权限即可向互联网发送数据

拍摄照片和视频

允许访问摄像头进行拍照或录制视频

读取手机状态和身份

允许应用访问设备的电话功能。此权限可让应用确定本机号码和设备ID、是否正处于通话状态以及拨打的号码。

查看网络状态

允许应用程序查看所有网络的状态。例如存在和连接的网络

查看WLAN状态

允许程序访问WLAN网络状态信息

控制震动

允许应用控制振动设备

拨打电话

允许一个程序初始化一个电话拨号不需通过拨号用户界面需要用户确认,应用程序执行可能需要您付费