国产黑马砸来百万算力福利快去冲！H800点击就送，1.99元玩转4090

2025-08-2402ai门户网

编辑：编辑部

【本站导读】才短短一周，微调Llama3变体已经井喷了！去哪里微调Llama3？这家国产黑马早已上架了推理微调预训练教程，更夸张的是，低至5.99元/卡时的H800点击就送！

Llama3诞生整整一周后，直接将开源AI大模型推向新的高度。

Meta官方统计显示，模型下载量已突破120万次，在最大开源平台HF上已经有600+微调的Llama3变体。

更值得一提的是，Llama370B指令微调版已在大模型ChatbotArena排行榜上并列第一（英语），总体榜单位列第六，并在多个基准测试上的表现均大幅超过已有竞品。

可见，Llama3已经成为AI应用的最新优选。

问题来了，想要动手微调测试Llama3，如何用？

创建云主机

打开算力市场，按照筛选目标算力。

可以看到如图所示的控制台页面，右边是两台可用的服务器，每台上有8块可租用的GPU，我们选择一个，点击「8卡可租」按钮，进入算力市场界面。

在租用配置选择界面，为自己的云主机取一个名字并选择任务所需数量的显卡，Llama38B推理可以在单卡H800上完成），因此，此处选择1卡H800。

推理

Colossal-Inference现已适配支持了Llama3推理加速。在潞晨云，你可以选择推理镜像，使用Colossal-Inference进行推理优化提速，体验Llama3的自然语言生成能力。

前期准备

Llama3模型权重已准备好，无需额外安装步骤。

推理生成

运行生成脚本

PRETRAINED_MODEL_PATH="/root/notebook/common_data/Meta-Llama-3-8B"#huggingfaceorlocalmodelpathcdColossalAI/examples/inference/colossalairun--nproc_per_node1llama_generation.py-m$PRETRAINED_MODEL_PATH--max_length80

进行多卡TP推理，如下例使用两卡生成

colossalairun--nproc_per_node2llama_generation.py-m$PRETRAINED_MODEL_PATH--max_length80--tp_size2

吞吐脚本

运行吞吐Benchmark测试

PRETRAINED_MODEL_PATH="/root/notebook/common_data/Meta-Llama-3-8B"gitpull#updateexamplebenchmarkfrombranchfeature/colossal-infercdColossalAI/examples/inference/pythonbenchmark_llama3.py-mllama3-8b-b32-s128-o256-p$PRETRAINED_MODEL_PATH

单卡H100对Llama3-8B进行Benchmark结果与vLLM对比（例：输入序列长度128，输出长度256）

微调与继续预训练

潞晨云在原有Llama2汉化项目中，支持了Llama3的继续预训练与微调。在这里，你可以通过选择训练镜像，快速对Llama3进行继续预训练与微调。

前期准备

1.编译安装Colossal-AI

cd/root/ColossalAIBUILD_EXT=1pipinstall.

2.创建训练需要的文件夹

mkdir/root/training_outputsmkdir/root/training_outputs/checkpointsmkdir/root/training_outputs/configsmkdir/root/training_outputs/tensorboards

3.修改hostfile

cd/root/ColossalAI/applications/Colossal-LLaMA/cphostfile.examplehostfile

注：可通过aptinstalliproute2-y在镜像中安装ipaddr指令查看镜像内ip地址

数据准备

当前路径：/root/ColossalAI/applications/Colossal-LLaMA/

1.继续预训练

{"source":"","target":"LionelAndrésMessi(Spanishpronunciation:[ljoˈnelanˈdɾesˈmesi](i);born24June1987),alsoknownasLeoMessi,isanArgentineprofessionalfootballerwhoplaysasaforwardforandcaptainsbothMajorLeagueSoccerclubInterMiamiandtheArgentinanationalteam.","category":"sports"}{"source":"猜谜语：一身卷卷细毛，吃的青青野草，过了数九寒冬，无私献出白毛。（打一动物）","target":"白羊","category":"riddle"}pythonprepare_pretrain_dataset.py--data_input_dirs"DirectorythatcontainsoneormoreJSONLfile(s)>"--tokenizer_dir"Tokenizerdirectory"--data_output_dirs"Splicedtokenizedoutput"--max_length8192--num_spliced_dataset_bins10

2.微调

{"messages":[{"from":"human","content":"Whatarethethreeprimarycolors?"},{"from":"assistant","content":"Thethreeprimarycolorsarered,blue,andyellow."}]}{"messages":[{"from":"human","content":"解释个人电脑和服务器之间的区别。"},{"from":"assistant","content":"个人电脑和服务器是两种不同类型的计算机系统，它们的主要区别在于用途、硬件配置和性能。个人电脑，顾名思义，是为个人使用而设计的计算机。它们通常用于日常的工作、娱乐和学习，可以运行各种各样的应用程序和游戏。个人电脑的硬件配置一般是按照标准配置来设计的，不过也可以根据个人需求进行定制。而服务器是为了满足大量用户的需求而设计的计算机系统，它们通常用于为用户提供各种网络服务，如网站、电子邮件和文件传输等。服务器通常需要高性能的硬件配置，并且可以承受高负载和长时间的运行。由于服务器需要支持大量用户的访问，它们通常配备多核处理器、大容量内存和大容量硬盘驱动器，以提高系统的运行速度和稳定性。总之，个人电脑和服务器之间的主要区别在于它们的用途、硬件配置和性能。个人电脑用于个人使用，而服务器用于支持大量用户的访问。服务器的硬件配置通常比个人电脑更高，以保证系统的性能和稳定性。"}]}pythonprepare_sft_dataset.py--data_input_dirs"DirectorythatcontainsoneormoreJSONLfile(s)>"--tokenizer_dir"Tokenizerdirectory"--data_output_dirs"Splicedtokenizedoutput"--max_length8192--num_spliced_dataset_bins10--llama_version3

运行成功后，data_output_dirs文件夹内会自动生成3个子文件夹，其中，arrow文件夹中的数据可用来直接训练。

此外，潞晨云还提供了简单数据集以供测试，处理好数据集可见：/root/notebook/common_data/tokenized-cpt-data

训练脚本

当前路径：/root/ColossalAI/applications/Colossal-LLaMA/

1.修改config文件

cptrain.example.shtrain.sh#更新训练脚本

2.参考训练脚本

PROJECT_NAME="LLaMA-3-8B-cpt"PARENT_SAVE_DIR="/root/training_outputs/checkpoints/"#PathtoafoldertosavecheckpointsPARENT_TENSORBOARD_DIR="/root/training_outputs/tensorboards/"#PathtoafoldertosavelogsPARENT_CONFIG_FILE="/root/training_outputs/configs/"#PathtoafoldertosavetrainingconfiglogsPRETRAINED_MODEL_PATH="/root/notebook/common_data/Meta-Llama-3-8B"#huggingfaceorlocalmodelpath#以预置已处理数据集为例declare-adataset=(/root/notebook/common_data/tokenized-cpt-data/arrow/part-00000/root/notebook/common_data/tokenized-cpt-data/arrow/part-00001/root/notebook/common_data/tokenized-cpt-data/arrow/part-00002)TIMESTAMP=$(date+%Y-%m-%d-%H-%M-%S)FULL_PROJECT_NAME="${PROJECT_NAME}-${TIMESTAMP}"SAVE_DIR="${PARENT_SAVE_DIR}${FULL_PROJECT_NAME}"CONFIG_FILE="${PARENT_CONFIG_FILE}${FULL_PROJECT_NAME}.json"colossalairun--nproc_per_node8--hostfilehostfile--master_port31312train.py--pretrained$PRETRAINED_MODEL_PATH--dataset${dataset[@]}--plugin"zero2"--save_interval400--save_dir$SAVE_DIR--tensorboard_dir$TENSORBOARD_DIR--config_file$CONFIG_FILE--num_epochs1--micro_batch_size2--lr1e-4--mixed_precision"bf16"--grad_clip1.0--weight_decay0.01--warmup_steps100--use_grad_checkpoint--use_flash_attn

其他训练详情可参考：https://github.com/hpcaitech/ColossalAI/tree/main/applications/Colossal-LLaMA

大规模训练

对于大规模预训练等场景，结合Llama3序列变长、embedding增大等特性，潞晨云针对3D混合并行场景进行了优化，通过自定义流水线切分、gradientcheckpoint策略，可以进一步精细化控制每个GPU的内存占用和速度，从而达到整体训练效率的提升。

潞晨云使用整数线性规划搜索出在64xH100上最适合Llama370B的切分、gradientcheckpoint策略，最终训练可以达到每卡410+TFLOPS的卓越性能。

详情可参考：https://github.com/hpcaitech/ColossalAI/tree/main/examples/language/llama

此例子附上了潞晨云测试时使用的配置。使用方法如下：

gitclonehttps://github.com/hpcaitech/ColossalAIcdColossalAI/examples/language/llamaBUILD_EXT=1pipinstall-Ugit+https://github.com/hpcaitech/ColossalAIpipinstall-rrequirements.txtexportPYTHONPATH=$(realpath..)colossalairun--nproc_per_node8--hostfileHOSTFILEbenchmark.py-cMeta-Llama-3-70B-x-g-p3d--tp4--pp4--zero1-l8192--mbs2-b128--custom-ckpt

欢度五一，百万福利大放送！羊毛速薅

潞晨云已准备首期百万元的代金券，后续还会不断放出，可以持续关注！

注册即送：新账户注册即送50元代金券，便捷试用多种AI算力。

企业认证：完成企业认证的账户可额外获得1000元代金券，可稳定测试多机H800等稀缺资源。

在线评价：用户在社交媒体和专业论坛（如知乎、小红书、微博、CSDN等）上分享使用体验，有效分享一次可得100元代金券。每月最佳分享可额外再获500元代金券（根据点赞、评论等真实活跃度；每个账号最多每月各计一次；发布24小时后请找小客服核对验证）

加入用户群：不定时发放特价资源、代金券等优惠活动。

参考资料：

https://cloud.luchentech.com

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表本站立场。文章及其配图仅供学习分享之

2073

735

上一篇：谷歌突破2万亿美元里程碑，却被曝裁掉整个Python团队？离谱