2025-08-1202ai门户网
几个月前,爱范儿在一台M3Ultra的MacStudio上,成功部署了671B的DeepSeek的本地大模型(4-bit量化版)。
而如果我们搞来4台顶配MacStudio……
每一台都是M3Ultra
512GB统一内存
819GB/s内存带宽
80核GPU
80Gbps雷雳5双向传输……
把这四头猛兽,通过开源工具串联成一个「桌面级AI集群」——能否把本地推理的天花板再抬高一个维度?
这也是来自英国创业公司ExoLabs正尝试解决的问题。而爱范儿成为了首批见到这个全新解决方案的中国媒体之一。
你可能会以为,像牛津这样的顶级大学肯定GPU多得用不完,但其实完全不是这样。
ExoLabs创始人Alex和Seth毕业于牛津大学——即使在这样的顶尖高校做研究,想要使用GPU集群也需要提前数月排队,一次只能申请一张卡,流程漫长而低效。
(别说牛津大学了,就连美国的国家实验室系统,拥有的超算集群算力也同样需要预约排队。)
Alex和Seth发现了一个现象:当前AI基础设施的高度集中化,使得个人研究者和小型团队被边缘化。
为了解决问题,他们在去年7月启动了第一次实验,串联了手头上的两台MacBookPro,然后跑通了LLaMA模型。虽然性能有限,每秒只能输出3个token,但已经足以验证AppleSilicon架构用于AI分布式推理的可行性。
更重要的是,尽管LMStudio等本地跑大模型的基础设施解决方案已经比较普遍了,但串联多台消费级电脑——组成集群——相关方案在当时仍然属于「未知水域」。
而这个小团队的工作,也被苹果注意到了。
MacBookPro的算力终究是有限的,而二人集群化Mac电脑的工作,在今年3月迎来了一个关键的转折点:苹果发布了M3Ultra顶配处理器版本的MacStudio。
512GB统一内存、819GB/s的内存带宽、80核GPU,再加上Thunderbolt5的80Gbps双向传输能力——真正强有力的,足以运行2025上半年满血版大模型的本地AI集群,终于从理想变成了现实。
4台顶配M3Ultra的MacStudio通过Thunderbolt5串联后,账面数据相当惊人:
128核CPU(32×4)
240个GPU核心(80×4)
2TB统一内存(512GB×4)
总内存带宽超过3TB/s
这样的组合,性能已经称得上是一台小型超算了,但从体积上仍然(勉强)可归到「家用级」。
但硬件只是基础,真正发挥效能的关键是ExoLabs开发的分布式模型调度平台ExoV2。ExoV2会根据内存与带宽状态将模型自动拆分,部署在最合适的节点上。
ExoLabs和苹果在现场提供了ExoV2的demo,向爱范儿展示了以下核心能力:
大模型加载:8-bit量化后的DeepSeek,完整载入需要高达700GB内存,单台MacStudio无力承担。而Exo的软件会将模型拆分部署到2台MacStudio上完成加载。激活后,它的流式输出「打字速度」基本上超过了人的阅读速度。
并行推理:在DeepSeekV3仍在两台顶配MacStudio上跑着的同时,又加载了同样670亿参数的DeepSeekR1。系统立即将R1分配到剩余的两台MacStudio,实现两个大模型并行推理,支持多用户同时提问。
私有文档RAG问答:拖入公司财报PDF,模型在本地完成知识嵌入与问答,不依赖任何云端资源,数据完全私有可控。
轻量微调:若企业有数千份内部资料,可通过QLoRA+LoRA技术进行本地微调。如果只用单台MacStudio,微调的耗时仍然长达数日,但Exo的集群调度能力,使得训练任务可线性加速,大幅缩短时间成本。
爱范儿在现场后台观察拓扑图发现:即使4台机器同时处于高负载状态,整套系统功耗始终控制在400W以内,运行几乎无风扇噪音。
要在传统服务器方案中实现同等性能,至少需要部署20张A100显卡,服务器加网络设备成本超200万人民币,功耗达数千瓦,还需独立机房与制冷系统。
——就这样,苹果M芯片在AI大模型的浪潮中,意外地找到了一个新的定位。确实令人没想到。
ExoLabs基于M3UltraMacStudio开发的这个套组,起售价32999元,配备96GB统一内存。而512GB的顶配版本,更是价格不菲。
但从技术角度来看,统一内存架构带来的优势是革命性的。
在设计M芯片之初,苹果更多是为节能、高效的个人创作而生。但统一内存、高带宽GPU、Thunderbolt多路径聚合等特性,反而非常适合AI本地推理这件事,虽然意料之外,却又在情理之中。
传统GPU,即使是最高端的工作站卡,显存通常也只有96GB。而苹果的统一内存让CPU和GPU共享同一块高带宽内存,避免了数据在不同存储层级之间的频繁搬运,这对大模型推理来说意义重大。
当然,EXO这套方案也有明显的定位差异。它不是为了与H100正面对抗,不是为了训练下一代GPT,而是为了解决实际的应用问题:运行自己的模型,保护自己的数据,进行必要的微调优化。
如果说H100是金字塔顶的王者,而MacStudio正在成为中小团队手中的瑞士军刀。
本文来自微信公众号“爱范儿”(ID:ifanr),作者:乔纳森何,经授权发布。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之
新品榜/热门榜