華為云:CloudMatrix384突破大模型訓推瓶頸,加速行業智能化躍遷
6月21日,華為開發者大會2025期間,以“CloudMatrix384昇騰AI云服務,算力聚變加速行業AI創新”為主題的高峰論壇順利舉辦,四位來自不同領域的AI先行者,與近200位開發者深度對話,從技術內核到場景落地,全面解析基于CloudMatrix384超節點的新一代昇騰AI云服務如何破解AI算力、運力、存力瓶頸,成為行業智能化躍遷的核心引擎。
高密、高速、高效,重建大模型時代的AI基礎設施新標準
當前,AI大模型正以指數級速度進化,模型參數突破千億、萬億級,傳統算力架構的“算力墻”“通信墻”“存儲墻”已成為制約行業創新的核心痛點。華為云公有云解決方案部CTO劉赫偉在峰會上指出:“大模型的爆發式發展,本質是對算力、運力、存力的全維度挑戰。基于CloudMatrix384超節點的昇騰AI云服務,已成為突破算力、運力、存力瓶頸的AI基礎設施新標準。”
CloudMatrix384昇騰AI云服務,通過“硬件重構+軟件智能”的深度融合,打造出高密、高速、高效的AI-Native基礎設施:
? ?? 高密:超節點級聯,構建“超級AI服務器”
CloudMatrix384昇騰AI云服務創新性地將384顆昇騰NPU與192顆鯤鵬CPU通過MatrixLink高速網絡全對等互聯,形成單節點“超級AI服務器”,更是支持432個超節點級聯,構建最高16萬卡的超大集群,徹底打破傳統架構的規模限制,為大模型訓練提供“無限算力池”。
? ???高速:納秒級通信,讓算力“無損協同”
其核心網絡架構MatrixLink通過親和性調度、協議重構等技術突破,實現三大性能飛躍:卡間帶寬高達2.8Tb/s,節點內通信時延降至納秒級,節點間網絡時延僅微秒級。配合PB級虛擬顯存、跨節點/集群DRAM池等創新設計,KV Cache傳輸帶寬提升10倍,輸出每個Token的時延降至50ms,平均單卡吞吐量躍升到2300 Tokens/s。
? ???高效:智能調度,釋放算力“最大效能”
基于底層強大的算力、網絡、存力,結合上層專家任務智能調度能力,CloudMatrix384昇騰AI云服務基于“一卡一專家、一卡一算子任務”的靈活分配、并行推理,將算力有效使用率(MFU)提升50%以上,同時結合昇騰云腦,實現全棧故障感知、診斷與快速自動恢復,徹底解決傳統集群的訓推難題。
華為半導體業務部戰略與業務發展總監夏硯秋表示:“CloudMatrix384昇騰AI云服務把算力、網絡、存儲等硬優勢與P/D分離、專家調度、算子優化等軟實力深度協同,讓千億參數MOE模型的訓推性能再上一個臺階。”以DeepSeek V3/R1為例,在較低時延下可實現2000 TPS以上的吞吐量,綜合性能全面領先。
行業實踐:從大模型到終端智能,多場景驗證“算力聚變”價值
CloudMatrix384昇騰AI云服務的技術優勢,已在各行業得到初步驗證,此次大會上,不同領域的先行者分別展示了他們的案例成果。
硅基流動作為國內領先的大模型MaaS服務商,與華為云的合作由來已久,其政企 商業 化負責人吳凡在會上介紹,硅基流動早在5月就率先在CloudMatrix384昇騰AI云服務上部署DeepSeek-R1,基于大規模專家并行方案,通過多專家負載均衡和極致通信優化,實現更高吞吐,用戶20TPS前提下,單卡Decode吞吐突破1920 Tokens/s,比肩業界主流GPU的部署性能,硅基流動將繼續基于CloudMatrix384昇騰AI云服務持續創新,與行業客戶合作共同解決AI落地的各種重大難題。
小藝作為華為終端智能的核心入口,對推理平臺的精度、時延、吞吐要求極高。華為計算產品線芯片應用專家卓恒在方案講述時介紹:“CloudMatrix384超節點憑借其超大算力、帶寬、專家并行部署規模,實現了極致的推理吞吐與時延,讓小藝的交互體驗得到全面提升”同時,將CloudMatrix384超節點與其它技術框架相結合,如與元戎Serverless框架結合,提升長序列推理場景能力,降低了TTFT、提升Prefill/Decode吞吐,與Mindspore結合,實現了EP通信極致覆蓋、解決了EP專家負載不均的難題、降低了重計算損失,進一步提升了小藝的訓練和推理效能。
此外,新浪基于CloudMatrix384昇騰AI云服務,讓“智慧小浪”推理交付效率提升50%+,上線速度成倍加快;中科院基于CloudMatrix384昇騰AI云服務,自研模型訓練框架,快速構建AI4S科研大模型;面壁智能基于CloudMatrix384昇騰AI云服務,實現小鋼炮模型的推理業務性能大幅提升;科大訊飛基于CloudMatrix384昇騰Al云服務,助力訊飛星火大模型極致推理性能;360打造的“超級搜索”納米A搜索,對AI算力有極大需求,也已開啟了CloudMatrix384超節點的測試。
劉赫偉在會上總結到:“CloudMatrix384昇騰AI云服務將深度融入電商、 社交 、文娛、 金融 、 汽車 等行業的典型智能化場景,降低AI創新門檻,擴大AI創新成效,讓更多企業與開發者享受技術的紅利,加速全行業智能化躍遷。”
此次高峰論壇,不僅是一次技術成果的集中展示,更搭建了“技術-場景-生態”的深度交流平臺,CloudMatrix384昇騰AI云服務在各行的逐步落地,也標志著AI基礎設施正式進入“超節點時代”,而華為云正以開放姿態,攜手客戶、伙伴,共同書寫行業智能化的新篇章。