華為云:CloudMatrix384突破大模型訓(xùn)推瓶頸,加速行業(yè)智能化躍遷
6月21日,華為開發(fā)者大會2025期間,以“CloudMatrix384昇騰AI云服務(wù),算力聚變加速行業(yè)AI創(chuàng)新”為主題的高峰論壇順利舉辦,四位來自不同領(lǐng)域的AI先行者,與近200位開發(fā)者深度對話,從技術(shù)內(nèi)核到場景落地,全面解析基于CloudMatrix384超節(jié)點的新一代昇騰AI云服務(wù)如何破解AI算力、運力、存力瓶頸,成為行業(yè)智能化躍遷的核心引擎。
高密、高速、高效,重建大模型時代的AI基礎(chǔ)設(shè)施新標準
當前,AI大模型正以指數(shù)級速度進化,模型參數(shù)突破千億、萬億級,傳統(tǒng)算力架構(gòu)的“算力墻”“通信墻”“存儲墻”已成為制約行業(yè)創(chuàng)新的核心痛點。華為云公有云解決方案部CTO劉赫偉在峰會上指出:“大模型的爆發(fā)式發(fā)展,本質(zhì)是對算力、運力、存力的全維度挑戰(zhàn)。基于CloudMatrix384超節(jié)點的昇騰AI云服務(wù),已成為突破算力、運力、存力瓶頸的AI基礎(chǔ)設(shè)施新標準。”
CloudMatrix384昇騰AI云服務(wù),通過“硬件重構(gòu)+軟件智能”的深度融合,打造出高密、高速、高效的AI-Native基礎(chǔ)設(shè)施:
? ?? 高密:超節(jié)點級聯(lián),構(gòu)建“超級AI服務(wù)器”
CloudMatrix384昇騰AI云服務(wù)創(chuàng)新性地將384顆昇騰NPU與192顆鯤鵬CPU通過MatrixLink高速網(wǎng)絡(luò)全對等互聯(lián),形成單節(jié)點“超級AI服務(wù)器”,更是支持432個超節(jié)點級聯(lián),構(gòu)建最高16萬卡的超大集群,徹底打破傳統(tǒng)架構(gòu)的規(guī)模限制,為大模型訓(xùn)練提供“無限算力池”。
? ???高速:納秒級通信,讓算力“無損協(xié)同”
其核心網(wǎng)絡(luò)架構(gòu)MatrixLink通過親和性調(diào)度、協(xié)議重構(gòu)等技術(shù)突破,實現(xiàn)三大性能飛躍:卡間帶寬高達2.8Tb/s,節(jié)點內(nèi)通信時延降至納秒級,節(jié)點間網(wǎng)絡(luò)時延僅微秒級。配合PB級虛擬顯存、跨節(jié)點/集群DRAM池等創(chuàng)新設(shè)計,KV Cache傳輸帶寬提升10倍,輸出每個Token的時延降至50ms,平均單卡吞吐量躍升到2300 Tokens/s。
? ???高效:智能調(diào)度,釋放算力“最大效能”
基于底層強大的算力、網(wǎng)絡(luò)、存力,結(jié)合上層專家任務(wù)智能調(diào)度能力,CloudMatrix384昇騰AI云服務(wù)基于“一卡一專家、一卡一算子任務(wù)”的靈活分配、并行推理,將算力有效使用率(MFU)提升50%以上,同時結(jié)合昇騰云腦,實現(xiàn)全棧故障感知、診斷與快速自動恢復(fù),徹底解決傳統(tǒng)集群的訓(xùn)推難題。
華為半導(dǎo)體業(yè)務(wù)部戰(zhàn)略與業(yè)務(wù)發(fā)展總監(jiān)夏硯秋表示:“CloudMatrix384昇騰AI云服務(wù)把算力、網(wǎng)絡(luò)、存儲等硬優(yōu)勢與P/D分離、專家調(diào)度、算子優(yōu)化等軟實力深度協(xié)同,讓千億參數(shù)MOE模型的訓(xùn)推性能再上一個臺階。”以DeepSeek V3/R1為例,在較低時延下可實現(xiàn)2000 TPS以上的吞吐量,綜合性能全面領(lǐng)先。
行業(yè)實踐:從大模型到終端智能,多場景驗證“算力聚變”價值
CloudMatrix384昇騰AI云服務(wù)的技術(shù)優(yōu)勢,已在各行業(yè)得到初步驗證,此次大會上,不同領(lǐng)域的先行者分別展示了他們的案例成果。
硅基流動作為國內(nèi)領(lǐng)先的大模型MaaS服務(wù)商,與華為云的合作由來已久,其政企 商業(yè) 化負責(zé)人吳凡在會上介紹,硅基流動早在5月就率先在CloudMatrix384昇騰AI云服務(wù)上部署DeepSeek-R1,基于大規(guī)模專家并行方案,通過多專家負載均衡和極致通信優(yōu)化,實現(xiàn)更高吞吐,用戶20TPS前提下,單卡Decode吞吐突破1920 Tokens/s,比肩業(yè)界主流GPU的部署性能,硅基流動將繼續(xù)基于CloudMatrix384昇騰AI云服務(wù)持續(xù)創(chuàng)新,與行業(yè)客戶合作共同解決AI落地的各種重大難題。
小藝作為華為終端智能的核心入口,對推理平臺的精度、時延、吞吐要求極高。華為計算產(chǎn)品線芯片應(yīng)用專家卓恒在方案講述時介紹:“CloudMatrix384超節(jié)點憑借其超大算力、帶寬、專家并行部署規(guī)模,實現(xiàn)了極致的推理吞吐與時延,讓小藝的交互體驗得到全面提升”同時,將CloudMatrix384超節(jié)點與其它技術(shù)框架相結(jié)合,如與元戎Serverless框架結(jié)合,提升長序列推理場景能力,降低了TTFT、提升Prefill/Decode吞吐,與Mindspore結(jié)合,實現(xiàn)了EP通信極致覆蓋、解決了EP專家負載不均的難題、降低了重計算損失,進一步提升了小藝的訓(xùn)練和推理效能。
此外,新浪基于CloudMatrix384昇騰AI云服務(wù),讓“智慧小浪”推理交付效率提升50%+,上線速度成倍加快;中科院基于CloudMatrix384昇騰AI云服務(wù),自研模型訓(xùn)練框架,快速構(gòu)建AI4S科研大模型;面壁智能基于CloudMatrix384昇騰AI云服務(wù),實現(xiàn)小鋼炮模型的推理業(yè)務(wù)性能大幅提升;科大訊飛基于CloudMatrix384昇騰Al云服務(wù),助力訊飛星火大模型極致推理性能;360打造的“超級搜索”納米A搜索,對AI算力有極大需求,也已開啟了CloudMatrix384超節(jié)點的測試。
劉赫偉在會上總結(jié)到:“CloudMatrix384昇騰AI云服務(wù)將深度融入電商、 社交 、文娛、 金融 、 汽車 等行業(yè)的典型智能化場景,降低AI創(chuàng)新門檻,擴大AI創(chuàng)新成效,讓更多企業(yè)與開發(fā)者享受技術(shù)的紅利,加速全行業(yè)智能化躍遷。”
此次高峰論壇,不僅是一次技術(shù)成果的集中展示,更搭建了“技術(shù)-場景-生態(tài)”的深度交流平臺,CloudMatrix384昇騰AI云服務(wù)在各行的逐步落地,也標志著AI基礎(chǔ)設(shè)施正式進入“超節(jié)點時代”,而華為云正以開放姿態(tài),攜手客戶、伙伴,共同書寫行業(yè)智能化的新篇章。