高性能+高能效,英特爾Panther Lake「均衡設計」的絕招
作者|楊依婷
編輯|包永剛
當地時間10月9日,英特爾正式披露了代號為Panther Lake的英特爾酷睿 Ultra處理器(第三代)的架構細節,這款芯片承載著英特爾在制造工藝上重返領先地位的雄心,也是英特爾實現跨越式升級的一代產品,兼具了高性能和高能效的優勢,令人充滿期待。
Panther Lake基于最新的intel 18A制程工藝打造,首次將RibbonFET(全環繞柵極晶體管技術)和PowerVia(背部供電技術)這兩項關鍵技術結合,并配合Foveros-S封裝技術進行整體堆疊設計,將于今年在亞利桑那州的Fab52晶圓廠進入大規模量產。
RibbonFET作為新一代晶體管結構,將充分釋放晶體管的開關性能與密度潛力;而PowerVia則通過將供電網絡移至晶圓背面,掃清了傳統布線對芯片性能與信號完整性的干擾。二者相輔相成,共同支撐起了Intel 18A在密度和能效上的同步飛躍。
根據英特爾披露的數據,相較于上一代工藝,Intel 18A在相同功耗下可帶來超過15%的每瓦性能提升;在達到相同性能的前提下,功耗則可降低超過25%。與此同時,芯片單元密度提升至上一代的1.3倍——這意味著在同等面積的芯片上,英特爾能集成更多晶體管,為更復雜的計算單元提供技術基礎。
而對于Panther Lake,英特爾技術專家告訴雷峰網,其設計理念旨在“打造出一個兼顧效率和性能的均衡平臺”,以適配更具多樣性的用戶使用場景。
這一“均衡平臺”的理念,在性能數據上得到了具體體現:在單線程負載條件下,相比Lunar Lake和Arrow Lake H,Panther Lake在相似性能下可降低40%功耗;在相似功耗下,性能提升約10%。在多線程場景中,Panther Lake相似性能下的功耗比Arrow Lake H低30%,而在相似功耗條件下,其性能相較Lunar Lake提升50%。
如果要用一句話概括Panther Lake的優點,英特爾公司客戶端計算事業部副總裁兼中國區總經理高嵩給出了答案:“Panther Lake汲取了Lunar Lake高能效和Arrow Lake強性能的優勢,為用戶呈現更強的AI PC體驗。”
在這個目標下,Panther Lake對包括CPU、GPU和NPU在內的核心模塊上進行了結構性重構。
兼具Lunar Lake高能效+Arrow Lake強性能,Panther Lake全能提升
在CPU架構設計上,Panther Lake并未顛覆自Meteor Lake確立的“三層混合架構”——即由性能核(P-Core)、能效核(E-Core)與低功耗能效核(LPE-Core)構成的算力組合。然而,其核心思路已從簡單的核心數量堆砌,轉向了更為深刻的精細化分工與戰略性增強。
正如英特爾的技術人員向雷峰網 (公眾號:雷峰網) 所闡釋的:“在Panther Lake上,三個層級的混合核心的策略是有側重性的,每個核心都在扮演著獨特的角色。”
這一理念清晰地體現在其角色定義中:性能核負責單線程響應與日常生產力場景的高響應能力;能效核著力于多線程與并行計算的吞吐能力,如游戲與內容創作類任務;低功耗能效核則定位為提升整體能效、優化日常功耗表現的常駐算力層。
在此框架下,Panther Lake對每一類核心都進行了針對性的架構升級與配置調整。 ?
在性能核方面,Panther Lake使用的核心代號為Cougar Cove。與上一代的Lion Cove相比,英特爾將單核的L3緩存由12MB擴充到18MB,并對轉址旁路緩沖器(TLB)做了約1.5倍的容量提升;同時,英特爾在電源管理中引入了“AI啟發式學習算法”的策略,以實現對內部硬件資源與功耗分配的更精細化調控。
能效核代號為Darkmont,這是在Skymont基礎上的演進。Darkmont 在架構上做出了包括L2緩存擴容至4MB、保持128-bit帶寬等一系列調整,并提升了微碼(Nanocode)的性能,使得能效核能夠覆蓋比Arrow Lake更廣泛的應用場景,在降低執行延遲的同時提升了整體效率。
此外,Cougar Cove與Darkmont所用的分支預測與內存消歧能力均有所增強——分支預測的改進旨在提高預測準確性并降低響應延遲,內存消歧則允許更多安全的亂序或并行內存訪問,從而提升CPU與內存之間的帶寬利用效率。英特爾技術專家表示,Panther Lake在預測準確率與延遲控制上均進行了同步強化。
在完成核心微架構的增強之余,Panther Lake也規劃了多樣化的核心配置以覆蓋不同市 場。
其中,8核配置與Lunar Lake一致,由4個性能核與4個低功耗能效核組成;16核配置在此基礎上增加了8個能效核。
16核配置中,所有核心均位于同一個三級緩存環上,并共享該緩存層,每個性能核擁有獨立的二級緩存,每四個能效核共享4MB二級緩存,低功耗能效核也配置有4MB二級緩存,相比Meteor Lake和Arrow Lake容量更高,使其可承載的任務類型范圍有所擴大。
此外,英特爾對硬件線程調度器進行了關鍵升級。英特爾技術專家表示,其核心改進在于兩方面:首先,根據Panther Lake三類核心的新特性,優化了線程分類模型,為操作系統提供了更精準的調度依據;其次,將OEM電源模式等系統級偏好納入調度決策,使反饋機制更貼合用戶實際場景與性能需求。
要實現硬件潛力在用戶體驗層面的最終釋放,同樣離不開系統軟件層的深度協同。Panther Lake構建了一個統一的管理堆棧:OEM廠商設定的性能模式(如“野獸模式”或“性能模式”)可通過英特爾提供的DTT軟件或微軟的PPM機制,轉化為具體的CPU行為策略,并經由SoC電源管理直達硬件線程調度器。
這一切都指向一個目標:讓正確的任務,在正確的時間,運行在正確的核心上,最終兌現其“均衡平臺”的設計承諾。
Xe3 GPU性能提升50%,AI性能高達120TOPS
英特爾的GPU經歷了從Xe到Xe2持續演進,現在正式進入了Xe3時代。
Panther Lake搭載的是第一代Xe3集成顯卡,而Xe2對應的則是Lunar Lake的集成顯卡和Battlemage的獨立顯卡。
與Xe2相比,英特爾在Xe3架構中將每個渲染切片內的Xe核心數量從4個提升至6個,并從引擎到切片進行了全面的優化。
具體來看,每個Xe核心提供8個512位矢量引擎和8個2048位XMX引擎。在Xe矢量引擎中,Xe3的線程數增加了25%,并添加了可變寄存器分配,提升了Xe矢量引擎的使用效率,使得相同的硬件能夠支持更多、更快的負載。同時,Xe3還支持原生FP8反量化,以及SIMD16原生ALU、三路并發調度、擴展數據指令集與FP64,并且支持Xe矩陣擴展。
而在XMX AI加速引擎中,Xe3支持120TOPS的算力,每個時鐘周期可執行1024個XMX TF32操作,支持2048個XMX FP16/BF16運算,4096個XMX INT8運算和8192個XMX INT4/INT2運算,相較于上一代有顯著提升。
此外,為了滿足多元化的場景需求,Panther Lake提供了兩種GPU規格:入門級的4Xe GPU,以及英特爾目前規模最大的12Xe GPU。
4Xe GPU配置包含4個Xe核心、32個XMX引擎、4MB L2緩存和1組幾何管線等基礎模塊;12Xe GPU則將Xe核心數量擴展至12個,并配備96個XMX引擎、2組幾何管線、12個采樣器、12個光線追蹤單元和4個像素后端。
值得注意的是,與上一代8MB L2緩存的Xe2架構相比,L2緩存容量在12Xe版本上被提升至16MB,使DDR訪存壓力減少約17%~36%。
架構與規格的全面提升,最終轉化為顯著的性能增益。根據英特爾提供的數據,Xe3架構相較Lunar Lake的Xe2,在總體性能表現上可實現超過50%的提升;與Arrow Lake H GPU相比,每瓦性能提升超過40%。
NPU面積 效率提升40%,原生支持FP8
在Panther Lake全面升級的計算架構中,NPU是專為AI負載設計的計算單元,全新的NPU5架構在繼承NPU4能效優勢的基礎上,實現了芯片面積效率與針對AI負載的雙重優化。
在AI計算中,矩陣運算是最核心的要義,MAC單元規模決定了矩陣運算的并行密度,即MAC單元越大,計算密度和運算效率就越高。
基于這一原理,NPU5做出了一項關鍵調整——它將每個Slice中的神經單元數量從6個精簡至3個,但每個神經計算引擎的計算能力卻實現翻倍。這種設計,使得NPU在相同的邏輯區域內能夠釋放出更高的矩陣執行效率,從而在芯片面積與算力輸出之間找到了更優的平衡點。
從結構配置來看,NPU5的每個Slice集成了3個神經計算引擎,提供12K的矩陣運算能力、4.5MB的暫存器內存、6個SHAVE DSP以及256KB的L2緩存。
與Lunar Lake的NPU4相比,這些指標均有不同程度的提升,但最顯著的進步體現在面積效率上:NPU5每平方毫米可釋放的TOPS能力提升超過了40%,這意味著英特爾在有限的芯片空間內成功擠壓出了更多的AI算力。
此外,考慮到AI負載對精度并不敏感,尤其在推理任務中,8bit量化計算在絕大多數場景下已能保證輸出結果的可用性。為此,NPU5在架構層面創新性地加入了原生8bit計算支持。這一設計使得在相同面積與功耗條件下,NPU5能夠獲得更高的有效執行吞吐,為用戶帶來近乎翻倍的計算能力,同時將精度損失控制在可接受范圍內。
值得注意的是,Panther Lake所搭載的NPU5相比NPU4的峰值性能并沒有進行大幅提升,NPU 4為48TOPS,NPU 5為50TOPS,但面積效率實現了高達40%的提升。
雷峰網了解到,這主要是從這個產品的角度去考量,由于Panther Lake的GPU的AI性能可以高達120TOPS,且AI PC上超過50%的AI負載可以使用GPU處理,在這一代產品上大幅提升NPU的面積使用效率,更能兼顧性能和功耗,能更好滿足Agentic AI的需求,通過XPU的策略產品的收益將會更高。
整體來看,Panther Lake 在CPU、GPU與NPU三條計算路徑完成結構更新后,其平臺總算力可達到180TOPS,其中CPU約10TOPS、NPU約50TOPS、GPU約120TOPS。這一算力結構并非簡單堆疊,而是通過為不同類型的AI負載分配各自適配的硬件執行單元形成的能力組合:CPU負責響應敏感的輕量級任務,NPU覆蓋持續運行的低功耗推理場景,GPU用于應對高吞吐量計算。
Panther Lake的1+1+1>3
從制造到微架構到革新,從CPU到GPU再到NPU的全面升級,都是讓Panther Lake 能夠實現兼具Lunar Lake高能效+Arrow Lake強性能的關鍵,也正是通過通盤的考慮,以及XPU的策略,Panther Lake才能擁有巨大的吸引力。
所以,除了CPU、GPU和NPU三大核心算力的提升,Panther Lake還引入了全新的Wi-Fi7特性,支持5GHz的頻段,信道達到320MHz,同時支持4K的QAM調制,支持跨多個信道的并發操作以及WPA3安全性加密,和上一代產品相比,提高了性能、可靠性、安全性,也減少了客戶端的延遲。此外,Panther Lake還支持最新藍牙6.0與LE音頻,功耗降低高達50%,并顯著提升了音頻質量與多設備連接能力。
影像方面,Panther Lake集成了最新的IPU 7.5圖像處理單元,能夠直接調用NPU、GPU等計算資源進行協同AI處理,并支持高達三個攝像頭并發工作。
目前,Panther Lake已進入量產倒計時階段,技術路徑已經落地,從制造到設計的革新,讓Panther Lake成為了一款不止是小幅迭代,而是跨越式升級的產品,也有理由對其在市場上的競爭力充滿信心,量產后的實際功耗曲線和AI場景表現會給出作中的答案。
雷峰網原創文章,未經授權禁止轉載。詳情見 轉載須知 。