日舉辦的2021年英特爾架構日活動中,英特爾對外宣布了眾多技術創新,包括兩個全新設計的x86內核微架構,并推出代號為AlderLake的能混合架構處理器,以及面向數據中心領域的下一代至強可擴展處理器SapphireRapids;GPU架構部分,英特爾也詳細介紹采用XeHPG微架構的Alchemist游戲顯卡,以及XeHPC架構的PonteVecchio等;當然英特爾也介紹了其在推動開放、規范、跨架構和跨廠商的統一軟件棧oneAPI工具包方面的具體進展。

本次架構日所講的內容可以稱得上是干貨滿滿,尤其是關于AlderLake處理器的介紹更是占了極大的篇幅,作為英特爾面向于客戶端計算市場的下一代酷睿處理器家族,AlderLake耗時多年打造,結合了眾多最新、最前沿的技術,被英特爾寄予厚望,很多喜歡嘗鮮的DIY發燒友也對AlderLake新臺有極高的期待。

AlderLake基本特速覽

總的來說,AlderLake將隸屬于英特爾第12代酷睿處理器家族,基于最新的Intel7制程工藝打造(此前稱之為10nmEnhancedSuperFin),采用Hybrid能混合架構設計,集成了兩種重新設計的內核微架構——PerformanceCore能核GoldenCove以及EfficientCore能效核Gracemont,二者結合并通過ITD硬件調度器進行合理調度,致力于在所有類型的工作負載中均帶來顯著能提升與能耗改進。

AlderLake系列的TDP功耗范圍從9W到125W,將覆蓋超便攜輕薄本、高能游戲本、發燒級DIY臺式機等所有類型的客戶端PC設備產品線,此前IceLake和TigerLake無法做到這一點。具體來說AlderLake將提供三類產品設計形態:采用LGA1700接口代號為AlderLake-S的臺式機處理器;移動端處理器代號為AlderLake-P和AlderLake-M,均為BGA封裝。

具體規格方面,桌面版AlderLake-S將提供8個PerformanceCore能核與8個EfficientCore能效核,共有24線程(EfficientCore能效核不支持超線程),以及30MB容量的非包含式三級緩存,并集成32EUXeLP架構核顯。

面向于高能游戲本的AlderLake-P采用BGAType3封裝,最多能提供6個PerformanceCore能核與8個EfficientCore能效核,XeLP核顯規模則上升至96EU;并加入獨立的圖像控制單元,也延續了對Thunderbolt4控制器的集成。

至于面向輕薄、低功耗的輕薄本,英特爾則提供了更緊湊的高密度封裝,最高可提供2個PerformanceCore能核與8個EfficientCore能效核。

除了采用Hybrid能混合架構設計之外,AlderLake還帶來了其他新特,例如支持最新內存和強大的I/O拓展。AlderLake采用了全新的內存控制器,除了支持傳統的DDR4-3200和LPDDR4x-4266之外,也支持新一代DDR5-4800與LPDDR5-5200標準;除此之外,英特爾還表示AlderLake臺還會支持內存的動態電壓頻率縮放,并增強對內存超頻的支持,此外考慮到JEDEC標準的DDR5普條參數方面并不好看,玩家也期待著更高頻率、更低時序XMP3.0DDR5內存能夠在年底隨AlderLake同步發售。

I/O方面AlderLake同樣做到了領先時代,CPU支持直連16條PCIe5.0+4條PCIe4.0,以及PCH部分引出的12條PCIe4.0+16條PCIe3.0。其中PCIe5.0相比PCIe4.0進一步拓展了帶寬,16條PCIe5.0可達64GB/s。

由于AlderLake整體是一個非常復雜的芯片,為了應對這一可擴展架構的挑戰,英特爾還設計了三種獨立的內部總線,具體分為ComputeFabric計算內部總線,這類似于此前的RingBus環形總線,通過最后一級緩存將內核和顯卡連接到內存,AlderLake可支持高達1000GB/s;此外I/OFabric總線速度最高可達64GB/s(對應PCIe5.0x16),MemoryFabric總線速度為204GB/s。

超出預期的能效核Gracemont,這個“小”核要比想象中要強大得多......

PPA是Performance(能)、Power(功耗)、Area(尺寸)三者的縮寫,而對于芯片架構設計來說,PPA是無法繞開的話題,是在設計架構時必須要考量的因素。在獲得能提升的同時,也對芯片面積和功耗做到合理控制,這也是很多架構師的目標。

AlderLake采用的EfficientCore能效核代號為Gracemont,英特爾表示Gracemont旨在面對當今多任務場景做到充分優化,提高了吞吐量效率并提供可擴展的多線程能;在有限的硅片空間內實現強大的多核任務負載,并具備寬泛的頻率范圍。英特爾在架構日演講中透露,Gracemont的設計目標是IPC趕上并超越此前的14nmSkylake內核,并實現能耗比的飛躍式提升。

為了實現這一宏大的目標,Gracemont在微架構層面做到了全面改進。Gracemont前端延續了Tremont的3+3設計,解碼每個周期多達六個指令,同時保持能效。

而為了實現更準確的分支預測能力,Gracemont擁有5000個條目的分支目標緩存區;還將指令緩存提高到64KB,在不耗費內存子系統功率的情況下保存可用指令,做到進一步節省電力。

ROB亂序重排緩沖區部分,Gracemont從Tremont的208隊列進一步提升到256隊列,已經超越了Skylake和AMDZen2的224隊列,與AMDZen3相持

Gracemont的后端做到了大幅升級,具備5組寬度分配、8組寬度引退、共有17個執行端口,具體來看提供4個整數ALU、2個載入AGU、2個存儲AGU、2個跳轉端口、2個整數存儲數據、2個浮點/矢量存儲、2個浮點/矢量堆棧、以及第3個矢量ALU等,并可以支持AVX指令集和VNNI人工智能加速。

內存子系統部分部分,Gracemont使用了雙載入、雙存儲單元的配置,并且每4個Gracemont核心為一個集群,共享4MB二級緩存。

至于具體的能與能耗表現,英特爾使用Gracemont對比Skylake,并放出了兩組能耗曲線數據。首先是單線程能,測試SPECrate2017int,在相同功耗時Gracemont有超過40%能優勢,或達到相同能時只使用40%不到的功耗。

多線程對比則更為夸張,同樣測試SPECrate2017int,4核心4線程的Gracemont對比2核心4線程的Skylake,能夠在功耗更低的情況下同時帶來超過80%的能提升,而在提供同樣的能時,功耗則降低80%。

百尺竿頭更進一步,無比強大的能核GoldenCove

AlderLake采用的PerformanceCore能核代號為GoldenCove,不同于WillowCove對SunnyCove微調緩存式的小幅升級,GoldenCove的變化非常巨大,官方宣傳稱GoldenCove的設計目標旨在提高速度,突破低時延和單線程應用程序能的限制,以及更好地支持代碼體積較大的應用程序。

為了進一步提高IPC,GoldenCove的設計宗旨是更寬、更深、更智能。微架構的前端解碼器由4個增至6個,6µop緩存增至8µop。

ROB亂序重排緩沖區部分,GoldenCove達到了512隊列,相比于SunnyCove和WillowCove的352隊列增加40%以上,也是AMDZen3架構的2倍,僅次于蘋果M1大核心Firestorm的630隊列。

wideallocation分配由5路增至6路,執行端口由10個增至12個。具體到整數執行引擎部分,GoldenCove增加了第五個整數執行端口。

矢量浮點執行部分,雖然沒有增加端口,但額外添加了新的FADD加法計算單元。

二級緩存部分,GoldenCove可配置每核心1.25MB或每核心2MB,其中面向消費級的AlderLake為每核心1.25MB,與第11代酷睿TigerLake的WillowCove相同。至于面向數據中心領域的SapphireRapids,則配備每核心2MB二級緩存。

具體的能方面,英特爾表示AlderLake的PerformanceCore能核GoldenCove是公司有史以來最為強大的x86內核微架構,對比第11代酷睿處理器桌面版RocketLake的CypressCove,兩者運行在相同的3.3GHz頻率上,測試SPECCPU2017、SYSmark25、Crossmark、PCMark10,、WebXPRT3,、Geekbench5.4.1等項目,GoldenCove的均IPC提升可達19%。

再考慮到爆料中Intel7制程工藝(此前稱之為10nmEnhancedSuperFin)已經逐步成熟,AlderLake的QS版就可以達到超過5.0GHz的睿頻頻率,因此當AlderLake上市后,將在單線程能方面具有極強的競爭力,遙遙甩開AMDZen3,甚至面對AMD在2022年發布的Zen4也有一戰之力。

展望未來,攜手Windows11,AlderLake能開啟PC體驗的新時代嗎?

AlderLake作為混合架構處理器,想要讓兩類核心的能獲得高效發揮,那必然離不開調度的支持。為使PerformanceCore能核GoldenCove和EfficientCore能效核Gracemont與操作系統無縫協作,英特爾開發了一種改進的調度技術,全稱為IntelThreadDirector(縮寫為ITD),中文名“英特爾硬件線程調度器”,并通過與微軟進行合作,優化ITD在Windows11上的能表現。

英特爾也在架構日上透露了ITD對AlderLake的基本調度邏輯,PerformanceCore能核的物理線程優先處理復雜的前臺任務、為調度的第一優先級,然后則是EfficientCore能效核,最后才是PerformanceCore能核的超線程......當然,英特爾也表示ITD具有動態和自適應,可根據實時的計算需求智能調整調度決策,致力于做到快速響應、高能和低功耗的衡。

PerformanceCore能核GoldenCove、EfficientCore能效核Gracemont、ITD硬件線程調度器、Intel7(10nmEnhancedSuperFin)制程工藝、支持DDR5、PCIe5......作為首款能混合架構,AlderLake堪稱是英特爾眾多新技術的結晶與完美釋放;今年第4季度桌面版AlderLake-S將正式發售,而面向移動端的AlderLake-P/M也將在CES2022發布,讓我們敬請期待!