M1 ULTRA:除了名字,什么都猜對了
謝知乎數碼邀,關于這個事情,我應該說很湊巧而又幸運地再次命中了全部猜測。
只能說,從去年流傳到現在的各種 Rumor,幾乎都指向了這款產品的存在。
下面是我在發布會前最終猜測篇里對 M1 系列新品芯片的猜測,不能說是完全命中,只能說是一模一樣。
歡迎大家到回答下評論:神預言。


事實上,我對 M1 ULTRA 的猜測可能還要更加狂野一些,我甚至猜想過一個 4-tile 版本的存在,但因為眾多原因,最終 M1 ULTRA 的規格定格在了 2-tile。
按照 Hector 的說法,M1 Max 的最大規格也只能做到 2-tile。

也因為它是一個 MCM(Multi-Chip Module),所以基本上就是給多少 Tile 就有多少性能增加,那翻倍也不是什么令人吃驚的事情,于是你們就看到了這個完全命中的預測:從 CPU 到 GPU 到 NPU 到內存帶寬到內存容量,全部都是 2x M1 Max 的規格。
M1 Ultra 本身除了貴以外,并沒有什么特別令人吃驚的特性,就是所有東西都從 M1 Max 翻番,無它,但背后的設計卻更值得我們了解。
如果你很想知道參數的話,上面已經寫了。
MCM Multi-Chip-Module
我們都知道要做更強大的芯片,就需要堆更多的電路,更多的晶體管,但是晶體管多了,良率就會降低,良率低了,那每個芯片就會變得非常昂貴,因此芯片面積或者說規模是不可以無限制的增大的,這也是為什么先進工藝那么重要,工藝越先進,同樣的面積就能塞進去更多晶體管,芯片性能上限就越高。
那么在給定的工藝條件下,要想做超越極限的芯片,要怎么辦呢?

有一個解決方法就是使用多路。

也就是在同一塊主板上使用兩塊甚至多塊 CPU,然后讓他們通過主板進行溝通,但這樣子顯然有很多不利因素,比如占用面積、布線復雜、成本高昂且芯片之間通訊開銷巨大。
但當芯片間互聯要求沒有那么高的時候,多路是一個非常好用的提升性能的解決方案。
比如說圖里面顯然就是在暗示老對手 Intel 的 Xeon Scalable 產品,這類產品在工作站和服務器中使用得非常多,效果也很不錯,但就存在上面說的問題,除此以外,能耗也是一個不容小視的因素。



于是蘋果的解決方案就是所謂的 UltraFusion 技術,也就是 Die to Die Connection。也就是在芯片設計時在同一個封裝(package)里面使用多枚硅片(silicon),并且在其中設計極其高速的互聯通道,使得這兩塊硅片可以形同一塊芯片一樣共同工作。
UltraFusion 使用了 1 萬條 DTD 連接,提供了高達 2.5TB/s 的互聯速度,號稱是競品的 4x。

它的帶寬極高、能耗極低,而且由于是數塊 die 共同封裝,其對良率的敏感度要遠低于一塊超巨型芯片,因此 DTD 也被認為是未來芯片性能發展的一條具有巨大潛力的道路。

當然這條道路也不是只有蘋果在走,AMD 早在 2017 年就引入了 MCM 并且在 2019 年引入了 Chiplet 設計,未來的發展趨勢是進一步提升堆疊能力,實現所謂的 3D 堆疊,也就是不僅在 2D 上擴展,還要在垂直方向上擴展。
Intel 奪回一城?M1 Max 能耗 & 絕對性能
我們都知道 Apple Silicon 強調能耗比,也正是因為蘋果優秀的架構設計,寬廣的架構和很深的流水線,才能實現如此高的 IPC。

因此在每次發布會上,蘋果都會強調自己的 PPW,也就是單位能耗性能。

但在這次的發布會里,我們能發現一些有趣的東西,比如 CPU 性能對比的是 12900K。

巧了,我手上用的就是 12900K,M1 Ultra 可以在 60W 的功耗下實現約 12900K 1.9x 的性能,或者說,能在這個時候達到 12900K 160W 時的性能。
但是這個圖吧,M1 Ultra 畫的是 40W,12900K 畫的是 160W,也不知道蘋果是反向虛標還是畫歪了,姑且認為是 12900K 160W 的性能吧。
這個時候的相對性能是 150% 于 12600K,而我們知道 12900K 在默認狀態的 MTP 241W 下,則要比這個性能再高出很多,算換一下不難得知,M1 Ultra 的絕對 CPU 性能是沒有 12900K 高的,當然能在 60W 的功耗下實現和 240 W 的 12900K 肩并肩的性能,這本身就是非常了不起的成績。

這也是為什么 Intel 把能耗比目標放在了 2024+,這兩年內,蘋果的 PPW 性能依然會可以預測地領先,但絕對性能上,Intel 靠著大小核心的 Hybrid 設計,用 10nm SF+ 單 die 高頻硬剛 MCM 的 M1 Ultra,也同樣是設計與工藝的另一種巔峰平衡。
正如我在之前的預測文章中所說:
蘋果是一家記仇的公司。
這么說可能不太合適,讓我們換個說法——蘋果是一家有執念的公司。想當年,因為 PowerPC 陣營能耗比不行,蘋果 Mac 產品線被迫整體遷移到 Intel 的 x86/64,在經歷了這么多年后,當蘋果選擇再次轉換陣營,從 x86/64 轉為 Apple Silicon 的時候,在工業設計上毫不掩飾地將新款的 MacBook Pro 設計得與 Power Mac 時代的 PowerBook G4——無比相似。我們都知道 Apple 在從 x86/64 轉向 Apple Silicon 的計劃是兩年,而現在正是第二個年頭。
在蘋果的愿景里,是有一類達到甚至超過目前主流桌面端的性能、且能耗僅介于筆記本和桌面端的產品。它能夠滿足創作者最狂野的夢想,也是取代 Intel Xeon Mac Pro 的最后一塊拼圖。也正因如此——Apple Silicon 完成了重整 Mac 產品線的愿景,巔峰性能,也正因這款產品。
M1 ULTRA 成就了這款產品,也因此 Mac Studio 以 Power G4 Cube 的形態回歸。
Chiplet 和 MCM

當然 MCM 并不是芯片發展的唯一方向,另一個非常受歡迎的方向就是將不同的 Chiplet 封裝在同一塊 silicon substrate 上,也就是所謂的 HI。

比如說此前 Intel 在 Kaby Lake G 上封裝 AMD GPU 和 Intel CPU 于同一 substrate 上的設計,也可以被認為是一種 chiplet。
民用千億晶體管,以及 MCM 未來的應用

另一個值得注意的是,本次 Apple 的 M1 Ultra 突破了千億晶體管大關,盡管這不是芯片行業第一次突破千億晶體管大關,但卻是消費級應用首次落地。
此前 Intel Xe HPC 代號為 Ponte Vecchio 芯片也實現了上下兩個部分的 chiplet,搭配 HBM 存儲 chiplet 和 EMIB 連接,并應用了 Foveros 3D 堆疊技術。
但這款產品咕咕咕到現在,也沒正式落地,反而是 M1 Ultra 以 TSMC 5nm 工藝率先突破了千億晶體管大關。

早在 2017 年,英偉達也探討過 MCM-GPU 的可行性,并認為 MCM-GPU 可能是未來的發展方向,更有傳聞說 RTX 40 系列(Hopper)顯卡將使用 MCM 設計來降低生產成本和提高良率,以實現后摩爾時代 IP 復用彈性的提高。
未來
M1 Ultra 說實在的并不讓我激動,可能是因為我早已期待它的到來。
它的到來對于半導體行業來說,簡單、粗暴、有效。
一點都不優美,但是非常有用。
蘋果靠自己走通了高 IPC IP(P-Core 和 E-Core)如何覆蓋從手持移動設備(A 系列)到桌面端(M 系列)的全面覆蓋,同一個核心架構從 A14 用到 M1 用到 M1 Pro 用到 M1 Max 用到 M1 Ultra,覆蓋從 iPhone SE 到 iPhone 13 mini/13/13 Pro 到 iPad mini 到 iPad Air 到 iPad Pro 到 MacBook Air/Pro 到 Mac mini 到 iMac 到 Mac Studio,往死里用,絕不浪費。
到更證明了只要產品力足,什么高性能先進工藝成本高企,那都不是事兒。
但顯然,我們都知道還有一個 4-tile 的版本,那個才是 M1 時代的究極大 boss。
或許會叫 M1 Extreme 吧……
過幾個月就知道了。
MCM 走通了,Chiplet 走通了,我們很快就會看到大家用起來,AMD 的 CPU 已經用上了、Intel 的 14 代酷睿、Xe HPC、NVIDIA 的新顯卡……
單 die 的時代或許已經過去,多芯堆疊的時代序幕正在拉開。
簡單,粗暴,但有效
有錢就是可以任性