沉舟側畔千帆過,AI 熱潮正推動 AI 芯片市場不斷煥新。據 Allied Market Research 報告,全球機器學習芯片市場規模到 2025 年將達到約 378 億美元。在 X86 和 ARM 橫掃業界久矣的 IC 時代,有望重塑產業格局的 AI 芯片市場不僅驅動著傳統芯片公司戰略和技術的轉型,同時還吸引了不少巨頭以及初創企業等新玩家,在延續性或顛覆性創新方面各出奇招,引發 AI 訓練和推理市場的變局。

 

 

格局未定

經過幾年的征戰,訓練和推理芯片的各方勢力雖格局初定,但并不穩固。Habana Labs 首席執行官 David Dahan 就表示,AI 模型訓練所需的計算能力每年呈指數增長。因此,提高生產率和可擴展性,解決數據中心和云計算對算力的迫切需求成為至關重要的任務。

 

而這意味著持續的革新。現有的訓練一般采用“CPU+加速芯片”的異構計算模式。目前 Nvidia 的 GPU+CUDA 計算平臺可謂最成熟的 AI 訓練方案,還有 GPU+OpenCL 以及 FPGA+OpenCL 來對壘。云服務廠商自研加速芯片如 Google 的 TPU 等也在強力布局,諸如 Facebook、亞馬遜、百度、阿里、騰訊等也在積極介入,均希望借自主研發的 AI 芯片以更低的成本滿足自身的個性化需求,最終獲得更強大的優勢。

 

在推理芯片更注重綜合指標,單位能耗算力、時延、成本等要全面均衡。在云端推理芯片中,可謂百家爭鳴。初期雖然采用 CPU/GPU 進行加速,但由于應用場景的特殊性,依據具體神經網絡算法優化會帶來更高的效率,ASIC、FPGA 等的表現可圈可點。除英偉達、Google、英特爾、賽靈思等巨頭涉足之外,Habana Labs、Wave computing 等初創公司也加入戰團,國內的寒武紀、比特大陸亦在布局。

 

Habana Labs 中國區總經理于明揚樂觀表示,云端市場尤其是推理市場還處在高速發展的藍海市場階段,而 5G 和邊緣計算也對云端有了更強的需求,未來前景廣闊。

 

有數字估計,云數據中心服務器中,AI 訓練芯片的滲透率將提高到 2022 年的 13%。而推理芯片在云服務器和企業本地服務器上的滲透率到 2022 年分別達到 20%和 7%。在急劇擴大的市場中,將不斷有選手斜刺里殺出,而最終極的拷問是如何在新老格局對抗中建立獨樹一幟的優勢。

 

新進入者的招法?

而繼去年 9 月推出推理 AI 芯片 Goya HL-1000 處理器以來,以色列初創公司 Habana Labs 再下一程,正式推出用于訓練的 AI 芯片 Gaudi。

 

要知道,Goya 推理性能強勁,對標英偉達的 V100 GPU、在 ResNet-50 上進行推理時,可提供了超過 4 倍的吞吐量、2 倍的能效以及一半的延遲。據悉基于 Goya HL-1000 的 PCIe 卡可實現每秒 15000 張圖片的吞吐量,延遲時間為 1.3 毫秒,功耗僅為 100 瓦,相比 GPU 等方案表現高出一到三個數量級。而且,Goya 已可支持 Facebook 的機器學習編譯器 Glow,其驅動業已集成在 Linux 中,并可無縫從 CPU 或 GPU 中遷移。

 

在推理領域祭出利器之后,這家初創公司雄心不止,訓練芯片 Gaudi 成為其進軍 AI 市場的又一大突破,它不僅以性能見長,并且通過創新整合為系統級方案,構建了更高壁壘。

 

Habana Labs 首席商務官 Eitan Medina 介紹,Gaudi 優勢在于一是擁有比 GPU 更高的吞吐量、更高能耗比,其吞吐量比同等數量 GPU 高出 4 倍;二是片上集成了 10 個 100GbE 以太網端口,每個以太網端口均支持 RDMA over Converged Ethernet (RoCE v2) 功能,從而讓 AI 系統通過標準以太網,在速度和端口數方面獲得幾乎無限的可擴展性。

 

據悉,Gaudi 處理器包含 32GB 的 HBM-2 內存,有兩種形式:HL-200 是支持 8 個 100Gb 以太網端口的 PCIe 卡;HL-205 是符合 OCP-OAM 規范的夾層卡,支持 10 個 100Gb 以太網端口或 20 個 50Gb 以太網端口。同時,Habana 還推出了一款名為 HLS-1 的 8-Gaudi 系統,其中包括 8 個 HL-205 Mezzanine 卡,帶有用于外部主機連接的 PCIe 連接器和 24 個 100Gbps 以太網端口,用于連接現成的以太網交換機,客戶可通過在 19 英寸標準機柜中部署多個 HLS-1 系統實現性能擴展。

 

劍指英偉達,Habana Labs 發展出和而不同的路徑。現有最好的英偉達最新 16 GPU DGX-2 系統,配備 8 個 100G 端口,但這仍然是 24 端口 HLS-1 提供的一小部分。而且因其通訊接口有限,且采用私有協議,很難大幅擴展。而 Gaodi 內置的 RDMA 方案可靈活擴展,應用邊界不受限制。而戲劇性的是,顯然英偉達也看到這一走勢,以 69 億美元高價收購數據中心 InfiniBand 網絡的絕對王者——以色列創企 Mellanox,其核心技術正是 RDMA。

 

如今 AI 市場的打法還需要軟硬件協同鋪路。Eitan Medina 指出,Habana Labs 為此打造一個完整的 SynapseAI 軟件棧,集可編程的 TPC、深度學習庫和編譯器等于一體,客戶還可添加專有內核,實現完全可編程和可定制。這款軟件可與 TensorFlow 和 ONNX 等深度學習神經網絡框架無縫交互,并將增加對 PyTorch 和其他機器學習框架的支持,不斷助力客戶優化 AI 部署。

 

未來的選擇

雖然 Habana Labs 并沒有提供太多關于芯片內部細節的信息,但 Eitan Medina 聲稱它來源于獨特的架構創新,基于第二代 Tensor 處理核心(TPC),支持用于訓練的典型浮點格式如 FP32 和 bfloat16 以及一些整數格式。由于核心的 clean-sheet 設計,其 AI 芯片實現了高吞吐量、低時延等,未來將進一步搶占 GPU 的份額。

 

要知道,Habana Labs 去年年底完成超額認購的 7500 萬美元 B 輪融資。此次融資由英特爾投資領投,WRV Capital 等也加入其中。自 2016 年創立以來,該公司已籌集到 1.2 億美元。Eitan Medina 表示,這一資金將支持針對推理和訓練解決方案的產品發展藍圖,包括下一代 7nm 處理器,同時擴展銷售與客戶支持團隊。

 

正所謂明勢、取道、優術,事可成。雖然是初創企業,但 Habana Labs 的打法非常凌厲,不只以創新性能見長,將其產品組合從 AI 推理擴展到 AI 訓練,輔以高性能、低功耗、可擴展、可編程等特性,還以系統級方案應對推理和訓練的潛在需求。

 

但面對英偉達的 GPU+CUDA 的強生態系統,以及眾多巨頭的兵臨城下,Habana Labs 的 AI 芯片如何落地生根、如何構建穩健的生態,仍將是未來持續的考驗。