news-details

華為秀AI推理加速技術

華為將於明(12)日與中國銀聯在「2025金融AI推理應用落地與發展論壇」發布推理加速技術。據透露,該技術或能降低大陸AI推理對高頻寬記憶體(HBM)的依賴。

HBM是基於3D堆疊的高性能DRAM,具高頻寬、低延遲等優勢,允許GPU直接訪問完整模型,避免DDR頻寬不足導致算力閒置,顯著提升千億參數大模型推理響應速度。

目前,HBM在高端AI晶片的訓練端滲透率接近100%,同時推理端隨模型複雜化而加速普及。然而,其產能緊張和美國出口限制倒逼大陸廠去探索Chiplet封裝、低參數模型優化等替代方案。

IT之家提到,華為曾與北大合作DeepSeek全棧方案,昇騰平台單卡Decode每秒處理突破1,920 Tokens/s,時延降50%。與科大訊飛合作實現MoE模型大規模並行推理,處理速度增3.2倍。

中國基金報引述業內人士,AI產業正從「追求模型極限」轉向「應用價值最大化」,推理成為下一階段重心。HBM是解決「數據搬運」關鍵,HBM不足會導致推理卡頓、響應慢。

大陸通訊行業網站C114通信網則指,算力和存儲是訓練與推理率先受益領域,大陸國產化趨勢下決定未來十年AI勝負。但大陸國產HBM與海外存技術差距,在產能緊張和美國限制下,「彎道超車」是華為等陸企突破的重要方向。

  • 標簽