剛剛,騰訊重磅發(fā)布!什么是超強算力集群?

2023-04-14 16:56:14 作者:杜宇

據(jù)騰訊微信公眾號4月14日消息,面向大模型訓練,騰訊發(fā)布超強算力集群。

這個國內(nèi)超強算力集群,就是騰訊云新發(fā)布的面向大模型訓練的新一代HCC(High-Performance Computing Cluster)高性能計算集群,整體性能比過去提升了3倍

它搭載了NVIDIA H800 Tensor Core GPU,能夠提供高性能、高帶寬、低延遲的智算能力支撐。

什么是算力集群?

一般運算,由運算卡(芯片)來完成。

但遇到海量運算,單塊芯片無力支撐,就要將成千上萬臺服務器,通過網(wǎng)絡聯(lián)結,組成大型的算力集群,同心合力,更高更強。

一個人工智能大模型,通常得用數(shù)萬億個單詞訓練,參數(shù)量也“飆升”到了上萬億。這個時候,只有高性能的計算集群能hold住。

超強算力集群靠什么支撐?

算力集群的“強”,由單機算力、網(wǎng)絡、存儲共同決定。就像一個牢固的木桶,缺一不可。

騰訊云新一代集群通過對單機算力、網(wǎng)絡架構和存儲性能進行協(xié)同優(yōu)化,能夠為大模型訓練提供高性能、高帶寬、低延遲的智算能力支撐。

總體來說,有以下幾個特點:

計算方面,性能強

在單點算力性能最大優(yōu)化的基礎上,我們還將不同種類的芯片組合起來,GPU+CPU,讓每塊芯片去最恰當?shù)牡胤?,做最擅長的事情。

網(wǎng)絡方面,帶寬足

GPU擅長并行計算,一次可以做多個任務。我們的自研星脈高性能網(wǎng)絡,讓成千上萬的GPU之間互相“通氣”,信息傳遞又快又不堵車,打一場漂亮的配合戰(zhàn),大模型集群訓練效率提升了20%。

存儲方面,讀取快

訓練大模型時,幾千臺服務器會同時讀取一批數(shù)據(jù)集,如果加載時間過長,也會成為木桶的短板。我們的最新自研存儲架構,將數(shù)據(jù)分類放進不同“容器”,用作不同的場景,讀取更快更高效。

騰訊表示,隨著算力需求的陡增,自己采購GPU的價格昂貴,甚至有錢也買不到,給創(chuàng)業(yè)企業(yè)、中小企業(yè)帶來很大壓力。我們的新一代HCC集群,能夠幫助在云上訓練大模型,希望緩解他們的壓力。

我們有訓練框架AngelPTM,對內(nèi)支持了騰訊混元大模型的訓練,也已通過騰訊云對外提供服務。它在去年10月,完成了首個萬億參數(shù)大模型訓練,并將訓練時間縮短80%。

我們的TI平臺(一站式機器學習平臺)擁有大模型能力和工具箱,能幫助企業(yè)根據(jù)具體場景,進行精調(diào)訓練,提升生產(chǎn)效率,快速創(chuàng)建和部署 AI 應用。

我們的自研芯片已經(jīng)量產(chǎn),包括用于AI推理的紫霄芯片。它采用自研存算架構和自研加速模塊,可以提供高達3倍的計算加速性能和超過45%的整體成本節(jié)省。

總體而言,我們正以新一代HCC為標志,基于自研芯片、自研服務器等方式,軟硬一體,打造面向AIGC的高性能智算網(wǎng)絡,持續(xù)加速全社會云上創(chuàng)新。

掃一掃分享本頁