12月22日消息,中科正式對(duì)高算力無限渴求的曙光算力AI時(shí)代,最關(guān)鍵的公布已經(jīng)不是單卡性能,而是超集超億盡可能高效地堆疊足夠多的加速卡,構(gòu)成龐大的節(jié)點(diǎn)集群。
除了NVIDIA、卡總AMD,億次國產(chǎn)廠商也正在這方面全力突破,中科正式華為、曙光算力摩爾線程、公布中科曙光等都是超集超億突出代表。
近日,節(jié)點(diǎn)中科曙光正式發(fā)并展示了scaleX萬卡超級(jí)群,卡總這也是億次國產(chǎn)萬卡基AI集群的首次真機(jī)亮相。
不同于華為封閉式的中科正式全自研集群,中科曙光scaleX萬卡超集群旨在構(gòu)建開放、兼容、高密度的超大規(guī)模算力基礎(chǔ)設(shè)施。
它支持多品牌加速卡、主流計(jì)算生態(tài),已經(jīng)適配優(yōu)化400多個(gè)主流大模型、世界模型等,可用于大模型訓(xùn)練、金融風(fēng)控、地質(zhì)能源勘探、科學(xué)智能等各種場景。
中科曙光scaleX萬卡超集群由多個(gè)scaleX640超節(jié)點(diǎn)(單機(jī)柜640卡)、scaleFabirc高速網(wǎng)絡(luò)互連而成,總計(jì)擁有10240塊加速卡,總算力超過5EFlops(500億億次每秒)。
HBM內(nèi)存總?cè)萘砍^650TB,總帶寬超過18PB/s;片間互連總帶寬超過4.5PB/s,柜間互連總帶寬超過500TB/s。
單個(gè)超節(jié)點(diǎn)的基本構(gòu)成是千卡級(jí)計(jì)算單元,采用“一拖二”高密架構(gòu)設(shè)計(jì),實(shí)現(xiàn)單機(jī)柜640卡超高速一致性互連,雙計(jì)算柜則組成1280卡計(jì)算單元。
散熱方面,采用超高速正交架構(gòu)、超高密度刀片、浸沒相變液冷、高壓直流供電等多技術(shù)融合創(chuàng)新設(shè)計(jì),成為業(yè)界超高集成度的液冷超節(jié)點(diǎn)。
全浸沒式相變液冷技術(shù),將服務(wù)器完全浸在特制液體中,中間液體冷凝換熱裝置CDM的散熱能力高達(dá)1.72MW(兆瓦)。
單機(jī)柜算力密度相比業(yè)界其他超節(jié)點(diǎn)最大提升20倍,PUE值低至1.04。
公開信息顯示,中科曙光子公司曙光數(shù)創(chuàng)擁有139項(xiàng)液冷相關(guān)專利,是國內(nèi)唯一實(shí)現(xiàn)大規(guī)模商業(yè)化液冷部署的企業(yè)。
網(wǎng)絡(luò)方面,中科曙光自研的scaleFabric網(wǎng)絡(luò)芯片可提供400Gb/s的超高帶寬、低于1微秒的端側(cè)通信延遲、260ns的交換芯片轉(zhuǎn)發(fā)延時(shí),超節(jié)點(diǎn)間的通信性能達(dá)到業(yè)內(nèi)先進(jìn)水平,相比傳統(tǒng)的InfiniBand網(wǎng)絡(luò)提升2.33倍。
基于面向大規(guī)模組網(wǎng)優(yōu)化的網(wǎng)絡(luò)協(xié)議、超高交換容量的網(wǎng)絡(luò)芯片、極致的鏈路可靠性優(yōu)化,集群規(guī)模得以擴(kuò)展到10萬卡以上,同時(shí)網(wǎng)絡(luò)總體成本降低30%。
優(yōu)化方面,超級(jí)隧道設(shè)計(jì)實(shí)現(xiàn)了芯片級(jí)、系統(tǒng)級(jí)、應(yīng)用級(jí)的三級(jí)協(xié)同優(yōu)化,通過BurstBuffer、XDS等技術(shù),大模型訓(xùn)推效率提升30-40%,GPU利用率提升最多55%,同時(shí)還有AI應(yīng)用親和、AI數(shù)據(jù)加速。
可靠性方面,一體化、智能化的集群管控,可大大提高M(jìn)TBF(平均故障間隔時(shí)間)、降低MTTR(平均故障修復(fù)時(shí)間),集群長期可用性達(dá)到99.99%,平均每30天的不可用時(shí)間小于4分鐘。